TEAMLAB X Inflearn | 파이썬 머신러닝 입문 강좌 | MOOC
출처 : https://www.youtube.com/playlist?list=PLBHVuYlKEkUKnfbWvRCrwSuSeYh_QUlRl
Chapter 1 - Introduction to Machine Learning
--------------------------------------------------------------------
1-1 Machine learning overview
4차 산업 혁명 : 사람의 "지적" 업무를 대신함
인간의 지식 --> 알고리즘
--------------------------------------------------------------------
1-2 An understanding of the data keywords
■데이터 과학
빅데이터 처리 기술 + 빅데이터 분석 기술
<빅데이터 처리기술>
■빅데이터
- 정해진 시간내에 한 대의 머신(일반 PC급)으로 처리가 어려운 크기의 데이터
- 고성능 머신 또는 다수의 머신을 사용해 목표(주어진 시간 내에 10TB 데이터를 뽑아낸다든지)대로 데이터를 처리할 수 있음
- 분산 처리 기술 or 데이터베이스 기술이 필요
- 알고리즘 구현체 : 하둡(Hadoop), NoSQL, Spark, BigTable, etc.
--> 데이터 엔지니어링(Data Engineering)
<빅데이터 분석 기술>
■머신러닝
- 데이터로부터 패턴을 학습 (알고리즘, 모델의 상위개념)
- 데이터의 크기는 중요(성능상), 그러나 작다고 불가능한 것은 아님
- 주로 컴퓨터 사이언스쪽에서 많이 언급
- 좀 더 기술 쪽에 치우침
- 알고리즘 구현체 : Navie Bayes, SVM, Logistics Regression, etc.
--> 데이터 분석(Data Analysis)
■데이터 마이닝(~~머신러닝)
- 사실상 머신러닝과 같은 의미; 데이터에서 의미있는 규칙 찾기
- 주요 적용 사례가 비즈니스 분야
- 좀 더 어플리케이션 쪽에 치우침
■딥러닝
- 머신러닝 분야 중 하나인 Neural Net 기반 알고리즘
- 최근 높은 성능에 대세로 떠오르면서 유명해짐
- 사진 내 객체 인식(Image), 번역(NLP) 등에서 탁월한 성능
- 인공지능에서 많이 사용
--------------------------------------------------------------------
1-3 How to learn machine learning
parameter : 우리가 알아야 하는 값들. Existing data 로부터 추출
■Model vs Algorithms
- Model : 예측을 위한 수학 공식(1차 방정식, 확률분포, condition rule, etc.)
- Algorithms : 어떤 문제를 풀기 위한 과정. 모델을 생성하기위한 훈련 과정
--------------------------------------------------------------------
1-4 Types of machine learning
기본적으로 선을 찾고 긋는 과정
■Supervised (Y 데이터가 있는 것)
- Regression : X로 Y를 예측, Y는 continuous
ex) 주가 예측, 경제 성장률 예측, 영화 관람객 예측
- Classification : 기존 데이터를 바탕으로 데이터 유형을 나눠 보기, Y는 범주형 변수
ex) 스팸메일 여부, 게임 어뷰저(반칙 쓰는 사람) 여부, 신문기사 분류(스포츠냐 정치냐)
■Unsupervised Learning (Y 데이터가 없는 것)
- Clustering : 아무런 사전정보 없이(답없이) 데이터 유형을 나눠보기
ex) 고객 집단 나누기
■그 외
- Reinforcement Learning
- Recommendation
이 강좌에서는 Supervised 만 배움(아숩 ㅜㅜ)
--------------------------------------------------------------------
1-5 Data era: In a perspective of business
The Era of data : 데이터의 시대, From Information system
CRM - 제품 구매자 분석을 통한 맞춤형 마케팅
ERP - 전사적 자원 관리, 사내 모든 시스템 및 데이터의 통합 관리
20세기 IT 기업 (산업 효율성 향상) SAP, IBM, CISCO --> 21세기 IT 기업 (개인의 삶의 가치 향상) 애플, 삼성, 페이스북, 구글
data from individual :스마트폰의 사용으로 폭발적인 데이터가 생산되기 시작하면서 IT의 흐름이 바뀜
(흐름) 스마트폰 - 개인의 데이터 - 대용량처리 시스템 - 클라우드 (아마존 AWS, 구글 클라우드) - Sensor, IoT(개인 뿐만 아니라 환경의 데이터까지 수집되기 시작) - Machine Learning 이 더욱 필요해짐 (자동화된 분석, 처리)
--------------------------------------------------------------------
1-6 Python ecosystem for machine learning
파이썬 가상 환경 관리 패키지 : 과학 계산용 Python 통합 배포판 by Continum Analytics (ANACONDA) -->일부 기능만 추출해서 miniCONDA 출시
데이터 분석을 위한 파이썬 IDE : Jupyter
Python 데이터 분석 라이브러리 : pandas
고성능 Array 처리 라이브러리 : Numpy (Pandas 설치하면 자동으로 같이 설치됨)
데이터 시각화를 위한 파이썬 패키지 : matplotlib
--------------------------------------------------------------------
1-7 How to use Jupyter Notebook
■Jupyter
- Julia + Python + R
- IPython(Interactive Python): 커널을 기반으로 한 대화형 파이썬 셀
- 커널 : 어떤 것을 실행하는 데 있어서 핵심이 되는것. 명령어를 집어넣으면 실행
- 터미널 셀 +웹 기반 데이터 분석 가능한 Notebook 제공
- 전세계 거의 모든 데이터 분석 문서들은 주피터에서 작성되고 있음.
가끔 터미널 창의 토큰 정보를 사용해야할수도( 다른 컴퓨터에서 실행해야하거나 다른 창에서 실행해야 할 때?)
learning 첫 화면에 필요 없는 파일들은 shutdown 시켜주는게 유리
ctrl+enter : 코딩 결과값
alt+enter :
shift+enter :
■셀 간 단축키
- 셀 자체를 지우기 : dd
- 아래 셀과 합치기 shift + M
- 셀 복사/붙여넣기 가능
■셀 내 편집 단축키
- MN :마크다운 mm / 다시 코드로 바꾸기 : y
셀 안에서 shift + tap : 함수 정보 보이기
들여쓰기/내어쓰기 : ctrl+[ or ]
셀나누기 : ctrl + shift + -
--------------------------------------------------------------------
끝
'데이터과학' 카테고리의 다른 글
2019.01.10.캐글코리아튜토리얼 (0) | 2019.01.10 |
---|---|
(정리) 머신러닝 입문 강좌 Chapter 2 - Warm Up Section : An understanding of data (0) | 2019.01.02 |