본문 바로가기

데이터과학

2019.01.10.캐글코리아튜토리얼

캐글코리아 튜토리얼


2019.01.10.목

서울대학교 컴퓨터연구소 138동 415호

디플러스 김영하 연구원


* splunk - 일당 500메가 데이터 수집하는 3개월 무료 플랫폼 (수집/검색/시각화)

* 인공지능 - 보고(computer vision) / 듣고(speech recognition) / 이해하고(natural language processing) 

* 캐글

- dataset 보시길 권장

- 구글 colab (https://colab.google.com) 온라인에서 파이썬을 할 수 있는 곳

- 커널 --> 주피터


* JAVA 개발환경

- 주로 이클립스


* Python 개발환경

- 파이참 

--- professinal 버전 :  원래는 유료인데 ac.kr 메일 인증받으면 1년 단위로 무상 사용할 수 있게 해줌(academy)

--- community version은 무상, 이거 사용해도 무방


- Jupyter : Ipython의 확장, python, R 사용 가능

- anaconda : Jupyter + 데이터사이언스 라이브러리 붙인거


- google colaboratory (권장)

---https://colab.google.com

---온라인에서 파이썬을 할 수 있는 곳.  온라인에서 사용하는 주피터 노트북이라고 생각하면 됨

---그래서 주피터 기능 모두 사용 가능(라이브러리, tensorflow도 설치되어있음)

---무료

---github, 구글 드라이브와 연동이 가능, --> 구글 드라이브 데이터 셋이나 체크아웃 파일 바로 저장/불러오기 가능

---사용할 수 있는 세션 시간 한계가 있음(12시간정도). --> 분석하기에는 충분

---GPU도 지원해줌 (성능 훨씬 좋아짐).

---TPU (tensor 연산 가능한 GPU)

---아직은 파이썬만 지원하는게 좀 아쉽긴 함

---구글 콜랩 / 캐글 연동은 구글링하면 많이 나오니 참고하면 좋을 듯


- MS 워드노트북(?) 에듀노트북(?)

---MS 에서 주피터를 따라만든 (구글 콜라보 보다는 약간은 허접한ㅎㅎ) 플랫폼

---CPU 지원, GPU는 유료

---드라이브 지원 아직 안됨

---대신 지원되는 언어 많음 (C#, python, R ...)


- 기타 : visual studio code, 온라인 개발 환경 : repl.it    ide.groom  등등 있음


* 교육 플랫폼

- MOOC

- 김성호교수님 모두의 딥러닝(유튜브)

- edu.goorm.io

- coursera.org (앤드류 교수님 강의, 영어)

- udacity.com

- DataCamp : 실습용 사이트, 유료(월 구독 3만원), 가끔 행사가로 올라옴(1년 10불), 베이직과정은 무료, 가입만해도 블로그 내용 메일로 받을 수 있음