[資料科學] 成為一個數據科學家的計畫

[Reference] "[干货] 一个数据科学家的新年计划"---大数据文摘

工作上需求要不斷自學與應用資料科學的技術
有感於馬步扎不好,做起事來礙手礙腳
參考這篇文章的自學計畫脈絡
希望可以更有系統的學習
學習過程就在這邊紀錄一下:


初級水平

1. 從程式語言開始 -- 保證自己深入學習R或Python

>>> 在Codecademy完成Python的學習 (https://www.codecademy.com/learn/python)  (Duration: 2017/7/7 - 2017/7/12)
>>> 在DataCamp完成R的學習 (https://www.datacamp.com/courses/free-introduction-to-r)


2. 學習統計學和數學 --- 習慣使用強大的統計技術、代數和概率學

>>> 在Udacity上完成 Inferential Statistics (https://www.udacity.com/course/intro-to-inferential-statistics--ud201)
>>> 在Udacity完成 Descriptive Statistics (https://www.udacity.com/course/intro-to-descriptive-statistics--ud827)
>>> 在Khan Academy(可汗)完成代數學習 (https://www.khanacademy.org/math/algebra)


3.報名參加一個大型開放式網路課程(MOOC)

>>> 在Coursera完成數據科學專業(R)的學習
>>> 在Dataquest完成數據科學Python的學習 (https://www.dataquest.io/subject/learning-python)(Duration: 2017/7/12 - 2017/7/13)
PS. 分兩階段課程,第二階段Python Medium需要付費,先暫停



4.加入討論、參加聚會、關注blog、閱讀專業書籍


中等水平

1. 理解並構建機器學習技能

>>> 在Andrew Ng完成機器學習的课程。
>>> (本土課程) 李宏毅 ML Learning 2016 (http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML16.html) (Duration: 2017/06 ~ )


2. 專注於 Ensemble和Boosting

>>> Kaggle的Ensembling Guide (http://mlwave.com/kaggle-ensembling-guide/)
>>> MIT Lecture完成Boosting的學習 (https://www.youtube.com/watch?v=UHBmv7qCey4)

3. 探索使用Spark, NoSQL以及其他大數據處理工具

>>> 學習Spark (http://spark.apache.org/screencasts/1-first-steps-with-spark.html)

4. 参加數據科學競賽 (the Last Man Standing, Kaggle, Data Hack)


高级水平

1. 構建一個深度學習模型(deep learning model)

>>> 完成Tutorial 的Deep Learning (http://deeplearning.stanford.edu/tutorial/)
>>> 莫凡 Tensorflow 教學 (https://www.youtube.com/playlist?list=PLXO45tsB95cKI5AIlf5TxxFPzb-0zeVZ8)

2. 回饋社群,分享你的知识


3. 探索强化學習 (Reinforcement Learning) --- 進入人工智慧領域

>>> 完成Andrew Moore的tutorial (http://www.autonlab.org/tutorials/rl.html)

4. 進入Kaggle前50名

留言