数据科学家自我修养–数据科学的开放课程清单

数据科学开放课
数据科学开放课

最近一年以来,大数据这个概念被吹嘘的天花乱坠,仿佛你要是不说大数据就落伍了。继云计算之后,大数据已然成为IT行业的热点。《哈佛商业评论》更是宣称“数据科学家”是二十一世纪最性感的职业。所谓性感,既代表着难以名状的诱惑,又说明了大家都不知道它干的是什么。这里我不想重复什么是大数据,什么是数据科学,而是想以个人过去接近2年时间通过MOOC(开放课程)来学习数据科学的实践来给出一份个人建议的数据科学学习之路的课程清单。 原文来自 果壳MOOC的 机器人_35246

数据科学家的自我修养

Drew Conway给出的数据科学的一个文氏图,很好的诠释了数据科学的技能要求。而这里我基于传统的道,术,用来将数据科学的课程分成三类在后面一一列出。不过还是让我们先从数据科学入门谈起。

数据科学入门

如果你公司的管理层,只是感觉想了解一下什么是大数据,个人建议从big data for performance这门课开始,课程有4个模块,很简单的内容,当然也有些不是很正确的内容;-),但作为入门还是不错的。接下来你需要了解一下Hadoop,来自Udacity的Intro to Hadoop and MapReduce是个不错的选择。

最后如果你要想忽悠一下别人,看看维克托•迈尔•舍恩伯格(Viktor Mayer-Schönberger)的大数据时代,这是国外大数据研究的先河之作。

如何利用大数据

数据科学之道

要掌握数据科学,基础的数学与统计学知识不可避免,这里强烈推荐:

  • 普林斯顿大学Statistics One 统计学基础,假设检验,ANOVA,线性回归等等
  • 斯坦福大学Statistics learning 基本的有监督学习介绍,回归,分类,聚类,树,SVM,K-means clustering等等

这两门课都是名校教授讲解,课程深入浅出,一个帮助你统计学入门,一个帮助你数据分析与机器学习入门。不过如果你听统计学初步都觉得吃力,那么可以考虑先听一下台湾大学的概率论的前几讲,对概率有了初步知识后再学统计。

当然如果你想更深入一些你一定不能错过斯坦福大学的Machine Learning,这是Coursera创始人的经典课程。

除了以上课程,你也可以看看约翰霍普金斯大学5月开设的3门课程:

当然Edx,Coursera也是寻找相关课程的好地方

数据科学之术

有了数据科学之道,我们下一步需要进行的就是如何实现它了,有人推荐Python,也有人推荐R,或者来自Apache的mahout,个人推荐Python+R,于是你可以看看:

之前约翰霍普金斯大学还开过:

不过似乎在去年我学完后没有再开了。

了解了R,Python,下一步就是大名鼎鼎的Hadoop生态系统了,Udacity上的Intro to Hadoop and MapReduce是不错的入门选择,之后IBM 的大数据大学上的Hadoop,云计算,课程也是不错的选择。

数据科学之用

一切技术最终都要回归商业的本质,掌握了数据科学之道和数据科学之术,我们还需要将其应用于商业中。这里首当其冲的就是如何把从数据中解读的智慧表达出来,说服别人,这里要推荐来自密歇根大学的Introduction to Public Speaking。这门课可以帮助你更好的组织你的讲演,演示等(目前这门课正在开课中)。

除了表达能力,很多时候我们的数据不是单纯的数据,我们需要理解数据分析与公司战略的关系,如果我们要开发数据产品,那么它是如何影响我们的运营,财务决策的,当然最终所有的一切都会受到宏观经济的影响,以下的几门课程可以帮助你更好的理解数据之用:

最后我要推荐Data Science for Business这本书,这本书将数据科学之道与用完美结合,亚马逊上五星评价!

其它资源

除了以上列出的课程,你也可以参考:

上面所列的大部分课程我已经完成,如果你想与我探讨数据科学,可以访问我的网站或者email我 jiangblog#gmail.com,我在软件行业有10年以上的开发管理经验,相信我们一定能互相学习,.记得把#替换成@;-)

Print Friendly

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: