《数据科学家访谈录》读书笔记
一、本书内容的介绍
《数据科学家访谈录》是一本对当前全球最知名的25位数据科学家的深度采访,然后汇聚成册的访谈录,读者可以从中学习到这25位数据科学领域的大师的个人经历及其成长过程,以及在各自的职业生涯所面临的各种选项时所做出的选择,具有很高的参考价值。
这25位数据科学家大都拥有国外名校的博士学历文凭,但是大都不想继续从事科研工作,而是希望能够将自己的科学研究成果应用到现实生活当中,从而让人们的生活变得更加美好,因此他们大都从学术界走向了工业界,这些大师从学术领域向工业领域转变的经历和过程非常值得学习和参考。虽然他们的专业研究领域各不相同,但数据科学这个研究方向把他们联系到一起,共同推动了数据科学领域的发展。他们各自所拥有的领域知识以及计算机专业技能,帮助他们在各自的研究应用领域获得丰硕成果,这也从另外一个方面验证了数据科学其实是一门理论与实践相结合的科学。
此外,本书当中这些大师们给出的方法论和经验也同样非常值得读者学习和思考。比如去大公司还是小公司的问题,Hillary认为应该是去那些能让你学到很多东西并且快速成长的公司。再比如做事情是从简单的开始还是复杂的做起,DJ认为做事情要从简单的开始做起,然后慢慢开始做复杂而又艰难的事情。这样子做事情就会有一个好的开始,进而一步一步的完成。
总的来说,《数据科学家访谈录》是一本经得起时间考验的好书,处于各种不同阶段的人群都可以从本书当中获取知识和经验,而且每次阅读都会有新的认识和收获。
二、数据科学的组成
1、数学相关的基础知识(85%):
1)线性代数
2)概率论
3)微积分
4)统计学(工具)
5)机器学习(算法)
2、编程基础技能(15%):
1)SQL/NoSQL
2)Hadoop/Spark
3)R
4)主流编程语言,比如:C++/Java
5)主流脚本语言,比如:Python
6)Excel
三、数据科学的步骤
1、 获取数据
通过数据库、web接口、网络爬虫等获取网络上的数据(结构化和非结构化数据)。
2、 清洗数据
通过数值化、降维等手段去除数据噪音,实现数据的清洗。
3、 探索数据
在数据清洗工作的基础上,通过变量分析、处理缺失值、处理离群值等手段对数据进行初步的探索。
4、 数据建模
在探索数据工作的基础上,通过数学等工具建立合适的数据模型。有人认为好的数据模型是数据科学当中最核心的步骤,列出的优先级顺序是:高质量的数据>数据规模>好的数据模型。
5、 解释数据
数据可视化(D3、highcharts),通过可视化的web界面把数据和结论表达出来。
四、数据科学与大数据、人工智能的关系
大数据是一个内涵丰富的词汇,包含了技术、商业等因素的描绘,而数据科学是作为一门实实在在的应用科学而存在,是实现大数据应用的基础应用型学科,人工智能则是在数据科学的基础之上,向着让机器或程序有着类似人类智能的方向前进。因此数据科学是实现大数据的工具,是实现人工智能的基础。
数据科学也是一门理论与实践相结合的学科,并且有着与其它领域相互结合、共同发展的趋势。随着数据科学问题的规模越来越大,现代科研和应用更加强调拥有多领域、多学科背景的人进行团队合作,因此数据科学也有着软件工程的特征。
人工智能的基础是大数据(数据科学),大数据(数据科学)的基础是云计算。当前大数据技术已经与人工智能技术紧密结合,让各种程序和系统更加智能,从而进一步影响我们的生活。
五、推荐资源
1)《集体智慧编程》
2)kaggle https://www.kaggle.com/,机器学习竞赛、编写和分享代码的平台
3)Quora 获取和分享知识的平台,类似于知乎
4)吴恩达的机器学习视频课程,https://www.coursera.org/learn/machine-learning
本文最初发表于异步社区:https://www.epubit.com/selfpublish/article/1281