数据科学家访谈录 摘录(二)

第十二章 如何锻炼数据科学技能 (资深数据科学家 & 创新领袖)

数据科学是一个结合了应用数学,计算机科学,商业资讯和新产品研发的综合职位。统计学,机器学习,sql,hadoop,java(数据科学家应该像瑞士军刀一样多才多艺,能够在诸多领域多才多艺,并且在一两个领域内拥有深邃的真知灼见。)

商业资讯能力是区分数据科学家和“技术宅”的重要指标。

技术优先级及比例
sql 40%
hadoop 30%
R 15 %
java 10%
python 5%


关于商业方面的能力
1 学习课程
2 多听听企业家故事,
3 不要做一个连柠檬水小生意经验都没有的数据科学家

 

第十三章  科学、工程与数据科学的交织
拥有应用数学的底子绝对非常有用,博士只教会了我坚持不懈

你应该把自己放在公司负责人的角度去思考问题。

业界最早一批数据库专家差不多都有博士背景,但是时代在变数据库专家门槛已经下降了。数据科学家也可能这样。

全栈的数据科学家是对应用数学、计算机科学和商业都游刃有余的人,而这样的人可不会像雨后春笋一般大规模出现。

经我观察,那些最出色的数据科学家,大多是那些在学术生涯阶段进行各种编程创业写小项目的人

三个分类:
1 预测模型: 算法和复杂的数学建模技术是必须的,可视化没有那么重要
2 商业智能: sql ,脚本语言
3 介于上述两者之间的角色:

大部分数据科学家都有自我驱动力,学这些技术并不需要很长时间,每天下班坚持学一点东西,完全来得急赶上现在如火如荼的数据科学浪潮

对新手的建议:
勇往直前!
大胆的向前走并且去学那些你必须学的东西。很多人都被数据科学那虚高的门槛吓坏了。广泛的培养自己的技能,但是专注于其中一项技术。
要有自信,并且不断学习,你将会惊讶于自己竟然那么快就能学会那么多东西。


第十四章   从高频交易到驱动个性化教育
我的方法--可能不是最优的方法--就是读书。
编程能力贯穿那一项工作的始终。你编程越快,你就越快的将你的额想法化作现实。

定量分析思维是很难学到的,5-6年的数学学习经历,还有学术经历。需要投入大量时间。

如果你的编程比别人慢30%,你就没有时间关注其他的东西,以至于你的工作效率就会比较低。

想成为出色的数学科学家,你就必须也是一名出色的(至少是非常高效)程序员。必须熟练于写代码,并且对于开发真正的系统要有经验。

编程能力是必须去写代码,写很多代码。对于写过一年,五年,十年代码的人之间的区别是一目了然,我指的是那些真正花了时间勤学苦练的人,混日子的不算。另一个是方法是获得代码反馈,让出色的开发工程师审阅你的代码。
参与开源项目,多写代码,确保自己的代码能获得编程高手的反馈意见。


学习机器学习的建议:
一定要有一个很明确的目标和坚定的动机,大部分时候。一旦越过了学习曲线最初的坎, 之后就顺利多了。
日常工作里最完美的一天,莫过于写了很多代码的一天,因为写代码就是创造价值的最直接方式。
有数据,有标准化现成模型,怎样用哪些技术融合数据,用哪些技术分析?分析难度在很长一段时间里都是难降写来的。能将下来的是编程工作和软件的使用难度。


第十五章 哈佛大学应用统计学教授 Joe Blitzstein
通过统计学,你可以真正得让数学这个学科变得有趣,可以用它研究有趣的数据,最终做出一些有用、能惠及世界的东西。

大部分的统计学都是有关如何从噪声中识别信号的,从大量的错误信号中找出正确的信号,这就是所谓的“发现”。

任何有计算机背景的人都可以抓过一个大数据集进行编程操作及计算,而任何差不多统计学背景的人都可以做数据清理,且做回归分析和机器学习工作。但是能从数据中获得可以解释的正确结果,而且可以告诉更多人,绝对是一种艺术。


为了加强对于某一概念的理解,

第十六章 数据科学不是kaggle竞赛

我曾经见过太多博士生到公司里边摆出一套事不关己高高挂起的姿态,他们就是坐在那里,等着你把那些完美的适用于他们的技术问题放在他们面前。这是一个非常危险的态度,并且会让业内的人非常讨厌你。


第十八章 数据科学和学术界

如果你是一名本科毕业生,并且直接就去类似Facebook一样的公司做一名数据科学家,你就有机会接触到庞大到20亿的用户数据。除非你在本科期间确实积攒了很多经验,否则你恐怕不会知道改如何处理他们。


第十九章 数据科学家的学术、量化金融和企业家之路

你需要了解你所做事情背后的理论机理,并话费10000小时去磨砺解决问题的办法,让自己培养出条件反射一般的记忆。只有这样你才能成为一名优秀的数据科学家。

巴顿将军曾经说“一个马上就能上马的好的解决方案,要比一个十分钟后才能部署的完美解决方案更有用。”

金融量化分析师的技术来自各个领域:计算机科学、物理、数学、经济学、金融等


第二十章 美国总统竞选就像物理科学一样

我总是告诉学生,在研究生阶段学到的最有用的技能就是如何自学,以及如何准确定位i还不孩子的东西。这是第一件事。第二件事就是要坚持不懈,在遇到问题的时候,要绞尽脑汁的前进,直到取得突破。就这两件事。

最糟糕的情况就是,人们对物理学就业市场描述的一塌糊涂、大倒苦水,然后他们说这就是他们想要找一份数据科学工作的原因。你根本不想聘用这样的人。你想聘用的是那些从心底喜欢数据科学的人。


第二十一章 培养数据感觉的重要性
我从来没有碰到过任何一个教科书式的规规矩矩的问题。它总是有一些奇奇怪怪的问题。你的受教育程度越高,你的工作经验越丰富,你就越觉得自己善于解决七七八八的小问题,想明白如何将原本看似复杂的东西看透,使之适用于你所知道的东西。

第二十二章

您是如何在工作中还能高效的学习这些东西的?
我的数据挖掘基本功非常扎实,所以我机会不需要学习任何算法或方法。我学系列自然语言处理技术,但是如果你有一个不错的统计建模基本功,机器学习的其余技术积极式同一件事情的变体。

硅谷的好公司很清楚应该聘用什么样的员工,一般来说,他们都很聪明,有自己长期的目标,并且有强烈的进取心。

编程技巧方面:c语言来掌握计算机语言之间共通的规则
编程方面:
数据建模方面:我认为我很幸运,我学了一些很好的统计课程。理解算法
的基本概念是很有用的。研究生阶段的最优化可能也很重要。

招聘:我最看重的是他们过往的机器学习是否全面,系统。我认为扎实的基本功非常重要。如果某人有很强的基本功,但是不知道什么是随机森林,我不不在乎,因为单个机器学习方法很容易学。拥有扎实的基本功然后去学随机森林,比仅仅了解随机森林然后试图调试其他要容易的多。我希望使用数据挖掘算法的人应该全面系统的学习知识。

应该尽量通过哪怕一个机器学习课程去研究一些很底层的东西,哪怕那门课程所教授的算法不多,只要模型原理、基本统计、优化方法和算法交的够清楚就好,求精不求多。这将为他们的工作打下良好的基础。

第二十五章 从本科生到数据科学家

虽然公司用到的统计学和数学可能并不复杂,数学和统计学的基本功一眼在需要区分真是洞见的时候显得非常重要。此外,牢固的基本功和经验将让你有更好的直觉去思考如何解决公司中更为棘手的问题。

努力去做数学,统计学,计算机三个学科的交叉型人才,并牢牢地打好基础,然后让自己专注于解决现实问题。


读书,练习,讲给他人,参加竞赛



posted @ 2020-05-24 00:40  mlj0503  阅读(250)  评论(0编辑  收藏  举报