如何成为一名数据科学家
来源:知乎live @北冥乘海生 笔记
大数据问题本质:
数据来源:行为数据
应用特质:自动化应用
问题特点:全量加工
自动化应用 - 洞察应用(数据->机器->机器决策,数据->人->人决策)
行为数据:数据量大
大数据的产品链条和问题:
- 收集:什么样的数据有价值?如何收集整理?
- 加工:如何把数据加工成有用的信息?
- 变现:通过什么样的产品,能够把数据变成钱?
- 交易:数据资产如何交易?存在哪些问题?
2016年11月20日
11:03
对大数据的理解:
底层:技能->我应该准备好哪些能力?
中层:产品->大数据都能做些什么?市场上是怎么做的?
上层:本质->什么是大数据?怎样利用大数据?
数据科学家的必备素质
1.
机器学习的原理和方法
- 领域知识的深刻认识
- 分布式计算的使用能力
(工程师需要更深层的理解,数据科学家会用就行)
数据科学家的核心能力:
- 统计学的基本准则
- 机器学习的建模能力(有意识,实践中获取)
数据科学家的养成途径:
上层:意识->数据优先于经验、计算优先于人工
中层:能力->熟悉一项典型应用、定义问题目标能力
底层:技能->机器学习、最优化、分布式计算、编程语言、博弈论
零基础应该如何做起?
- 了解行业:对数据产业的全链条、主要应用、核心铲平、市场现状有具体充分的了解
- 打好基础:熟练掌握机器学习、最优化、分布式编程等基本能力
- 抓住实践机会:找到工业界实际问题,在工程实践中检验和提高自己
大数据的典型应用
应用 |
搜索 |
广告 |
推荐 |
征信 |
工具 |
日志数据 |
√ |
√ |
√ |
√ |
√ |
内容数据 |
√ |
√ |
√ |
√ |
√ |
日志数据:浏览过哪些信息?搜了什么词?买了什么东西?
内容数据:网站中内容是什么?
推荐书籍:
数据行业概论: 大数据时代(建立基本的认识)
数据行业实战: 计算广告、推荐系统实战 (中间产品层)
数据相关技能:
机器学习:PRML、Deep Learning
最优化: Convex Optimization、 Numeriacal Optimization(最强调)
分布式计算: Hadoop/Spark 各种书籍和MOOC (实践为主)