如何成为一名数据科学家

来源:知乎live @北冥乘海生 笔记

大数据问题本质:

数据来源:行为数据  

应用特质:自动化应用  

问题特点:全量加工

自动化应用 - 洞察应用(数据->机器->机器决策,数据->人->人决策)

行为数据:数据量大

 

大数据的产品链条和问题:

  1. 收集:什么样的数据有价值?如何收集整理?
  2. 加工:如何把数据加工成有用的信息?
  3. 变现:通过什么样的产品,能够把数据变成钱?
  4. 交易:数据资产如何交易?存在哪些问题?

 

2016年11月20日

11:03

对大数据的理解:

底层:技能->我应该准备好哪些能力?

中层:产品->大数据都能做些什么?市场上是怎么做的?

上层:本质->什么是大数据?怎样利用大数据?

 

数据科学家的必备素质
  1.   机器学习的原理和方法

  1. 领域知识的深刻认识
  2. 分布式计算的使用能力

(工程师需要更深层的理解,数据科学家会用就行)

 

数据科学家的核心能力:

  1. 统计学的基本准则
  2. 机器学习的建模能力(有意识,实践中获取)

 

数据科学家的养成途径:

上层:意识->数据优先于经验、计算优先于人工

中层:能力->熟悉一项典型应用、定义问题目标能力

底层:技能->机器学习、最优化、分布式计算、编程语言、博弈论

 

零基础应该如何做起?

  1. 了解行业:对数据产业的全链条、主要应用、核心铲平、市场现状有具体充分的了解
  2. 打好基础:熟练掌握机器学习、最优化、分布式编程等基本能力
  3. 抓住实践机会:找到工业界实际问题,在工程实践中检验和提高自己

 

大数据的典型应用

应用

搜索

广告

推荐

征信

工具

日志数据

内容数据

日志数据:浏览过哪些信息?搜了什么词?买了什么东西?

内容数据:网站中内容是什么?

 

 

推荐书籍:

数据行业概论:  大数据时代(建立基本的认识)

数据行业实战:  计算广告、推荐系统实战 (中间产品层)

数据相关技能:

机器学习:PRML、Deep Learning

最优化: Convex Optimization、 Numeriacal Optimization(最强调)

分布式计算: Hadoop/Spark 各种书籍和MOOC (实践为主)

 

 

posted @ 2016-11-20 13:11  W2W  阅读(430)  评论(0编辑  收藏  举报