大数据体系
大数据:是数据科学中的一个分支。至于数据科学,其被认为是数学,计算机知识和某个专业领域知识的交叉学科。计算机知识和数学的交集区域,被称为机器学习;数学和某专业领域知识的交集,属于传统研究范畴。而且大数据领域又可以划分为几个主要的方向:
- 数据平台 (Data Platform): 构建、维护稳定、安全的大数据平台,按需设计大数据架构,调研大数据产品、方案、实施部署上线。
- 数据采集(Data Collecting): 从网页/Sensor/RDBMS等渠道获取数据,为大数据平台提供数据来源。如:Apache Nutch 是开源的分布式数据采集组件,Python爬虫框架ScraPy等。
- 数据仓库(Data Warehouse): 设计数仓层级结构、ETL、进行数据建模。如:Hive就是基于Hadoop的数据仓库。
- 数据处理(Data Processing): 完成某种特定需求中的处理或者数据清洗,结合在数据仓库中一起做的,利用工具直接配置处理,写代码的部分比较少。是数据分析、数据挖掘等工作的基础。
- 数据分析 (Data Analysis): 基于统计分析方法开展工作,如:回归分析,方差分析等。
- 数据挖掘(Data Mining): 概念较为宽泛,设计在大数据平台上实现算法:分类,聚类,关联分析等。
- 机器学习(Machine Learning): 与数据挖掘比较相近,是计算机与统计学交叉的学科,基于业务目标学习一个函数(映射),做分类或者回归的工作。如:个性化推荐。
- 深度学习(Deep Learning): 机器学习的一个分支,利用神经网络,处理图像、语音、自然语言等分类和识别这些分类,调参是很重要的部分。
- 数据可视化(Data Visualization): 分析、挖掘后得到的数据结果以合适与恰当的方式展示出来。
- 数据应用(Data Application): 广告精准投放、个性化推荐、用户画像等。
现今普光率比较高的分支,数据分析、数据挖掘、机器学习、数据可视化和深度学习,其中深度学习和人工智能的关系非常紧密,被认为是AI发展的基础。
记录有用的信息和数据,并分享!