大数据体系

 

大数据:是数据科学中的一个分支。至于数据科学,其被认为是数学,计算机知识和某个专业领域知识的交叉学科。计算机知识和数学的交集区域,被称为机器学习;数学和某专业领域知识的交集,属于传统研究范畴。而且大数据领域又可以划分为几个主要的方向:

 

  • 数据平台 (Data Platform): 构建、维护稳定、安全的大数据平台,按需设计大数据架构,调研大数据产品、方案、实施部署上线。
  • 数据采集Data Collecting): 从网页/Sensor/RDBMS等渠道获取数据,为大数据平台提供数据来源。如:Apache Nutch 是开源的分布式数据采集组件,Python爬虫框架ScraPy等。
  • 数据仓库Data Warehouse): 设计数仓层级结构、ETL、进行数据建模。如:Hive就是基于Hadoop的数据仓库。
  • 数据处理Data Processing): 完成某种特定需求中的处理或者数据清洗,结合在数据仓库中一起做的,利用工具直接配置处理,写代码的部分比较少。是数据分析、数据挖掘等工作的基础。
  • 数据分析Data Analysis): 基于统计分析方法开展工作,如:回归分析,方差分析等。
  • 数据挖掘(Data Mining): 概念较为宽泛,设计在大数据平台上实现算法:分类,聚类,关联分析等。
  • 机器学习(Machine Learning): 与数据挖掘比较相近,是计算机与统计学交叉的学科,基于业务目标学习一个函数(映射),做分类或者回归的工作。如:个性化推荐。
  • 深度学习Deep Learning): 机器学习的一个分支,利用神经网络,处理图像、语音、自然语言等分类和识别这些分类,调参是很重要的部分。
  • 数据可视化Data Visualization): 分析、挖掘后得到的数据结果以合适与恰当的方式展示出来。
  • 数据应用(Data Application): 广告精准投放、个性化推荐、用户画像等。

 

现今普光率比较高的分支,数据分析、数据挖掘、机器学习、数据可视化和深度学习,其中深度学习和人工智能的关系非常紧密,被认为是AI发展的基础。

posted @ 2021-01-05 22:18  划水De雁小明  阅读(584)  评论(0编辑  收藏  举报