Spark for ETL & Data Science

Spark for ETL & Data Science

重点问题

Zeppelin 支持哪些引擎

Zeppelin支持Spark的哪些运行模式

What is ETL & Data Science

How to do ETL in Spark

**E: Extract -> **Read raw data from single/multiple sources (no schema, uncompressed,dirty) 数据清洗 格式化

T: Transform -> Transform raw data (Filtering/Aggregation/Normalization/Join) 过滤 聚合 标准化 联立

**L: Load -> **Write data into sinks (compressed, structured,cleaned, well-organized) 加载数据至下游组件

遇到脏数据的三种模式:

permissive:把有问题的记录保存下来,存到另外一个字段去

dropmalformed:直接ignore

dailfast:出错直接fail任务

ETL时需要注意的问题,对于上游数据、硬件和网络,操作者是没有控制权的

How to do Data Science in Spark

BI发现问题,AI解决问题

三种机器学习类型:

监督学习(分类、regression)

无监督学习(有数据但是没有label,例如文本聚类)

强化学习(根据外界反应不断学习迭代,例如alphago)

经典流程(以监督型为例):

准备train data

转化为特征向量feature vectors

训练模型

调参应用

QA

与tensorflow/pytorch等深度学习框架以及sklearn包等相比,sparkML有什么优势

Spark 是为一般的数据处理设计的,并不特定于机器学习。但是使用 MLlib for Spark,也可以在 Spark 上进行机器学习

这个zeppelin 写代码和在idea中写有什么差别,能打jar之类吗?

zepplein会帮你打jar,提交spark代码,你不用手动搞

posted @ 2020-08-27 21:25  -拂石-  阅读(164)  评论(0)    收藏  举报