[Udemy] AWS Certified Data Analytics Specialty - 3.Processing

Lambda

 

 

Lambda 经常起胶水的作用,就是粘合不同的service.

 

 

 

如下图例子

 

 

另外Requirement #1 也是一个例子,还有Requirement #3 

 除了Kinesis Data Stream,其他服务如 S3, DynamoDB等等都是Push event 给lambda, 而Data Stream 和Lambda集成是通过Lambda polling的方式,每次poll 一批数据。

 

 

 

 

 

Glue

2个功能:Table definition 和  ETL

Glue 是serverless服务,底层也是跑的spark cluster. Glue Data Catalog 是 HIVE metastore的替代者

 

 

 

 

 

 

 

 

 

 

 

 

Glue Studio

新东西,最多只考概念

 

 

Glue DataBrew 和 Glue Studio 很类似,但是更简单, 我理解是预置了250个现成的transformations,作用是用来pre-processing data的, 不用写code.

 

 

EMR 

 

 

 

 

 

 

 

 

Presto 能connect多个不同的database, 可以是structured 和 unstructured 数据,同时从这些DB里query数据,达到PB规模的数据

Athena 是基于Presto的,是Presto的封装。

Hue - Hadoop User Experience, EMR cluster的管理界面

MXNet - 在EMR上的深度学习框架

S3DistCP - S3 和HDFS之间拷贝大数据用的, across buckets, across accounts

 

 

EMR Security:

 

 

posted @ 2022-02-07 10:39  mashuai_191  阅读(52)  评论(0编辑  收藏  举报