AWS DAS认证考点整理(EMR QuickSight Lakeformation等)

EMR

  1. EMR使用场景:处理大量结构不一致的数据。
  2. EMR node EBS加密:LUKS 或 EBS encryption
  3. EMR Hbase高可用:建额外的位于不同AZ的EMR Hbase read-replica cluster做高可用。
  4. EMR master nodes批量初始化:1.custom bootstrap scripts,2. AMI
  5. EMR master nodes必须在一个subnet。
  6. Encrypted root device volumn on cluster nodes=customer AMI or security configuration.
  7. EMR Auto-Scaling=instance group
  8. EMR访问S3的权限机制:Role Mapping。Service Role可以没有任何S3权限,Additional IAM Role可以被Service Role继承,并被各个不同user group使用。(即把Service Role加入各个Additional Roles的Trust Policy。)
  9. Cloudwatch Event + Lambda可以起临时EMR集群,KeepJobFlowAliveWhenNoStep=False自动关闭。
  10. EMR 阻止公网访问 = account level block public policy
  11. Glue invoke EMR = step function

EMRFS

  1. EMRFS consistency: 1. Object metadata in DynamoDB, 2. Retry rules.
  2. EMRFS不支持SSE-C(S3 Customer Key),支持KMS key,S3-SSE.
  3. EMRFS写 “Slow Down” error:1. 增加Prefix(S3每个preifx有list的限制,上限5000)  2. 增加retry for EMRFS
  4. EMR list objects慢,增加EMRFS DynamoDB的RCU

 

 

QuickSight

  1. QuickSight is integrated with CloudTrail.
  2. Scatter Plot=判断两者间是否有关联关系。
  3. QuickSight通过Athena访问新增S3 Bucket报SPICE错误:在QuickSight Console配置增加S3 Bucket的权限。
  4. QuickSight可以直接进行联邦查询,连Salesforce,mysql和S3。
  5. QuickSight第一次访问Redshift要把IP加入RD的SG。
  6. QuickSight企业版有ML-Powered forecast(forecast widget)功能, 当提到在算法上要求最低工作量时可以用该功能。
  7. Enterprise import data上限500G,Standard上限25GB.
  8. QuickSight跨Region连Redshift:走公网把QuickSight的IP加入RD的SG 或 VPC Peering+RD managed endpoint
  9. QuickSight无法直接读取S3上的Parquet文件但是JSON, CSV, XLSX格式的可以。
  10. QuickSight Enterprise分享+权限管理 =group + folder。

安全

  1. Encryption at rest只有Enterprise edition支持。
  2. QuickSight不支持用customer-provided key加密。
  3. QuickSight use on-premises AD=AD connector+QuickSight Enterprise edition(AD Connector或SAML2.0)
  4. QuickSight Row-level、Column-level security=dataset rules(企业版)。
  5. QuickSight多租户,权限管理=namespace。

 

S3 and Lake formation

  1. S3 Select支持压缩格式(gzip,bzip2),S3 Glacier Select不支持压缩格式。
  2. Lakeformation Blueprint:将RDS, AWS CloudTrail中的数据导入S3,已经进入S3的数据搭建datalake直接用Glue Crawler
  3. Lakeformation支持跨账号的catalog和权限管理(IAM+LakeFormation Permission)。

 

Other

OpenSearch 

  1. Amazon Opensearch使用IAM进行权限管理。
  2. Amazon Opensearch JVMMemoryPressure problem = shard太多。
  3. Amazon Opensearch Ultrawarm Storage & 无需move back=快速查询不常用数据的方法。

 

DynamoDB

  1. DynamoDB不支持Join。
  2. DynamoDB=JSON data,read in millsec.

 

其他

  1. Fast Data Curation = DMS+S3+Glue Crawler。
  2. Data Exchange Service=share data based on a subscription model。
  3. ADF+Amazon Connect(Call Center服务)对接,AWS Appflow直连Salesforce,ServiceNow。
  4. Amazon Kendra搜索集成ML的服务
  5. SNS Message Filtering功能,每个订阅可以配置Filter Policy。
posted @ 2022-11-27 22:07  爱知菜  阅读(60)  评论(0编辑  收藏  举报