AWS DAS认证考点整理(EMR QuickSight Lakeformation等)
EMR
- EMR使用场景:处理大量结构不一致的数据。
- EMR node EBS加密:LUKS 或 EBS encryption
- EMR Hbase高可用:建额外的位于不同AZ的EMR Hbase read-replica cluster做高可用。
- EMR master nodes批量初始化:1.custom bootstrap scripts,2. AMI
- EMR master nodes必须在一个subnet。
- Encrypted root device volumn on cluster nodes=customer AMI or security configuration.
- EMR Auto-Scaling=instance group
- EMR访问S3的权限机制:Role Mapping。Service Role可以没有任何S3权限,Additional IAM Role可以被Service Role继承,并被各个不同user group使用。(即把Service Role加入各个Additional Roles的Trust Policy。)
- Cloudwatch Event + Lambda可以起临时EMR集群,KeepJobFlowAliveWhenNoStep=False自动关闭。
- EMR 阻止公网访问 = account level block public policy
- Glue invoke EMR = step function
EMRFS
- EMRFS consistency: 1. Object metadata in DynamoDB, 2. Retry rules.
- EMRFS不支持SSE-C(S3 Customer Key),支持KMS key,S3-SSE.
- EMRFS写 “Slow Down” error:1. 增加Prefix(S3每个preifx有list的限制,上限5000) 2. 增加retry for EMRFS
- EMR list objects慢,增加EMRFS DynamoDB的RCU
QuickSight
- QuickSight is integrated with CloudTrail.
- Scatter Plot=判断两者间是否有关联关系。
- QuickSight通过Athena访问新增S3 Bucket报SPICE错误:在QuickSight Console配置增加S3 Bucket的权限。
- QuickSight可以直接进行联邦查询,连Salesforce,mysql和S3。
- QuickSight第一次访问Redshift要把IP加入RD的SG。
- QuickSight企业版有ML-Powered forecast(forecast widget)功能, 当提到在算法上要求最低工作量时可以用该功能。
- Enterprise import data上限500G,Standard上限25GB.
- QuickSight跨Region连Redshift:走公网把QuickSight的IP加入RD的SG 或 VPC Peering+RD managed endpoint
- QuickSight无法直接读取S3上的Parquet文件但是JSON, CSV, XLSX格式的可以。
- QuickSight Enterprise分享+权限管理 =group + folder。
安全
- Encryption at rest只有Enterprise edition支持。
- QuickSight不支持用customer-provided key加密。
- QuickSight use on-premises AD=AD connector+QuickSight Enterprise edition(AD Connector或SAML2.0)
- QuickSight Row-level、Column-level security=dataset rules(企业版)。
- QuickSight多租户,权限管理=namespace。
S3 and Lake formation
- S3 Select支持压缩格式(gzip,bzip2),S3 Glacier Select不支持压缩格式。
- Lakeformation Blueprint:将RDS, AWS CloudTrail中的数据导入S3,已经进入S3的数据搭建datalake直接用Glue Crawler
- Lakeformation支持跨账号的catalog和权限管理(IAM+LakeFormation Permission)。
Other
OpenSearch
- Amazon Opensearch使用IAM进行权限管理。
- Amazon Opensearch JVMMemoryPressure problem = shard太多。
- Amazon Opensearch Ultrawarm Storage & 无需move back=快速查询不常用数据的方法。
DynamoDB
- DynamoDB不支持Join。
- DynamoDB=JSON data,read in millsec.
其他
- Fast Data Curation = DMS+S3+Glue Crawler。
- Data Exchange Service=share data based on a subscription model。
- ADF+Amazon Connect(Call Center服务)对接,AWS Appflow直连Salesforce,ServiceNow。
- Amazon Kendra搜索集成ML的服务
- SNS Message Filtering功能,每个订阅可以配置Filter Policy。