Atlas知识点总结
Atlas简介
Apache Atlas为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并为数据分析师和数据治理团队,提供围绕这些数据资产的协作功能。
元数据分类 |
支持对元数据进行分类管理,例如个人信息,敏感信息等 |
元数据检索 |
可按照元数据类型、元数据分类进行检索,支持全文检索 |
血缘依赖 |
支持表到表和字段到字段之间的血缘依赖,便于进行问题回溯和影响分析等 |
Atlas架构原理
Atlas部署
安装环境准备
Kafka+HBase+Solr
安装Atlas
Atlas配置:atlas-application.properties
Atlas集成Hbase
Atlas集成Solr
Atlas集成Kafka
Atlas Server配置
Kerberos相关配置
Atlas集成Hive
Hive Hook依赖复制到Atlas安装路径
修改hive-env.sh配置文件,增加额外jar包
hive-site.xml中配置Hive Hook
atlas-application.properties中配置Hive Hook
将Atlas配置文件拷贝到/opt/module/hive/conf目录
Atlas启动
启动Hadoop集群
启动Zookeeper集群
启动Kafka集群
启动Hbase集群
启动Solr集群
启动Atlas服务
Atlas使用
Hive元数据初次导入
Atlas在安装之初,需手动执行一次元数据的全量导入。
Atlas提供了一个Hive元数据导入的脚本,直接执行该脚本,即可完成Hive元数据的初次全量导入
Hive元数据增量同步
Hive元数据的增量同步,无需人为干预,只要Hive中的元数据发生变化(执行DDL语句),Hive Hook就会将元数据的变动通知Atlas。除此之外,Atlas还会根据DML语句获取数据之间的血缘关系
全流程调度
为查看血缘关系,使用Azkaban将数仓的全流程调度一次