Atlas知识点总结

Atlas简介

Apache Atlas为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并为数据分析师和数据治理团队,提供围绕这些数据资产的协作功能。

元数据分类

支持对元数据进行分类管理,例如个人信息,敏感信息等

元数据检索

可按照元数据类型、元数据分类进行检索,支持全文检索

血缘依赖

支持表到表和字段到字段之间的血缘依赖,便于进行问题回溯和影响分析等

Atlas架构原理

Atlas部署

安装环境准备

Kafka+HBase+Solr

安装Atlas

Atlas配置:atlas-application.properties

Atlas集成Hbase

Atlas集成Solr

Atlas集成Kafka

Atlas Server配置

Kerberos相关配置

Atlas集成Hive

Hive Hook依赖复制到Atlas安装路径

修改hive-env.sh配置文件,增加额外jar包

hive-site.xml中配置Hive Hook

atlas-application.properties中配置Hive Hook

将Atlas配置文件拷贝到/opt/module/hive/conf目录

Atlas启动

启动Hadoop集群

启动Zookeeper集群

启动Kafka集群

启动Hbase集群

启动Solr集群

启动Atlas服务

Atlas使用

Hive元数据初次导入

Atlas在安装之初,需手动执行一次元数据的全量导入。

Atlas提供了一个Hive元数据导入的脚本,直接执行该脚本,即可完成Hive元数据的初次全量导入

Hive元数据增量同步

Hive元数据的增量同步,无需人为干预,只要Hive中的元数据发生变化(执行DDL语句),Hive Hook就会将元数据的变动通知Atlas。除此之外,Atlas还会根据DML语句获取数据之间的血缘关系

全流程调度

为查看血缘关系,使用Azkaban将数仓的全流程调度一次

posted @ 2022-05-19 17:00  1243741754  阅读(94)  评论(0编辑  收藏  举报