元数据治理-Atlas血缘

参考:

官网:

https://atlas.apache.org

简单介绍:

https://cloud.tencent.com/developer/article/1544396 GG

https://blog.csdn.net/wangpei1949/article/details/87555794 #web

和CDH集成:

https://blog.csdn.net/xueyao0201/article/details/94310583

部署:

官网:

https://atlas.apache.org/#/Installation

https://blog.csdn.net/MuQianHuanHuoZhe/article/details/82048755 GG

一、Atlas是什么？
在当今大数据的应用越来越广泛的情况下，数据治理一直是企业面临的巨大问题。

大部分公司只是单纯的对数据进行了处理，而数据的血缘，分类等等却很难实现，市场上也急需要一个专注于数据治理的技术框架，这时Atlas应运而生。

Atlas是Hadoop的数据治理和元数据框架。

Atlas是一组可扩展和可扩展的核心基础治理服务，使企业能够有效，高效地满足Hadoop中的合规性要求，并允许与整个企业数据生态系统集成。

Apache Atlas为组织提供了开放的元数据管理和治理功能，以建立其数据资产的目录，对这些资产进行分类和治理，并为数据科学家，分析师和数据治理团队提供围绕这些数据资产的协作功能。

Atlas支持各种Hadoop和非Hadoop元数据类型
提供了丰富的REST API进行集成
对数据血缘的追溯达到了字段级别，这种技术还没有其实类似框架可以实现
对权限也有很好的控制

架构原理:

Atlas包括以下组件：
采用Hbase存储元数据
采用Solr实现索引
Ingest/Export 采集导出组件 Type System类型系统 Graph Engine图形引擎共同构成Atlas的核心机制
所有功能通过API向用户提供，也可以通过Kafka消息系统进行集成
Atlas支持各种源获取元数据：Hive，Sqoop，Storm。。。
还有优秀的UI支持

压力大时需要单独一台机器部署Apache Atlas
Atlas Hive hook向Hive注册侦听以创建/更新/删除操作,并通过Kafka通知更新Atlas中的元数据以获取Hive中的更改
采集的动作存到hbase,然后再展示出来.

接下来需求是给hive安装扩展插件采集血缘关系。
1、每台机器都要新建一个/etc/hive/auxlib文件夹，然后往里面上传22个atlas特有的jar包；emr配置hive_aux_jars_path
/etc/hive/auxlib/atlas-hive-plugin-impl每台都拷上
2、接着，往hive配置文件夹/etc/ecm/hive-conf加2个atlas特有配置文件（除了java_home和内嵌程序hbase开关的manage为前缀，配置项都以atlas为前缀）。重启hive
/etc/ecm/hive-conf/atlas-application.properties
/etc/ecm/hive-conf/atlas-env.sh
3、运行import_hive.sh的脚本
　/etc/hive/auxlib/hook-bin/import_hive.sh

官网：
https://atlas.apache.org/#/HookHive
Atlas Hive钩子向Hive注册以侦听创建/更新/删除操作，并通过Kafka通知更新Atlas中的元数据以获取Hive中的更改。请按照以下说明在Hive中设置Atlas挂钩：

通过添加以下内容，在hive-site.xml中设置Atlas挂钩：
<property>
<name>hive.exec.post.hooks</name>
<value>org.apache.atlas.hive.hook.HiveHook</value>
</property>
解压缩apache-atlas-$ {project.version} -hive-hook.tar.gz
cd apache-atlas-hive-hook-$ {project.version}
将文件夹apache-atlas-hive-hook-$ {project.version} / hook / hive的全部内容复制到<atlas package>/ hook / hive
<atlas package>在您的配置单元配置的hive-env.sh中添加“ export HIVE_AUX_JARS_PATH = / hook / hive”
将<atlas-conf>/atlas-application.properties 复制到hive conf目录。

采集到的数据展示到worker1上：
http://8.xx.xx.xxx:21060

posted on 2020-03-02 17:09 锋锋2019 阅读(4816) 评论(0) 编辑收藏举报

努力加载评论中...

刷新页面返回顶部

锋锋2019

元数据治理-Atlas血缘

导航

公告