Atlas初步调研
简介
Atlas是Hadoop生态的元数据管理框架,有以下功能特性:
- 元数据类型:支持多种Hadoop和非Hadoop元数据的预定义类型,提供元数据定义新类型的能力,类型可以具有原始属性、复杂属性、对象引用,可以从其他类型继承。
- 分类:提供动态创建分类的能力,元数据实体可以与多个分类相关联,具有分类传播的特性。
- 血缘:提供直观的UI界面,可以通过REST API访问和更新血统。
- 搜索/发现:支持通过类型、分类、属性值或全文检索进行搜索。
- 安全与数据屏蔽:与Apache Ranger集成可以实现基于分类的数据访问策略。
架构原理
安装
组件依赖
组件
|
版本
|
---|---|
Hadoop | 3.1.1 |
Hive | 3.1.0 |
Zookeeper | 3.4.6 |
Hbase | 2.0.2 |
Kafka | 2.0.0 |
Elasticsearch | 5.6.4 |
Solr | 7.5.0 |
Storm | 1.2.0 |
Sqoop | 1.4.6.2.3.99.0-195 |
falcon | 0.8 |
Atlas | 2.1.0 |
内嵌安装- 独立安装
元数据采集
数据源
|
提供者
|
备注
|
---|---|---|
数据源
|
提供者
|
备注
|
Hbase | 官网 | 待验证 |
Hive | 官网 | 已验证,支持元数据全量同步和实时更新,支持血缘关系 |
Sqoop | 官网 | 待验证,支持导入RDBMS元数据,但是否支持血缘关系,需要验证 |
Storm | 官网 | 待验证 |
Kafka | 官网 | 待验证 |
Falcon | 官网 | 待验证 |
Spark | hortonworks | 待验证 |
自定义元数据类型 |
实现自定义数据源需要两部分工作:
|
Rest API 使用
http://atlas.apache.org/api/v2/index.html
待调查内容
- 自定义元数据类型、自定义Hook
- 关系型数据库元数据接入、血缘分析
- Admin UI 功能详细使用,包括 Search,Classification,Glossary
- Rest API的使用
- 业务元数据、技术元数据区分
- 数据库集群信息或表的统计信息收集,包括表名、所属集群、所属库、表中的记录数、数据占用存储量等。
分类:
atlas
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
· AI与.NET技术实操系列(六):基于图像分类模型对图像进行分类