元数据管理和数据采集

  公司是大数据公司,其中有一块业务主要是大数据的相关内容。我们测试部门也有同事专门对针对这个平台进行测试。由于我们公司有一个平台是做数治工坊的相关内容,其中从元数据管理、流程管理、配置管理、运维监控,整个主流程的了解,加深了对大数据的了解。经过同事的讲解和培训,初步了解了什么是元数据管理、流程管理、调度管理、运维监控,每个模块对应有哪些内容。

数据采集流程图如下:

  1. 元数据管理:主要维护系统所管理的对象的各种元数据,如表、接口、程序。简单说,元数据存储-表管理(采集数据、数据交换)-接口管理-数据交换-程序管理。
  2. 流程管理:主要实现上线相关功能,如上线流程模板的维护、对象如表、接口、程序、字段等的上线处理、上线任务管理及对象下线处理等。简单说,流程模板,提交上线,管理员审核-上线,测试库没问题后切换到生产库。
  3. 调度管理:主要管理调度环境、配置调度任务(程序)等相关功能。
  4. 运维监控:主要实现对任务调度环境及执行情况监控管理、前置机数据采集接口调度执行情况及业务数据查询等功能。

1  元数据管理

元数据管理,对实际对象的管理。包括元数据交换、元数据存储、元数据维护、元数据质量、元数据分析(血缘分析、影响分析、数据地图等)。

1.1 元数据

  描述数据的数据。元数据按用途不同分为技术元数据、业务元数据、管理元数据。

  1. 业务元数据:描述数据系统中业务领域相关概念、关系和规则的数据。包括业务术语、指标、信息分类、统计口径等。
  2. 技术元数据:技术领域。包括数据平台内对象和数据结构的定义、源数据到目的数据的映射、数据转换的描述等。
  3. 管理元数据:管理领域。包括人员角色、岗位职责、管理流程等。

 1.2 元数据管理工具

  元数据管理工具,可以了解数据资产分布及产生过程,工具具备如下功能:

  1. 元数据采集
    1. 异构环境,支持传统关系型数据库和大数据平台中采集从数据产生系统到数据加工处理系统到数据应用报表系统的全量元数据。包括过程中的数据实体(系统、库、表、字段的描述)以及数据实体加工处理过程中的逻辑。
    2. 自动化方式,比如用户维护好数据源连接信息后,根据数据源的更新频率,设定元数据同步周期,定时自动解析、获取、并更新元数据信息,保证平台元数据信息及时有效。
  2. 元数据识别:能够从本身不包含元数据信息的数据中提取特征,并以此识别元数据。
  3. 元数据分类:能够根据业务特点和管理需要,动态分类元数据。
  4. 元数据展示:能够根据类别、类型等信息展示各个数据实体的信息及分布情况,展示数据实体间的组合、依赖关系,以及数据实体加工处理上下游的逻辑关系。
  5. 元数据应用:利用元数据发现数据之间的关联性,一般包括数据地图、数据血缘分析、影响分析、全链分析、热度分析等。
  6. 元数据搜索:可根据数据源库、类型等搜索元数据信息。

 1.3 元数据管理实际功能

元数据的管理,实现对实际对象的管理。主要包括元数据交换、元数据存储、元数据维护、元数据质量、元数据分析。

  1. 元数据交换:提供元数据自动采集功能。设计原理是系统初始化定义一些内置JOB,用户可以利用JOB实例化一些自定义任务,可用定时器进行调度。
  2. 元数据存储:维护系统所管理的对象的各种元数据,比如表、接口、程序、数据交换、数据服务。
  3. 元数据维护:主要完成数据库表的元数据的血缘分析及表字段间的关系,以便对系统所维护的所有数据做到溯源和影响的分析,保证数据的质量。
  4. 元数据质量:对系统所管理的对象的元数据进行特定的质量稽核,并生成稽核报告等。主要包括完整性稽核和模型对比稽核。
    1. 完整性稽核:对系统维护的对象(数据库表)的重点属性完整性进行相应稽核,如无中文注释、无主题模型、孤立模型、无字段结构模型。
    2. 模型对比稽核:对比仓库维的元数据与实际业务库元数据之间的差异,如无数据字典、无实例对象、字段不一致。
  5. 元数据分析:针对系统维护的表模型和指标模型进行相似性分析,并生成稽核报告。元数据分析的稽核算法及稽核时机,通过模型相似性分析(表模型)和指标相似性分析(指标模型)这2个程序实现。 

2. 数据采集与预处理

数据预处理:对数据进行挖掘以前,需要先对原始数据进行清理、集成、变换等一系列处理工作,以达到挖掘算法进行知识获取研究所要求的最低规范和标准。

数据预处理常见方法:数据清洗、数据集成、数据变换。

2.1 数据清洗

数据清洗过程一般包括填补存在遗漏的数据值、平滑有噪声的数据、识别或除去异常值并且解决数据不一致等问题,从而达到纠正错误、标准化数据格式、清除异常和重复数据等目的。

  1. 填充缺失值:忽略元组、人工填写缺失值、使用一个全局常量填充缺失值、用属性的均值填充缺失值、用同类样本的属性均值填充缺失值、使用最可能的值填充缺失值。
  2. 光滑噪音数据:噪音是被测量的变量的随机误差或方差。分箱、回归、聚类。
  3. 数据清洗过程:包括检测偏差与纠正偏差2个步骤。
    1. 检测偏差:考察每个属性的定义域和数据类型、每个属性是否存在已知的依赖、每个属性可接受的值、值的长度范围;考察所有的值是否都落在期望的值域内、属性之间是否存在已知的依赖、把握数据趋势和识别异常、考察数据还要遵循唯一性规则、连续性规则和空值规则。
    2. 纠正偏差:

2.2 数据集成

多个不同数据源的数据合并在一起,形成一致的数据存储。比如多个不同的数据库合并到一个数据库中进行存储。

2.3 数据交换

将数据转换成适合与挖掘的形式,通常包括平滑处理、聚集处理、数据泛化处理、规格化、属性构造等方式。

数据交换:完成在企业内部的ERP、CRM、SCM、数据库、数据仓库以及其他重要的内部系统之间无缝的共享和交换数据。数据交换可以解决数据孤岛问题。

前置机:信用平台有很多后台核心处理系统,需要对外提供各种接口服务。企业有业务需求,需要访问信用平台,就会要求信用平台通过专线或硬件隔离技术将运行这个软件的计算机连接到外部企业的外网系统上,运行这个软件的计算机,从功能上就称为前置机。

2.4 常用大数据采集工具

Hadoop的Chukwa、Cloudera的Flume、Facebook的Scrible、LinkedIn的Kafka。均采用分布式架构,来满足大规模日志采集的需求。

3  数据仓库

数据仓库是在企业管理和决策中面向主题的、集成的、随时间变化的、非易失性数据的集合。数据库更像是一种过程,即对分布在企业内部各处的业务数据的整合、加工和分析的过程,而不是可以购买的一种产品。

4 ETL

ETL工具:数据抽取、转换和装载工具合称为ETL工具。ETL是用来描述将数据从源端经过提取、转换、装入到目的端的过程。

  1. 抽取:将数据从各种原始的业务系统中读取处理
  2. 转换:按照预先设计好的规则将抽取的数据进行转换,使本来异构的数据格式能统一起来
  3. 装载:将转换完的数据按计划增量或全部导入到数据仓库中。

数据过滤

数据汇总

 问题:

1、元数据如何把传统数据库与大数据里面的数据进行对接起来的

2、元数据存储位置在哪里?

3、元数据维护、分析、质量如何与元数据存储流程进行对接?

4、元数据交换怎么进行交换的?

 

posted @ 2021-03-06 13:11  wendyw  阅读(3288)  评论(0编辑  收藏  举报