摘要: 1. 什么是数据仓库? 在wiki中对数据仓库的解释是: 在计算中,数据仓库(DW或DWH),也称为企业数据仓库(EDW),是用于报告和数据分析的系统,被认为是商业智能的核心组成部分 DW是来自一个或多个不同来源的集成数据的中央存储库。 他们将当前和历史数据存储在一个地方,用于为整个企业的工人创建分 阅读全文
posted @ 2020-07-17 21:27 东临观海 阅读(1744) 评论(0) 推荐(0) 编辑
摘要: 今天无意在简书看到一篇文章题目是 数据仓库灵魂30问,感觉这写问题确实需要总结和归纳,先做个标记,后续整理答案。 1.什么是数据仓库?如何构建数据仓库?(如果这个问题回答的好,后面很多问题都不需要再问) 2.如何建设数据中台?可简单说下理解与思路 3.数据仓库、数据中台、数据湖的理解 4.传统数仓的 阅读全文
posted @ 2020-07-11 21:51 东临观海 阅读(206) 评论(0) 推荐(0) 编辑
摘要: 变更校验:比较本次发布数据和上一次发布数据的变更,包括数据新增和下线,以及两次发布同时存在的数据字段的变更,当没有变更时名称、地址、坐标作为关键字段其变化率应少于1‰,如果变更多余该值则应该确认数据来源、策略是否有变更,且变更结果符合预期。 变化维度:数值变更(变更范围);字段存续变更;POI存续变 阅读全文
posted @ 2020-01-05 20:54 东临观海 阅读(473) 评论(0) 推荐(0) 编辑
摘要: POI数据校验是POI数据正确性的保证,而针对结果校验是数据发布正确性的最后一道保障,所以对数据校验需要在多个纬度进行,力求POI的正确性。 数据变更主要分为状态变更、关键字段变更以及详情字段变更。其中状态变更影响最大,可以造成线上POI的上下线状态改变,而基础字段和详情字段则会影响业务的正确性。须 阅读全文
posted @ 2019-12-29 23:32 东临观海 阅读(1626) 评论(0) 推荐(0) 编辑
摘要: POI数据发布: 数据发布方式有多种,具体方式和需求由业务决定,发布方式主要分为两类,一类是通过数据打包整体发布,一类是通过api请求逐条调用。 1. 打包整体发布:通过提取归档数据,根据业务需求的模板进行数据提取转换,将数据以文件形式推送到需求端,该方式适用于有独立处理数据并提供业务服务的情况; 阅读全文
posted @ 2019-12-22 22:30 东临观海 阅读(495) 评论(0) 推荐(0) 编辑
摘要: POI数据存储是指在整个数据处理过程产生的结果数据和中间数据的记录和存储,在这个过程中不同的数据存储的目的也不尽相同。 为了描述方便,我们这里将数据接入的poI称为pp,融合后产生的结果称为poi 按照目的不同,我们将数据存储分为若干类: 1. 数据输出:计算流程的结果,也就是POI数据,是最重要的 阅读全文
posted @ 2019-12-14 21:43 东临观海 阅读(937) 评论(0) 推荐(0) 编辑
摘要: POI数据根据数据源不同,接入数据获取的信息会有所不同,但无非是基础数据和详情数据。 数据接入后处理流程也可以统一为: 数据接入 => 数据标准化 => 数据判重 => 数据融合 => 数据发布 => 持续更新 不同的数据在步骤中操作可能会有所差异,但是基本上都会遵循上述步骤,下面将逐一介绍每个步骤 阅读全文
posted @ 2019-12-01 16:36 东临观海 阅读(2832) 评论(0) 推荐(0) 编辑
摘要: POI是“Point of Interest”的缩写,中文可以翻译为“兴趣点”。POI数据会包含各种信息,如前面提到的名称、别名等信息,可以将这些信息看成一个个的标签(tag),而分类是其中最重要的一个tag,在OSM中 “An OSM element should represent a sing 阅读全文
posted @ 2019-11-16 23:11 东临观海 阅读(7886) 评论(0) 推荐(0) 编辑