POI数据处理流程

  POI数据根据数据源不同,接入数据获取的信息会有所不同,但无非是基础数据和详情数据。

  数据接入后处理流程也可以统一为: 

    数据接入 => 数据标准化 => 数据判重 => 数据融合 => 数据发布 => 持续更新

    不同的数据在步骤中操作可能会有所差异,但是基本上都会遵循上述步骤,下面将逐一介绍每个步骤

    1. 数据接入:根据数据来源的不同接入方式也是多种多样,如图商的数据最为标准,通常为mid/mif的文件提供,此时转化为流程可处理的数据格式即可;互联网抓取的数据内容丰富但是遵循的规范多种多样,此时进行初步判断是否符合接入的条件以向下流转;合作方的数据相对标准,但业务侧重不同,而通常合作方的数据需要进行反馈数据接入时做好对账和反馈查询接口;ugc数据相对较少但是需要给与及时处理和反馈...。不同数据源数据重要性和数量级会所有不同,针对数据较大但是重要性相对较低的数据需要做好数据准入验证;对数据量少、但是重要的数据要有通用的对账和反馈机制,这会减少后期业务展开时的工作量。

    2. 数据标准化:数据标准化一般包含三部分内容:1)字段对齐,对于某些数据源相同内容字段名称可能不一致,此时将其转换为统一的名称和路径;计算分类、状态等字段值补全到数据中;2)数据正确性验证,例如根据坐标校验地址的省市区划是否一致,3)剔除部分分类的数据或者触发黑名单数据,如涉黑涉恐等违法数据类型。标准化的过程不复杂但会随着接入数据源的增加而变得繁琐,因此一个健壮的可配置的标准化服务可以使得后续工作事半功倍。

    3. 数据判重:数据源接入后如何判断新接入数据是否与原有的数据重复,也就说新接入的了某个数据源的POI如果当前已经有了这个POI那么应该将新增的POI与原有的POI融合并更新原有的POI信息,如果当前没有该POI,那么应使用新接入的POI独立新增一个POI数据到自己的系统。判重流程比较负责,在这里暂不详述,简单说是将已有的POI的关键信息建立倒排索引,根据新增的POI的信息查询倒排索引,根据倒排索引返回的POI列表计算相似度,如果有相似度达到阈值的那么判断为重复。

    4. 数据融合:是将不同来源标识相同的POI的数据融合为一条数据,这条数据在各个源中的数据选择最可靠的基础数据,和不同业务的详情数生成一条POI。这条POI可以满足不同的业务需求。

    5. 数据发布:数据发布指数据融合得到的POI数据推送到各个业务方进行线上操作。同数据接入一样,发布对接多个业务方,根据不同的业务进行数据适配和校验,一个通用的发布模式是十分必要。

    6. 数据更新:数据生成是一个持续交付过程,数据不断采集和融合,数据也会不断更新,数据发布的交付也是一个持续的过程。

posted @ 2019-12-01 16:36  东临观海  阅读(2835)  评论(0编辑  收藏  举报