会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
ZacksTang
博客园
首页
新随笔
联系
管理
订阅
2018年8月1日
Spark数据分析-记录关联问题
摘要: 1. 问题描述 记录关联问题(Record Linkage):有大量从一个或多个源系统来的记录,其中有些记录可能代表了相同的基础实体。 每个实体有若干个属性,比如姓名、地址、生日。我们需要根据这些属性找到那些代表相同实体的记录。 不幸的是,有些属性值有问题:格式不一致,或有笔误,或信息缺失。如果简单
阅读全文
posted @ 2018-08-01 22:38 ZacksTang
阅读(2711)
评论(0)
推荐(0)
编辑
公告