大数据形势下的三种数据融合方式:组合、整合和聚合
一、 跨行业数据合作背景
国务院副总理马凯,曾经在2015贵阳国际大数据产业博览会中提到:
融合是大数据的价值所在,应大力推动大数据与产业融合,面向工业、交通、物流、商贸、金融、电信、能源等数据量大的行业领域,开展数据开发和交易,充分挖掘大数据的商业价值,促进产业提质增效升级。
另外,《大数据时代》的作者舍恩伯格,在该书中也提到一个观点:“大数据不是随机样本而是全体数据”。
无论是从国家政府部门还是领域专家都不约而同的提到数据需要融合,数据融合才有价值。
二、 为什么需要数据融合?
其中最重要原因是用户数据的割裂性,无法全面勾勒用户全貌。比如你的购物数据在京东天猫、通话数据在移动电信、交易数据在银行金融、社交数据在腾讯微信、搜索数据在百度等等。
数据的割裂性导致对用户的认识比较片面,可能做出错误的决策。比如:现在京东与头条的“京条计划”就是数据合作的一个案例,就是你在京东搜索的物品,会不定时在浏览今日头条中呈现,增加购买率。这里有个缺陷是如果已经在淘宝购买的物品,但还是会出现页面,导致用户体验感知下降。
数据融合的另一个价值就是新规律新价值的发现。比如以前用户信用主要基于是否有历史借贷违约,但很多人无借贷关系数据,如何评定。芝麻信用就创新的融合上网数据、身份特征、行为偏好、社交关系等生活属性数据,来侧面刻画用户的信用。这就是数据融合价值。
不同行业数据的融合,具有互补性和完整性,将有效提升数据内涵价值。
三、 数据融合的三种方式
数据融合的方式从交互程度来讲,可分为数据组合、数据整合和数据聚合等三个层次,由低到高,逐步实现数据之间的深度交互。
层级一:数据组合由各方数据的简单组合形成,能够全貌客户用户特征。该数据融合产生的是物理反应,数据属性本质没有改变。如一份征信报告,有交易数据,有通信数据,有购物数据等,简单的拼装而成。如下图:
层级二:数据整合由多方的数据共同存在才能够实现产品价值。该数据的融合产生的是化学反应,有价值产生。如:黑名单,通过金融数据和通信行业数据共同才能判断是否黑名单。如该用户有异常金融行为,在加上该用户频繁换手机和停机次数多,基本可判断黑名单用户。
层级三:数据聚合(核反应)由双方数据聚合孵化产生出新的产品,新模式。如:分期贷款。通过大数据风控能力,不仅减少审核流程,而且也能进行贷中监控和贷后管理,还能够对失联用户进行定位和催收,是一揽子计划。
四、 面临需要解决的问题
同样数据融合并不是一件容易的事情,需要解决数据壁垒,数据标准,数据安全等问题。其中较重要的三个问题是:
问题1:数据安全问题
如何保证数据安全,保护客户隐私?客户知情权。如何保障符合集团或公司规定的数据变现要求?数据不出库。
问题2:市场定价
市场定价市场价格如何确定?基于成本OR基于需求?市场的最终定价权由谁主导?多方数据提供者,听谁的话?
问题3:利益分配
利益分成如何界定各方数据价值和分层比例?
这些都是数据融合时遇到的实际问题,也是在数据创新时必须要解决的。