关于知识图谱的思考
很多语言都已完成了对不同宿主机环境的抽象(如JVM),传统的硬件环境对软件开发的限制逐渐减小。比如一个应用在发布时可能已完成了Windows/Mac/Linux版本的开发,这种不同平台安装包的差异会在抽象虚拟机的作用下消失。
抽象虚拟机如此强大,为什么当前仍是A/B/C不同平台开发方式为主流?
微软视窗系统Windows仍是被使用的主流系统,占据着全球大部分市场。虽然有Unix/Linux、Ios/Mac等新型系统的冲击,微软公司仍凭借其与时俱进的改革方案牢牢控制市场,操作系统的开发暂时进入瓶颈期。若想改变当前的互联网格局,必须有一种新的变革性技术力量冲击。大数据+人工智能就是一个契机。
当前计算机已从PC时代->互联网时代->互联网+/大数据时代,处于互联网+/物联网 发展的高峰期和大数据发展的初期,人工智能也已初见端倪。
大数据应用,关键在于在信息爆炸的时代中将“大量”的数据提取为“有用”的数据,拟合数据曲线,达到统计和预测的目的。人工智能便是大数据时代的产物之一。
毫无疑问,谷歌公司的“知识图谱”抢占了人工智能的先机。
“具体来说,知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。”——百度百科
可以用下面这张图说明:
可以看出,类聚算法是知识图谱的核心。类聚,即分类+聚合。
分类:“一切皆对象”,将所有实体向上封装为统一的结构A,实体之间的差异,可转化为结构A中属性值的差异。
聚合:聚合的目的,有点像数据库里面的“主外键”,修改主键后,外键所在的表也会同步更新。它力求将不同域中的实体进行归一。举个例子,你有个QQ账号,也有一个微信账号,两个账号都指向你,但它们不互通,存在两个数据实体;如果用了类聚思想,将两个应用的内容和接口去重,这两个数据实体会变成一个大的数据实体,也就实现了QQ和微信的互通。
有了知识图谱思想的时代,数据仍是不断爆发的,但数据能够被有组织、有模块地切割、分类,然后作为一个唯一实体放入某存储机制中,有变动时,只需更新实体即可。
如果说互联网联系起整个世界,那么知识图谱思想则会将这个联系发展到极致。试想一下,当所有的事物都纳入知识图谱,而不必为同一实体的不同数据体的差异性和延时性而烦恼,当发生变化时,只需更新知识图谱,数据体连接知识图谱的接口,即可同步更新,极大降低了耦合度。
预计,世界上的IT巨头公司会陆续建立起自己的知识图谱,即“个体知识图谱”,在该公司下授权的软件才能使用它的知识图谱,不同公司不互通。再将目光放长远些,所有的“个体知识图谱”将汇聚为一个“总知识图谱”,记录一些公有的数据,如学术百科、身份资料等等,而这个“总知识图谱”的存储则由一个权威的第三方公共管理机构(某某国际协会)负责。而知识图谱数据的同步和更新将在5G的出现和开源运动的推动下发展到新的顶峰。
同时,知识图谱这个契机,会带动一系列IT技术的发展:大数据分布式云计算、深度学习和类脑计算算法、数据库去重归一设计模式、服务器多线程优化、数据隐私和信息安全……
中国在知识图谱方面才刚起步,还有很大的发展空间,如果能在本世纪将知识图谱算法发展到一定高度,势必能够帮助中国在下一个互联网时代——人工智能时代 占领领军地位。期待着中国“世界级”IT巨头的出现。
个人拙见,势必有不周之处,有想法的朋友可以留言交流。