关于知识图谱的思考

很多语言都已完成了对不同宿主机环境的抽象(如JVM)，传统的硬件环境对软件开发的限制逐渐减小。比如一个应用在发布时可能已完成了Windows/Mac/Linux版本的开发，这种不同平台安装包的差异会在抽象虚拟机的作用下消失。

抽象虚拟机如此强大，为什么当前仍是A/B/C不同平台开发方式为主流？

微软视窗系统Windows仍是被使用的主流系统，占据着全球大部分市场。虽然有Unix/Linux、Ios/Mac等新型系统的冲击，微软公司仍凭借其与时俱进的改革方案牢牢控制市场，操作系统的开发暂时进入瓶颈期。若想改变当前的互联网格局，必须有一种新的变革性技术力量冲击。大数据+人工智能就是一个契机。

当前计算机已从PC时代->互联网时代->互联网+/大数据时代，处于互联网+/物联网发展的高峰期和大数据发展的初期，人工智能也已初见端倪。

大数据应用，关键在于在信息爆炸的时代中将“大量”的数据提取为“有用”的数据，拟合数据曲线，达到统计和预测的目的。人工智能便是大数据时代的产物之一。

毫无疑问，谷歌公司的“知识图谱”抢占了人工智能的先机。

“具体来说，知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。”——百度百科

可以用下面这张图说明：

可以看出，类聚算法是知识图谱的核心。类聚，即分类+聚合。

分类：“一切皆对象”，将所有实体向上封装为统一的结构A，实体之间的差异，可转化为结构A中属性值的差异。

聚合：聚合的目的，有点像数据库里面的“主外键”，修改主键后，外键所在的表也会同步更新。它力求将不同域中的实体进行归一。举个例子，你有个QQ账号，也有一个微信账号，两个账号都指向你，但它们不互通，存在两个数据实体；如果用了类聚思想，将两个应用的内容和接口去重，这两个数据实体会变成一个大的数据实体，也就实现了QQ和微信的互通。

有了知识图谱思想的时代，数据仍是不断爆发的，但数据能够被有组织、有模块地切割、分类，然后作为一个唯一实体放入某存储机制中，有变动时，只需更新实体即可。

如果说互联网联系起整个世界，那么知识图谱思想则会将这个联系发展到极致。试想一下，当所有的事物都纳入知识图谱，而不必为同一实体的不同数据体的差异性和延时性而烦恼，当发生变化时，只需更新知识图谱，数据体连接知识图谱的接口，即可同步更新，极大降低了耦合度。

预计，世界上的IT巨头公司会陆续建立起自己的知识图谱，即“个体知识图谱”，在该公司下授权的软件才能使用它的知识图谱，不同公司不互通。再将目光放长远些，所有的“个体知识图谱”将汇聚为一个“总知识图谱”，记录一些公有的数据，如学术百科、身份资料等等，而这个“总知识图谱”的存储则由一个权威的第三方公共管理机构（某某国际协会）负责。而知识图谱数据的同步和更新将在5G的出现和开源运动的推动下发展到新的顶峰。

同时，知识图谱这个契机，会带动一系列IT技术的发展：大数据分布式云计算、深度学习和类脑计算算法、数据库去重归一设计模式、服务器多线程优化、数据隐私和信息安全……

中国在知识图谱方面才刚起步，还有很大的发展空间，如果能在本世纪将知识图谱算法发展到一定高度，势必能够帮助中国在下一个互联网时代——人工智能时代占领领军地位。期待着中国“世界级”IT巨头的出现。

个人拙见，势必有不周之处，有想法的朋友可以留言交流。

posted @ 2019-06-22 10:51 望三星阅读(536) 评论(0) 收藏举报

刷新页面返回顶部

汲小成之乐，诚大雅之志

关于知识图谱的思考

公告