图数据库---许昱博士
https://www.doit.com.cn/p/318069.html
若说2018年9月在杭州召开的云栖大会期间,活跃着多少匹“黑马”,连同参展的、演讲的、参观的……各色人等一时很难统计出来,但是,不起眼的TigerGraph,一定会是其中最有亮点、最有故事的黑马之一。
这家成立2012年,在大数据图分析领域默默耕耘了6年的公司,一直低调从事市场调研和产品研发迭代。
直到2017年11月8日,TigerGraph的下一代图数据库在美国正式发布,在市场上引起了轩然大波后才为众人所知。这家总部位于硅谷的公司凭借成熟的技术,赢得了启明创投、百度、蚂蚁金融、华创资本、AME云创投、莫拉多风险投资公司、佐德•纳齐姆、丹华资本和DCVC风投基金公司3100万美元A轮资金投资。
从大数据中掘金
有统计报告显示,1分钟之内,美国数亿封邮件被发送,谷歌平台上发起400万次搜索,Facebook上有246万条信息被分享……在中国,类似的数据量更大。例如,在中国约有7000多万家注册企业,由于数据量比较大,要想理清这些公司之间的关系,如企业的持股人、投资关系、诉讼关系至办公地址等类似的关系,是一件很困难的事情;通过检索可以查出一度内有关系的人,也就是控股人控股关系,再深入到两层、三层的关系就不太现实了。
万物互联的时代,社交网络实时在线,物联网7*24小时运行,每天大量的数据还在持续不断的生成。在这样的情况下,该如何挖掘数据的价值,数据关联背后隐藏着什么关系?
TigerGraph公司的创始人许昱博士从事数据库和并行系统研发已经二十年,创办TigerGraph之前在Teradata负责大数据面向业界和未来五年的方向研究,领导Teradata和Big Data、Hadoop系统的集成,并且与一些大企业合作解决报表的查询与合并技术。稍早在Twitter工作,作为一个社交网络,图的分析对于Twitter意义重大,Twitter自行开发了一套单机版的纯内存的系统。再早则是在加州大学圣地亚哥分校、在中科院计算所从事数据库方面的研发工作。
可以说,许昱博士是个“不折不扣”的数据库专家,在他的周围聚集的也是来自硅谷等地高科技公司的数据库专家。
为什么会从事图数据库研究?
发掘大数据关联和关联后面隐藏的商业价值,是一个技术难题,但是它的解决无疑具有极大的商业价值。如何解决?
始于Hadoop技术的大数据时代迄今已经过去了十年,一些简单的技术问题如存储、离线处理等问题都得到了解决。十五年前,业界也开始了一些图数据库的尝试。许昱博士指出,图是以数学上点和边的关系把所有的数据自然存在一起,成为自然的存储数据关联模型。TigerGraph之所以采用知识图谱(欧拉图),是因为图是解决大数据互联最好的方法。
从计算角度,欧拉图更合适大数据的机器学习、人工智能。但由于每前进一步,接触数据量指数性增长,又能带来更多关联信息,所以计算能力至关重要,而技术上的限制,比如缺乏大数据、并行技术、多核计算机等的能力,所以在TigerGraph之前一些图计算的工具计算能力很差。
虽然欧拉图理论已经问世有两百多年,也是最合适的存储和计算互联数据的模型,但现在仍然没有企业中得到最广泛的使用。一方面,图数据库是较为高级的研究方向,从高深的理论到真正商业化,大规模应用还是很有难度分不开;另一方面,关系数据库一直以来都是最大的市场,这也是制约图数据库发展的另外一个原因。同样的道理,虽然关系型数据库时下正大行其道,但在刚开始的前十年,甲骨文的产品和市场都是经过了漫长的迭代。
许昱博士总结了图数据库和传统关系型数据库的三大区别。
一是存储模型不一样,关系型数据库数学模型是表格,一个最简单例子,一个人有一个身份证号、一个住址表、一个工资表、一个上学记录表等存在几个不同的表里,但是物理上、逻辑上都分开了,想知道这个人住在哪个地方,读过哪所学校,要把表合起来,根据值一个个去拼才能找出来。而图里,身份证号码是唯一节点,学校也是唯一节点,马上与全校学生联系起来了。另外,图数据库的压缩率是关系型数据库的2倍至10倍,虽然储存的变化不算太重要,但是计算、内存和对缓存的利用度就不一样,存储模型不一样。
关系型数据库是人为打乱成很多表,然后通过计算“拼凑”起来才能建立起关系来。它虽然叫关系型数据库,但这个名字并不恰当,图数据库才是真正针对关系的一个数据库。
第二,计算模型不一样。在关系型数据库的计算模型本质上是“野蛮”的扫描,如两个表之间值的比较,是否同一个人、同一个产品、同一个城市,城市有多少人口以及公司在哪个城市注册等。这种方式性能很差,因为要过滤很多无关的数据。图就不一样了,从一个人出发,几步关联,就能准确定位。
第三,查询方式的不同。关系型数据库的SQL语言比较简单,不支持复杂关系的发掘和预测。TigerGraph采取类似于SQL但功能更强的GSQL语言,允许动态生成各种复杂的数据结构来存储动态生成的证据,支持用户的推荐和打分,这在人工智能、机器学习的时代更有价值。
其实,这些不同点恰恰也是TigerGraph新产品发布之前“沉寂”了五年多时间不为人知的原因,因为他们完全潜心在关系型数据库领域外“另辟蹊径”。
TigerGraph的优势:“原生”与“并行”
近六年潜心研发与精心打磨的TigerGraph有哪些优势?
TigerGraph的技术突破代表着图数据库演进的下一个里程碑——一个完整的、分布式的并行图计算平台,能够支持网络规模数据的实时分析。TigerGraph通用版本是服务于企业级应用、世界上第一个也是唯一的企业级原生并行图数据库以及图数据库云服务,一同发布的还有GraphStudio——TigerGraph的可视化软件开发工具包。
TigerGraph是基于原生并行图(NPG)技术的全球首个实时图分析平台,通过为具有复杂和海量数据的企业提供实时深度链接分析支持,TigerGraph实现了图平台的真正承诺和好处。
TigerGraph用C++从头到尾做了一套基于对图的存储引擎,并开发了一个大规模并行的图计算引擎,而且对图进行了大量界面可视化工作,包括可视化的开发环境与探索、挖掘环境,成为业界唯一原生并行图数据库平台,其核心之处就是“原生”和“并行”。
原生,是基于图的理论、基于图的存储、基于图的计算,从底层开始开发的一套系统,这是一条性能非常高,但开发周期比较长的一条路径。不像用关系数据库做存储或者用文档数据库做存储,在上面做一个图的API,马上就有图数据库了。
并行,就是多台机器并行处理,时下数据量这么大,一台服务器再强大也不能解决用户一些计算问题。
TigerGraph三大技术优势
图数据库从最近十年的表现来看已经成为关注度最高,也是发展趋势最明显的数据库类型。那从市场上产品的比较看,TigerGraph有哪些技术优势呢?
一是实时计算。查询涉及到几千万到上亿个节点和边关联(点是实体,边是关系),眨眼间就把复杂的关联结果推送出来,不论是做欺诈、分析、推荐还是实时的网络计算,都可在1秒钟以内实现,比传统⽅法快多个数量级。
二是超大规模,每台机器每⼩时可加载50到150GB数据,不再需要批量加载,在只有20台商用计算机的集群上,能够将20亿以上的每日事件实时流式传输到具有超过1000亿个顶点和超过6000亿个边的大数据图谱。已成功在世界上最大的电子支付公司生产线上运行两年多,支持数据库的增删改查,成为可以上线运行的数据库。
三是深度关联。公司现在有高级易用的开发语言;客户完全不需要公司支持,借助TigerGraph网站上的技术文档,下载软件自己去写GSQL,做图模型、数据录入和二次开发;从数据深度发掘看,可以每秒每机遍历数亿个顶点/边,步数可达三步或更多。
五年来,TigerGraph在研发中其实踩过很多“坑”,实现了非常革命性的突破。许昱博士认为,公司做得最好的是两点:一是基于分布式存储系统,选择了最优化的体系结构,解决了数据一致性的问题;二是选型用C++做底层控制一切的内存。尽管Java有很多优点,但是当时TigerGraph做出了这个艰难的决定。
这些技术上的突破对于在最⼤的数据上进⾏实时分析至关重。
这些数据应用包括世界上最大的电子商务提供商的欺诈预防、世界上最大的移动电子商务公司的实时推荐,和管理世界上最大的电力公司的能源传输网。
TigerGraph今年6月份在美国发布了两个版本:一是终身免费的开发者版本(单机版),没有数据限制、没有时间限制;二是企业版本,是多机版,但有时间限制,比如几个月。
广泛的行业应用
TigerGraph是业界唯一的原生、并行图计算的大平台,特别适⽤于⼤图——深度链接分析的最佳模型,这是因为它能够探索、发现和预测关系。
在反欺诈和反洗钱方面,企业可以借助TigerGraph系统在企业数据全景图上快速部署复杂有效的反欺诈和反洗钱业务,利⽤实时数据和实时深度链接分析应对⾦融犯罪。
原本许昱博士认为TigerGraph是反洗钱最天然、最好的应用,但去年11月份在美国发布以后的应用结果令人惊讶——虽然纽约有不少银行应用于客户的360度画像、风控、合规等领域,但西雅图到南加州,到佛罗里达,到美国的明尼苏达不同的城市各行各业的客户蜂拥而来——健康保险公司利用知识图谱反欺诈、电信公司为流失用户画像、昂贵新药上市后制药公司通过查悉医生的影响力进行精准推送……
此外,采用TigerGraph,可通过了解企业控制人的关系、企业之间的担保关联,银行可最大限度地降低风险。例如,某些企业可能破产了,为其提供担保的企业就可能陷入纠纷中。
专注为客户创造价值,而非取代
图数据库最重要的能力是计算能力、关联能力。许昱博士表示,TigerGraph生成很多高质量的新的训练数据,然后交给机器系统去学习,可极大地减少误报率,为各行各业提供做图分析和知识图谱的通用图引擎,客户可以很快建立针对自己企业的图模型,将任何关联方找出来。
TigerGraph有很多的优势,但并不意味着要去颠覆传统的数据库。许昱博士认为,公司是在做复杂关联、实时计算等别人以前根本做不了的事情,做新一代的应用程序,给客户带来价值,以解决他们数据量快速增长,或者更新成本太昂贵的难题,方便他们的应用程序移植到图数据库上。
目前,TigerGraph的解决方案已经被国内的大型金融机构、电力等不同行业的大量的客户所采用。
在美国,图数据库是近年来所有数据库里发展速度最快的。保守的估计,未来五年里将会有十倍的增长,图数据库市场发展潜力和空间很大。许昱博士十分看好TigerGraph的未来。