知识图谱简介及常见应用场景
知识图谱最早是谷歌提出来的,又可以叫语义网,用来描述真实世界中存在的各种实体或概念及其关系,构成一张巨大的语义网络图,结点表示实体或概念,边由属性或关系构成。谷歌最早搞知识图谱是为提高搜索结果的质量。
知识图谱是一种特殊的图数据,由 <实体,关系,实体> 或者 <实体,属性,属性的值> 三元组 构成。知识图谱中每个结点都有若干个属性及其属性值,实体与实体之间的边表示结点之间的关系,边的指向表示关系的方向,边上的标记表示关系的类型。
下面介绍几个基本概念
1、本体
具有同种特性的实体构成的集合,如人、猫、狗、书等。在面向对象编程语言里就是 类(class)。
2、实体
具有可区别性且独立存在的某种具体的事物,如具体的名叫 张三 的那个人、张三养的那条狗 等。在面向对象编程语言里就是某个类的一个实例:对象(object)
3、属性
比如 张三 这个人 有 性别 这个属性,性别 这个属性的 属性值是:男。
知识图谱的构建
知识图谱的存储
1、RDF存储
三元组存储。每个事实条目包括主体(Subject)、谓词(Predicate)和客体(Object)三个元素。
2、图数据库存储
常用的开源图数据库Neo4j,eBay的Beam,阿里的图数据库GDB等。
知识图谱常见应用场景
1、在线查询类
2、离线分析类
信息检索/搜索:搜索引擎中对实体信息的精准聚合和匹配、对关键词的理解以及对搜索意图的语义分析等;
自然语言理解:知识图谱中的知识作为理解自然语言中实体和关系的背景信息;
问答系统:匹配问答模式和知识图谱中知识子图之间的映射;
推荐系统:将知识图谱作为一种辅助信息集成到推荐系统中以提供更加精准的推荐选项,知识图谱+推荐系统;
电子商务:构建商品的知识图谱用于精准匹配用户的购买意愿和商品候选集,知识图谱+推荐系统;
金融风控:利用实体之间的关系分析金融活动的风险以提供在风险触发后的补救措施(如反欺诈等);
公安刑侦:分析实体和实体之间的关系获取案件线索等;
司法辅助:法律条文的结构化表示和查询用于辅助案件的判决等;
教育医疗:提供可视化的知识表示,用于药物分析、疾病诊断等;
社交类业务:社交类业务具备高度连接的特点,比如 好友关系 等,<用户1,关注,用户2>。