知识图谱在产业分析领域的应用

posted @   智慧园区-老朱  阅读(509)  评论(0编辑  收藏  举报

导读:基于知识图谱的智能产业分析工具,能够帮助咨询公司、知识产权服务公司、投资融资服务公司、产业投资基金公司等直接客户,以及政府/园区、金融机构、企业等间接客户,快速生成相关行业态势、关系及未来发展的分析报告,提供高效咨询服务。今天将和大家分享知识图谱在智能产业分析领域的应用。主要包括以下4个方面的内容:

  • 如何利用基于知识图谱的智能工具进行产业分析
  • 什么是产业原子,如何利用产业原子构建产业知识图谱
  • 产业原子的表示、特点、提取算法
  • 基于产业原子的知识图谱系统整体架构

01

如何利用基于知识图谱的智能工具进行产业分析

 

如图,基于知识图谱的智能产业分析工具的处理逻辑是收集诸如企业各种文本数据(上市公司年报、企业描述、专利、软著、商标、资质等信息)等底层数据,然后通过智能分析工具快速生成分析报告,为目标客户、间接客户提供相应咨询和服务,解决实际场景问题。

1. 产品的核心功能

 

如上图,万因(VentureSights)智能分析工具作为SARS版的基于第二代“产业图谱”技术开发的产业分析工具,它的核心由4大模块构成,即:产业分析模块、商机挖掘模块、融资分析模块和并购分析模块。

2. 产品使用流程

万因(VentureSights)智能分析工具的处理逻辑如下图所示:

 

左侧是一些原始功能,比如:通过系统预装产业链、修改和新建自定义产业链工具,或者通过企业搜索、专利搜索、产业图谱搜索等多条途径和方法,筛选相关企业,并以企业数据为基础,构建产业分析模型,就像企查查、天眼查,最终通过智能产业分析工具生成企业清单。如果企业清单不够准确,还可以通过企业主营业务过滤、区域筛选等算法,生成更新的企业清单。基于这个企业清单就可以做各种分析,比如区域对比、资本集中度对比、赛道情况分析等。

3. 关于VentureSights智能分析工具的4大核心模块

① 产业分析

  • 系统预装的产业链

 

如图,最上面为系统预装的产业链,如动力电池、数字生活、清洁能源产业等。系统预装多条产业链,并提供产业分析框架,以及相应图标,所有图标均支持下载,有助于分析师快速形成相应的PDF版产业报告。

 

产业链能够从多维度进行统计,比如图示的“动力电池企业数量统计分布”、“近24个月专利数统计”等,每个产业链都可以有这样一个标准模板。

  • 自定义产业链构建

 

功能开发背景。没有最正确的产业链定义,只有最适合自己的视角。为满足“千人千面”的产业链分析视角,VentureSights推出了“自定义产业链”功能,用户可依据自己的逻辑生产更符合个人认知的产业链机构,并按照这个机构来组织各种数据和分析。

产业链构建的目的。形成以产业链为基础的针对链内每个产业节点的企业清单及数据统计,以便后续的产业分析。

产业链构建步骤。第一步,绘制产业链树形机构;第二步,针对产业链内每个节点编写检索式,检索式需要按照系统规定的规则进行书写。支持检索的字段有:企业名称、企业描述、企业注册资本金额、注册时间、注册地址、专利名称、专利描述、专利分类号、专利类型等;第三步,系统按照检索式自动筛选出符合条件的企业。

  • 企业清单生成与分析

 

企业清单创建目的。分析师可随时查看和维护企业清单,按照各种维度条件进行优质企业清单筛选(例如招商标的筛选)。后续系统会根据最终企业清单生成各种维度数据图标,以便分析师进行分析和解读。

企业清单创建步骤。当产业链构建完成后,系统即可按用户编写的检索式生成企业清单;用户也可以直接使用系统内已经筛选好的热门产业链清单;用户可按照各个字段对企业进行增删改查,提高清单内企业的准确性。

生成的企业清单包含企业各维度数据。把更新清单再回传到系统,就可以进行各种维度的数据统计,包括企业名称、主营业务、企业地址、注册时间、注册资本、专利数量、社保人数等。

  • 分析生产图表/下载

 

 

上图展示的是企业评估功能。智能分析工具可以对诸多指标作出评分,包括专利画像、专利领域分布统计等;也可以进行专利相关维度的推荐,按照技术节点查询相应专利,通过计算“相似专利”得到可对比专利范围。比如在检索词的时候,针对海量专利词汇,我们会把一些相关的词汇做一些相似的专利推荐,从而看到其他哪些专利和它比较相似,去找到哪些企业。我们的目的不是为了做真正的专利评估,而是通过专利评估去找到和被分析企业相似的企业。

② ‍商机挖掘

  • 上下游合作分析

 

 

商机挖掘主要关注某一个技术领域还能应用到哪些其他领域。比如,做动力电池的企业,想知道动力电池应用到什么其他行业去。图中数据能体现上下游的关系。

③ 融资分析

 

④ 并购分析

这个是跟上市公司做的一些投资并购方向的推荐,是标准的产品化的功能。

--

02

什么是产业原子,如何利用产业原子构建产业知识图谱

1. 产业原子介绍

① 产业原子是什么?产业原子是用来描述一个细分产业颗粒的概念,产业原子具备明确的范围和边界,产业原子是一个产品或者服务,也可以是原材料、零部件、生产工具等,中文里任何物品的名字都可以是一个产业原子。

 

② 产业原子有没有标准化?产业原子是有标准的,比如国民经济分类、工信部分类,包括发票有哪些类。往下生成图谱很困难,如果提前有了这样一个原子范围,基于它再去往上去结合一些人的知识和一些专家的知识,这个过程就会变得非常容易。

③ 产业原子解决的问题是什么?解决的是只要我们认为它是描述一个产业的内容的,不管他用任何的描述,只要是自然语言里面有的,人类会这么描述的,我们都把它定义为一个产业原子,这样就可以用任何的条件随意检索。

产业原子的好处是什么?就在于我们可以提前通过大规模的机器学习和人工智能的手段,把它提取成一系列的预处理,就有了一个描述整个产业空间的基础,相当于是一个描述产业空间的词汇表。

④ 产业原子如何解决问题?首先把原始的文本语料形成产业原子,然后通过算法把产业原子关联的企业、关联的投资等各种维度的信息、属性用一个256维的维度向量去把它向量化,把产业原子聚合成某一具体的产业节点,可以通过机器的办法和人工的办法结合去产生这样的一个产业节点的定义。

--

03

产业原子的表示、特点、提取算法

1. 产业原子的表示

 

① 每个产业原子采用一个256维的向量表示

② 向量距离产业原子之间的相似度,距离越近越相似

③ 产业原子向量基于“Graph Embedding”方式构建

④ 产业原子向量可用于推荐算法的召回、排序过程

2. 产业原子的特点

产业原子具有以下特点:

① 产业原子不能够再进行细分

② 产业原子之间描述的概念可以有交集

③ 任何两个产业原子之间都可以存在关系,关系有多种类型,并可以通过距离来描述远近

④ 产业原子的数量庞大(目前有2800万左右),能够充分表述整个产业的方方面面

⑤ 产业原子可以组合成产业节点,通过产业原子组合能够描述范围更大、更准确的细分产业

⑥ 产业原子可以关联其他相关的实体,如企业、投资机构、园区、知识产权、产业政策等

⑦ 产业节点可以与其关联的任何实体计算空间距离

3. 核心算法——产业原子名称NER

 

产业原子名称NER是命名实体识别的一个算法,这个算法是基于模型的和基于规则的工程实现组合算法。

  • 过程1:原始语料生成

针对专利的描述信息、公司的年报里面描述业务信息等文本信息,采用句法、词性、特征词等多维规则引擎提取短语,生成短语训练语料。算法目标是为了生成词表,现在能接触的语料是足够多的,但要求模型能处理词要全面、准确,这是核心。所以,语料的生成首先是要选择合适的语料,然后进行预处理,让训练模型能够认对,这是关键。

  • 过程2:提取原始词表

基于多种特定的规则提取产业原子名称词汇,生成原始词表。

  • 过程3:更新合法词判断模型、规则

基于过程2生成的词表对词语合法性判断模型、规则进行更新。

  • 过程4:自动化标注

采用过程2生成的词表对过程1的语料进行自动化标注,生成训练样本。自然语言处理的难点和工作量在标注,通常来讲场景标注是非常困难的,人标注的准确率大概85%~90%之间,NER自动化标注准确率可达到98%以上。

  • 过程5:训练NER模型

使用BERT+TRANSFORMER+CPF模型对过程4的训练样本进行学习,生成NER模型。

  • 过程6:产生新词

使用过程5的NER模型,对过程1产生的语料进行实体识别,生成新词列表。比如,描述专利的语言不是自然语言,但训练NER模型是用自然语言训练的,所以我们对原始语料的生成要扩展各种来源的语料,既反映产业原子的一些特征,又让现有的预训练模型能够接受,必须要做好的转换和处理。

  • 过程7:过滤新词

基于过程3产生的模型和规则对新词进行过滤,生成新词列表。

  • 过程8:合并词表

对新词和老词进行合并,重复过程4至过程8,直到足量级的词表产生。原始的词表,我们是用一系列复杂的手段、规则和各种模型产生的,最后我们去合并。

值得注意的是,过程3在整体循环中,需要根据实际情况随时调整。

4. 核心算法——Semantic Deep Walk Based on Heterogeneous Network

 

Deep Walk算法是一种知识图谱的向量化(Graph Embedding)的优秀算法,能够把图映射到一个多维空间,但传统的Deep Walk算法节点智能是单一类型的节点,而且没有考虑节点之间的语义关系,但这两点恰恰是产业、企业向量化必须要考虑的核心内容。为此我们对Deep Walk算法进行了改进,完美地解决了多类型节点、复杂关系网络的向量化难点。有了词表以后,接下来需要把这些词表每个产业原子做向量化处理,基于图神经网络,采用随机游走的算法,按照预设的一些规则去游走,既体现了序列,也体现了网络,还体现了语义之间的联系。

--

04

基于产业原子的知识图谱系统整体架构

 


今天的分享就到这里,谢谢大家。

posted @   智慧园区-老朱  阅读(509)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
历史上的今天:
2021-09-30 Linux常用命令
2020-09-30 软件质量保障全流程
2019-09-30 ABP入门教程3 - 解决方案
2019-09-30 ABP入门教程2 - 体系架构
2019-09-30 ABP入门教程1 - 开篇
2019-09-30 ABP入门教程0 - 目录
点击右上角即可分享
微信分享提示