通过NLP图数据库和深度学习技术,分析污染扩散的趋势和影响。

  针对本需求,我针对NLP与知识图谱做了一个调研。

 

  首先nlp是什么,知识图谱是什么,nlp怎么与知识图谱进行连接。

 

一:NLP

 1.定义

  自然语言处理是数据科学领域中最热门的主题之一。公司正在将大量资金用于该领域的研究。每个人都在尝试了解自然语言处理及其应用,以围绕它开展职业。那里的每个企业都希望以某种方式将其整合到他们的企业中。

  

 

  自然语言处理(NLP)就是在机器语言和人类语言之间沟通的桥梁,以实现人机交流的目的。

 

 

 2.为什么需要nlp

  

 

  网络中大部分的数据都是非结构化的,例如:文章、图片、音频、视频…,想要处理这些非结构化的数据就需要利用 NLP 技术

  为了能够分析和利用这些文本信息,我们就需要利用 NLP 技术,让机器理解这些文本信息,并加以利用。

 

3.nlp中的两大核心任务

  

 

 

   

  NLP 有2个核心的任务:

  自然语言理解 

    自然语言理解的5个难点:

    1. 语言的多样性
    2. 语言的歧义性
    3. 语言的鲁棒性
    4. 语言的知识依赖
    5. 语言的上下文

  自然语言生成 – NLG

    NLG 的6个步骤:

    1. 内容确定 – Content Determination
    2. 文本结构 – Text Structuring
    3. 句子聚合 – Sentence Aggregation
    4. 语法化 – Lexicalisation
    5. 参考表达式生成 – Referring Expression Generation|REG
    6. 语言实现 – Linguistic Realisation

 

4.常见的NLP 任务

  分词、词嵌入、新词发现、拼写提示、词性标注、文本分类、机器翻译、自动摘要、阅读理解、情感分析、搜索引擎、QA问答、聊天机器人、知识图谱

 

 

二:知识图谱

1.说明

  知识图谱是由 Google 公司在 2012 年提出来的一个新的概念。

  自然语言生成 – NLG人类可以识别的信息,可以使用知识图谱进行展示。

  【所以,知识图谱也是NLP的一个典型应用

  

2.定义

  知识图谱的两大核心要素是实体和关系,那么当然首先我们面临的任务就是从这些文献中抽取实体和关系,然后再是构建图,以及存储。

  

 

 

3.为什么需要图

  一图胜千言

 

  知识图谱是人工智能很重要的一个分支, 人工智能的目标为了让机器具备像人一样理性思考及做事的能力

  

 

 

 

4.抽取

  1、抽取实体Name Entity Recognition

    Name Entity:关注的实体,问题不同关注的不同,往往包含:人名地名位

  2、Relation Extraction关系抽取

    可以看做分类问题,输入一堆信息,输出一个关系

 

  例如:机器能读完一本哈利波特之后,懂得书中有哪些实体以及实体之间的关系。

 

5.抽取处理步骤

  方式 1:传统机器学习的 NLP 流程

   

 

  

  方式 2:深度学习的 NLP 流程

   

 

 

  

  实体抽取是一项非常常见的 NLP 任务,实现它的方法有多种,大体而言分为两个方向:

    i)基于实体名字典进行字符匹配抽取;

    ii)用序列预测模型进行抽取。

      序列预测模型又可以选用机器学习模型,比如条件随机场(CRF);或选用神经网络,比如 CRF+LSTM,或 CRF+BERT等。

6.构建图

  在构建类似的图谱过程当中,主要涉及以下几个方面的自然语言处理技术:

    实体命名识别(Name Entity Recognition)
    关系抽取(Relation Extraction)
    实体统一(Entity Resolution)
    指代消解(Coreference Resolution)

7.存储

  知识图谱主要有两种存储方式:

  • 一种是基于RDF的存储;
  • 另一种是基于图数据库的存储。

  

 

 

8.图数据库neo4j

  Neo4j系统目前仍是使用率最高的图数据库,它拥有活跃的社区,而且系统本身的查询效率高,但唯一的不足就是不支持准分布式

   

  可以参考本人写的文档:https://www.cnblogs.com/juncaoit/p/16301001.html

 

 

 

三:我们的实现

1.NLP的难点

  最典型的知识图谱,比较复杂。

  我们的业务应该不需要这么复杂。

  

 

 

2.遇到的问题

  1.我们要做什么,业务场景是否符合

    或者说,我们的图要做成什么样子,可否有示意图。

  2.使用哪种算法,是否需要复杂的算法,算法需要一点时间选取和学习【CNN,RNN,GCN】

  3.算法得到的结果存库的难题,

    或者说如何将实体和关系拿到

 

 

四:参考文档

1.

  自然语言处理(NLP)之五:知识图谱:https://blog.csdn.net/xunyishuai5020/article/details/123983142

  【Python+中文NLP】知识图谱系列(1)——构建流程:https://blog.csdn.net/walk_power/article/details/109561883?spm=1001.2014.3001.5502

  【Python+中文NLP】知识图谱系列(2)——知识存储:https://blog.csdn.net/walk_power/article/details/110248210?spm=1001.2014.3001.5502

  机器学习/NLP/深度学习/知识图谱【贪心学院】:https://ke.qq.com/course/350394

  自然语言处理-Natural language processing | NLP:https://easyai.tech/ai-definition/nlp/

  什么是 NLP (自然语言处理):https://blog.csdn.net/yejuliali/article/details/115912012

   【一】NLP简介:https://blog.csdn.net/qq_42030496/article/details/119061397

  nlp-知识图谱简介:https://blog.csdn.net/qq_42240729/article/details/112393851

 

 posted on 2022-05-19 15:34  曹军  阅读(2918)  评论(0编辑  收藏  举报