论文阅读笔记 --- 图模互补:知识图谱与大模型融合综述 --- 按参考文献整理
论文阅读笔记 --- 图模互补:知识图谱与大模型融合综述 --- 按参考文献整理
关于
- 首次发表日期:2024-09-13
- 论文原文链接:http://xblx.whu.edu.cn/zh/article/doi/10.14188/j.1671-8836.2024.0040/
- 将文章中的参考文献整理一下,基本保持原文的目录结构
引言、相关介绍
- Knowledge Graphs: Opportunities and Challenges
- 24 Mar 2023
- 传统的图谱构建、补全技术也面临许多难题,如数据获取、实体识别、知识抽取和实体消歧等。
- Knowledge Extraction with No Observable Data
- 6 September 2019
- https://github.com/snudatalab/KegNet
- 知识抽取是从各种数据源中提取有价值的信息,涵盖了结构化和半结构化文本数据、非结构化文本数据等场景。在(半)结构化数据的知识抽取中,模型通过简单的规则和固定的模式,从结构化数据(如关系数据库)或半结构化数据(如维基百科)中实现知识抽取。而非结构化数据的知识抽取是抽取任务的难点,一般包括实体识别、关系抽取和事件抽取,需从文本中抽取原子信息、实体间的语义关系等。例如生成网络KEGNET,在没有可观测数据的情况下进行知识抽取。
- A review: Knowledge reasoning over knowledge graph
- 1 March 2020
- 早期的知识图谱推理基于一定的规则和限制,需要依赖规则、假设等前提条件。
- NeuInfer: Knowledge Inference on N-ary Facts
- January 2020
- https://github.com/gsp2014/NeuInfer
- 随着机器学习的研究不断深入,神经网络模型Neulnfer从主三元组和辅助描述构成的事实中进行未知元素推理。
- KnowledGPT: Enhancing Large Language Models with Retrieval and Storage Access on Knowledge Bases
- Submitted on 17 Aug 2023
- 知识图谱可以提供一种解释和推理知识的手段,用于探究大模型内部复杂的工作步骤和推理过程。例如个性化知识库与大模型集成检索框架KnowledGPT,提高了处理复杂搜索和歧义的能力
- Joint Knowledge Graph and Large Language Model for Fault Diagnosis and Its Application in Aviation Assembly
- Date of Publication: 08 March 2024
- 知识图谱与大模型融合是一个热门研究领域
- Unifying Large Language Models and Knowledge Graphs: A Roadmap
- 提出了统一大模型与知识图谱的前瞻性路线图,总结了现有的大模型与知识图谱的先进技术,并讨论了大模型与知识图谱融合的相关挑战和发展方向。
大模型增强知识图谱
增强知识图谱构建
- ChatIE: Zero-Shot Information Extraction via Chatting with ChatGPT
- Submitted on 20 Feb 2023 (v1), last revised 27 May 2024 (this version, v2)
- https://github.com/cocacola-lab/chatie
- ChatIE将实体抽取、命令实体识别和事件抽取任务转化为多回合问答问题,旨在将复杂的信息抽取任务分解为多个简单的子任务,并设计提示词输入ChatGPT,在多个信息提取数据集上取得良好效果。
- 不涉及大模型微调任务
- 通过提示工程抽取信息
- ChatExtract: Extracting Accurate Materials Data from Research Papers with Conversational Language Models and Prompt Engineering
- Submitted on 7 Mar 2023 (v1), last revised 21 Feb 2024 (this version, v3)
- ChatExtrac设计了一种强迁移性的数据提取方法,其核心通过构建一系列用于提取结构化数据的工程提示词,实现大模型在零样本学习的自动识别和提取数据功能,并且ChatExtract可以应用于各种对话式大模型,产生高质量的数据提取结果。
- 不涉及大模型微调任务
- 通过提示工程提取提示问题集
- AutoKG: LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities and Future Opportunities
- Submitted on 22 May 2023 (v1), last revised 18 Aug 2024 (this version, v3)
- 在处理知识密集型任务时,为了解决大模型无法捕捉到复杂的关系动态,AutoKG提出一种轻量级和高效的自动化知识图构建方法。与传统的通过语义相似性搜索方式不同,AutoKG使用预训练大模型构建简化的知识图谱。AutoKG构建的知识图与传统的知识图结构不同,它以关键字作为节点,记录各个节点间的相关性权重,AutoKG会根据关键词之间的关联程度建立知识图中的边。但AutoKG仅仅在外部知识库的提取关键词阶段,利用大模型的信息抽取能力,没有在后续丰富知识图阶段结合大模型。
- 通过预训练大模型提取关键词
- Does Synthetic Data Generation of LLMs Help Clinical Text Mining?
- Submitted on 8 Mar 2023 (v1), last revised 10 Apr 2023 (this version, v2)
- 探索大模型在医疗保健领域实体抽取的效果,通过大模型生成大量高质量带标签的训练数据,并将其作为提示信息局部微调大模型。实验结果表明,微调大模型相较于通用大模型,性能有较好的提升。
- 利用ChatGPT生成标注样本
- Extract, Define, Canonicalize: An LLM-based Framework for Knowledge Graph Construction
- Submitted on 5 Apr 2024
增强知识图谱补全
知识图谱的构建往往是不完备的,传统的知识图补全任务利用知识图谱的结构信息预测三元组中缺失的实体,但是在解决长尾实体时需要付出很高的代价。大模型可作为额外知识库提取可信知识,完成知识图谱的补全。
- Exploring Large Language Models for Knowledge Graph Completion
- Submitted on 26 Aug 2023 (v1), last revised 18 Feb 2024 (this version, v4)
- https://github.com/yao8839836/kg-llm
- 一种做法是直接将大模型应用在知识图谱补全任务中,将三元组分类、关系预测和实体(链接)预测转化为提示文本,通过提示大模型生成预测结果。例如文献[67]构建了以三元组的实体和关系描述作为提示,在微调大模型KG-ChatGLM-6B和KG-LLaMA(7B和13B)上进行实验,在补全任务中取得了较好的性能。
- 知识图谱内嵌大模型
- KICGPT: Large Language Model with Knowledge in Context for Knowledge Graph Completion
- Submitted on 4 Feb 2024 (v1), last revised 23 Feb 2024 (this version, v2)
- https://github.com/weiyanbin1999/kicgpt
- 而另一种补全方法则是间接利用提示大模型。例如KICGPT集成大模型与传统的结构感知模型(知识补全检索器),检索器对链接预测任务中缺失三元组进行查询,根据分数排序生成候选实体列表,然后以结构知识编码作为大模型情景学习示例,重新对候选实体列表进行排序。
- 大模型作为额外知识库
- Contextualization Distillation from Large Language Model for Knowledge Graph Completion
- Submitted on 28 Jan 2024 (v1), last revised 24 Feb 2024 (this version, v3)
- https://github.com/david-li0406/contextulization-distillation
- 与之相似,文献[69]通过提示大模型,为三元组生成出高质量的上下文描述,之后借助传统的补全方案训练模型,间接通过大模型补全知识图谱。
- 大模型作为训练数据生成器
- Making Large Language Models Perform Better in Knowledge Graph Completion
- Submitted on 10 Oct 2023 (v1), last revised 14 Apr 2024 (this version, v2)
- https://github.com/zjukg/kopa
- 然而简单的问答方式无法利用大模型的推理能力,缺乏对知识图谱结构中实体和关系的描述,大模型可能无法理解知识图谱的结构信息。为实现更有效和准确的图谱补全,学者们将知识图谱中的实体、关系等结构信息融入大模型,使大模型具有结构感知推理能力。文献[70]提出了一种名为KoPA的知识前缀适配器,将知识图谱结构信息整合到大模型中。KoPA模型将知识图谱结构信息进行知识嵌入,并投射到文本空间。借助KoPA生成的虚拟知识令牌(Token)增强输入提示序列微调大模型,使得大模型能够在结构感知状态下解码指令的答案,提高了大模型在知识图谱补全任务中的性能。
- 知识图谱内嵌大模型
增强知识图谱推理
- 知识图谱与大模型融合
- 2022年5月
- 以往的知识图谱推理任务中,研究人员利用知识计算进行显式的推理,借助深度学习模型将实体和关系嵌入到高维向量空间实现推理[71]。不过该方法依赖于知识图谱自身的知识,缺乏“世界知识”支撑,大模型的到来使得通识知识和知识图谱联合推理成为了可能。
- Evaluating and Enhancing Large Language Models for Conversational Reasoning on Knowledge Graphs
- Submitted on 18 Dec 2023 (v1), last revised 4 Feb 2024 (this version, v2)
- LLM-ARK [72] 不访问模型参数直接利用大模型作为代理,将多跳推理任务表示为强化学习序列决策问题,通过全文本环境提示聚合多尺度输入,使大模型获得丰富信息状态的嵌入表示。具体步骤为:LLM-ARK将知识图谱推理表述为一个由六元组 \((S, O, A, T, R, \gamma)\) 描述的马尔可夫决策过程 (MDP)。其中, \(S\) 描述环境的状态集合; \(O\) 用于观察环境的完整状态; \(A\) 表示下—步可能发生的行动; \(T\) 记录状态的更新; \(R\) 表示奖励信号; \(\gamma\)表示奖励折扣因子,并且引入近端策略优化(PPO)强化学习算法,使模型在推理任务中不断学习。实验表明,模型LLaMA-2-7B-ARK在二跳推理任务中表现出优越的性能。
- 大模型引导知识图谱推理
- Complex Logical Reasoning over Knowledge Graphs using Large Language Models
- Submitted on 2 May 2023 (v1), last revised 31 Mar 2024 (this version, v3)
- https://github.com/akirato/llm-kg-reasoning
- LARK [73] 也利用大模型引导知识图谱的复杂推理,不同的是它将复杂的知识图谱推理转化为上下文知识图谱搜索和逻辑查询推理的两个步骤组合,将多操作复杂逻辑查询分解为大模型更擅长的单操作基本查询,最后将检索到的邻域和分解的查询转换为大模型提示,获取输出结果;同时利用大模型评估最终答案集,LARK利用图提取算法和大模型双方的优势实现高性能的复杂推理。
- 大模型引导知识图谱推理
- ChatRule: Mining Logical Rules with Large Language Models for Knowledge Graph Reasoning
- Submitted on 4 Sep 2023 (v1), last revised 22 Jan 2024 (this version, v3)
- https://github.com/RManLuo/ChatRule
- 在传统演绎推理方向,推理规则挖掘存在资源成本较大、逻辑规则缺乏可扩展性、密集型规则搜索效果不佳等问题,很难扩展到大规模的知识图谱。而大模型能够理解自然语言文本,利用内化到深度学习模型中的语义知识和结构信息生成有意义的规则,结合知识图谱的知识,实现辅助挖掘知识图谱推理的规则及评估方案。例如规则生成器ChatRule[74],框架如图3所示。ChatRule以知识图中的规则实例作为大模型提示,生成一组粗糙的候选规则,设计逻辑规则评分器过滤不合要求的规则,最后采用思维链(CoT)[75]强化推理能力的大模型验证规则的正确性,消除大模型潜在的虚假规则。
- 大模型作为规则生成器
增强知识图谱问答
- Hic-KGQA: Improving multi-hop question answering over knowledge graph via hypergraph and inference chain
- 9 October 2023
- 检索-推理结构
- 传统基于知识图谱的问答系统(KBQA),如检索-推理结构[76]、基于语义解析框架[77],这些模型面临需要大量训练数据作支撑、构建过程对人类专家过度依赖,以及专业系统泛化能力不足等问题。
- Knowledge Graph Question Answering with semantic oriented fusion model
- 7 June 2021
- 基于语义解析框架
- 传统基于知识图谱的问答系统(KBQA),如检索-推理结构[76]、基于语义解析框架[77],这些模型面临需要大量训练数据作支撑、构建过程对人类专家过度依赖,以及专业系统泛化能力不足等问题。
- Chain-of-Knowledge: Grounding Large Language Models via Dynamic Knowledge Adapting over Heterogeneous Sources
- Submitted on 22 May 2023 (v1), last revised 21 Feb 2024 (this version, v4)
- https://github.com/damo-nlp-sg/chain-of-knowledge
- 而图模互补为知识图谱问答系统创造新的机会,现今增强问答模型通过微调技术或直接应用大模型实现相关操作[78]
- LLM-assisted Knowledge Graph Engineering: Experiments with ChatGPT
- Submitted on 13 Jul 2023
- 更有学者探讨了ChatGPT在SPARQL查询任务中的潜力[79]
- Leveraging LLMs in Scholarly Knowledge Graph Question Answering
- Submitted on 16 Nov 2023
- https://github.com/huntila/scholarly-kgqa
- 文献[80]提出了一种利用大模型在少样本情况下回答学术知识图谱问题的方法。具体步骤为:对于一个目标问题,模型通过分析训练集中的问题,找到与测试问题相似的问题;以这些相似问题作为提示输入大模型,生成目标问题的SPARQL查询,最终通过查询知识图谱获取答案。此过程不涉及大模型预训练,减少了计算资源和时间的消耗。研究表明,该模型在SciQA-one挑战基准中获取较好的成绩。
- 通过提示工程生成SPARQL查询
- ChatKBQA: A Generate-then-Retrieve Framework for Knowledge Base Question Answering with Fine-tuned Large Language Models
- Submitted on 13 Oct 2023 (v1), last revised 30 May 2024 (this version, v2)
- https://github.com/lhrlab/chatkbqa
- ChatKBQA[81]则使用指令调优技术对开源大模型进行微调,使大模型获得令人满意的语义解析能力,利用大模型将新的自然语言问题转换为根据候选的逻辑形式,最后通过检索转换逻辑形式中的实体信息,生成相对应的SPARQL查询。ChatKBQA将大模型强大的语义解析功能和知识图谱可解释性相结合,为图模互补引入了一种新的思想图查询(GQoT)范式,更好地利用外部知识提高问答的可解释性,同时减少大模型的幻觉现象。
- 微调大模型生成SPARQL查询
- Knowledgeable Preference Alignment for LLMs in Domain-specific Question Answering
- Submitted on 11 Nov 2023 (v1), last revised 10 Jun 2024 (this version, v3)
- https://github.com/zjukg/knowpat
- 与大模型对话增强路径推理和检索的方式不同,KnowPAT[82]提出了一个用于处理领域中特定问题回答的偏好对齐框架,通过知识偏好增强知识图感知问答的全新方法。KnowPAT认为大模型应该利用领域知识来生成可靠的答案,KnowPAT构建了风格偏好集和知识偏好集。此外,KnowPAT设计了一个新的对齐目标,将大模型偏好与人类偏好对齐,为真实场景问答领域训练一个更可靠和友好的问答系统。不过KnowPAT模型无法适用于某些领域,如在医学领域、计算机科学领域,与原始模型相比KnowPAT的能力出现明显的下降。
- 微调知识偏好的大模型
- Bring Your Own KG: Self-Supervised Program Synthesis for Zero-Shot KGQA
- Submitted on 14 Nov 2023 (v1), last revised 22 May 2024 (this version, v2)
- https://github.com/amazon-science/BYOKG-NAACL24
- BYOKG[83]设计一个通用的问题回答系统,旨在提高模型的通用性和便捷性,并且无需任何人工标注数据,就能够在任何知识图上运行。该系统受人类好奇心驱动学习的启发,首先采用无监督学习方式,通过图遍历学习未知知识图谱。并借助大模型生成自然语言问题补充探索语料库,最后使用检索增强推理实现问答预测。
- 大模型作为补充语料库
知识图谱增强大模型
增强大模型自身性能
知识图谱构建预训练语料库
- The Woman Worked as a Babysitter: On Biases in Language Generation
- Submitted on 3 Sep 2019 (v1), last revised 23 Oct 2019 (this version, v2)
- https://github.com/ewsheng/nlg-bias
- 研究表明[85],使用结构化的数据可以提高大模型的性能,有助于大模型确认事实性问题,从模型本身的角度避免幻觉与编造。因此在大模型预训练阶段,可将知识图谱中的结构化信息(实体、关系、链接路径)作为训练数据,增强大模型自身涌现能力。
- KELM语料库: Knowledge Graph Based Synthetic Corpus Generation for Knowledge-Enhanced Language Model Pre-training
- Submitted on 23 Oct 2020 (v1), last revised 13 Mar 2021 (this version, v2)
- https://github.com/google-research-datasets/KELM-corpus
- 例如KELM语料库、通用模型KGPT为大模型提供基于知识图谱转化的真实文本信息。
- 例如文献[17]设计TEKGEN语言化管道模型将实体子图转换为高质量的语料库(KELM)。该管道包括启发式对齐器、三元组转换为文本的生成器、实体子图创建器、删除低质量输出的后处理过滤器四个部分。通过使用序列到序列模型(T5模型[86])对训练语料进行微调,生成高质量的自然语言文本。
- Text-to-Text Pre-Training for Data-to-Text Tasks
- Submitted on 21 May 2020 (v1), last revised 9 Jul 2021 (this version, v3)
- https://github.com/google-research-datasets/ToTTo
- 通过使用序列到序列模型(T5模型[86])对训练语料进行微调,生成高质量的自然语言文本。
- KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation
- Submitted on 5 Oct 2020 (v1), last revised 11 Oct 2020 (this version, v2)
- 例如KELM语料库、通用模型KGPT为大模型提供基于知识图谱转化的真实文本信息。
- KGPT[18]是一种知识增强的预训练语言模型,利用自动对齐知识图谱和文本构建基于知识的语料库KGTEXT,并选择高度语义重叠的对齐策略去噪。同时模型本身具有极强的泛化能力,在零样本和少样本学习上表现出了较好的性能。
- ANALOGYKB: Unlocking Analogical Reasoning of Language Models with A Million-scale Knowledge Base
- Submitted on 10 May 2023 (v1), last revised 17 May 2024 (this version, v2)
- https://github.com/siyuyuan/analogykb
- 除此之外,预训练语料库还包括增强大模型类比推理能力的ANALOGYKB语料库[87]。
知识图谱内嵌大模型
- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
- Submitted on 11 Oct 2018 (v1), last revised 24 May 2019 (this version, v2)
- https://github.com/google-research/bert
- 事实上,在BERT[88]和GPT为代表的预训练模型发布不久,不少学者已经开始研究知识增强型预训练模型[89,90]。
- K-BERT: Enabling Language Representation with Knowledge Graph
- Submitted on 17 Sep 2019
- https://github.com/autoliuweijie/K-BERT
- https://github.com/alibaba/EasyNLP
- 例如将知识图谱的三元组作为领域知识注入到句子的K-BERT[89],以及实体链接模型KnowBERT[90]。
- Knowledge Enhanced Contextual Word Representations
- Submitted on 9 Sep 2019 (v1), last revised 31 Oct 2019 (this version, v2)
- https://github.com/allenai/kb
- KnowBERT设计一种使用集成实体链接来检索相关的实体嵌入的方法,以词到实体的关注形式更新上下文词的表示,并将多个知识库嵌入到大规模模型中实现知识增强。
- ERNIE: Enhanced Language Representation with Informative Entities
- Submitted on 17 May 2019 (v1), last revised 4 Jun 2019 (this version, v3)
- https://github.com/thunlp/ERNIE
- 如今知识内嵌大模型通常是采用对齐技术将知识图谱与自然语言相关联。例如ERNIE[91]和ERNIE 3.0[92]。ERNIE是一种增强语言表示模型,通过构造结构化知识编码模块,将知识纳入语言理解,显著提高知识驱动的性能。
- ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation
- Submitted on 5 Jul 2021
- https://github.com/PaddlePaddle/PaddleNLP/tree/develop/legacy/model_zoo/ernie-3.0
- ERNIE 3.0则是对其进行改进,同时融合自回归网络和自编码网络,使用大量纯文本和大规模知识图谱进行训练。
- SKILL: Structured Knowledge Infusion for Large Language Models
- Submitted on 17 May 2022
- 不同于上述模型,SKILL[93]设计一种直接在知识图谱的事实三元组上训练T5模型的方法,避免了知识图模型之间的差异,使模型能够轻易学习内嵌的事实化知识,应用在各种行业领域的问答工作中。
- KLMo: Knowledge Graph Enhanced Pretrained Language Model with Fine-Grained Relationships
- November 7–11, 202
- 此外,知识增强型大模型还包括集成实体间的细粒度关系的预训练语言模型KLMo[94]
- KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation
- Submitted on 13 Nov 2019 (v1), last revised 23 Nov 2020 (this version, v3)
- https://github.com/THU-KEG/KEPLER
- 统一知识嵌入和预训练语言表示模型KEPLER
- Structured Knowledge Grounding for Question Answering
- Submitted on 17 Sep 2022 (v1), last revised 5 Jun 2023 (this version, v3)
- 将知识图数据转换为自然语言的嵌入模型[96]
- KnowGPT: Knowledge Graph based Prompting for Large Language Models
- Submitted on 11 Dec 2023 (v1), last revised 4 Jun 2024 (this version, v5)
- 基于ChatGPT的黑箱知识注入方法KnowGPT[97]
- Knowledge Graph-Enhanced Molecular Contrastive Learning with Functional Prompt
- 2022/6/28
- 文献[98]提出一种基于功能提示的知识图增强分子对比学习(KANO)方法,利用元素导向的图增强对比学习框架实现化学领域专业知识图谱的嵌入,同时知识图谱还用于生成功能提示,帮助大模型在微调过程中更好地理解任务相关知识,并为预测结果提供合理的化学解释。
- pdf: https://ojs.aaai.org/index.php/AAAI/article/download/20313/20072
增强大模型推理
- Large Language Models' Understanding of Math: Source Criticism and Extrapolation
- Submitted on 12 Nov 2023
- 大模型在处理结构化推理方面(如解决数学问题[99])表现不佳
- Tree of Thoughts: Deliberate Problem Solving with Large Language Models
- Submitted on 17 May 2023 (v1), last revised 3 Dec 2023 (this version, v2)
- https://github.com/princeton-nlp/tree-of-thought-llm
- 思维树(ToT)
- Graph of Thoughts: Solving Elaborate Problems with Large Language Models
- Submitted on 18 Aug 2023 (v1), last revised 6 Feb 2024 (this version, v4)
- https://github.com/spcl/graph-of-thoughts
- 思维图(GoT)
- CohortGPT: An Enhanced GPT for Participant Recruitment in Clinical Study
- Submitted on 21 Jul 2023
- 思维链是一种通过少样本示例提示来增强大型模型推理任务的方法,它能够通过生成中间推理步骤执行复杂的推理,例如CohortGPT[102]采用链式思维采样策略辅佐领域知识图增强大模型在医学领域推理能力。
- Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting
- Submitted on 7 May 2023 (v1), last revised 9 Dec 2023 (this version, v2)
- https://github.com/milesaturpin/cot-unfaithfulness
- 然而,思维链模型在使用偏见特征时可能会导致推理结果受到影响[103],改变其原本的方向。
- JointLK: Joint Reasoning with Language Models and Knowledge Graphs for Commonsense Question Answering
- Submitted on 6 Dec 2021 (this version), latest version 2 May 2022 (v2)
- https://github.com/yueqing-sun/jointlk
- JointLK模型则是在QA-GNN模型上的优化,由于QA-GNN仅将QA上下文作为一个额外节点附加到知识图,无法完成双向交互。而JointLK通过密集的双向注意力模块实现语言模型和知识图谱的多步联合推理。具体来说,JointLK模型将任务文本信息与外部知识图谱数据这两种不同模态的信息结合起来,设计了一个联合推理模块,在每个问题标记和每个知识图谱节点之间生成细粒度的双向注意映射,实现不同模态信息的融合。同时,JointLK模型设计了一个动态图裁剪模块,通过移除无关的图节点进行去噪,以确保模型正确地使用完整和适当的证据进行推理。实验结果表明,JointLK在解决带有否定词的复杂推理问题方面表现出色。
- QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question Answering
- Submitted on 13 Apr 2021 (v1), last revised 13 Dec 2022 (this version, v5)
- JointLK[104]和QA-GNN[105]则采用图神经网络(GNN)和知识图谱来提高模型推理能力。相较于以往文本与知识独立的模式,QA-GNN将问题上下文与检索到的知识连接起来,构成一个联合图。
- RoBERTa: A Robustly Optimized BERT Pretraining Approach
- Submitted on 26 Jul 2019
- https://github.com/facebookresearch/fairseq
- 实验表明,相较于比RoBERTa[106],QA-GNN表现出更好的效果。
- Deep Bidirectional Language-Knowledge Graph Pretraining
- Submitted on 17 Oct 2022 (v1), last revised 19 Oct 2022 (this version, v2)
- https://github.com/michiyasunaga/dragon
- DRAGON[107]模型在文本和知识图的深度双向联合(QA-GNN)的基础上,采用自监督学习策略。通过统一两个自我监督的推理任务,包括掩码语言建模(MLM)和链接预测,DRAGON模型实现了对文本和知识图的全面预训练。这种自监督学习策略使得模型能够更好地理解文本和知识图之间的关系,从而更准确地进行推理。
增强大模型检索
- Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
- Submitted on 22 May 2020 (v1), last revised 12 Apr 2021 (this version, v4)
- 知识图谱通过检索增强大模型是自然语言处理领域备受关注的研究方向之一。一种代表性的方法是检索增强生成(Retrieval-Augmented Generation,RAG)[108]。大模型自身无法精确处理知识密集型任务,也无法探究信息的来源和知识的更新,RAG旨在通过外部真实知识向量索引来解决大模型无法自我更新知识的问题。RAG是一种包含查询编码器(Query Encoder)、预训练检索器(Retriever)和预训练的生成式模型相结合的端到端训练方法。具体步骤为通过文档检索器检索潜在信息,将潜在文本作为输入信息的附加上下文执行大模型,最终获得文本目标序列。
- LaMDA: Language Models for Dialog Applications
- Submitted on 20 Jan 2022 (v1), last revised 10 Feb 2022 (this version, v3)
- 与之类似,LaMDA[39]模型包括LaMDA-Base和LaMDA-Research模型,在执行过程中,首先调用LaMDA-Base模型生成输出,但是输出结果可能存在不真实信息,模型会继续调用LaMDA-Research与信息检索系统进行多次交互,直到LaMDA-Research响应用户输出,将无法验证的结果进行替换。相较于RAG,LaMDA的检索范围较小,但检索结果的精确度相对较高。
- Improving language models by retrieving from trillions of tokens
- Submitted on 8 Dec 2021 (v1), last revised 7 Feb 2022 (this version, v3)
- 为了解决大模型内存开销过大的问题,RETRO[109]通过从大型语料库中检索相似文档块来增强语言模型,在处理下游知识密集任务时,小参数模型性能达到了GPT-3的表现效果。RAG[108]和RETRO[109]二者都需单独训练检索模型,并且在面对超大规模和更新性强的外部文档时,可能会导致计算成本的增加。
- Towards Verifiable Generation: A Benchmark for Knowledge-aware Language Model Attribution
- Submitted on 9 Oct 2023 (v1), last revised 23 May 2024 (this version, v2)
- 在检索的基础上,KaLMA[110]构建了一个基于检索、重新排序和生成的管道,检索增强大模型的知识感知属性,同时提出“Conscious Incompetence”的设置,即当语言模型意识到自己无法提供某些知识,会在文本中插入“[NA]”标记,表示该部分知识无法被验证。实验结果表明,KaLMA[110]在提高大模型的引用生成能力和检索准确性方面具有一定的潜力。
- Enhancing Multilingual Language Model with Massive Multilingual Knowledge Triples
- Submitted on 22 Nov 2021 (v1), last revised 19 Oct 2022 (this version, v4)
- https://github.com/ntunlp/kmlm
- 与上述不同,KMLM[111]是一种直接基于多语言三元组的知识增强型预训练方法,将三元组信息以代码形式转化为多语言文本,同时在预训练过程中附加文本的结构信息,实验结果表明,KMLM提高了隐性知识的推理能力,在跨语言知识密集型任务(事实知识检索)中表现出显著的性能改进。
增强大模型可解释性
- LMExplainer: Grounding Knowledge and Explaining Language Models
- Submitted on 29 Mar 2023 (v1), last revised 16 Jul 2024 (this version, v3)
- 传统解决模型可解释性问题的方法集中于模型内在和事后的解释,如可解释模型结构和事后特征选择。然而,这些方法在解释模型决策过程方面存在不足。近期研究通过多实例学习、注意矩阵和外部知识结构等手段提供了文本解释,但仍未完全理解模型的推理过程。LMExplainer[112]设计了一个知识增强的解释模块,将知识图谱与大模型相结合,采用知识图谱和图注意力网络(GAT)[113]提取大模型的关键决策信号,提供了全面、清晰、可理解的文本解释。其过程如图4所示,通过大模型生成输入语言的嵌入,同时从知识图谱中检索到相关知识以构建子图,以语言嵌入和子图作为图神经网络的输入,通过图注意力网络来获取注意力分数,生成最终的预测结果和决策的解释过程。实验结果显示,LMExplainer不仅提高了模型性能,并且可以更准确地解释模型推理过程。
- Graph Attention Networks
- Submitted on 30 Oct 2017 (v1), last revised 4 Feb 2018 (this version, v3)
- LMExplainer[112]设计了一个知识增强的解释模块,将知识图谱与大模型相结合,采用知识图谱和图注意力网络(GAT)[113]提取大模型的关键决策信号,提供了全面、清晰、可理解的文本解释。
- XplainLLM: A QA Explanation Dataset for Understanding LLM Decision-Making
- Submitted on 15 Nov 2023
- 同样的,XplainLLM[114]是首个捕捉大模型推理元素并通过人类可理解的解释呈现决策过程的数据集,满足大模型在决策过程中透明度、可解释性和可理解性的需求。通过结合知识图和图注意力网络,构建一个问题-答案-解释(QAE)三元组,将大模型推理过程与知识图谱中实体和关系相连接的。评估结果显示,使用解释后的大模型性能提高2.4%,并且在问答任务中具有更出色的可解释性和理解效果。
图模互补应用与展望
图模互补应用
- Large Language Models for Biomedical Knowledge Graph Construction: Information extraction from EMR notes
- Submitted on 29 Jan 2023 (v1), last revised 9 Dec 2023 (this version, v2)
- 临床诊断案例、电子健康记录等各类患者的医疗记录是计算机医疗领域的重要知识来源。大模型能够利用这些冗余的记录自动构建医学知识图谱[115]
- Leveraging A Medical Knowledge Graph into Large Language Models for Diagnosis Prediction
- Submitted on 28 Aug 2023
- 同时,图模互补系统还能够推理预测临床案例,推进医疗诊断决策系统的发展[116]
- GraphCare: Enhancing Healthcare Predictions with Personalized Knowledge Graphs
- Submitted on 22 May 2023 (v1), last revised 17 Jan 2024 (this version, v3)
- 如GraphCare[117]通过提示工程从丰富的临床知识中抽取知识,为患者构建个性化医疗知识图谱,并利用双注意增强(BAT)图神经网络(GNN)模型进行下游任务预测。
- GPT-RE: In-context Learning for Relation Extraction using Large Language Models
- Submitted on 3 May 2023 (v1), last revised 9 Dec 2023 (this version, v3)
- 对于更复杂实体关系抽取,GPT-RE[118]采取任务感知检索和金标签(gold label)诱导推理的方法,实现关系抽取的情境学习。
- GPT-RE采用了两种任务感知检索方法,通过编码表示强调文本中的实体与关系信息,接着通过金标诱导推理方法(类似思维链)注入推理逻辑,获取大量输入与标签的对齐演示案例,最后通过提示大模型实现关系抽取的高精确性和可解释性。
- REALM: RAG-Driven Enhancement of Multimodal Electronic Health Records Analysis via Large Language Models
- Submitted on 10 Feb 2024
- 此外,为了避免幻觉现象,REALM模型[119]提出一种检索增强生成(RAG)驱动框架,能够从各种非结构化数据(临床记录和电子健康记录)中提取实体,并与外部专业知识图谱进行匹配,以确保模型输出结果的一致性和准确性。
- Exploring the Feasibility of ChatGPT for Event Extraction
- Submitted on 7 Mar 2023 (v1), last revised 9 Mar 2023 (this version, v2)
- 事件抽取
- ChatGPT Evaluation on Sentence Level Relations: A Focus on Temporal, Causal, and Discourse Relations
- Submitted on 28 Apr 2023 (v1), last revised 26 Jan 2024 (this version, v3)
- 时间关系探索
- Zero-shot Temporal Relation Extraction with ChatGPT
- Submitted on 11 Apr 2023
- 时间关系提取
- Temporal Knowledge Graph Forecasting Without Knowledge Using In-Context Learning
- Submitted on 17 May 2023 (v1), last revised 20 Oct 2023 (this version, v3)
- 但是由于时间知识图谱(TKG)是一个复杂时态多关系图数据结构,大模型无法直接理解结构化的时间关系数据,在时间知识图谱的预测方面具备一定潜力[123]。
- GenTKG: Generative Forecasting on Temporal Knowledge Graph with Large Language Models
- Submitted on 11 Oct 2023 (v1), last revised 16 Apr 2024 (this version, v5)
- https://github.com/mayhugotong/gentkg
- 如GenTKG[124]将指令调优大模型引入时间知识图谱,采用基于时间规则的检索策略实现时间关系的预测,且性能优于传统的规则式和嵌入式方案。同时GenTKG通过轻量级的指令调优技术,极大程度地降低了训练成本。
- Towards Benchmarking and Improving the Temporal Reasoning Capability of Large Language Models
- Submitted on 15 Jun 2023 (v1), last revised 27 Jun 2023 (this version, v2)
- https://github.com/damo-nlp-sg/tempreason
- 而大模型在时间知识推理方面[125]也面临着一些问题,大模型的时间推理能力会因时间信息的变化而产生偏差。
- Back to the Future: Towards Explainable Temporal Reasoning with Large Language Models
- Submitted on 2 Oct 2023 (v1), last revised 8 Oct 2023 (this version, v2)
- 为了解决这一问题,文献[126]利用时间知识图谱和大模型融合设计一个复杂时间推理的系统,该系统通过学习时间推理的上下文,实现对于未来事件发生的可解释预测。同时,该文献提出一个可解释时间推理(ExpTime)的多源指令调整数据集,其构架过程如图5(b)所示,借助时间知识图数据集及其时间推理路径完成构建任务。实验表明,该数据集能够提高大模型(LlaMA2)的事件预测和解释推理能力。
其他
大型开放知识库:
开源仓库:
- https://github.com/thunlp/OpenKE
- An Open-Source Package for Knowledge Embedding (KE)
- https://github.com/tatsu-lab/stanford_alpaca
- https://github.com/facebookresearch/fairseq
- https://github.com/alibaba/EasyNLP
- https://github.com/PaddlePaddle/PaddleNLP