摘要:
作者:尘心链接:https://zhuanlan.zhihu.com/p/76003775 简述 文本分类在文本处理中是很重要的一个模块,它的应用也非常广泛,比如:垃圾过滤,新闻分类,词性标注等等。它和其他的分类没有本质的区别,核心方法为首先提取分类数据的特征,然后选择最优的匹配,从而分类。但是文本 阅读全文
摘要:
前言 CRF++是著名的条件随机场的开源工具,也是目前综合性能最佳的CRF工具。在这里我们简单介绍一下windows系统下CRF++的使用。 一、工具包的下载: CRF 的工具有两种,一种是支持Linux环境的,一种是支持Windows环境的,大家可以自行根据自己的系统进行下载。 (在此我下载的是C 阅读全文
摘要:
Bidirectional LSTM-CRF Models for Sequence Tagging abstract: This paper systematically proposed four model, respectively named LSTM, LSTM+CRF, Bi-LSTM 阅读全文
摘要:
PCA在机器学习中经常被用到,是数据预处理的重要步骤。它主要基于以下考虑: 高维特征中很多特征之间存在相关性,含有冗余信息 相比于低维数据,高维数据计算更复杂 PCA的数学原理 如下图,平面上有很多二维空间的特征点,如果想对这些特征点做特征降维(变为一维),应该怎么做呢?大家应该都知道需要进行投影, 阅读全文
摘要:
1. 任务定义、目标和研究意义 关系定义为两个或多个实体之间的某种联系,实体关系学习就是自动从文本 中检测和识别出实体之间具有的某种语义关系,也称为关系抽取。关系抽取的输 出通常是一个三元组(实体 1,关系,实体 2)。例如,句子“北京是中国的首都、 政治中心和文化中心”中表述的关系可以表示为(中国 阅读全文
摘要:
第三章 实体识别与链接 1. 任务定义、目标和研究意义 实体是文本中承载信息的重要语言单位,也是知识图谱的核心单元。 命名实体识别是指识别文本中的命名性实体,并将其划分到指定类别的任 务[Chinchor & Robinson, 1997]。常用实体类别包括人名、地名、机构名、日期等。 实体链接主要 阅读全文
摘要:
第二章 知识表示学习 1. 任务定义、目标和研究意义 知识表示是知识获取与应用的基础,因此知识表示学习问题,是贯穿知识库 的构建与应用全过程的关键问题。人们通常以网络的形式组织知识库中的知识, 网络中每个节点代表实体(人名、地名、机构名、概念等),而每条连边则代表 实体间的关系。然而,基于网络形式的 阅读全文
摘要:
论文标题:Translating Embeddings for Modeling Multi-relational Data 标题翻译:多元关系数据翻译嵌入建模 摘要: 考虑多元关系数据的实体和关系在低维向量空间的嵌入问题。我们的目标是提出一个权威模型,该模型比较容易训练,包含一组简化了的参数,并且 阅读全文
摘要:
Bert: Bidirectional Encoder Representations from Transformers. 主要创新点:Masked LM 和 Next sentence prediction。 NNLM:参考 :http://d0evi1.com/nnlm/ Bert是一个预训练 阅读全文
摘要:
参考:http://www.datagrand.com/blog/knowledge-map.html 一、什么是知识图谱? 知识图谱是由 Google 公司在 2012 年提出来的一个新的概念。从学术的角度,我们可以对知识图谱给一个这样的定义:“知识图谱本质上是语义网络(Semantic Netw 阅读全文