[NLP] 知识抽取技术
目录
1 概述:知识抽取
定义
- 知识抽取通常指从非结构化文本中挖掘结构化信息。
例如,含有丰富语义信息的标签和短语。
这在业界被广泛应用于内容理解和商品理解等场景,通过从用户生成的文本信息中提取有价值的标签,将其应用于内容或商品上
- 知识抽取通常伴随着对所抽取标签或短语的分类
- 通常被建模为命名实体识别任务,通用的命名实体识别任务就是识别命名实体成分并将成分划分到地名、人名、机构名等类型上;
- 领域相关的标签词抽取将标签词识别,并划分到领域自定义的类别上,如:系列(空军一号、音速 9)、品牌(Nike、李宁)、类型(鞋、服装、数码)、风格(ins 风、复古风、北欧风)等。
关键技术
1、实体抽取:也就是命名实体识别,包括实体的检测(find)和分类(classify);
2、关系抽取:通常我们说的三元组(triple)抽取,一个谓词(predicate)带2个形参(argument);
3、事件抽取:相当于一种多元关系的抽取。
主要应用
- 1 命名实体作为索引和超链接。
- 2 情感分析的准备步骤,在情感分析的文本中需要识别公司和产品,才能进一步为情感词归类。
- 3 关系抽取(Relation Extraction)的准备步骤。
- 4 QA 系统,大多数答案都是命名实体。
知识抽取方法的分类
本文从标签词挖掘和标签词分类两个角度介绍知识抽取的经典方法。
将标签词挖掘方法分为无监督方法、有监督方法及远程监督方法,如图 所示。
标签词挖掘通过候选词挖掘和短语打分两个步骤筛选高打分的标签词,标签词分类通常将标签词抽取和分类联合建模,转化为命名实体识别的序列标注任务。
标签词挖掘
无监督方法
基于统计的方法
基于图的方法 Graph-Based Model
基于表征的方法 Embedding-Based Model
有监督方法
远监督方法
AutoPhrase
标签词分类
有监督方法
NER 序列标注模型
远监督方法
AutoNER
BOND
X 参考文献
- 【1】Campos R, Mangaravite V, Pasquali A, et al. Yake! collection-independent automatic keyword extractor[C]//Advances in Information Retrieval: 40th European Conference on IR Research, ECIR 2018, Grenoble, France, March 26-29, 2018, Proceedings 40. Springer International Publishing, 2018: 806-810. https://github.com/LIAAD/yake
- 【2】Mihalcea R, Tarau P. Textrank: Bringing order into text[C]//Proceedings of the 2004 conference on empirical methods in natural language processing. 2004: 404-411.
- 【3】Bennani-Smires K, Musat C, Hossmann A, et al. Simple unsupervised keyphrase extraction using sentence embeddings[J]. arXiv preprint arXiv:1801.04470, 2018.
- 【4】KeyBERT,https://github.com/MaartenGr/KeyBERT
- 【5】Witten I H, Paynter G W, Frank E, et al. KEA: Practical automatic keyphrase extraction[C]//Proceedings of the fourth ACM conference on Digital libraries. 1999: 254-255.
翻译内容:
- 【6】熊L,胡C,熊C,等。超越语言模型的开放领域Web关键词提取[J]。arXiv预印本arXiv:1911.02671,2019年
- 【7】Sun, S., Xiong, C., Liu, Z., Liu, Z., & Bao, J. (2020). Joint Keyphrase Chunking and Salience Ranking with BERT. arXiv preprint arXiv:2004.13639.
需要重写的内容是:
- 【8】张Y,杨J。使用格子LSTM的中文命名实体识别[C]。ACL 2018
- 【9】Li X, Yan H, Qiu X, et al. FLAT: Chinese NER using flat-lattice transformer[C]. ACL 2020.
- 【10】Shang J, Liu J, Jiang M, et al. Automated phrase mining from massive text corpora[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 30(10): 1825-1837.
- 【11】 Shang J, Liu L, Ren X, et al. Learning named entity tagger using domain-specific dictionary[C]. EMNLP, 2018.
- 【12】Liang C, Yu Y, Jiang H, et al. Bond: Bert-assisted open-domain named entity recognition with distant supervision[C]//Proceedings of the 26th ACM SIGKDD international conference on knowledge discovery & data mining. 2020: 1054-1064.
- 【13】美团搜索中NER技术的探索与实践,https://zhuanlan.zhihu.com/p/163256192

本文作者:
千千寰宇
本文链接: https://www.cnblogs.com/johnnyzen/p/18409362
关于博文:评论和私信会在第一时间回复,或直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
日常交流:大数据与软件开发-QQ交流群: 774386015 【入群二维码】参见左下角。您的支持、鼓励是博主技术写作的重要动力!
本文链接: https://www.cnblogs.com/johnnyzen/p/18409362
关于博文:评论和私信会在第一时间回复,或直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
日常交流:大数据与软件开发-QQ交流群: 774386015 【入群二维码】参见左下角。您的支持、鼓励是博主技术写作的重要动力!
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步