随笔分类 - Information Extraction
信息抽取
摘要:利用ocr将pdf转为docx 项目地址:https://github.com/jiangnanboy/pdf_to_docx 背景 该项目首先将pdf文件转为图片形式,再使用百度的paddleocr对这些图片文件分别进行识别,利用PPStructure对识别的内容进行结构化,最终将结构化的内容保存
阅读全文
摘要:参考我之前的一个项目给定title和keywords利用gpt2生成文本,从中可以看出只是利用了gpt2模型,没有其它模型上的改动或组合,变化的只是input部分,在input中,加入了title和keywords两部分。那么训练时候的model输入,就会有三部分:[BOS] + title + [
阅读全文
摘要:albert-fc for RE(Relation Extraction),中文关系抽取 项目地址:https://github.com/jiangnanboy/albert_re 概述 关系抽取是指从非结构化文本中抽取语义关系的一项基本任务。提取出来的关系通常发生在两个或多个特定类型的实体之间(例
阅读全文
摘要:albert-crf for SRL(Semantic Role Labeling),中文语义角色标注 项目地址:https://github.com/jiangnanboy/albert_srl 概述 自然语言的语义理解往往包括分析构成一个事件的行为、施事、受事等主要元素,以及其他附属元素(adj
阅读全文
摘要:albert-crf 项目地址:https://github.com/jiangnanboy/albert_ner 概述 利用huggingface/transformers中的albert+crf进行中文实体识别 利用albert加载中文预训练模型,后接一个前馈分类网络,最后接一层crf。利用al
阅读全文
摘要:gcn for prediction of protein interactions 项目地址:https://github.com/jiangnanboy/gcn_for_prediction_of_protein_interactions 利用各种图神经网络进行link prediction o
阅读全文
摘要:CNN4IE 项目地址:https://github.com/jiangnanboy/CNN4IE 中文信息抽取工具。使用CNN的不同变体进行信息抽取,以后会持续加入不同模型。该项目使用pytorch,python开发。 CNN4IE将各种改进版本的conv进行改动用于中文信息抽取。 Guide I
阅读全文
摘要:在文本校对中,现在的深度神经网络模型,如神经翻译模型seq2seq框架在文本纠错中也有一些应用,但这需要大规模语料去做训练,有时候效果还不一定好,或者效率不一定达到要求,另外这种end2end方法也不好解释。所以基于统计和规则的文本校对方法还是有一定应用价值的。文本校对中有一项是词的搭配校对,而词的
阅读全文
摘要:RNN4IE 项目地址:https://github.com/jiangnanboy/RNN4IE 本项目是本人在rnn基础上做的一些改动,用于信息抽取。 中文信息抽取工具。使用RNN的不同结构进行信息抽取,该项目使用pytorch,python开发。 Guide Intro Model Evalu
阅读全文
摘要:CNN4IE 项目地址:https://github.com/jiangnanboy/CNN4IE 本项目是本人打算使用CNN的不同变体进行信息抽取,未来会持续加入不同模型。 CNN4IE根据CNN的各种改进版本,对不同模型块进行融合,并将其用于中文信息抽取中。 Intro 目前主要实现中文实体抽取
阅读全文
摘要:一.简介 此模型采用bertBERT for Joint Intent Classification and Slot Filling进行意图识别与槽填充。 结构如下: 从上可知: 1.意图识别采用[cls]的输出进行识别 2.槽填充直接输出对应的结果进行序列标注,这里不使用mlm中的mask 3.
阅读全文
摘要:在《Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling》中的模型attention-based rNN model基础上,提出了slot-gate门。 通过slot-g
阅读全文
摘要:一.简介电影知识图谱问答,利用spark,neo4j以及hanlp完成一个简易的电影问答。二.要求 利用java-driver方式,使用cypher和apoc构建节点和关系,使用spark ml完成问句分类。 1.neo4j3.5.3 2.apoc3.5.0.13 3.jdk1.8 4.hanlp1
阅读全文
摘要:一.在实体识别中,bert+lstm+crf也是近来常用的方法。这里的bert可以充当固定的embedding层,也可以用来和其它模型一起训练fine-tune。大家知道输入到bert中的数据需要一定的格式,如在单个句子的前后需要加入"[CLS]"和“[SEP]”,需要mask等。下面使用pad_s
阅读全文
摘要:一.实体识别作为信息抽取中基础的也是重要的一步,其技术可以分为三类,分别是其于规则的方法、其于统计模型的方法以及基于深度学习的方法。 基于规则的方法,主要依靠构建大量的实体抽取规则,一般由具有一定领域知识的专家手工构建。然后将规则与文本进行匹配,识别出实体。 基于统计的方法,需要一定的标注语料进行训
阅读全文