10 2019 档案
摘要:一.在实体识别中,bert+lstm+crf也是近来常用的方法。这里的bert可以充当固定的embedding层,也可以用来和其它模型一起训练fine-tune。大家知道输入到bert中的数据需要一定的格式,如在单个句子的前后需要加入"[CLS]"和“[SEP]”,需要mask等。下面使用pad_s
阅读全文
摘要:import torch出现 ”from torch._C import * ImportError: DLL load failed: 找不到指定的模块“错误这里torch=1.0.1,torchvision=0.2.0。最后解决这个错误的手段是升级了numpy=1.17,python=3.6.3
阅读全文
摘要:文本摘要主要分为抽取式和生成式,抽取式就是从文章中抽取重要的句子作为文章的核心,之前也利用该方法做过相关工作,方法也较简单和直接,但往往不够连贯;生成式即根据文章自动生成文章核心内容,一般训练语料的格式为:标题-文章,和机器翻译有点像,这种方法需要大量的训练语料并不断的调优,但这种方法有时候会产生莫
阅读全文
摘要:一.通常关于文本聚类也都是针对已有的一堆历史数据进行聚类,比如常用的方法有kmeans,dbscan等。如果有个需求需要针对流式文本进行聚类(即来一条聚一条),那么这些方法都不太适用了,当然也有很多其它针对流式数据进行动态聚类方法,动态聚类也有很多挑战,比如聚类个数是不固定的,聚类的相似阈值也不好设
阅读全文
摘要:一.实体识别作为信息抽取中基础的也是重要的一步,其技术可以分为三类,分别是其于规则的方法、其于统计模型的方法以及基于深度学习的方法。 基于规则的方法,主要依靠构建大量的实体抽取规则,一般由具有一定领域知识的专家手工构建。然后将规则与文本进行匹配,识别出实体。 基于统计的方法,需要一定的标注语料进行训
阅读全文