随笔分类 - 自然语言处理
摘要:需要用处理英文文本,于是用到python中nltk这个包 依次过程是: 1、分句;2、分词;3、词性标注 然后4、命名实体识别 当然,词性标注和命名实体识别这两部可以使用Standford的词性标注和命名实体识别库 接着是命名实体识别: 但是效果似乎不好。。
阅读全文
摘要:因为之后的项目要用Spark来做分布式处理,所以开始接触DataFrame 需要先安装pyspark 然后导入SparkSession 然后实例化对象 或者 接着读取json文件 由于和服务器连接使用的软件是SecureCRT,在SecureCRT下怎样上传文件,在这篇博客下 接着进行一系列操作:
阅读全文
摘要:pyltp在win10下安装比较麻烦,因此参考以下安装方式, 1.下载 win10下python3.6 2.安装 下载好了以后, 在命令行下, cd到wheel文件所在的目录, 然后使用命令pip install wheel文件名安装. 3.测试 4.下载完整的models数据 下载models链接
阅读全文
摘要:安装 如果pynlpir.open()报错: raise RuntimeError("NLPIR function 'NLPIR_Init' failed.") RuntimeError: NLPIR function 'NLPIR_Init' failed. 则是证书过期问题, https://g
阅读全文
摘要:因为之后要做一个英文专利文本相似度分析的项目,所以先把文本预处理的流程放上来,以供参考,转自http://www.cnblogs.com/pinard/p/6756534.html 1. 英文文本挖掘预处理特点 英文文本的预处理方法和中文的有部分区别。首先,英文文本挖掘预处理一般可以不做分词(特殊需
阅读全文
摘要:之前就了解过TF-IDF,现在做一个回顾。 概念: TF(Term Frequency)词频:一个文档中关键词出现的次数/该文档的总词数, IDF(Inverse Document Frequency)逆文档频率: 如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了
阅读全文