随笔分类 -  自然语言处理

摘要:需要用处理英文文本,于是用到python中nltk这个包 依次过程是: 1、分句;2、分词;3、词性标注 然后4、命名实体识别 当然,词性标注和命名实体识别这两部可以使用Standford的词性标注和命名实体识别库 接着是命名实体识别: 但是效果似乎不好。。 阅读全文
posted @ 2018-06-03 23:35 嶙羽 阅读(466) 评论(0) 推荐(0) 编辑
摘要:因为之后的项目要用Spark来做分布式处理,所以开始接触DataFrame 需要先安装pyspark 然后导入SparkSession 然后实例化对象 或者 接着读取json文件 由于和服务器连接使用的软件是SecureCRT,在SecureCRT下怎样上传文件,在这篇博客下 接着进行一系列操作: 阅读全文
posted @ 2018-05-17 13:38 嶙羽 阅读(165) 评论(0) 推荐(0) 编辑
摘要:pyltp在win10下安装比较麻烦,因此参考以下安装方式, 1.下载 win10下python3.6 2.安装 下载好了以后, 在命令行下, cd到wheel文件所在的目录, 然后使用命令pip install wheel文件名安装. 3.测试 4.下载完整的models数据 下载models链接 阅读全文
posted @ 2018-05-14 16:19 嶙羽 阅读(462) 评论(0) 推荐(0) 编辑
摘要:安装 如果pynlpir.open()报错: raise RuntimeError("NLPIR function 'NLPIR_Init' failed.") RuntimeError: NLPIR function 'NLPIR_Init' failed. 则是证书过期问题, https://g 阅读全文
posted @ 2018-05-14 14:20 嶙羽 阅读(2202) 评论(0) 推荐(0) 编辑
摘要:因为之后要做一个英文专利文本相似度分析的项目,所以先把文本预处理的流程放上来,以供参考,转自http://www.cnblogs.com/pinard/p/6756534.html 1. 英文文本挖掘预处理特点 英文文本的预处理方法和中文的有部分区别。首先,英文文本挖掘预处理一般可以不做分词(特殊需 阅读全文
posted @ 2018-03-23 14:42 嶙羽 阅读(710) 评论(0) 推荐(0) 编辑
摘要:之前就了解过TF-IDF,现在做一个回顾。 概念: TF(Term Frequency)词频:一个文档中关键词出现的次数/该文档的总词数, IDF(Inverse Document Frequency)逆文档频率: 如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了 阅读全文
posted @ 2018-03-23 13:22 嶙羽 阅读(182) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示