自然语言处理 - 随笔分类 - 嶙羽

初识NLTK

摘要：需要用处理英文文本，于是用到python中nltk这个包依次过程是： 1、分句；2、分词；3、词性标注然后4、命名实体识别当然，词性标注和命名实体识别这两部可以使用Standford的词性标注和命名实体识别库接着是命名实体识别：但是效果似乎不好。。阅读全文

posted @ 2018-06-03 23:35 嶙羽阅读(478) 评论(0) 推荐(0)

Spark DataFrame

摘要：因为之后的项目要用Spark来做分布式处理，所以开始接触DataFrame 需要先安装pyspark 然后导入SparkSession 然后实例化对象或者接着读取json文件由于和服务器连接使用的软件是SecureCRT，在SecureCRT下怎样上传文件，在这篇博客下接着进行一系列操作：阅读全文

posted @ 2018-05-17 13:38 嶙羽阅读(179) 评论(0) 推荐(0)

python中文分词库——pyltp

摘要：pyltp在win10下安装比较麻烦，因此参考以下安装方式， 1.下载 win10下python3.6 2.安装下载好了以后, 在命令行下, cd到wheel文件所在的目录, 然后使用命令pip install wheel文件名安装. 3.测试 4.下载完整的models数据下载models链接阅读全文

posted @ 2018-05-14 16:19 嶙羽阅读(490) 评论(0) 推荐(0)

python中文分词库——pynlpir

摘要：安装如果pynlpir.open()报错： raise RuntimeError("NLPIR function 'NLPIR_Init' failed.") RuntimeError: NLPIR function 'NLPIR_Init' failed. 则是证书过期问题， https://g 阅读全文

posted @ 2018-05-14 14:20 嶙羽阅读(2245) 评论(0) 推荐(0)

英文文本挖掘预处理总结

摘要：因为之后要做一个英文专利文本相似度分析的项目，所以先把文本预处理的流程放上来，以供参考，转自http://www.cnblogs.com/pinard/p/6756534.html 1. 英文文本挖掘预处理特点英文文本的预处理方法和中文的有部分区别。首先，英文文本挖掘预处理一般可以不做分词（特殊需阅读全文

posted @ 2018-03-23 14:42 嶙羽阅读(758) 评论(0) 推荐(0)

TF-IDF概念

摘要：之前就了解过TF-IDF，现在做一个回顾。概念： TF（Term Frequency）词频:一个文档中关键词出现的次数/该文档的总词数， IDF（Inverse Document Frequency）逆文档频率: 如果一个词越常见，那么分母就越大，逆文档频率就越小越接近0。分母之所以要加1，是为了阅读全文

posted @ 2018-03-23 13:22 嶙羽阅读(203) 评论(0) 推荐(0)

嶙羽

随笔分类 - 自然语言处理

公告