摘要: Lemmatisation is closely related to stemming. The difference is that a stemmer operates on a single word without knowledge of the context, and therefo 阅读全文
posted @ 2016-10-19 22:11 丁lemon 阅读(4519) 评论(0) 推荐(1) 编辑
摘要: 收集数据 总所周知,数据挖掘模型中非常重要的部分是训练模型,训练集与测试集便是整个数据挖掘过程中花费时间最多的过程。数据集通过有如下的一些途径获得: 经典数据集:Python NLTK 便提供了非常多经典的数据集。很多数据集都是手工标注而成,所以使用的时候不得不感叹工程的浩大。例如NLP中使用的Pe 阅读全文
posted @ 2016-10-19 20:59 丁lemon 阅读(1573) 评论(0) 推荐(0) 编辑
摘要: Gensim简易安装过程: 1. 安装python2.7 2. 下载Python Extension Packages对应版本的numpy、scipy、gensim http://www.lfd.uci.edu/~gohlke/pythonlibs/ 3. cmd进入python安装目录下的Scri 阅读全文
posted @ 2016-10-19 20:13 丁lemon 阅读(7616) 评论(0) 推荐(0) 编辑
摘要: 连接新设备时无法识别,更新iTunes组件的时候总是发现 Apple Mobile Device Support 这个驱动装不上,也卸载不了。 原因是安装 AppleMobileDeviceSupport6464.msi 时总是在最后的时候会回滚,具体原因不明,有可能是卸载老版本的时候留下了残余的文 阅读全文
posted @ 2016-10-19 20:11 丁lemon 阅读(6954) 评论(0) 推荐(0) 编辑