摘要: 以前看的国外的一篇文章,用代码解释word2vec训练过程,觉得写的不错,转过来了 原文链接 http://nbviewer.jupyter.org/github/dolaameng/tutorials/blob/master/word2vec-abc/poc/pyword2vec_anatomy. 阅读全文
posted @ 2016-03-07 20:24 木羊羊羊 阅读(2047) 评论(0) 推荐(0) 编辑
摘要: map() Return an iterator that applies function to every item of iterable, yielding the results 例如: a = map(lambda x:x**2 ,[1,2,3]) print([b for b in a 阅读全文
posted @ 2016-03-02 22:04 木羊羊羊 阅读(1222) 评论(0) 推荐(0) 编辑
摘要: 一 下载phantomjs,把phantomjs.exe的文件路径加到环境变量中,也可以phantomjs.exe拷贝到一个已存在的环境变量路径中,比如我用的anaconda,我把phantomjs.exe文件加入到了Anaconda3这个文件夹中(Anaconda3已加入环境变量)二 pip安装s... 阅读全文
posted @ 2016-01-20 14:04 木羊羊羊 阅读(3755) 评论(0) 推荐(0) 编辑
摘要: tf–idf算法python代码实现这是我写的一个tf-idf的简单实现的代码,我们知道tfidf=tf*idf,所以可以分别计算tf和idf值在相乘,首先我们创建一个简单的语料库,作为例子,只有四句话,每句表示一个文档copus=['我正在学习计算机','它正在吃饭','我的书还在你那儿','今天... 阅读全文
posted @ 2015-12-23 22:01 木羊羊羊 阅读(1883) 评论(1) 推荐(0) 编辑
摘要: tf–idf算法解释tf–idf, 是term frequency–inverse document frequency的缩写,它通常用来衡量一个词对在一个语料库中对它所在的文档有多重要,常用在信息检索和文本挖掘中。一个很自然的想法是在一篇文档中词频越高的词对这篇文档越重要,但同时如果这个词又在非常... 阅读全文
posted @ 2015-12-23 20:39 木羊羊羊 阅读(1453) 评论(0) 推荐(0) 编辑
摘要: Counter是dict的子类,所以它其实也是字典。只不过它的键对应的值都是计数,值可以是任意整数。下面是四种创建Counter实例的例子:>>> c = Counter() # a new, empty counter>>> c = Counte... 阅读全文
posted @ 2015-12-23 19:36 木羊羊羊 阅读(447) 评论(0) 推荐(0) 编辑
摘要: 其实defaultdict 就是一个字典,只不过python自动的为它的键赋了一个初始值。这也就是说,你不显示的为字典的键赋初值python不会报错,看下实际例子。比如你想计算频率frequencies = {}for word in wordlist: frequencies[word] +... 阅读全文
posted @ 2015-12-22 01:35 木羊羊羊 阅读(8543) 评论(0) 推荐(1) 编辑