木羊羊羊

2016年3月7日

摘要：以前看的国外的一篇文章，用代码解释word2vec训练过程，觉得写的不错，转过来了原文链接 http://nbviewer.jupyter.org/github/dolaameng/tutorials/blob/master/word2vec-abc/poc/pyword2vec_anatomy. 阅读全文

posted @ 2016-03-07 20:24 木羊羊羊阅读(2077) 评论(0) 推荐(0)

2016年3月2日

python中的map，filter，zip函数

摘要： map() Return an iterator that applies function to every item of iterable, yielding the results 例如： a = map(lambda x:x**2 ,[1,2,3]) print([b for b in a 阅读全文

posted @ 2016-03-02 22:04 木羊羊羊阅读(1237) 评论(0) 推荐(0)

2016年1月20日

selenium+BeautifulSoup+phantomjs爬取新浪新闻

摘要：一下载phantomjs，把phantomjs.exe的文件路径加到环境变量中，也可以phantomjs.exe拷贝到一个已存在的环境变量路径中，比如我用的anaconda，我把phantomjs.exe文件加入到了Anaconda3这个文件夹中（Anaconda3已加入环境变量）二 pip安装s... 阅读全文

posted @ 2016-01-20 14:04 木羊羊羊阅读(3810) 评论(0) 推荐(0)

2015年12月23日

tf–idf算法解释及其python代码实现(下)

摘要： tf–idf算法python代码实现这是我写的一个tf-idf的简单实现的代码，我们知道tfidf=tf*idf，所以可以分别计算tf和idf值在相乘，首先我们创建一个简单的语料库，作为例子，只有四句话，每句表示一个文档copus=['我正在学习计算机','它正在吃饭','我的书还在你那儿','今天... 阅读全文

posted @ 2015-12-23 22:01 木羊羊羊阅读(1964) 评论(1) 推荐(0)

tf–idf算法解释及其python代码实现(上)

摘要： tf–idf算法解释tf–idf, 是term frequency–inverse document frequency的缩写，它通常用来衡量一个词对在一个语料库中对它所在的文档有多重要，常用在信息检索和文本挖掘中。一个很自然的想法是在一篇文档中词频越高的词对这篇文档越重要，但同时如果这个词又在非常... 阅读全文

posted @ 2015-12-23 20:39 木羊羊羊阅读(1472) 评论(0) 推荐(0)

python collections.Counter笔记

摘要： Counter是dict的子类，所以它其实也是字典。只不过它的键对应的值都是计数，值可以是任意整数。下面是四种创建Counter实例的例子：>>> c = Counter() # a new, empty counter>>> c = Counte... 阅读全文

posted @ 2015-12-23 19:36 木羊羊羊阅读(461) 评论(0) 推荐(0)

2015年12月22日

Python collections.defaultdict 笔记

摘要：其实defaultdict 就是一个字典，只不过python自动的为它的键赋了一个初始值。这也就是说，你不显示的为字典的键赋初值python不会报错，看下实际例子。比如你想计算频率frequencies = {}for word in wordlist: frequencies[word] +... 阅读全文

posted @ 2015-12-22 01:35 木羊羊羊阅读(8591) 评论(0) 推荐(1)

公告