摘要: 1.TF-IDF 昨天给大家演示简单的文本聚类,但要给每个聚类再提取一两个关键词用于表示该聚类。我们还是用TFIDF算法来做,因为这是比较简单的提取特征算法,不过这里的TF是指某词在本聚类内所有文章的词频,而不是本文章内出现的次数,IDF还是在所有文章里出现的倒文档频率。 原理:1、先给本聚... 阅读全文
posted @ 2016-03-29 20:31 StevenLuke 阅读(647) 评论(0) 推荐(0) 编辑
摘要: # -*- encoding:utf-8 -*-from bs4 import BeautifulSoupimport urllibimport urllib.requestimport reUrl = 'https://book.douban.com/latest?icn=index-late... 阅读全文
posted @ 2016-03-29 19:14 StevenLuke 阅读(130) 评论(0) 推荐(0) 编辑