07 2018 档案

摘要:想学爬虫主要是因为算法和数据是密切相关的,有数据之后可以玩更多有意思的事情,数据量大可以挖掘挖掘到更多的信息。 之前只会通过python中的request库来下载网页内容,再用BeautifulSoup、re正则工具来解析;后来了解到Scrapy爬虫框架,现在入门先写个小小的爬虫项目,这里做个简单的 阅读全文
posted @ 2018-07-26 18:41 焦距 阅读(290) 评论(0) 推荐(0) 编辑
摘要:1. 词云简介 词云,又称文字云、标签云,是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思。常见于博客、微博、文章分析等。 除了网上现成的Wordle、Tagxedo、Tagul、Tagcrowd等词云制作工 阅读全文
posted @ 2018-07-22 17:46 焦距 阅读(11674) 评论(0) 推荐(2) 编辑
摘要:外部环境:ubuntu16.04, 64bits, 全局环境python2.7 在虚拟环境(python3.5)中执行 pip install wordcloud 时安装失败,报错: 解决方案:在外部环境执行 sudo apt-get install python3-dev ,再在虚拟环境中重新 p 阅读全文
posted @ 2018-07-13 15:25 焦距 阅读(1710) 评论(0) 推荐(0) 编辑