08 2017 档案
摘要:对之前我的那个豆瓣的短评的爬虫,进行了一下架构性的改动。尽可能实现了模块的分离。但是总是感觉不完美。暂时也没心情折腾了。 同时也添加了多线程的实现。具体过程见下。 改动 独立出来的部分: MakeOpener MakeRes GetNum IOFile GetSoup main 将所有的代码都置于函
阅读全文
摘要:本文参考较多,原创基本没有,权当知识归纳。 xpath并不复杂,简单的使用看完之后,及时查阅文档也是可以写出来的。 这里放上我的练手文件,大家可以参考,或者挑毛病( ^__^ ) 嘻嘻…… "xpath练手项目" XPATH(参考 "w3school" 和 "静觅" 和 "阮一峰的网络日志" ) 在
阅读全文
摘要:写在开头 在之前的三篇文章中,我尝试了使用python爬虫实现的对于特定站点的《剑来》小说的爬取,对于豆瓣的短评的爬取,也有对于爬取的短评数据进行的词云展示,期间运用了不少的知识,现在是时间回顾一下。在此之后,我会再关注一些爬虫框架的使用,以及更多的爬虫的优化方法,争取做到尽量多的吸收新知识,巩固旧
阅读全文
摘要:在之前的文章中,我们获得了豆瓣爬取的短评内容,汇总到了一个文件中,但是,没有被利用起来的数据是没有意义的。 前文提到,有一篇微信推文的关于词云制作的一个实践记录,准备照此试验一下。 思路分析 读文件 利用 将文件读进来。这里需要注意文件内容的大小。 分词 由于获取的是大量的短评文字,而制作词云需要的
阅读全文
摘要:写在开头 豆瓣上有着大量的影视剧的评论,所以说,要是想要实现对广大人民群众的观点的分析,对一部片子的理解,综合来看大家的评论是很有必要的。而短评作为短小精干的快速评论入口,是值得一谈的。 所以先要实现对其的数据的爬取。 目前来看,基本内容是可以爬取的。最大的问题在于速度。后续考虑准备运用多线程的方式
阅读全文
摘要:写在开头 纪念我的第一个爬虫程序,一共写了三个白天,其中有两个上午没有看,中途遇到了各种奇怪的问题,伴随着他们的解决,对于一些基本的操作也弄清楚了。果然,对于这些东西的最号的学习方式,就是在使用中学习,通过解决问题的方式来搞定这些知识。按需索取,才能更有针对性。 大体记录下整个过程。 准备构思 出于
阅读全文
摘要:代码管理方式——集中与分散 集中型 以 Subversion 为代表的集中型,所示将仓库集中存放在服务器之中,所以只存在一个仓库。这就是为什么这种版本管理系统会被称作集中型。 集中型将所有数据集中存放在服务器当中,有便于管理的优点。但是一旦开发者所处的环境不能连接服务器,就无法获取最新的源代码,开发
阅读全文
摘要:初始设置本地Git 首先来设置使用 Git 时的姓名和邮箱地址。名字请用英文输入。 $ git config global user.name "Firstname Lastname" $ git config global user.email "your_email@example.com" 这
阅读全文

浙公网安备 33010602011771号