随笔档案「2017年8月」 - lart

【Python】我的豆瓣短评爬虫的多线程改写

摘要：对之前我的那个豆瓣的短评的爬虫，进行了一下架构性的改动。尽可能实现了模块的分离。但是总是感觉不完美。暂时也没心情折腾了。同时也添加了多线程的实现。具体过程见下。改动独立出来的部分： MakeOpener MakeRes GetNum IOFile GetSoup main 将所有的代码都置于函阅读全文

posted @ 2017-08-25 22:16 lart 阅读(643) 评论(0) 推荐(0)

【Python】xpath&css选择器

摘要：本文参考较多，原创基本没有，权当知识归纳。 xpath并不复杂，简单的使用看完之后，及时查阅文档也是可以写出来的。这里放上我的练手文件，大家可以参考，或者挑毛病( ^__^ ) 嘻嘻…… "xpath练手项目" XPATH（参考 "w3school" 和 "静觅" 和 "阮一峰的网络日志" ）在阅读全文

posted @ 2017-08-24 13:11 lart 阅读(373) 评论(0) 推荐(0)

【Python】关于近期爬虫学习的总结

摘要：写在开头在之前的三篇文章中，我尝试了使用python爬虫实现的对于特定站点的《剑来》小说的爬取，对于豆瓣的短评的爬取，也有对于爬取的短评数据进行的词云展示，期间运用了不少的知识，现在是时间回顾一下。在此之后，我会再关注一些爬虫框架的使用，以及更多的爬虫的优化方法，争取做到尽量多的吸收新知识，巩固旧阅读全文

posted @ 2017-08-20 21:34 lart 阅读(863) 评论(1) 推荐(0)

【Python】利用豆瓣短评数据生成词云

摘要：在之前的文章中，我们获得了豆瓣爬取的短评内容，汇总到了一个文件中，但是，没有被利用起来的数据是没有意义的。前文提到，有一篇微信推文的关于词云制作的一个实践记录，准备照此试验一下。思路分析读文件利用将文件读进来。这里需要注意文件内容的大小。分词由于获取的是大量的短评文字，而制作词云需要的阅读全文

posted @ 2017-08-18 17:59 lart 阅读(1249) 评论(0) 推荐(0)

【Python】我的第一个豆瓣短评爬虫

摘要：写在开头豆瓣上有着大量的影视剧的评论，所以说，要是想要实现对广大人民群众的观点的分析，对一部片子的理解，综合来看大家的评论是很有必要的。而短评作为短小精干的快速评论入口，是值得一谈的。所以先要实现对其的数据的爬取。目前来看，基本内容是可以爬取的。最大的问题在于速度。后续考虑准备运用多线程的方式阅读全文

posted @ 2017-08-17 16:52 lart 阅读(549) 评论(0) 推荐(0)

【Python】我的第一个完整的小说爬虫

摘要：写在开头纪念我的第一个爬虫程序，一共写了三个白天，其中有两个上午没有看，中途遇到了各种奇怪的问题，伴随着他们的解决，对于一些基本的操作也弄清楚了。果然，对于这些东西的最号的学习方式，就是在使用中学习，通过解决问题的方式来搞定这些知识。按需索取，才能更有针对性。大体记录下整个过程。准备构思出于阅读全文

posted @ 2017-08-13 21:38 lart 阅读(474) 评论(0) 推荐(0)

【读书笔记】GitHub入门

摘要：代码管理方式——集中与分散集中型以 Subversion 为代表的集中型，所示将仓库集中存放在服务器之中，所以只存在一个仓库。这就是为什么这种版本管理系统会被称作集中型。集中型将所有数据集中存放在服务器当中，有便于管理的优点。但是一旦开发者所处的环境不能连接服务器，就无法获取最新的源代码，开发阅读全文

posted @ 2017-08-10 10:07 lart 阅读(327) 评论(0) 推荐(0)

【读书笔记】Git使用

摘要：初始设置本地Git 首先来设置使用 Git 时的姓名和邮箱地址。名字请用英文输入。 $ git config global user.name "Firstname Lastname" $ git config global user.email "your_email@example.com" 这阅读全文

posted @ 2017-08-10 10:06 lart 阅读(371) 评论(0) 推荐(0)

随缘的风

生活，记忆，与情绪。

08 2017 档案

公告