摘要: 往往需要爬取的网页是呈一个树状结构。比如,需要先爬取一个目录,然后再在目录中选择具体的爬取目标。而目录和具体目标之间,网页结构不同,使得我们不能使用相同的爬取策略。 从之前的经验来看,我们对scrapy进行操作是从Spider的Parse()函数作为入口。不如在parse()函数中对对目录进行操作, 阅读全文
posted @ 2016-07-21 22:20 打不死的流云 阅读(426) 评论(0) 推荐(0) 编辑
摘要: 题目描述: Given a set of distinct positive integers, find the largest subset such that every pair (Si, Sj) of elements in this subset satisfies: Si % Sj = 阅读全文
posted @ 2016-07-20 22:20 打不死的流云 阅读(252) 评论(0) 推荐(0) 编辑
摘要: 本文是跟着大神博客,尝试从网站上爬一堆东西,一堆你懂得的东西 附上原创链接: http://www.cnblogs.com/qiyeboy/p/5428240.html 基本思路是,查看网页元素,填写xpath表达式,获取信息。自动爬取策略是,找到翻页网页元素,获取新链接地址,执行翻页。网页分析部分 阅读全文
posted @ 2016-07-20 19:45 打不死的流云 阅读(1589) 评论(0) 推荐(0) 编辑
摘要: 题目: Your task is to calculate a^b mod 1337 where a is a positive integer and b is an extremely large positive integer given in the form of an array. 求 阅读全文
posted @ 2016-07-20 18:57 打不死的流云 阅读(495) 评论(0) 推荐(0) 编辑
摘要: 也许是很少接触python的原因,我觉得是Scrapy框架和以往Java框架很不一样:它真的是个框架。 从表层来看,与Java框架引入jar包、配置xml或.property文件不同,Scrapy的模式是先用Scrapy建立项目,然后对项目中部分文件进行编辑,从而达到爬取相应网页的目的。 控制台-> 阅读全文
posted @ 2016-07-19 19:45 打不死的流云 阅读(213) 评论(0) 推荐(0) 编辑
摘要: 学习python爬虫框架scrapy的时候,用到pip管理工具来安装scrapy。最直观的感受,pip有点类似于Ubuntu下的apt-get工具,几行代码,自动下载、安装相关的东西。网上查了一些背景资料。 python的使用过程中经常引入其他包来实现功能,而pip就是一个管理这些包的工具。当前比较 阅读全文
posted @ 2016-07-13 17:29 打不死的流云 阅读(274) 评论(0) 推荐(0) 编辑
摘要: 想学习爬虫,又想了解python语言,有个python高手推荐我看看scrapy。 scrapy是一个python爬虫框架,据说很灵活,网上介绍该框架的信息很多,此处不再赘述。专心记录我自己遇到的问题以及解决方案吧。 给几个链接吧,我是根据这几个东西来尝试学习的: scrapy中文文档(0.24版, 阅读全文
posted @ 2016-07-13 16:48 打不死的流云 阅读(428) 评论(0) 推荐(0) 编辑
摘要: 搬新房,住新窝,大流云,多努力,勤学习,勤记录,好好学习,天天向上!~ 阅读全文
posted @ 2016-07-11 22:55 打不死的流云 阅读(94) 评论(0) 推荐(0) 编辑