摘要: scrapy.Request(url[,callback,method="GET",headers,body,cookies,meta,dont_filter=False]) 参数meta说明: 1)meta是一个字典,主要用于解析函数之间传递值; 2)Request对象接受一个meta参数,即一个 阅读全文
posted @ 2021-09-12 05:57 技术改变命运Andy 阅读(194) 评论(0) 推荐(0) 编辑
摘要: 设置delay有起码两个好处, 一个是对被爬对象表示礼貌, 另一个是爬的太快,很多服务器会封ip,或限制访问。 效果:每x秒左右来一个request 先建立一个项目来找CONCURRENT_REQUESTS与DOWNLOAD_DELAY的联系 大致给出粗略代码: jianshuspider.py: 阅读全文
posted @ 2021-09-12 05:11 技术改变命运Andy 阅读(945) 评论(0) 推荐(0) 编辑
摘要: #### 做分布式爬虫和搜索引擎对于服务器配置有什么要求? 实验室要做主题爬虫,附带简单的搜索查询功能,现在要租用10~20台服务器,不知道什么配置好。我们之前使用了三台服务器(租用的阿里云),用nutch1.7+hdfs爬取8000个URL(两层深度)用了两个多小时,第三层达到了40万用了3天还没 阅读全文
posted @ 2021-09-12 05:04 技术改变命运Andy 阅读(1628) 评论(0) 推荐(0) 编辑
摘要: #### Python很强大,熟练的程序员可以在5分钟内写出一个有价值的爬虫,比如: - 抓取股票信息 - 抓取笑话 - 抓取商品信息 但大部分被抓的网站不是任你抓取的木鸡,有抓就有反抗! 这是一场网站和程序员之间的一种博弈!都是程序员,何必呢?程序员何必为难程序员! 凡是博弈,就一定不易!因为道高 阅读全文
posted @ 2021-09-12 04:20 技术改变命运Andy 阅读(262) 评论(0) 推荐(0) 编辑
摘要: ####you-get是一个开源的python第三方模块, 安装 pip install you-get You-Get是GitHub上一个评分很高的python项目,作为一款精巧的命令行应用程序,可以很方便地从web网站下载视频。其下载的视频文件可以直接打开播放,不需要安装特定的网络浏览器,也免去 阅读全文
posted @ 2021-09-12 03:05 技术改变命运Andy 阅读(589) 评论(0) 推荐(0) 编辑
摘要: #### ### 这个爬虫中间件,的process_start_request方法,可以监控到有多少个爬虫启动,启动了多少个url, 因为所有的爬虫,都会通过这个中间件的, 我们可以在这个上面做文章,来监控这个爬虫的情况, ### 这两个是控制输入和输出的, 输出的信息,可以把每一个页面,的每一个记 阅读全文
posted @ 2021-09-12 01:09 技术改变命运Andy 阅读(51) 评论(0) 推荐(0) 编辑