随笔档案「2021年9月12日」：scrapy框架使用.Request使用meta传递数据，... - 技术改变命运Andy

2021年9月12日

scrapy框架使用.Request使用meta传递数据，以及deepcopy的使用，这种三层for循环，就会有deepcopy的问题，

摘要： scrapy.Request(url[,callback,method="GET",headers,body,cookies,meta,dont_filter=False]) 参数meta说明： 1）meta是一个字典，主要用于解析函数之间传递值； 2）Request对象接受一个meta参数，即一个阅读全文

posted @ 2021-09-12 05:57 技术改变命运Andy 阅读(239) 评论(0) 推荐(0)

scrapy download delay, CONCURRENT_REQUESTS

摘要：设置delay有起码两个好处，一个是对被爬对象表示礼貌，另一个是爬的太快，很多服务器会封ip，或限制访问。效果：每x秒左右来一个request 先建立一个项目来找CONCURRENT_REQUESTS与DOWNLOAD_DELAY的联系大致给出粗略代码： jianshuspider.py：阅读全文

posted @ 2021-09-12 05:11 技术改变命运Andy 阅读(1024) 评论(0) 推荐(0)

分布式爬虫部署，爬虫需要什么样的服务器配置，现在爬虫岗位都要会这个

摘要： #### 做分布式爬虫和搜索引擎对于服务器配置有什么要求？实验室要做主题爬虫，附带简单的搜索查询功能，现在要租用10~20台服务器，不知道什么配置好。我们之前使用了三台服务器（租用的阿里云），用nutch1.7+hdfs爬取8000个URL(两层深度)用了两个多小时，第三层达到了40万用了3天还没阅读全文

posted @ 2021-09-12 05:04 技术改变命运Andy 阅读(2047) 评论(0) 推荐(0)

爬虫的难点不在爬虫，而在对抗

摘要： #### Python很强大，熟练的程序员可以在5分钟内写出一个有价值的爬虫，比如： - 抓取股票信息 - 抓取笑话 - 抓取商品信息但大部分被抓的网站不是任你抓取的木鸡，有抓就有反抗！这是一场网站和程序员之间的一种博弈！都是程序员，何必呢？程序员何必为难程序员！凡是博弈，就一定不易！因为道高阅读全文

posted @ 2021-09-12 04:20 技术改变命运Andy 阅读(360) 评论(0) 推荐(0)

scrapy框架使用-下载视频，使用you-get模块来下载视频

摘要： ####you-get是一个开源的python第三方模块，安装 pip install you-get You-Get是GitHub上一个评分很高的python项目，作为一款精巧的命令行应用程序，可以很方便地从web网站下载视频。其下载的视频文件可以直接打开播放，不需要安装特定的网络浏览器，也免去阅读全文

posted @ 2021-09-12 03:05 技术改变命运Andy 阅读(672) 评论(0) 推荐(0)

scrapy框架使用-爬虫中间件

摘要： #### ### 这个爬虫中间件，的process_start_request方法，可以监控到有多少个爬虫启动，启动了多少个url，因为所有的爬虫，都会通过这个中间件的，我们可以在这个上面做文章，来监控这个爬虫的情况， ### 这两个是控制输入和输出的，输出的信息，可以把每一个页面，的每一个记阅读全文

posted @ 2021-09-12 01:09 技术改变命运Andy 阅读(66) 评论(0) 推荐(0)