随笔分类 -  python

摘要:由于scrapy并发请求过多,默认情况下会同时下载16个文件,而连接时间默认超过三分钟就会丢失。就是说如果三分钟之内你的网速没法支持你同时下载完16个文件的话就会造成这个问题。 解决方法就是在settings.py中将默认并发连接数调小或者将timeout时间调大 CONCURRENT_REQUES 阅读全文
posted @ 2024-03-13 10:02 珊瑚贝博客 阅读(52) 评论(0) 推荐(0) 编辑
摘要:推荐使用spiderkeeper或者gerapy https://www.shanhubei.com/archives/23603.html 阅读全文
posted @ 2024-03-11 17:59 珊瑚贝博客 阅读(9) 评论(0) 推荐(0) 编辑
摘要:来源:https://www.shanhubei.com/archives/23601.html 1、顺序执行: from scrapy.cmdline import execute execute(['scrapy','crawl','httpbin']) 2、同时进行 setting = get 阅读全文
posted @ 2024-03-11 17:56 珊瑚贝博客 阅读(230) 评论(1) 推荐(0) 编辑
摘要:1、启动爬虫 scrapy crawl spider -s JOBDIR=record/spider-1 record/spider-1表示一个路径,作用是记录爬虫状态2、暂停爬虫 终端输入Ctrl+C,此时爬虫并不会立即停止,需要等待一会 当终端出现可以敲击命令时,说明爬虫已暂停 3、恢复爬虫 s 阅读全文
posted @ 2024-01-10 09:34 珊瑚贝博客 阅读(151) 评论(0) 推荐(0) 编辑
摘要:1.爬虫文件 class MeiShiSpider(scrapy.Spider): name = 'meishi' allowed_domains = ['baidu.com'] start_urls = ['https://tieba.baidu.com/f?kw=美食'] def parse(s 阅读全文
posted @ 2024-01-08 16:29 珊瑚贝博客 阅读(150) 评论(0) 推荐(0) 编辑
摘要:👍🏻这样的字符,插入失败 这个问题,原因是UTF-8编码有可能是两个、三个、四个字节。Emoji表情或者某些特殊字符是4个字节,而Mysql的utf8编码最多3个字节,所以数据插不进去。 Window下phpstudy 1、设置服务端,编码为utf8mb4 2、设置数据库和表字符校对为utf8m 阅读全文
posted @ 2024-01-05 12:27 珊瑚贝博客 阅读(84) 评论(0) 推荐(0) 编辑
摘要:正常流程(如下图)是,引擎(engine)将url交给下载器(downloader),下载器来 进行数据下载,如果我们想导入selenium, 那么必须要阻断这个过程,并有selenium来代替,我们就需要通过修改downloadmiddleware中的process_request来实现。 阅读全文
posted @ 2024-01-04 17:34 珊瑚贝博客 阅读(36) 评论(0) 推荐(0) 编辑
摘要:来源:http://www.shanhubei.com/archives/8595.html 一、pipeline中常用的方法 1. process_item(self,item,spider) 管道类中必须有的函数 实现对item数据的处理 必须return item 2. open_spider 阅读全文
posted @ 2024-01-04 17:17 珊瑚贝博客 阅读(77) 评论(0) 推荐(0) 编辑
摘要:错误原因是在请求资源的时候没有使用完整的url只向//scpic3.chinaz.net/Files/pic/pic9/202103发送了资源请求,而完整的资源地址需要前面加上https:所以在pipelines.py文件的get_media_requests方法中,在发送request请求时修改为 阅读全文
posted @ 2024-01-03 16:09 珊瑚贝博客 阅读(9) 评论(0) 推荐(0) 编辑
摘要:python 报错TypeError: object of type ‘NoneType‘ has no len()处理1. 引言在编程过程中,我们经常会遇到各种异常情况。其中之一就是TypeError异常,它表示操作或函数应用于了错误的数据类型。在本文中,我们将重点讨论TypeError异常中的一 阅读全文
posted @ 2024-01-03 09:14 珊瑚贝博客 阅读(1318) 评论(0) 推荐(0) 编辑
摘要:解决方案该提示是由于不安全的地址导致的,需要把这个错误屏蔽掉,可以使用 --ignore-certificate-errors 来屏蔽。屏蔽后发现还有其他错误提示,也一并解决了。主要添加了三项: # 忽略证书错误 options.add_argument('--ignore-certificate- 阅读全文
posted @ 2024-01-02 17:27 珊瑚贝博客 阅读(1334) 评论(0) 推荐(0) 编辑
摘要:python爬虫去除html中特定标签、去除注释、替换实体前言:本文主要讲w3lib库的四个函数 html.remove_tags() html.remove_tags_with_content() html.remove_comments() html.remove_entities() remo 阅读全文
posted @ 2023-12-27 15:50 珊瑚贝博客 阅读(523) 评论(0) 推荐(0) 编辑
摘要:scrapy.contrib现在已经过时了。在1.6版本的scrapy中将其删除。 有关更多详细信息,请参见https://docs.scrapy.org/en/latest/news.html#deprecation-removals 阅读全文
posted @ 2023-12-27 15:34 珊瑚贝博客 阅读(28) 评论(0) 推荐(0) 编辑
摘要:错误信息 Traceback (most recent call last): File "/home/anaconda3/envs/python36/lib/python3.6/site-packages/twisted/python/threadpool.py", line 250, in in 阅读全文
posted @ 2023-12-25 16:19 珊瑚贝博客 阅读(58) 评论(0) 推荐(0) 编辑
摘要:xpath选择器 表达式说明 article 选取所有article元素的所有子节点 /article 选取根元素article article/a 选取所有属于article的子元素的a元素 //div 选取所有div子元素(不论出现在文档任何地方) article//div 选取所有属于arti 阅读全文
posted @ 2023-12-22 16:53 珊瑚贝博客 阅读(95) 评论(0) 推荐(0) 编辑
摘要:一、框架简介 1.1、简介 Scrapy框架是用纯Python实现的一个为了爬取网站数据、提取结构性数据而编写的可扩展的开源应用框架,只需要少量代码就能够快速地实现数据爬取。往往手写一个爬虫需要进行发送网络请求、数据解析、数据存储、反反扒机制、异步请求等步骤,如果都从零开始写是比较浪费时间的,同时会 阅读全文
posted @ 2023-12-22 16:33 珊瑚贝博客 阅读(135) 评论(0) 推荐(0) 编辑
摘要:随着互联网数据量的不断增加,如何快速、准确地爬取、处理、存储数据成为了互联网应用开发的关键问题。而Scrapy框架作为一个高效的爬虫框架,凭借其灵活、高速的爬取方式被广泛应用于各种数据爬取场景。 然而,仅仅将爬取到的数据保存到文件中,无法满足大部分应用程序的需要。因为在当前的应用程序中,大多数数据都 阅读全文
posted @ 2023-12-22 16:27 珊瑚贝博客 阅读(144) 评论(0) 推荐(0) 编辑
摘要:来源:http://www.shanhubei.com/archives/3402.html <div class='aaaa bbbb'>春天的菠菜</div>1、通过定位一个class方式 //div[contains(@class,"aaaa")]) #它会取得所有class为aaaa的元素2 阅读全文
posted @ 2023-12-22 16:20 珊瑚贝博客 阅读(947) 评论(0) 推荐(0) 编辑
摘要:来源:http://www.shanhubei.com/archives/2833.html 总结了一下Python下的图形界面GUI工具,暂时能找到的资料就这么多,后续会补充推荐学习资料。 图形界面的定义 图形界面 图形用户界面(Graphical User Interface,简称 GUI,又称 阅读全文
posted @ 2023-11-13 11:51 珊瑚贝博客 阅读(330) 评论(0) 推荐(0) 编辑
摘要:http://www.shanhubei.com/archives/2757.html 前言 知道吗,用moviepy一行代码就能够快速剪辑视频中某个区间的片段: clip = VideoFileClip(“videoplayback.mp4”).subclip(50,60) 这一段代码,能够在3秒 阅读全文
posted @ 2023-09-26 11:21 珊瑚贝博客 阅读(494) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示