python - 随笔分类 - 珊瑚贝博客

scrapy下载大文件失败问题

摘要：由于scrapy并发请求过多，默认情况下会同时下载16个文件，而连接时间默认超过三分钟就会丢失。就是说如果三分钟之内你的网速没法支持你同时下载完16个文件的话就会造成这个问题。解决方法就是在settings.py中将默认并发连接数调小或者将timeout时间调大 CONCURRENT_REQUES 阅读全文

posted @ 2024-03-13 10:02 珊瑚贝博客阅读(52) 评论(0) 推荐(0) 编辑

怎么在可视化使用爬虫

摘要：推荐使用spiderkeeper或者gerapy https://www.shanhubei.com/archives/23603.html 阅读全文

posted @ 2024-03-11 17:59 珊瑚贝博客阅读(9) 评论(0) 推荐(0) 编辑

python爬虫scrapy之如何同时执行多个scrapy爬行任务

摘要：来源:https://www.shanhubei.com/archives/23601.html 1、顺序执行： from scrapy.cmdline import execute execute(['scrapy','crawl','httpbin']) 2、同时进行 setting = get 阅读全文

posted @ 2024-03-11 17:56 珊瑚贝博客阅读(230) 评论(1) 推荐(0) 编辑

scrapy -- 暂停爬虫、恢复爬虫

摘要：1、启动爬虫 scrapy crawl spider -s JOBDIR=record/spider-1 record/spider-1表示一个路径，作用是记录爬虫状态2、暂停爬虫终端输入Ctrl+C，此时爬虫并不会立即停止，需要等待一会当终端出现可以敲击命令时，说明爬虫已暂停 3、恢复爬虫 s 阅读全文

posted @ 2024-01-10 09:34 珊瑚贝博客阅读(151) 评论(0) 推荐(0) 编辑

scrapy使用文件管道FilesPipeline下载视频

摘要：1.爬虫文件 class MeiShiSpider(scrapy.Spider): name = 'meishi' allowed_domains = ['baidu.com'] start_urls = ['https://tieba.baidu.com/f?kw=美食'] def parse(s 阅读全文

posted @ 2024-01-08 16:29 珊瑚贝博客阅读(150) 评论(0) 推荐(0) 编辑

python使用Scrapy插入数据到MySql报错 Incorrect string value: ‘\\xF0\\x9F\\"错误

摘要：👍🏻这样的字符，插入失败这个问题，原因是UTF-8编码有可能是两个、三个、四个字节。Emoji表情或者某些特殊字符是4个字节，而Mysql的utf8编码最多3个字节，所以数据插不进去。 Window下phpstudy 1、设置服务端，编码为utf8mb4 2、设置数据库和表字符校对为utf8m 阅读全文

posted @ 2024-01-05 12:27 珊瑚贝博客阅读(84) 评论(0) 推荐(0) 编辑

scrapy的正常流程图

摘要：正常流程（如下图）是，引擎(engine)将url交给下载器(downloader)，下载器来进行数据下载，如果我们想导入selenium，那么必须要阻断这个过程，并有selenium来代替，我们就需要通过修改downloadmiddleware中的process_request来实现。阅读全文

posted @ 2024-01-04 17:34 珊瑚贝博客阅读(36) 评论(0) 推荐(0) 编辑

爬虫中scrapy管道的使用

摘要：来源：http://www.shanhubei.com/archives/8595.html 一、pipeline中常用的方法 1. process_item（self，item，spider）管道类中必须有的函数实现对item数据的处理必须return item 2. open_spider 阅读全文

posted @ 2024-01-04 17:17 珊瑚贝博客阅读(77) 评论(0) 推荐(0) 编辑

scrapy爬取图片时遇到错误：ValueError: Missing scheme in request url: //scpic3.chinaz.net/Files/pic/pic9/202103

摘要：错误原因是在请求资源的时候没有使用完整的url只向//scpic3.chinaz.net/Files/pic/pic9/202103发送了资源请求，而完整的资源地址需要前面加上https:所以在pipelines.py文件的get_media_requests方法中，在发送request请求时修改为阅读全文

posted @ 2024-01-03 16:09 珊瑚贝博客阅读(9) 评论(0) 推荐(0) 编辑

python 报错TypeError: object of type ‘NoneType‘ has no len()处理

摘要：python 报错TypeError: object of type ‘NoneType‘ has no len()处理1. 引言在编程过程中，我们经常会遇到各种异常情况。其中之一就是TypeError异常，它表示操作或函数应用于了错误的数据类型。在本文中，我们将重点讨论TypeError异常中的一阅读全文

posted @ 2024-01-03 09:14 珊瑚贝博客阅读(1318) 评论(0) 推荐(0) 编辑

ssl_client_socket_impl.cc(992) handshake failed；returned -1,SSL error code 1,net_error -103

摘要：解决方案该提示是由于不安全的地址导致的，需要把这个错误屏蔽掉，可以使用 --ignore-certificate-errors 来屏蔽。屏蔽后发现还有其他错误提示，也一并解决了。主要添加了三项： # 忽略证书错误 options.add_argument('--ignore-certificate- 阅读全文

posted @ 2024-01-02 17:27 珊瑚贝博客阅读(1334) 评论(0) 推荐(0) 编辑

Python采集html页面时如何去除掉script,link等指定html标签

摘要：python爬虫去除html中特定标签、去除注释、替换实体前言：本文主要讲w3lib库的四个函数 html.remove_tags() html.remove_tags_with_content() html.remove_comments() html.remove_entities() remo 阅读全文

posted @ 2023-12-27 15:50 珊瑚贝博客阅读(523) 评论(0) 推荐(0) 编辑

Scrapy：没有名为“scrapy.contrib”的模块

摘要：scrapy.contrib现在已经过时了。在1.6版本的scrapy中将其删除。有关更多详细信息，请参见https://docs.scrapy.org/en/latest/news.html#deprecation-removals 阅读全文

posted @ 2023-12-27 15:34 珊瑚贝博客阅读(28) 评论(0) 推荐(0) 编辑

scrapy中运行一段时间报错pymysql.err.InterfaceError: (0, '')

摘要：错误信息 Traceback (most recent call last): File "/home/anaconda3/envs/python36/lib/python3.6/site-packages/twisted/python/threadpool.py", line 250, in in 阅读全文

posted @ 2023-12-25 16:19 珊瑚贝博客阅读(58) 评论(0) 推荐(0) 编辑

常用xpath选择器和css选择器总结

摘要：xpath选择器表达式说明 article 选取所有article元素的所有子节点 /article 选取根元素article article/a 选取所有属于article的子元素的a元素 //div 选取所有div子元素（不论出现在文档任何地方） article//div 选取所有属于arti 阅读全文

posted @ 2023-12-22 16:53 珊瑚贝博客阅读(95) 评论(0) 推荐(0) 编辑

Scrapy爬网站数据，存到MySQL

摘要：一、框架简介 1.1、简介 Scrapy框架是用纯Python实现的一个为了爬取网站数据、提取结构性数据而编写的可扩展的开源应用框架，只需要少量代码就能够快速地实现数据爬取。往往手写一个爬虫需要进行发送网络请求、数据解析、数据存储、反反扒机制、异步请求等步骤，如果都从零开始写是比较浪费时间的，同时会阅读全文

posted @ 2023-12-22 16:33 珊瑚贝博客阅读(135) 评论(0) 推荐(0) 编辑

Scrapy框架与数据库整合：如何实现动态数据存储？

摘要：随着互联网数据量的不断增加，如何快速、准确地爬取、处理、存储数据成为了互联网应用开发的关键问题。而Scrapy框架作为一个高效的爬虫框架，凭借其灵活、高速的爬取方式被广泛应用于各种数据爬取场景。然而，仅仅将爬取到的数据保存到文件中，无法满足大部分应用程序的需要。因为在当前的应用程序中，大多数数据都阅读全文

posted @ 2023-12-22 16:27 珊瑚贝博客阅读(144) 评论(0) 推荐(0) 编辑

xpath 如何通过xpath选取class一个或多个属性定位

摘要：来源：http://www.shanhubei.com/archives/3402.html <div class='aaaa bbbb'>春天的菠菜</div>1、通过定位一个class方式 //div[contains(@class,"aaaa")]) #它会取得所有class为aaaa的元素2 阅读全文

posted @ 2023-12-22 16:20 珊瑚贝博客阅读(947) 评论(0) 推荐(0) 编辑

Python的GUI图形界面工具大全

摘要：来源：http://www.shanhubei.com/archives/2833.html 总结了一下Python下的图形界面GUI工具，暂时能找到的资料就这么多，后续会补充推荐学习资料。图形界面的定义图形界面图形用户界面（Graphical User Interface，简称 GUI，又称阅读全文

posted @ 2023-11-13 11:51 珊瑚贝博客阅读(330) 评论(0) 推荐(0) 编辑

【python】只需一段代码，剪辑一个视频——Moviepy详解

摘要：http://www.shanhubei.com/archives/2757.html 前言知道吗，用moviepy一行代码就能够快速剪辑视频中某个区间的片段： clip = VideoFileClip(“videoplayback.mp4”).subclip(50,60) 这一段代码，能够在3秒阅读全文

posted @ 2023-09-26 11:21 珊瑚贝博客阅读(494) 评论(0) 推荐(0) 编辑

随笔分类 - python

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论