随笔分类 - Scrapy爬虫框架
摘要:目标网站:https://www.snwx3.com/txt/434282.html 第一章地址:https://www.snwx3.com/book/434/434282/92792998.html 最后一章地址:https://www.snwx3.com/book/434/434282/9279
阅读全文
摘要:需要学习的地方,使用官方组件下载图片的用法,保存item到MySQL数据库 需要提前创建好MySQL数据库,根据item.py文件中的字段信息创建相应的数据表 1.items.py文件 2.settings.py文件 3.pipeline.py文件
阅读全文
摘要:需要学习的地方: 保存item到MySQL数据库,MongoDB数据库,下载图片 1.爬虫文件images.py 2.items.py 3.pipelines.py 4.settings.py 配置文件中增加如下内容 代码下载地址:https://files.cnblogs.com/files/sa
阅读全文
摘要:1.爬虫文件httpbin.py 2.中间件文件middlewares.py 不在settings.py文件中设置请求头。而是在下载器中间件中,也就是在请求requests之前加上请求头 另外在response响应后更改状态码 3.配置文件settings.py 在配置文件中启用该配置
阅读全文
摘要:描述:需要拖动拼合滑块才可以完成验证 准备工作: 使用的Python库是selenium,浏览器为Chrome 识别验证的关键思路: 1.模拟点击验证按钮 2.识别滑动缺口的位置 3.模拟拖动滑块
阅读全文
摘要:pipelines.py文件中
阅读全文
摘要:前提工作:识别图形验证码需要库tesserocr 把图形验证码保存到项目根目录,然后利用程序识别 方法1: 方法2:识别度较差 方法3:做一些灰度处理和二值化处理,推荐使用 注意: 使用这样的识别方法存在如下两种情况: 1.识别有误 2.完全识别不出来
阅读全文
摘要:重难点:使用scrapy获取的数值是unicode类型,保存到json文件时需要特别注意处理一下,具体请参考链接:https://www.cnblogs.com/sanduzxcvbnm/p/10309401.html 稍加改造也能保存到csv文件中 网址:https://sobooks.net/
阅读全文
摘要:注意:此方法跟之前保存成json文件的写法有少许不同之处,注意区分 情境再现: 使用scrapy抓取中文网页,得到的数据类型是unicode,在控制台输出的话也是显示unicode,如下所示 {'author': u'\u51af\u53cb\u5170\u7b49', 'classificatio
阅读全文
摘要:一般我们运行爬虫程序都是使用命令行,比如:scrapy crwal sobook。不过这多少有些不方便,可以使用下面的方法使用IDE的方式运行爬虫 我这边使用的是pycharm软件,在pycharm里运行这个文件就相当于使用命令行运行爬虫了。
阅读全文
摘要:需要学习的知识: 1.获取到的json数据如何处理 2.保存到json文件 3.保存到MongoDB数据库 4.下载项目图片(含缩略图) 1.创建项目 scrapy startproject gank 2.生成项目爬虫文件 scrapy genspider gank_img gank.io 注意:项
阅读全文
摘要:本文转载自: https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/downloader-middleware.html https://doc.scrapy.org/en/latest/topics/downloader-middleware.
阅读全文
摘要:本文转载自以下链接: https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/item-pipeline.html https://doc.scrapy.org/en/latest/topics/item-pipeline.html 当Item在S
阅读全文
摘要:本文转载自以下链接: https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/spiders.html https://doc.scrapy.org/en/latest/topics/spiders.html 1、Spiders对spider来说,
阅读全文
摘要:需要学习的地方: 1.Scrapy框架流程梳理,各文件的用途等 2.在Scrapy框架中使用MongoDB数据库存储数据 3.提取下一页链接,回调自身函数再次获取数据 重点:从当前页获取下一页的链接,传给函数自身继续发起请求 next = response.css('.pager .next a::
阅读全文
摘要:本文转载自以下链接:https://scrapy-chs.readthedocs.io/zh_CN/latest/intro/tutorial.html 在本篇教程中,我们假定您已经安装好Scrapy。接下来以 Open Directory Project(dmoz) (dmoz) 为例来讲述爬取。
阅读全文
摘要:本文转载自以下链接:https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/commands.html Scrapy是通过 scrapy 命令行工具进行控制的。 这里我们称之为 “Scrapy tool” 以用来和子命令进行区分。 对于子命令,我们称为 “command” 或者 “Scrapy commands”。 Scrapy tool ...
阅读全文
摘要:官方示例源码<html> <head> <base href='http://example.com/' /> <title>Example website</title> </head> <body> <div id='images'> <a href='image1.html'>Name: My
阅读全文