Scrapy爬虫框架 - 随笔分类 - 哈喽哈喽111111

使用scrapy爬取长安有妖气小说

摘要：目标网站：https://www.snwx3.com/txt/434282.html 第一章地址：https://www.snwx3.com/book/434/434282/92792998.html 最后一章地址：https://www.snwx3.com/book/434/434282/9279 阅读全文

posted @ 2020-11-19 22:27 哈喽哈喽111111 阅读(195) 评论(0) 推荐(0) 编辑

使用官方组件下载图片，保存到MySQL数据库，保存到MongoDB数据库

摘要：需要学习的地方，使用官方组件下载图片的用法，保存item到MySQL数据库需要提前创建好MySQL数据库，根据item.py文件中的字段信息创建相应的数据表 1.items.py文件 2.settings.py文件 3.pipeline.py文件阅读全文

posted @ 2019-02-14 17:53 哈喽哈喽111111 阅读(530) 评论(0) 推荐(0) 编辑

Scrapy Item用法示例（保存item到MySQL数据库，MongoDB数据库，使用官方组件下载图片）

摘要：需要学习的地方：保存item到MySQL数据库，MongoDB数据库，下载图片 1.爬虫文件images.py 2.items.py 3.pipelines.py 4.settings.py 配置文件中增加如下内容代码下载地址：https://files.cnblogs.com/files/sa 阅读全文

posted @ 2019-02-01 14:15 哈喽哈喽111111 阅读(370) 评论(0) 推荐(0) 编辑

Scrapy下载器中间件用法示例

摘要：1.爬虫文件httpbin.py 2.中间件文件middlewares.py 不在settings.py文件中设置请求头。而是在下载器中间件中，也就是在请求requests之前加上请求头另外在response响应后更改状态码 3.配置文件settings.py 在配置文件中启用该配置阅读全文

posted @ 2019-02-01 14:11 哈喽哈喽111111 阅读(431) 评论(0) 推荐(0) 编辑

Scrapy爬虫框架示意图汇总

摘要：阅读全文

posted @ 2019-02-01 11:24 哈喽哈喽111111 阅读(475) 评论(0) 推荐(0) 编辑

极验滑动验证码的识别

摘要：描述：需要拖动拼合滑块才可以完成验证准备工作：使用的Python库是selenium，浏览器为Chrome 识别验证的关键思路： 1.模拟点击验证按钮 2.识别滑动缺口的位置 3.模拟拖动滑块阅读全文

posted @ 2019-02-01 11:01 哈喽哈喽111111 阅读(887) 评论(0) 推荐(0) 编辑

使用scrapy爬取的数据保存到CSV文件中，不使用命令

摘要：pipelines.py文件中阅读全文

posted @ 2019-01-31 17:01 哈喽哈喽111111 阅读(1695) 评论(0) 推荐(0) 编辑

图形验证码的识别

摘要：前提工作：识别图形验证码需要库tesserocr 把图形验证码保存到项目根目录，然后利用程序识别方法1：方法2：识别度较差方法3：做一些灰度处理和二值化处理，推荐使用注意：使用这样的识别方法存在如下两种情况： 1.识别有误 2.完全识别不出来阅读全文

posted @ 2019-01-31 11:01 哈喽哈喽111111 阅读(604) 评论(0) 推荐(0) 编辑

使用Scrapy爬取图书网站信息

摘要：重难点：使用scrapy获取的数值是unicode类型，保存到json文件时需要特别注意处理一下，具体请参考链接：https://www.cnblogs.com/sanduzxcvbnm/p/10309401.html 稍加改造也能保存到csv文件中网址：https://sobooks.net/ 阅读全文

posted @ 2019-01-23 16:38 哈喽哈喽111111 阅读(1071) 评论(0) 推荐(0) 编辑

解决Scrapy抓取中文网页保存为json文件时中文不显示而是显示unicode的问题

摘要：注意：此方法跟之前保存成json文件的写法有少许不同之处，注意区分情境再现：使用scrapy抓取中文网页，得到的数据类型是unicode，在控制台输出的话也是显示unicode,如下所示 {'author': u'\u51af\u53cb\u5170\u7b49', 'classificatio 阅读全文

posted @ 2019-01-23 15:47 哈喽哈喽111111 阅读(1103) 评论(0) 推荐(0) 编辑

Scrapy实战：使用IDE工具运行爬虫

摘要：一般我们运行爬虫程序都是使用命令行，比如：scrapy crwal sobook。不过这多少有些不方便，可以使用下面的方法使用IDE的方式运行爬虫我这边使用的是pycharm软件，在pycharm里运行这个文件就相当于使用命令行运行爬虫了。阅读全文

posted @ 2019-01-23 10:06 哈喽哈喽111111 阅读(1202) 评论(0) 推荐(0) 编辑

Scrapy实战：使用scrapy再再次爬取干货集中营的妹子图片

摘要：需要学习的知识： 1.获取到的json数据如何处理 2.保存到json文件 3.保存到MongoDB数据库 4.下载项目图片(含缩略图) 1.创建项目 scrapy startproject gank 2.生成项目爬虫文件 scrapy genspider gank_img gank.io 注意：项阅读全文

posted @ 2019-01-22 13:23 哈喽哈喽111111 阅读(390) 评论(0) 推荐(0) 编辑

六、Scrapy中Download Middleware的用法

摘要：本文转载自： https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/downloader-middleware.html https://doc.scrapy.org/en/latest/topics/downloader-middleware. 阅读全文

posted @ 2019-01-21 17:20 哈喽哈喽111111 阅读(2207) 评论(0) 推荐(0) 编辑

五、Scrapy中Item Pipeline的用法

摘要：本文转载自以下链接： https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/item-pipeline.html https://doc.scrapy.org/en/latest/topics/item-pipeline.html 当Item在S 阅读全文

posted @ 2019-01-21 16:15 哈喽哈喽111111 阅读(964) 评论(0) 推荐(0) 编辑

四、Spider用法

摘要：本文转载自以下链接： https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/spiders.html https://doc.scrapy.org/en/latest/topics/spiders.html 1、Spiders对spider来说，阅读全文

posted @ 2019-01-21 15:59 哈喽哈喽111111 阅读(1712) 评论(0) 推荐(0) 编辑

Scrapy实战：爬取http://quotes.toscrape.com网站数据

摘要：需要学习的地方： 1.Scrapy框架流程梳理，各文件的用途等 2.在Scrapy框架中使用MongoDB数据库存储数据 3.提取下一页链接，回调自身函数再次获取数据重点：从当前页获取下一页的链接，传给函数自身继续发起请求 next = response.css('.pager .next a:: 阅读全文

posted @ 2019-01-19 18:18 哈喽哈喽111111 阅读(2469) 评论(0) 推荐(1) 编辑

一、Scrapy入门教程

摘要：本文转载自以下链接：https://scrapy-chs.readthedocs.io/zh_CN/latest/intro/tutorial.html 在本篇教程中，我们假定您已经安装好Scrapy。接下来以 Open Directory Project(dmoz) (dmoz) 为例来讲述爬取。阅读全文

posted @ 2019-01-19 17:55 哈喽哈喽111111 阅读(413) 评论(0) 推荐(0) 编辑

二、Scrapy命令行工具

摘要：本文转载自以下链接：https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/commands.html Scrapy是通过 scrapy 命令行工具进行控制的。这里我们称之为 “Scrapy tool” 以用来和子命令进行区分。对于子命令，我们称为 “command” 或者 “Scrapy commands”。 Scrapy tool ... 阅读全文

posted @ 2019-01-19 17:51 哈喽哈喽111111 阅读(265) 评论(0) 推荐(0) 编辑

三、Scrapy中选择器用法

摘要：官方示例源码<html> <head> <base href='http://example.com/' /> <title>Example website</title> </head> <body> <div id='images'> <a href='image1.html'>Name: My 阅读全文

posted @ 2019-01-19 17:48 哈喽哈喽111111 阅读(402) 评论(0) 推荐(0) 编辑

哈喽

随笔分类 - Scrapy爬虫框架

搜索

随笔分类 (2673)