该文被密码保护。 阅读全文
posted @ 2019-07-06 16:05 懒惰的小松鼠 阅读(52) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2019-06-02 13:59 懒惰的小松鼠 阅读(12) 评论(0) 推荐(0) 编辑
摘要: 图片验证码基本上是有数字和字母或者数字或者字母组成的字符串,然后通过一些干扰线的绘制而形成图片验证码。 例如:知网的注册就有图片验证码 首先我们需要获取验证码图片,通过开发者工具我们可以得到验证码url链接 其次就是通过Pillow类库和tesserocr进行识别,代码如下: 1 # -*- cod 阅读全文
posted @ 2019-06-01 17:36 懒惰的小松鼠 阅读(1782) 评论(0) 推荐(1) 编辑
摘要: 一、安装tesserocr 1、首先下载tesseract:https://digi.bib.uni-mannheim.de/tesseract/ ,我下载的是tesseract-ocr-setup-3.05.02-20180621.exe 下载完成后直接双击安装,然后一直点击下一步,直到完成。 然 阅读全文
posted @ 2019-06-01 14:34 懒惰的小松鼠 阅读(375) 评论(0) 推荐(0) 编辑
摘要: 在上两节当中,我们爬取了360图片,但是我们需要将图片下载下来,这将如何下载和存储呢? 下边叙述一下三种情况:1、将图片下载后存储到MongoDB数据库;2、将图片下载后存储在MySQL数据库;3、将图片下载到本地文件 话不多说,直接上代码: 1、通过item定义存储字段 2、配置settings文 阅读全文
posted @ 2019-04-14 21:57 懒惰的小松鼠 阅读(1095) 评论(0) 推荐(1) 编辑
摘要: # -*- coding: utf-8 -*-# 在这里定义蜘蛛中间件的模型# Define here the models for your spider middleware## See documentation in:# https://doc.scrapy.org/en/latest/to 阅读全文
posted @ 2019-04-14 21:14 懒惰的小松鼠 阅读(1395) 评论(0) 推荐(1) 编辑
摘要: # -*- coding: utf-8 -*-# Scrapy settings for maoyan project## For simplicity, this file contains only settings considered important or# commonly used. You can find more settings consulting the documen... 阅读全文
posted @ 2019-04-14 21:12 懒惰的小松鼠 阅读(552) 评论(0) 推荐(0) 编辑
摘要: Scrapy原理图: item位于原理图的最左边 item.py文件是报存爬取数据的容器,他使用的方法和字典很相似,但是相比字典item多了额外的保护机制,可以避免拼写错误或者定义错误。 1、创建item 在创建item时需要继承scrapy.Item类,并且定义scrapy.Field字段。由于我 阅读全文
posted @ 2019-04-12 16:34 懒惰的小松鼠 阅读(700) 评论(0) 推荐(0) 编辑
摘要: Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取所设计的, 也可以应用在获取API所返回的数据或者通用的网络爬虫。 Scrapy原理图如下: 1、创建Scrapy项目:进入你需要创建scrapy项 阅读全文
posted @ 2019-04-12 14:56 懒惰的小松鼠 阅读(2460) 评论(0) 推荐(0) 编辑
摘要: 由于项目需要将PDF文档当中的图片转换成图片,所以参考了这篇文章https://blog.csdn.net/qq_15969343/article/details/81673302后项目得以解决。 1、安装第三方类库pymupdf:pip install pymupdf 2、安装完成后直接上代码,代 阅读全文
posted @ 2019-04-04 15:06 懒惰的小松鼠 阅读(7980) 评论(1) 推荐(1) 编辑