2018 年 1月 16 日随笔档案 - 巅峰之斗

2018年1月16日

摘要： Scrapy介绍 Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。所谓网络爬虫，就是一个在网上到处或定向抓取数据的程序，当然，这种说法不够专业，更专业的描述就是，抓取特定网站网页的HTML数据。抓取网页的一般方法阅读全文

posted @ 2018-01-16 19:06 巅峰之斗阅读(233) 评论(0) 推荐(0)

使用pytesseract识别简单验证码

摘要： from PIL import Image import pytesseract from pytesseract import * rep={'O':'0', #替换列表 'I':'1','L':'1', 'Z':'2', 'S':'8' }; def initTable(threshold=14 阅读全文

posted @ 2018-01-16 19:02 巅峰之斗阅读(336) 评论(0) 推荐(0)

Python验证码识别安装Pillow、tesseract-ocr与pytesseract模块的安装以及错误解决

摘要： 1.安装Pillow 2.安装tesseract-ocr github地址: https://github.com/tesseract-ocr/tesseract You can either Install Tesseract via pre-built binary package or bui 阅读全文

posted @ 2018-01-16 18:04 巅峰之斗阅读(983) 评论(0) 推荐(0)

一个简单的多线程Python爬虫

摘要：最近想要抓取拉勾网的数据，最开始是使用Scrapy的，但是遇到了下面两个问题: 目前不会处理使用JS模板引擎生成的HTML页面，用POST的提交参数的话，接口统一，也没有必要使用Scrapy，所以就萌生了自己写一个简单的Python爬虫的想法。本文中的部分链接可能需要FQ。参考资料：一个爬虫的阅读全文

posted @ 2018-01-16 13:50 巅峰之斗阅读(852) 评论(0) 推荐(0)

巅峰之斗

公告