摘要: 介绍 在爬虫过程中,难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们可以直接用 OCR 来识别。 tesserocr 是 Python 的一个 OCR 识别库 ,但其实是对 tesseract 做的一 层 Python API 封装,所以它的核心是 tesseract。 因此,在 阅读全文
posted @ 2018-10-11 15:55 寒爵 阅读(26340) 评论(2) 推荐(2) 编辑
摘要: import time def progress(percent, width=50): ''' 进度打印功能 :param percent: 进度 :param width: 进度条长度 ''' if percent >= 100: percent = 100 show_str = ('[%%-%ds]' % wid... 阅读全文
posted @ 2018-10-08 15:59 寒爵 阅读(2405) 评论(0) 推荐(0) 编辑
摘要: 关于open()的mode参数: 阅读全文
posted @ 2018-10-08 14:28 寒爵 阅读(1299) 评论(0) 推荐(0) 编辑
摘要: 在Python 2中,有urllib和urllib2两个库来实现请求的发送。而在Python 3中,已经不存在urllib2这个库了,统一为urllib,其官方文档链接为:https://docs.python.org/3/library/urllib.html。 urllib库,是Python内置 阅读全文
posted @ 2018-09-30 13:59 寒爵 阅读(1806) 评论(0) 推荐(1) 编辑
摘要: Python爬虫(1):基本原理 Python爬虫(2):Requests的基本用法 Python爬虫(3):Requests的高级用法 Python爬虫(4):Beautiful Soup的常用方法 Python爬虫(5):豆瓣读书练手爬虫 Python爬虫(6):煎蛋网全站妹子图爬虫 Pytho 阅读全文
posted @ 2018-09-29 10:45 寒爵 阅读(444) 评论(0) 推荐(0) 编辑
摘要: 下载chromedriver,链接:http://chromedriver.storage.googleapis.com/index.html 阅读全文
posted @ 2018-09-29 09:00 寒爵 阅读(359) 评论(0) 推荐(0) 编辑
摘要: 使用 selenium + phantomjs 实现 1、准备环境 selenium(一个用于web应用程测试的工具)安装:pip install seleniumphantomjs(是一种无界面的浏览器,用于完成网页的渲染)下载:http://phantomjs.org/download.html 阅读全文
posted @ 2018-09-28 15:22 寒爵 阅读(920) 评论(0) 推荐(0) 编辑
摘要: 当我们进行网页爬虫时,我们会利用一定的规则从返回的 HTML 数据中提取出有效的信息。但是如果网页中含有 JavaScript 代码,我们必须经过渲染处理才能获得原始数据。此时,如果我们仍采用常规方法从中抓取数据,那么我们将一无所获。那么,通过Web kit可以简单解决这个问题。Web kit 可以 阅读全文
posted @ 2018-09-28 11:32 寒爵 阅读(5272) 评论(0) 推荐(0) 编辑
摘要: 第一步:下载.whl,地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#pyqt4,这里可以下载不同的python版本对应的包。 第二步:选择一个目录,将下载好的文件放到该目录下,然后cmd下,cd进入该目录,执行命令:pip install PyQt4- 阅读全文
posted @ 2018-09-28 10:33 寒爵 阅读(4143) 评论(0) 推荐(0) 编辑
摘要: import requests from bs4 import BeautifulSoup def parse_html(num): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0... 阅读全文
posted @ 2018-09-26 16:40 寒爵 阅读(887) 评论(0) 推荐(0) 编辑