随笔分类 -  Python 爬虫

Python爬虫的简单入门和小实例,且所有代码都提供免费下载,适合初学者入门
摘要:Python爬虫教程 17 ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互 对于ajax: 1.一定会有 url,请求方法(get, post),可能有数据 2.一般使用 json 格式 爬取 阅读全文
posted @ 2018-09-06 20:50 xpwi 阅读(3786) 评论(0) 推荐(2) 编辑
摘要:python爬虫教程 16 破解js加密实例(有道在线翻译) 在爬虫爬取网站的时候,经常遇到一些反爬虫技术,比如: 加cookie,身份验证UserAgent 图形验证,还有很难破解的滑动验证 js签名验证,对传输数据进行加密处理 对于js加密 经过加密传输的就是密文,但是加密函数或者过程一定是在浏 阅读全文
posted @ 2018-09-06 20:48 xpwi 阅读(920) 评论(0) 推荐(0) 编辑
摘要:Python爬虫教程 15 爬虫读取cookie(人人网)和SSL(12306官网) 上一篇写道关于存储cookie文件,本篇介绍怎样读取cookie文件 cookie的读取 案例v16ssl文件:https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/py16 阅读全文
posted @ 2018-09-06 20:34 xpwi 阅读(995) 评论(0) 推荐(0) 编辑
摘要:Python爬虫教程 14 爬虫使用filecookiejar保存cookie文件(人人网) 上一篇介绍了利用CookieJar访问人人网,本篇将使用filecookiejar将cookie以文件形式保存 自动使用cookie登录,使用步骤: 1.打开登录页面后,通过用户名密码登录 2.自动提取反馈 阅读全文
posted @ 2018-09-06 20:32 xpwi 阅读(594) 评论(0) 推荐(0) 编辑
摘要:Python爬虫教程 13 爬虫使用cookie爬取登录后的页面(下) 自动使用cookie的方法,告别手动拷贝cookie http模块包含一些关于cookie的模块,通过他们我们可以自动的使用cookie CookieJar 管理存储Cookie,向传出的http请求添加cookie 这里Coo 阅读全文
posted @ 2018-09-06 20:30 xpwi 阅读(1307) 评论(0) 推荐(0) 编辑
摘要:Python爬虫教程 12 爬虫使用cookie(上) 爬虫关于cookie和session,由于http协议无记忆性,比如说登录淘宝网站的浏览记录,下次打开是不能直接记忆下来的,后来就有了cookie和session机制 Python爬虫爬取登录后的页面 所以怎样让爬虫使用验证用户身份信息的coo 阅读全文
posted @ 2018-09-06 20:27 xpwi 阅读(5930) 评论(0) 推荐(0) 编辑
摘要:Python爬虫教程 11 proxy代理IP,隐藏地址(猫眼电影) ProxyHandler处理(代理服务器),使用代理IP,是爬虫的常用手段,通常使用UserAgent 伪装浏览器爬取仍然可能被网站封了IP,但是我们使用代理IP就不怕它封了我们的IP了 获取代理IP的的网站: www.gouba 阅读全文
posted @ 2018-09-06 20:24 xpwi 阅读(1577) 评论(0) 推荐(0) 编辑
摘要:Python爬虫教程 10 UserAgent和常见浏览器UA值 有时候使用爬虫会被网站封了IP,所以需要去模拟浏览器,隐藏用户身份, UserAgent 包含浏览器信息,用户身份,设备系统信息 UserAgent:用户代理,简称UA,属于headers的一部分,服务器通过UA来判断访问者身份 使用 阅读全文
posted @ 2018-09-06 20:23 xpwi 阅读(3597) 评论(0) 推荐(0) 编辑
摘要:Python爬虫教程 09 error模块 今天的主角是error,爬取的时候,很容易出现错,所以我们要在代码里做一些,常见错误的处,关于urllib.error URLError URLError 产生的原因: 1.无网络连接 2.服务器连接失败 3.找不到指定的服务器 4.URLError是OS 阅读全文
posted @ 2018-09-06 20:14 xpwi 阅读(779) 评论(0) 推荐(0) 编辑
摘要:Python爬虫教程 08 post介绍(下) 为了更多的设置请求信息,单纯的通过urlopen已经不太能满足需求,此时需要使用request.Request类 构造Request 实例 发出请求 文件: 案例v8文件:https://xpwi.github.io/py/py%E7%88%AC%E8 阅读全文
posted @ 2018-09-06 20:12 xpwi 阅读(716) 评论(0) 推荐(0) 编辑
摘要:Python爬虫教程 07 post介绍(百度翻译)(上) 访问网络两种方法 get: 利用参数给服务器传递信息 参数为dict,使用parse编码 post :(今天给大家介绍的post) 一般向服务器传递参数使用 post是把信息自动加密处理 使用post传递信息,需要用到data参数 使用po 阅读全文
posted @ 2018-09-06 20:10 xpwi 阅读(689) 评论(0) 推荐(0) 编辑
摘要:使用python爬虫实现百度翻译(requests) python爬虫 上一篇介绍了怎么使用浏览器的【开发者工具】获取请求的【地址、状态、参数】以及使用python爬虫实现百度翻译功能【urllib】版 上一篇链接:https://blog.csdn.net/qq_40147863/article/ 阅读全文
posted @ 2018-09-06 20:09 xpwi 阅读(1715) 评论(0) 推荐(0) 编辑
摘要:Spider 04 response简介 本小节介绍urlopen的返回对象,和简单调试方法 案例v3 研究request的返回值,输出返回值类型,打印内容 geturl:返回请求对象的url info:请求返回对象的meta信息 getcode:返回的http code py04v3.py文件:h 阅读全文
posted @ 2018-09-06 20:08 xpwi 阅读(1259) 评论(0) 推荐(0) 编辑
摘要:使用python爬虫实现百度翻译功能 python爬虫实现百度翻译: python解释器【模拟浏览器】,发送【post请求】,传入待【翻译的内容】作为参数,获取【百度翻译的结果】 通过开发者工具,获取发送请求的地址 提示: 翻译内容发送的请求地址,绝对不是打开百度翻译的那个地址,想要抓取地址,就要借 阅读全文
posted @ 2018-09-06 20:08 xpwi 阅读(2401) 评论(0) 推荐(1) 编辑
摘要:Spider 03 使用chardet 继续学习python爬虫,我们经常出现解码问题,因为所有的页面编码都不统一,我们使用chardet检测页面的编码,尽可能的减少编码问题的出现 网页编码问题解决 使用chardet 可以自动检测页面文件的编码格式,但是也有可能出错 需要安装chardet, 如果 阅读全文
posted @ 2018-09-06 20:07 xpwi 阅读(1211) 评论(0) 推荐(0) 编辑
摘要:Spider 02 使用urlopen 做一个最简单的python爬虫,使用爬虫爬取:智联招聘某招聘信息的DOM urllib 包含模块 urllib.request:打开和读取urls urllib.error:包含urllib.request产生的常见错误,使用try捕捉 urllib.pars 阅读全文
posted @ 2018-09-06 20:03 xpwi 阅读(1197) 评论(0) 推荐(0) 编辑
摘要:Spider 01 爬虫介绍 Python 爬虫的知识量不是特别大,但是需要不停和网页打交道,每个网页情况都有所差异,所以对应变能力有些要求 爬虫准备工作 参考资料 精通Python爬虫框架Scrapy,人民邮电出版社 基础知识 url, http web前端,html,css,js ajax re 阅读全文
posted @ 2018-09-06 20:01 xpwi 阅读(2260) 评论(0) 推荐(2) 编辑
摘要:鉴于好多人想学Python爬虫,缺没有简单易学的教程,我将在CSDN和大家分享Python爬虫的学习笔记,不定期更新 基础要求 Python 基础知识 Python 的基础知识,大家可以去菜鸟教程进行学习 菜鸟教程python基础 http://www.runoob.com/python/pytho 阅读全文
posted @ 2018-09-06 19:20 xpwi 阅读(1046) 评论(0) 推荐(1) 编辑