随笔分类 - 爬虫学习
摘要:通过cookies信息爬取 分析header和cookies 通过subtext粘贴处理header和cookies信息 处理后,方便粘贴到代码中 爬取拉钩信息代码 展示结果
阅读全文
摘要:CrawlSpider Scrapy框架中分两类爬虫,Spider类和CrawlSpider类。 它是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页, 而CrawlSpider类定义了一些规则(rule)来提供跟进link的方便的机制,从爬取的网页中获取link
阅读全文
摘要:案例1:爬取内容存储为一个文件 1.建立项目 2.编写item文件 3.建立spider文件 编写spider类逻辑 4.建立pipeline文件 存储数据 5.设置settiing 6.执行程序 json文件 案例2:爬取内容存储为两个文件 案例2与只是把案例1中的概率页和详细内容页分成两个文件去
阅读全文
摘要:安装 windows linux安装 Scrapy框架介绍 Scrapy是一个基于Twisted的异步处理框架,是纯Python实现的爬虫框架,其架构清晰,模块之间的耦合程度低,可扩展性极强,可以灵活完成各种需要。我们只需要定制开发几个模块就可以轻松实现一个爬虫。 文档 http://scrapy-
阅读全文
摘要:通过用户cookies访问微博首页 1.登录微博 2.获取cooikes,保存json文件 3..读取json文件,获得cooikes,访问主页 4.详细代码 输出结果
阅读全文
摘要:打码平台介绍 一般使用超级鹰或打码兔的打码平台。 超级鹰介绍 打开http://www.chaojiying.com/contact.html注册用户,生成软件ID 下载python的demo文件 查看打码类型 使用方法 逻辑实现 1.获取需要识别的图片 在获取需要的识别的图片时,一般需要讲图片以及
阅读全文
摘要:极验滑动验证码 以上图片是最典型的要属于极验滑动认证了,极验官网:http://www.geetest.com/。 现在极验验证码已经更新到了 3.0 版本,截至 2017 年 7 月全球已有十六万家企业正在使用极验,每天服务响应超过四亿次,广泛应用于直播视频、金融服务、电子商务、游戏娱乐、政府企业
阅读全文
摘要:什么是验证码 验证码(CAPTCHA)是“Completely Automated Public Turing test to tell Computersand Humans Apart” (全自动区分计算机和人类的图灵测试)的缩写, 是一种区分用户是计算机还是人的公共全自动程序。可以防止:恶意破
阅读全文
摘要:selenium模块介绍 selenium最初是一个测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,能支持多种浏览器。 Seleniu
阅读全文
摘要:课程内容 Python爬虫——反爬 Python加密与解密 Python模块——HashLib与base64 Python爬虫——selenium模块 Python——pytessercat识别简单的验证码 Python——破解极验滑动验证码 Python——使用代码平台进行识别验证码 案例研究 P
阅读全文
摘要:反爬概述 网络爬虫,是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。 但是当网络爬虫被滥用后,互联网上就出现太多同质的东西,原创得不到保护。 于是,很多网站开始反网络爬虫,想方设法保护自己的内容。 他们根据ip访问频率,浏览网页速度,账户登录,输入验证码,flash封
阅读全文
摘要:前言 据记载,公元前400年,古希腊人发明了置换密码。1881年世界上的第一个电话 保密专利出现。在第二次世界大战期间,德国军方启用“恩尼格玛”密码机, 密码学在战争中起着非常重要的作用。 随着信息化和数字化社会的发展,人们对信息安全和保密的重要性认识不断提高, 于是在1997年,美国国家标准局公布
阅读全文
摘要:摘要算法(hashlib) Python的hashlib提供了常见的摘要算法,如MD5,SHA1等等。 什么是摘要算法呢?摘要算法又称哈希算法、散列算法。它通过一个函数,把任意长度的数据转换为一个长度固定的数据串(通常用16进制的字符串表示) 你写了一篇文章,内容是一个字符串'how to use
阅读全文
摘要:Python爬虫目录 Pycharm 连接Linux 远程开发 mongodb在windows下安装启动 爬虫抓包工具Fiddle设置 爬虫抓包工具Charles设置 爬虫工具fiddle在firefox浏览器中的使用 python urllib和urllib3包使用 requests库使用 bea
阅读全文
摘要:Pycharm 连接Linux 远程开发 在Liunx上安装python3.6(Ubuntu16) Pycharm界面操作
阅读全文
摘要:介绍与安装 Beautiful Soup 是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。BeautifulSoup 用来解析 HTML 比较简单, API非常人性化,支持CSS选择器、Python标准库中的HTML解析器, 也支持 lxml 的 XML解析器。
阅读全文
摘要:mongodb安装 mongodb配置 创建几个文件夹具体如下:数据库路径(\data\db\目录)、日志路径(\data\log\目录)和日志文件(mongod.log文件)c:\data\log\c:\data\db\ 创建配置文件mongod.cfg MongoDB服务安装启动
阅读全文
摘要:介绍: GET请求: GET请求->headers 通常我们在发送请求时都需要带上请求头,请求头是将自身伪装成浏览器的关键 GET请求->cookies GET请求->代理 GET请求->超时设置 response response属性 编码问题 解析json 获取二进制数据 基于POST请求 1、
阅读全文
摘要:urllib包 urllib是一个包含几个模块来处理请求的库。分别是: urllib.request 发送http请求 urllib.error 处理请求过程中,出现的异常。 urllib.parse 解析url urllib.robotparser 解析robots.txt 文件 urllib.r
阅读全文
摘要:1.fiddle工作原理 浏览器与服务器之间通过建立TCP连接以HTTP协议进行通信,默认通过自己发送HTTP(或HTTPS)请求到服务器。 使用Fiddler之后,浏览器像目标服务器发送的请求都会经过Fiddler代理,所以fiddler可以捕获到http(s)请求,从而可以解释、分析、甚至重写发
阅读全文