爬虫学习 - 随笔分类(第2页) - 一只小小的寄居蟹

摘要：通过cookies信息爬取分析header和cookies 通过subtext粘贴处理header和cookies信息处理后，方便粘贴到代码中爬取拉钩信息代码展示结果阅读全文

posted @ 2018-05-13 02:51 一只小小的寄居蟹阅读(726) 评论(0) 推荐(0) 编辑

摘要：CrawlSpider Scrapy框架中分两类爬虫，Spider类和CrawlSpider类。它是Spider的派生类，Spider类的设计原则是只爬取start_url列表中的网页，而CrawlSpider类定义了一些规则(rule)来提供跟进link的方便的机制，从爬取的网页中获取link 阅读全文

posted @ 2018-05-12 10:50 一只小小的寄居蟹阅读(368) 评论(0) 推荐(0) 编辑

爬虫框架之Scrapy——爬取某招聘信息网站

摘要：案例1：爬取内容存储为一个文件 1.建立项目 2.编写item文件 3.建立spider文件编写spider类逻辑 4.建立pipeline文件存储数据 5.设置settiing 6.执行程序 json文件案例2：爬取内容存储为两个文件案例2与只是把案例1中的概率页和详细内容页分成两个文件去阅读全文

posted @ 2018-05-11 15:52 一只小小的寄居蟹阅读(3803) 评论(0) 推荐(0) 编辑

爬虫框架之Scrapy

摘要：安装 windows linux安装 Scrapy框架介绍 Scrapy是一个基于Twisted的异步处理框架，是纯Python实现的爬虫框架，其架构清晰，模块之间的耦合程度低，可扩展性极强，可以灵活完成各种需要。我们只需要定制开发几个模块就可以轻松实现一个爬虫。文档 http://scrapy- 阅读全文

posted @ 2018-05-09 01:58 一只小小的寄居蟹阅读(627) 评论(0) 推荐(0) 编辑

Python——通过用户cookies访问微博首页

摘要：通过用户cookies访问微博首页 1.登录微博 2.获取cooikes，保存json文件 3..读取json文件，获得cooikes，访问主页 4.详细代码输出结果阅读全文

posted @ 2018-04-26 02:14 一只小小的寄居蟹阅读(1652) 评论(0) 推荐(1) 编辑

Python——使用代码平台进行识别验证码

摘要：打码平台介绍一般使用超级鹰或打码兔的打码平台。超级鹰介绍打开http://www.chaojiying.com/contact.html注册用户，生成软件ID 下载python的demo文件查看打码类型使用方法逻辑实现 1.获取需要识别的图片在获取需要的识别的图片时，一般需要讲图片以及阅读全文

posted @ 2018-04-23 00:41 一只小小的寄居蟹阅读(2538) 评论(1) 推荐(0) 编辑

Python——破解极验滑动验证码

摘要：极验滑动验证码以上图片是最典型的要属于极验滑动认证了，极验官网：http://www.geetest.com/。现在极验验证码已经更新到了 3.0 版本，截至 2017 年 7 月全球已有十六万家企业正在使用极验，每天服务响应超过四亿次，广泛应用于直播视频、金融服务、电子商务、游戏娱乐、政府企业阅读全文

posted @ 2018-04-19 12:05 一只小小的寄居蟹阅读(21336) 评论(8) 推荐(8) 编辑

Python——pytessercat识别简单的验证码

摘要：什么是验证码验证码（CAPTCHA）是“Completely Automated Public Turing test to tell Computersand Humans Apart” （全自动区分计算机和人类的图灵测试）的缩写，是一种区分用户是计算机还是人的公共全自动程序。可以防止：恶意破阅读全文

posted @ 2018-04-17 21:28 一只小小的寄居蟹阅读(1331) 评论(0) 推荐(0) 编辑

Python爬虫——selenium模块

摘要：selenium模块介绍 selenium最初是一个测试工具，而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，能支持多种浏览器。 Seleniu 阅读全文

posted @ 2018-04-15 01:32 一只小小的寄居蟹阅读(3254) 评论(1) 推荐(2) 编辑

Python——爬虫进阶

摘要：课程内容 Python爬虫——反爬 Python加密与解密 Python模块——HashLib与base64 Python爬虫——selenium模块 Python——pytessercat识别简单的验证码 Python——破解极验滑动验证码 Python——使用代码平台进行识别验证码案例研究 P 阅读全文

posted @ 2018-04-08 20:40 一只小小的寄居蟹阅读(1532) 评论(0) 推荐(0) 编辑

Python爬虫——反爬

摘要：反爬概述网络爬虫，是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。但是当网络爬虫被滥用后，互联网上就出现太多同质的东西，原创得不到保护。于是，很多网站开始反网络爬虫,想方设法保护自己的内容。他们根据ip访问频率，浏览网页速度，账户登录，输入验证码，flash封阅读全文

posted @ 2018-04-08 18:55 一只小小的寄居蟹阅读(4151) 评论(0) 推荐(1) 编辑

Python加密与解密

摘要：前言据记载，公元前400年，古希腊人发明了置换密码。1881年世界上的第一个电话保密专利出现。在第二次世界大战期间，德国军方启用“恩尼格玛”密码机，密码学在战争中起着非常重要的作用。随着信息化和数字化社会的发展，人们对信息安全和保密的重要性认识不断提高，于是在1997年，美国国家标准局公布阅读全文

posted @ 2018-04-08 14:52 一只小小的寄居蟹阅读(33925) 评论(0) 推荐(1) 编辑

Python模块——HashLib与base64

摘要：摘要算法（hashlib） Python的hashlib提供了常见的摘要算法，如MD5，SHA1等等。什么是摘要算法呢？摘要算法又称哈希算法、散列算法。它通过一个函数，把任意长度的数据转换为一个长度固定的数据串（通常用16进制的字符串表示）你写了一篇文章，内容是一个字符串'how to use 阅读全文

posted @ 2018-04-08 12:58 一只小小的寄居蟹阅读(1884) 评论(0) 推荐(0) 编辑

Python爬虫目录

摘要：Python爬虫目录 Pycharm 连接Linux 远程开发 mongodb在windows下安装启动爬虫抓包工具Fiddle设置爬虫抓包工具Charles设置爬虫工具fiddle在firefox浏览器中的使用 python urllib和urllib3包使用 requests库使用 bea 阅读全文

posted @ 2018-04-02 17:40 一只小小的寄居蟹阅读(739) 评论(0) 推荐(0) 编辑

Pycharm 连接Linux 远程开发

摘要：Pycharm 连接Linux 远程开发在Liunx上安装python3.6（Ubuntu16） Pycharm界面操作阅读全文

posted @ 2018-03-17 07:54 一只小小的寄居蟹阅读(12304) 评论(0) 推荐(0) 编辑

beautifulsoup库使用

摘要：介绍与安装 Beautiful Soup 是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。BeautifulSoup 用来解析 HTML 比较简单， API非常人性化，支持CSS选择器、Python标准库中的HTML解析器，也支持 lxml 的 XML解析器。阅读全文

posted @ 2018-03-02 15:51 一只小小的寄居蟹阅读(1193) 评论(0) 推荐(0) 编辑

mongodb在windows下安装启动

摘要：mongodb安装 mongodb配置创建几个文件夹具体如下：数据库路径（\data\db\目录）、日志路径（\data\log\目录）和日志文件（mongod.log文件）c:\data\log\c:\data\db\ 创建配置文件mongod.cfg MongoDB服务安装启动阅读全文

posted @ 2018-03-01 22:36 一只小小的寄居蟹阅读(700) 评论(0) 推荐(0) 编辑

requests库使用

摘要：介绍： GET请求： GET请求->headers 通常我们在发送请求时都需要带上请求头，请求头是将自身伪装成浏览器的关键 GET请求->cookies GET请求->代理 GET请求->超时设置 response response属性编码问题解析json 获取二进制数据基于POST请求 1、阅读全文

posted @ 2018-02-12 16:48 一只小小的寄居蟹阅读(1197) 评论(0) 推荐(0) 编辑

python urllib和urllib3包使用

摘要：urllib包 urllib是一个包含几个模块来处理请求的库。分别是： urllib.request 发送http请求 urllib.error 处理请求过程中,出现的异常。 urllib.parse 解析url urllib.robotparser 解析robots.txt 文件 urllib.r 阅读全文

posted @ 2018-02-08 22:01 一只小小的寄居蟹阅读(63080) 评论(4) 推荐(5) 编辑

爬虫工具fiddle在firefox浏览器中的使用

摘要：1.fiddle工作原理浏览器与服务器之间通过建立TCP连接以HTTP协议进行通信，默认通过自己发送HTTP（或HTTPS）请求到服务器。使用Fiddler之后，浏览器像目标服务器发送的请求都会经过Fiddler代理，所以fiddler可以捕获到http（s）请求，从而可以解释、分析、甚至重写发阅读全文

posted @ 2018-02-06 19:55 一只小小的寄居蟹阅读(1090) 评论(0) 推荐(0) 编辑

一只小小寄居蟹

随笔分类 - 爬虫学习

公告