随笔分类 -  爬虫相关

爬虫框架之Scrapy
摘要:一、介绍 二、安装 三、命令行工具 四、项目结构以及爬虫应用简介 五、Spiders 六、Selectors 七、Items 八、Item Pipelin 九、 Dowloader Middeware 十、Sider Middlewear 十一、自定义扩展 十二、setitings.py 十三、获取 阅读全文
posted @ 2018-01-25 21:59 海燕。 阅读(2998) 评论(1) 推荐(1) 编辑
asynicio模块以及爬虫应用asynicio模块(高性能爬虫)
摘要:一、背景知识 爬虫的本质就是一个socket客户端与服务端的通信过程,如果我们有多个url待爬取,只用一个线程且采用串行的方式执行,那只能等待爬取一个结束后才能继续下一个,效率会非常低。 需要强调的是:对于单线程下串行N个任务,并不完全等同于低效,如果这N个任务都是纯计算的任务,那么该线程对cpu的 阅读全文
posted @ 2018-01-22 19:20 海燕。 阅读(1507) 评论(0) 推荐(0) 编辑
破解极验滑动验证码
摘要:一、介绍 一些网站会在正常的账号密码认证之外加一些验证码,以此来明确地区分人/机行为,从一定程度上达到反爬的效果,对于简单的校验码Tesserocr就可以搞定,如下 但一些网站加入了滑动验证码,最典型的要属于极验滑动认证了,极验官网:http://www.geetest.com/,下图是极验的登录界 阅读全文
posted @ 2018-01-21 12:11 海燕。 阅读(1530) 评论(0) 推荐(0) 编辑
BeatifulSoup模块
摘要:一、介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautifu 阅读全文
posted @ 2018-01-19 15:58 海燕。 阅读(4029) 评论(0) 推荐(4) 编辑
爬虫投递简历小示例
摘要:一、流程分析 二、代码实现 1 import requests 2 import re 3 from urllib.parse import urlencode 4 session = requests.session() 5 r1 = session.get( 6 "https://passpor 阅读全文
posted @ 2018-01-17 21:23 海燕。 阅读(2893) 评论(0) 推荐(0) 编辑
requests模块
摘要:一、介绍 二、基于GET请求 1、基本请求 2、带参数的GET请求->params 1 #在请求头内将自己伪装成浏览器,否则百度不会正常返回页面内容 2 import requests 3 response=requests.get('https://www.baidu.com/s?wd=pytho 阅读全文
posted @ 2018-01-15 21:56 海燕。 阅读(1489) 评论(0) 推荐(1) 编辑
爬虫学习目录
摘要:阅读目录 第一篇:爬虫基本原理 第二篇:请求库之requests,selenium 第三篇:解析库之re、beautifulsoup、pyquery 第四篇:存储库之mongodb、redis、mysql 第五篇:爬虫高性能相关 第六篇:Scrapy框架 第七篇:爬虫实战 1、破解滑动验证码 2、投 阅读全文
posted @ 2018-01-15 19:36 海燕。 阅读(4550) 评论(1) 推荐(1) 编辑
beautifulSoup爬虫基础库
摘要:知识预览 request模块 beautifulsoup的简单使用 beautifulsoup的遍历文档树 beautifulsoup的搜索文档树 beautifulsoup的css选择器 知识预览 request模块 beautifulsoup的简单使用 beautifulsoup的遍历文档树 b 阅读全文
posted @ 2017-12-02 17:32 海燕。 阅读(346) 评论(1) 推荐(2) 编辑