文章分类 -  Python 爬虫

摘要:AsyncIO Twisted实现异步非阻塞 asyncio + requests Twisted 参考链接:www.cnblogs.com/wupeiqi/articles/6229292.html 阅读全文
posted @ 2017-10-22 17:01 Vincen_shen 阅读(115) 评论(0) 推荐(0) 编辑
摘要:知识点: 1、Cookie 2、Auth_token 思路步骤: 第一步, 分析提交认证POST请求需要哪些内容: 在浏览器中任意错误账号登录https://github.com/login 会自动跳转到Session页面 查看提交到session页面: Request Headers中的Conte 阅读全文
posted @ 2017-10-15 14:12 Vincen_shen 阅读(385) 评论(0) 推荐(0) 编辑
摘要:aiohttp 基本用法 示例1: 基本asyncio+aiohttp用法,类似urllib库的API接口 示例2:使用session获取数据,类似requests库的API接口 这里要引入一个类,aiohttp.ClientSession. 首先要建立一个session对象,然后用该session 阅读全文
posted @ 2017-08-03 15:42 Vincen_shen 阅读(2241) 评论(0) 推荐(0) 编辑
摘要:直接使用线程池来实现 阅读全文
posted @ 2017-03-28 17:32 Vincen_shen 阅读(994) 评论(0) 推荐(0) 编辑
摘要:使用 Python 进行并发编程之 asyncio 篇 http://mp.weixin.qq.com/s/xOz6FKyPZ0pN-t-CVjsBpA?utm_source=tuicool&utm_medium=referral 阅读全文
posted @ 2017-03-28 16:06 Vincen_shen 阅读(325) 评论(0) 推荐(0) 编辑
摘要:Requests常用操作 Rquests参数进阶 阅读全文
posted @ 2017-03-28 10:29 Vincen_shen 阅读(141) 评论(0) 推荐(0) 编辑
摘要:爬虫架构 URL管理器 URL管理器:管理待抓取URL集合和已抓取URL集合- 防止重复抓取,防止循环抓取 URL管理器存储实现方式 1、Python自带 set 集合 2、Mysql关系型数据库 3、Redis缓存数据库 逻辑流程判断 1、添加新URL到待爬取集合中 2、判断待添加URL是否在容器 阅读全文
posted @ 2017-02-13 00:59 Vincen_shen 阅读(353) 评论(0) 推荐(0) 编辑
摘要:本程序利用requests,bs4实现对http://meizitu.com大分类图片集中所有链接进行遍历,然后抓取图片: 阅读全文
posted @ 2017-02-11 09:48 Vincen_shen 阅读(900) 评论(1) 推荐(0) 编辑
摘要:Beautiful Soup的简介 官方使用文档: https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ Beautifulsoup(html, features="html.parser/lxml" ) # lxml速度更快,需要安装 阅读全文
posted @ 2017-01-05 23:06 Vincen_shen 阅读(194) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示