随笔分类 -  爬虫

爬虫框架:scrapy
摘要:一 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如 Amazon As 阅读全文

posted @ 2017-11-19 13:47 bigdata_devops 阅读(289) 评论(0) 推荐(0) 编辑

scrapy-redis使用以及剖析
摘要:scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能: scheduler - 调度器 dupefilter - URL去重规则(被调度器使用) pipeline - 数据持久化 scrapy-redis组件 1. URL去 阅读全文

posted @ 2017-09-05 16:31 bigdata_devops 阅读(273) 评论(0) 推荐(0) 编辑

python爬虫之性能相关
摘要:性能相关 在编写爬虫时,性能的消耗主要在IO请求中,当单进程单线程模式下请求URL时必然会引起等待,从而使得请求整体变慢。 import requests def fetch_async(url): response = requests.get(url) return response url_l 阅读全文

posted @ 2017-09-03 22:54 bigdata_devops 阅读(175) 评论(0) 推荐(0) 编辑

python爬虫基础
摘要:Q2Day79 requests Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。 Requests 是使用 Apache2 阅读全文

posted @ 2017-09-03 22:50 bigdata_devops 阅读(229) 评论(0) 推荐(0) 编辑

python爬虫之requests模块
摘要:一. 登录事例 a. 查找汽车之家新闻 标题 链接 图片写入本地 import requests from bs4 import BeautifulSoup import uuid response = requests.get( 'http://www.autohome.com.cn/news/' 阅读全文

posted @ 2017-09-01 00:16 bigdata_devops 阅读(216) 评论(0) 推荐(0) 编辑

导航