爬虫 - 随笔分类 - bigdata_devops

爬虫框架：scrapy

摘要：一介绍 Scrapy一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如 Amazon As 阅读全文

posted @ 2017-11-19 13:47 bigdata_devops 阅读(289) 评论(0) 推荐(0) 编辑

scrapy-redis使用以及剖析

摘要：scrapy-redis是一个基于redis的scrapy组件，通过它可以快速实现简单分布式爬虫程序，该组件本质上提供了三大功能： scheduler - 调度器 dupefilter - URL去重规则（被调度器使用） pipeline - 数据持久化 scrapy-redis组件 1. URL去阅读全文

posted @ 2017-09-05 16:31 bigdata_devops 阅读(273) 评论(0) 推荐(0) 编辑

python爬虫之性能相关

摘要：性能相关在编写爬虫时，性能的消耗主要在IO请求中，当单进程单线程模式下请求URL时必然会引起等待，从而使得请求整体变慢。 import requests def fetch_async(url): response = requests.get(url) return response url_l 阅读全文

posted @ 2017-09-03 22:54 bigdata_devops 阅读(175) 评论(0) 推荐(0) 编辑

python爬虫基础

摘要：Q2Day79 requests Python标准库中提供了：urllib、urllib2、httplib等模块以供Http请求，但是，它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作，甚至包括各种方法覆盖，来完成最简单的任务。 Requests 是使用 Apache2 阅读全文

posted @ 2017-09-03 22:50 bigdata_devops 阅读(229) 评论(0) 推荐(0) 编辑

python爬虫之requests模块

摘要：一. 登录事例 a. 查找汽车之家新闻标题链接图片写入本地 import requests from bs4 import BeautifulSoup import uuid response = requests.get( 'http://www.autohome.com.cn/news/' 阅读全文

posted @ 2017-09-01 00:16 bigdata_devops 阅读(216) 评论(0) 推荐(0) 编辑

bigdata_devops

随笔分类 - 爬虫

爬虫框架：scrapy

scrapy-redis使用以及剖析

python爬虫之性能相关

python爬虫基础

python爬虫之requests模块

导航

公告