返回顶部

文章分类 -  爬虫

摘要:scrapy-redis 分布式爬虫的组件。 - 基于scrapy-redis的去重规则 - redis的集合 - 完全自定义 settings.py 继承scrapy-redis 实现自定制 settings.py 案例 使用scrapy-redis的配置 往redis中放起始url 阅读全文
posted @ 2018-10-07 00:36 Crazymagic 阅读(157) 评论(0) 推荐(0) 编辑
摘要:scrapy引擎来爬虫中取起始URL: 源码 我们可以实现自定义 深度和优先级 from scrapy.spidermiddlewares.depth import DepthMiddleware 内置代理 1 在环境变量中添加,在爬虫启动时,提前在os.envrion中设置代理即可。 2 在met 阅读全文
posted @ 2018-10-06 22:36 Crazymagic 阅读(1480) 评论(0) 推荐(0) 编辑
摘要:pipeline 格式化处理 如果对于想要获取更多的数据处理,则可以利用Scrapy的items将数据格式化,然后统一交由pipelines来处理。我们可以在利用pipeline在爬虫开始时打开数据的链接,子爬虫结束后关闭数据库的链接 使用方法: a. 先写pipeline类 class XXXPi 阅读全文
posted @ 2018-10-06 20:11 Crazymagic 阅读(654) 评论(0) 推荐(0) 编辑
摘要:Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Ser 阅读全文
posted @ 2018-10-06 03:37 Crazymagic 阅读(89) 评论(0) 推荐(0) 编辑
摘要:BeautifulSoup 安装: BeautifulSoup是一个模块,该模块用于接收一个HTML或XML字符串,然后将其进行格式化,之后遍可以使用他提供的方法进行快速查找指定元素,从而使得在HTML或XML中查找指定元素变得简单。 使用示例: 1. name,标签名称 2. attr,标签属性 阅读全文
posted @ 2018-10-05 20:38 Crazymagic 阅读(215) 评论(0) 推荐(0) 编辑
摘要:Scrapy_redis之RedisSpider from scrapy_redis.spiders import RedisSpiderclass MySpider(RedisSpider): """Spider that reads urls from redis queue (myspider 阅读全文
posted @ 2017-11-08 16:37 Crazymagic 阅读(407) 评论(0) 推荐(0) 编辑
摘要:scrapy-redis scrapy-redis是scrapy的一个组件。 Scrapy_redis在scrapy的基础上实现了更多,更强大的功能,具体体现在:reqeust去重,爬虫持久化,和轻松实现分布式。 安装: 复习redis的使用 列表的简单使用 集合的简单使用 有序集合的简单使用 Sc 阅读全文
posted @ 2017-11-07 17:00 Crazymagic 阅读(180) 评论(0) 推荐(0) 编辑
摘要:Spider和CrawlSpiders的混用 设置下载中间件(Downloader Middlewares) 下载中间件是处于引擎(crawler.engine)和下载器(crawler.engine.download())之间的一层组件,可以有多个下载中间件被加载运行。 当引擎传递请求给下载器的过 阅读全文
posted @ 2017-11-06 18:22 Crazymagic 阅读(360) 评论(0) 推荐(0) 编辑
摘要:如何实现翻页请求 实现翻页请求 通过爬取腾讯招聘的页面的招聘信息,学习如何实现翻页请求 http://hr.tencent.com/position.php 找到下一页的地址 通过yield scrapy.Request(下一页的地址,callback=self.parse)构造一个url地址的re 阅读全文
posted @ 2017-11-04 18:16 Crazymagic 阅读(483) 评论(0) 推荐(0) 编辑
摘要:爬取斗鱼所有的房间信息: 爬取斗鱼直播的内容包括: 房间的分类,房间的名字,房间的链接地址,房主的名字.,观看的人数 主要的逻辑: 构造初始话的数据 1 发送请求获取响应 2 提取数据,获取下一页的a标签 1 获取每个房间的分组信息 2 遍历每个房间,获取想要的数据,存入字典,把每个房间的数据存入字 阅读全文
posted @ 2017-11-04 01:28 Crazymagic 阅读(190) 评论(0) 推荐(0) 编辑
摘要:下载linux64位放到桌面 使用selenium实现带内嵌框架的登陆 需要找到内嵌框架的ID 内嵌的框架,driver.swith_to_frame('内嵌框架的id') webdriver.Chrome() 实例化一个可以控制谷歌浏览器的对象driver driver.get() 发送要请求的浏 阅读全文
posted @ 2017-11-03 00:49 Crazymagic 阅读(173) 评论(0) 推荐(0) 编辑
摘要:正则表达式匹配规则 在 Python 中,我们可以使用内置的 re 模块来使用正则表达式。 有一点需要特别注意的是,正则表达式使用 对特殊字符进行转义,所以如果我们要使用原始字符串,只需加一个 r 前缀,示例: re 模块的一般使用步骤如下: 使用 compile() 函数将正则表达式的字符串形式编 阅读全文
posted @ 2017-10-31 21:57 Crazymagic 阅读(938) 评论(0) 推荐(0) 编辑
摘要:那些地方会用到post请求; 1 登陆,注册 2 需要传输大文本的时候 最基本post方法: 传入data数据对于 POST 请求来说,我们一般需要为它增加一些参数。那么最基本的传参方法可以利用 data 这个参数。 百度翻译案例 需要传送的data import requests import j 阅读全文
posted @ 2017-10-31 00:23 Crazymagic 阅读(331) 评论(0) 推荐(0) 编辑
摘要:为什么要做爬虫? 首先请问:都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数 数据平台购买数据:数据堂、国云数据市场、贵阳大数据交易所 政府/机构公开的数据:中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克。 数 阅读全文
posted @ 2017-10-29 16:51 Crazymagic 阅读(508) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示