爬虫 - 文章分类 - Crazymagic

05| scrapy redis

摘要：scrapy-redis 分布式爬虫的组件。 - 基于scrapy-redis的去重规则 - redis的集合 - 完全自定义 settings.py 继承scrapy-redis 实现自定制 settings.py 案例使用scrapy-redis的配置往redis中放起始url 阅读全文

posted @ 2018-10-07 00:36 Crazymagic 阅读(172) 评论(0) 推荐(0)

04| scrapy start_urls和中间键

摘要：scrapy引擎来爬虫中取起始URL：源码我们可以实现自定义深度和优先级 from scrapy.spidermiddlewares.depth import DepthMiddleware 内置代理 1 在环境变量中添加，在爬虫启动时，提前在os.envrion中设置代理即可。 2 在met 阅读全文

posted @ 2018-10-06 22:36 Crazymagic 阅读(1538) 评论(0) 推荐(0)

03 | scrapy pieline 和自定制去重

摘要：pipeline 格式化处理如果对于想要获取更多的数据处理，则可以利用Scrapy的items将数据格式化，然后统一交由pipelines来处理。我们可以在利用pipeline在爬虫开始时打开数据的链接，子爬虫结束后关闭数据库的链接使用方法： a. 先写pipeline类 class XXXPi 阅读全文

posted @ 2018-10-06 20:11 Crazymagic 阅读(687) 评论(0) 推荐(0)

02 | scrapy 安装和选择器

摘要：Scrapy Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Ser 阅读全文

posted @ 2018-10-06 03:37 Crazymagic 阅读(102) 评论(0) 推荐(0)

01 | requset 和BeautifulSoup 的使用标题

摘要：BeautifulSoup 安装： BeautifulSoup是一个模块，该模块用于接收一个HTML或XML字符串，然后将其进行格式化，之后遍可以使用他提供的方法进行快速查找指定元素，从而使得在HTML或XML中查找指定元素变得简单。使用示例： 1. name，标签名称 2. attr，标签属性阅读全文

posted @ 2018-10-05 20:38 Crazymagic 阅读(223) 评论(0) 推荐(0)

9- scrapy-redis分布式开发

摘要：Scrapy_redis之RedisSpider from scrapy_redis.spiders import RedisSpiderclass MySpider(RedisSpider): """Spider that reads urls from redis queue (myspider 阅读全文

posted @ 2017-11-08 16:37 Crazymagic 阅读(420) 评论(0) 推荐(0)

8- scrapy-redis分布式开发

摘要：scrapy-redis scrapy-redis是scrapy的一个组件。 Scrapy_redis在scrapy的基础上实现了更多，更强大的功能，具体体现在：reqeust去重，爬虫持久化，和轻松实现分布式。安装：复习redis的使用列表的简单使用集合的简单使用有序集合的简单使用 Sc 阅读全文

posted @ 2017-11-07 17:00 Crazymagic 阅读(187) 评论(0) 推荐(0)

7 中间键和模拟登陆

摘要：Spider和CrawlSpiders的混用设置下载中间件（Downloader Middlewares）下载中间件是处于引擎(crawler.engine)和下载器(crawler.engine.download())之间的一层组件，可以有多个下载中间件被加载运行。当引擎传递请求给下载器的过阅读全文

posted @ 2017-11-06 18:22 Crazymagic 阅读(376) 评论(0) 推荐(0)

6- scrapy框架高级

摘要：如何实现翻页请求实现翻页请求通过爬取腾讯招聘的页面的招聘信息,学习如何实现翻页请求 http://hr.tencent.com/position.php 找到下一页的地址通过yield scrapy.Request(下一页的地址，callback=self.parse)构造一个url地址的re 阅读全文

posted @ 2017-11-04 18:16 Crazymagic 阅读(504) 评论(0) 推荐(0)

5-scrapy框架入门

摘要：爬取斗鱼所有的房间信息: 爬取斗鱼直播的内容包括: 房间的分类，房间的名字，房间的链接地址，房主的名字.，观看的人数主要的逻辑：构造初始话的数据 1 发送请求获取响应 2 提取数据，获取下一页的a标签 1 获取每个房间的分组信息 2 遍历每个房间，获取想要的数据，存入字典，把每个房间的数据存入字阅读全文

posted @ 2017-11-04 01:28 Crazymagic 阅读(212) 评论(0) 推荐(0)

4-selenium

摘要：下载linux64位放到桌面使用selenium实现带内嵌框架的登陆需要找到内嵌框架的ID 内嵌的框架，driver.swith_to_frame('内嵌框架的id') webdriver.Chrome() 实例化一个可以控制谷歌浏览器的对象driver driver.get() 发送要请求的浏阅读全文

posted @ 2017-11-03 00:49 Crazymagic 阅读(182) 评论(0) 推荐(0)

3- 非结构化数据与结构化数据提取

摘要：正则表达式匹配规则在 Python 中，我们可以使用内置的 re 模块来使用正则表达式。有一点需要特别注意的是，正则表达式使用对特殊字符进行转义，所以如果我们要使用原始字符串，只需加一个 r 前缀，示例： re 模块的一般使用步骤如下：使用 compile() 函数将正则表达式的字符串形式编阅读全文

posted @ 2017-10-31 21:57 Crazymagic 阅读(984) 评论(0) 推荐(0)

2-request模块深入解析

摘要：那些地方会用到post请求; 1 登陆，注册 2 需要传输大文本的时候最基本post方法: 传入data数据对于 POST 请求来说，我们一般需要为它增加一些参数。那么最基本的传参方法可以利用 data 这个参数。百度翻译案例需要传送的data import requests import j 阅读全文

posted @ 2017-10-31 00:23 Crazymagic 阅读(360) 评论(0) 推荐(0)

1- 初识爬虫

摘要：为什么要做爬虫？首先请问：都说现在是"大数据时代"，那数据从何而来？企业产生的用户数据：百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数数据平台购买数据：数据堂、国云数据市场、贵阳大数据交易所政府/机构公开的数据：中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克。数阅读全文

posted @ 2017-10-29 16:51 Crazymagic 阅读(534) 评论(0) 推荐(0)

Crazymagic

文章分类 - 爬虫

公告