从python 单机版爬虫 scrapy 到分布式scrapy-redis 爬虫用最简单的步骤创建实例

scrapy 是很强大的模块化爬虫框架，具有很高的灵活性，使用频率很高，使用该框架能大大提高开发效率，scrapy-redis是在scrapy框架开发了组件，替换队列部分，实现多台服务器并行运行爬虫，提高爬取速度。下面是用最简单的例子从建立普通scrapy爬虫,然后数据保存mysql ，最后简单替换几行就能使用scrapy-redis改造为分布式爬虫。

一创建最简单的爬取cnblogs 首页标题的爬虫

1 使用命令行安装 scrapy

pip install scrapy

2 使用命令行运行scrapy命令创建 scrapy项目

 scrapy startproject cnblogprojct

　　进入新创建的scrapyproject 目录并创建爬虫

cd cnblogprojct

scrapy genspider cnblogs cnblogs.com

　　然后基本的框架就创建好了

打开cnblogs.py

增加：

print(response.css('title'))

　　如下图

然后用命令行运行爬虫

scrapy crawl cnblogs

　　可以看到已经抓取并打印cnblogs的标题

到这里一个简单的scrapy就完成了。下面我们尝试把抓取的标题写入csv文件

cnblogs.py 爬虫类的 parse 方法改为以下代码

    def parse(self, response):
        item = {}
        item['title'] = response.css('title')
        item['description'] = response.css('description')
        return item

　　然后用命令行运行

scrapy crawl cnblogs -o cnblogshome.csv

就会把网页标题和描述保存到csv文件

到这里，已经可以写爬取网页并保存到文件了，下面继续进化，保存到mysql数据库

安装mysql和异步处理twisted（提高并发能力）

pip install pymysql
pip install twisted

打开pipelines.py 编辑 CnblogprojctPipeline 类

class CnblogprojctPipeline:
    def __init__(self, dbpool):
        # logging.debug("=======5555555==========")
        self.dbpool = dbpool

    @classmethod
    def from_settings(cls, settings):
        # 获取settings文件中的配置
        dbparms = dict(
            host='127.0.0.1',
            db='test',
            user='root',
            passwd='123456',
            charset='utf8',
            cp_reconnect=True,
            cursorclass=pymysql.cursors.DictCursor,
            use_unicode=True,
        )

        # 使用Twisted中的adbapi获取数据库连接池对象
        dbpool = adbapi.ConnectionPool("pymysql", **dbparms)
        return cls(dbpool)

    def process_item(self, item, spider):
        logging.debug("=======23223==========")
        # 使用teisted使mysql插入变成异步执行
        # 使用数据库连接池对象进行数据库操作,自动传递cursor对象到第一个参数
        query = self.dbpool.runInteraction(self.do_insert, item)
        # 设置出错时的回调方法,自动传递出错消息对象failure到第一个参数
        logging.debug(query)
        query.addErrback(self.handle_error, item, spider)  # 处理异常

    def handle_error(self, failure, item, spider):
        # 处理异步插入的异常
        logging.error(str(failure))

    def do_insert(self, cursor, item):
        now = datetime.datetime.now()
        now_format = (now + datetime.timedelta(hours=13)).strftime("%Y-%m-%d %H:%M:%S")

        insert_sql = """
                insert into web(title,addtime)
                values (%s,%s)
        """
        cursor.execute(insert_sql, (
            str(item["title"]),now_format
        ))

　　打开setting.py 把里面将ITEM_PIPELINES给解注释了，这样爬虫 parse(self, response) 返回的item就会进入pipelines.py 的 CnblogprojctPipeline 里面

然后命令行运行

scrapy crawl cnblogs

数据就写到数据库里了

二使用scrapy-redis 改为分布式爬虫，这样可以部署多台服务器爬取，并且因为使用同一来源：redis,所以不会重复爬

1 命令行安装模块

pip install scrapy_redis

2 在cnblogs.py 引入

from scrapy_redis.spiders import RedisSpider

并把 CnblogsSpider 继承改为RedisSpider, 并增加 redis_key = "cnblogs:start_urls" （redis爬虫会从这个redis 队列获取需要爬取url）并把 allowed_domains ，start_urls 变量注释掉

class CnblogsSpider(RedisSpider):
    name = "cnblogs"
    redis_key = "cnblogs:start_urls"
    # allowed_domains = ["www.cnblogs.com"]
    # start_urls = ["https://www.cnblogs.com"]

然后在给redis写入需要爬取的url

I:\pythonproject\cnblogprojct> redis-cli
127.0.0.1:6379> lpush cnblogs:start_urls https://www.cnblogs.com/

运行爬虫

scrapy crawl cnblogs

有些网站禁止了爬虫，可以试一下在setting.py里的USER-AGENT 开启并写入真实的UA

USER_AGENT = "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36"

至此，使用 scrapy爬虫框架完成分布式爬虫完成，后面写下如何部署。

posted @ 2024-01-17 19:25 i金少阅读(48) 评论(0) 编辑收藏举报

刷新页面返回顶部

i金少

对于不可控的事情，我们要保持乐观；对于可控的事情，我们要保持谨慎。--爱比克泰德

从python 单机版爬虫 scrapy 到分布式scrapy-redis 爬虫用最简单的步骤创建实例

一创建最简单的爬取cnblogs 首页标题的爬虫

二使用scrapy-redis 改为分布式爬虫，这样可以部署多台服务器爬取，并且因为使用同一来源：redis,所以不会重复爬

公告

i金少

对于不可控的事情，我们要保持乐观；对于可控的事情，我们要保持谨慎。--爱比克泰德

从python 单机版爬虫 scrapy 到 分布式scrapy-redis 爬虫用最简单的步骤创建实例

一 创建最简单的爬取cnblogs 首页标题的爬虫

二 使用scrapy-redis 改为分布式爬虫，这样可以部署多台服务器爬取，并且因为使用同一来源：redis,所以不会重复爬

公告

从python 单机版爬虫 scrapy 到分布式scrapy-redis 爬虫用最简单的步骤创建实例

一创建最简单的爬取cnblogs 首页标题的爬虫

二使用scrapy-redis 改为分布式爬虫，这样可以部署多台服务器爬取，并且因为使用同一来源：redis,所以不会重复爬