2019 年 4月 29 日随笔档案 - 冰底熊

2019年4月29日

摘要： 1. Scrapy：是一个基于Twisted的异步IO框架，有了这个框架，我们就不需要等待当前URL抓取完毕之后在进行下一个URL的抓取，抓取效率可以提高很多。 2. Scrapy-redis：虽然Scrapy框架是异步加多线程的，但是我们只能在一台主机上运行，爬取效率还是有限的，Scrapy-re 阅读全文

posted @ 2019-04-29 21:17 冰底熊阅读(7939) 评论(2) 推荐(2) 编辑

scrapy数据存储在mysql数据库的两种方式

摘要：方法一：同步操作 1.pipelines.py文件（处理数据的python文件） import pymysql class LvyouPipeline(object): def __init__(self): # connection database self.connect = pymysql. 阅读全文

posted @ 2019-04-29 20:13 冰底熊阅读(9960) 评论(1) 推荐(5) 编辑

利用scrapy-client 发布爬虫到远程服务端

摘要：远程服务端Scrapyd先要开启远程服务器必须装有scapyd,并开启。这里远程服务开启的端口和ip: 192.166.12.80:6800 客户端配置和上传先修爬虫项目文件scrapy.cfg:如下图 cd 到爬虫项目文件夹下，后执行： scrapyd-deploy # 上传 scrapyd 阅读全文

posted @ 2019-04-29 19:47 冰底熊阅读(1425) 评论(0) 推荐(0) 编辑

scrapyd的安装和scrapyd-client

摘要： 1.创建虚拟环境，虚拟环境名为sd mkvirtualenv sd #方便管理 2. 安装 scrapyd pip3 install scrapyd 3. 配置 mkdir /etc/scrapyd vim /etc/scrapyd/scrapyd.conf 写入一下配置参考官网：https:/ 阅读全文

posted @ 2019-04-29 17:05 冰底熊阅读(1886) 评论(0) 推荐(0) 编辑

Gerapy 安装

摘要： 1下载： pip install gerapy 2. 在D盘中新建一个文件夹，该然后cd 到该文件夹中，执行： gerapy init # 初始化，可以在任意路径下进行 cd gerapy # 初始化后，在该目录下有一个gerapy文件夹 gerapy migrate # 数据迁移初始命令 3. 启阅读全文

posted @ 2019-04-29 09:52 冰底熊阅读(598) 评论(0) 推荐(0) 编辑

侠客云

公告