会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
侠客云
博客园
首页
新随笔
联系
管理
订阅
上一页
1
···
6
7
8
9
10
11
12
13
14
···
21
下一页
2019年5月1日
l线程池抓取lianjia
摘要: 1. 线程池 的应用 from multiprocessing.dummy import Pool import requests from lxml import etree url="https://sz.lianjia.com/ershoufang/co32/" # url="https://
阅读全文
posted @ 2019-05-01 18:50 冰底熊
阅读(243)
评论(0)
推荐(0)
编辑
2019年4月30日
linux如何安装和启动mongdb
摘要: 1.下载安装包 下载地址: https://www.mongodb.com/dr/fastdl.mongodb.org/linux/mongodb-linux-x86_64-4.0.9.tgz/download 2. 将安装包上传到linux服务器上的/opt 目录下 3.解压,在 /opt在解压
阅读全文
posted @ 2019-04-30 18:14 冰底熊
阅读(1617)
评论(0)
推荐(1)
编辑
2019年4月29日
Gerapy的简单使用
摘要: 1. Scrapy:是一个基于Twisted的异步IO框架,有了这个框架,我们就不需要等待当前URL抓取完毕之后在进行下一个URL的抓取,抓取效率可以提高很多。 2. Scrapy-redis:虽然Scrapy框架是异步加多线程的,但是我们只能在一台主机上运行,爬取效率还是有限的,Scrapy-re
阅读全文
posted @ 2019-04-29 21:17 冰底熊
阅读(7972)
评论(2)
推荐(2)
编辑
scrapy数据存储在mysql数据库的两种方式
摘要: 方法一:同步操作 1.pipelines.py文件(处理数据的python文件) import pymysql class LvyouPipeline(object): def __init__(self): # connection database self.connect = pymysql.
阅读全文
posted @ 2019-04-29 20:13 冰底熊
阅读(10049)
评论(1)
推荐(5)
编辑
利用scrapy-client 发布爬虫到远程服务端
摘要: 远程服务端Scrapyd先要开启 远程服务器必须装有scapyd,并开启。 这里远程服务开启的端口和ip: 192.166.12.80:6800 客户端配置和上传 先修爬虫项目文件scrapy.cfg:如下图 cd 到爬虫项目文件夹下,后执行: scrapyd-deploy # 上传 scrapyd
阅读全文
posted @ 2019-04-29 19:47 冰底熊
阅读(1439)
评论(0)
推荐(0)
编辑
scrapyd的安装和scrapyd-client
摘要: 1.创建虚拟环境 ,虚拟环境名为sd mkvirtualenv sd #方便管理 2. 安装 scrapyd pip3 install scrapyd 3. 配置 mkdir /etc/scrapyd vim /etc/scrapyd/scrapyd.conf 写入一下配置 参考官网:https:/
阅读全文
posted @ 2019-04-29 17:05 冰底熊
阅读(1910)
评论(0)
推荐(0)
编辑
Gerapy 安装
摘要: 1下载: pip install gerapy 2. 在D盘中新建一个文件夹,该然后cd 到该文件夹中,执行: gerapy init # 初始化,可以在任意路径下进行 cd gerapy # 初始化后,在该目录下有一个gerapy文件夹 gerapy migrate # 数据迁移初始命令 3. 启
阅读全文
posted @ 2019-04-29 09:52 冰底熊
阅读(601)
评论(0)
推荐(0)
编辑
2019年4月28日
selenium在scrapy中的使用、UA池、IP池的构建
摘要: selenium在scrapy中的使用流程 重写爬虫文件的构造方法__init__,在该方法中使用selenium实例化一个浏览器对象(因为浏览器对象只需要被实例化一次). 重写爬虫文件的closed(self,spider)方法,在其内部关闭浏览器对象。该方法是在爬虫结束时被调用. 重写下载中间件
阅读全文
posted @ 2019-04-28 22:15 冰底熊
阅读(721)
评论(0)
推荐(0)
编辑
2019年4月27日
Dockerfile封装Django镜像
摘要: 部署过程 1.查看镜像 docker images 2.在/opt下建立了docker目录,下载一个django-2.1.7的源码包, 该 /opt/docker 文件夹需要用到 的文件如下,django文件需要下载 ,epel.repo 需要从阿里云进行下载,Dockerfile和run.sh 需
阅读全文
posted @ 2019-04-27 12:10 冰底熊
阅读(1814)
评论(0)
推荐(2)
编辑
2019年4月21日
selenium、UA池、ip池、scrapy-redis的综合应用案例
摘要: 案例: 网易新闻的爬取: https://news.163.com/ 爬取的内容为一下4大板块中的新闻内容 爬取: 特点: 动态加载数据 ,用 selenium 爬虫 1. 创建项目 scrapy startproject wy 2. 创建爬虫 scrapy genspider wangyi www
阅读全文
posted @ 2019-04-21 19:56 冰底熊
阅读(1032)
评论(0)
推荐(0)
编辑
上一页
1
···
6
7
8
9
10
11
12
13
14
···
21
下一页
公告