会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Gloo
导航
博客园
首页
新随笔
联系
订阅
管理
公告
上一页
1
2
3
下一页
2018年10月28日
pymongo的操作
摘要: 实例化和插入 插入和更新
阅读全文
posted @ 2018-10-28 13:00 Gloo
阅读(191)
评论(0)
推荐(0)
编辑
mongodb备份恢复
摘要: 数据的备份和恢复 mongodump h dbhost d dbname o dbdirectory h:服务器地址,也可以指定端口号 d:需要备份的数据库名称 o:备份的数据存放位置,此目录中存放着备份出来的数据 mangodump h 192.168.196.128:27017 d test1
阅读全文
posted @ 2018-10-28 12:59 Gloo
阅读(140)
评论(0)
推荐(0)
编辑
mongodb建立索引
摘要: 创建索引 索引:以提升查询速度 语法:db.集合.ensureIndex({属性:1}),1表示升序, 1表示降序 具体操作:db.t255.ensureIndex({name:1}) db.t1.find({name:'test10000'}).explain('executionStats')
阅读全文
posted @ 2018-10-28 12:58 Gloo
阅读(3782)
评论(0)
推荐(0)
编辑
mongodb聚合命令
摘要: 聚合aggregate 聚合(aggregate)是基于数据处理的聚合管道,每个文档通过一个由多个阶段(stage)组成管道,可以对每个阶段的管道进行分组、过滤等功能,然后经过一系列的处理,输出相应的结果。 db.集合名称.aggregate({管道:{表达式}}) 常用管道 在mongodb中,文
阅读全文
posted @ 2018-10-28 12:57 Gloo
阅读(431)
评论(0)
推荐(0)
编辑
mongodb高级查询
摘要: 数据查询 方法find():查询 db.集合名称.find({条件文档}) 方法find():查询,只返回第一个 db.集合名称.findOne({条件文档}) 方法pretty():将结果格式化 db.集合.find({条件文档}).pretty() 比较运算符 等于:默认是等于判断,没有运算符
阅读全文
posted @ 2018-10-28 12:56 Gloo
阅读(157)
评论(0)
推荐(0)
编辑
mongodb增删改查
摘要: 关于database的基础命令 查看当前的数据库:db 查看所有的数据库:show dbs /show databases 切换数据:use db_name 删除当前的数据库:db.dropDatabase() 关于集合的基础命令 不手动创建集合: 向不存在的集合中第一次加入数据时,集合会被创建出来
阅读全文
posted @ 2018-10-28 12:55 Gloo
阅读(140)
评论(0)
推荐(0)
编辑
2018年10月27日
下载器中间件
摘要: Downloader Middlewares(下载器中间件) 下载器中间件是引擎和下载器之间通信的中间件。在这个中间件中我们可以设置代理、更换请求头等来达到反反爬虫的目的。要写下载器中间件,可以在下载器中实现两个方法。一个是 ,这个方法是在请求发送之前执行,还有一个是 ,这个方法是数据下载到引擎之前
阅读全文
posted @ 2018-10-27 22:50 Gloo
阅读(410)
评论(0)
推荐(0)
编辑
下载文件和图片
摘要: 下载文件和图片 Scrapy为下载item中包含的文件(比如在爬取到产品时,同时也想保存对应的图片)提供了一个可重用的 。这些 有些共同的方法和结构我们称之为 。一般来说你会使用 或者 。 为什么要选择使用 内置的下载文件的方法 1. 避免重新下载最近已经下载过的数据。 2. 可以方便的指定文件存储
阅读全文
posted @ 2018-10-27 22:49 Gloo
阅读(233)
评论(0)
推荐(0)
编辑
Request和Response
摘要: Request对象: 对象在我们写爬虫,爬取一页的数据需要重新发送一个请求的时候调用。这个类需要传递一些参数,其中比较常用的参数有: 1. :这个request对象发送请求的url。 2. :在下载器下载完相应的数据后执行的回调函数。 3. :请求的方法。默认为 方法,可以设置为其他方法。 4. :
阅读全文
posted @ 2018-10-27 22:40 Gloo
阅读(146)
评论(0)
推荐(0)
编辑
crawlspider
摘要: Scrapy中CrawSpider 回头看: 之前的代码中,我们有很大一部分时间在寻找下一页的url地址或者是内容的url地址或者是内容的url地址上面,这个过程能更简单一些么? 思路: 1. 从response中提取所有的a标签对应的url地址 2. 自动的构造自己requests请求,发送给引擎
阅读全文
posted @ 2018-10-27 22:39 Gloo
阅读(223)
评论(1)
推荐(0)
编辑
上一页
1
2
3
下一页