2018年10月28日

摘要：实例化和插入插入和更新阅读全文

posted @ 2018-10-28 13:00 Gloo 阅读(191) 评论(0) 推荐(0) 编辑

摘要：数据的备份和恢复 mongodump h dbhost d dbname o dbdirectory h：服务器地址，也可以指定端口号 d：需要备份的数据库名称 o：备份的数据存放位置，此目录中存放着备份出来的数据 mangodump h 192.168.196.128:27017 d test1 阅读全文

posted @ 2018-10-28 12:59 Gloo 阅读(140) 评论(0) 推荐(0) 编辑

mongodb建立索引

摘要：创建索引索引：以提升查询速度语法：db.集合.ensureIndex({属性:1})，1表示升序， 1表示降序具体操作：db.t255.ensureIndex({name:1}) db.t1.find({name:'test10000'}).explain('executionStats') 阅读全文

posted @ 2018-10-28 12:58 Gloo 阅读(3782) 评论(0) 推荐(0) 编辑

mongodb聚合命令

摘要：聚合aggregate 聚合（aggregate）是基于数据处理的聚合管道，每个文档通过一个由多个阶段（stage）组成管道，可以对每个阶段的管道进行分组、过滤等功能，然后经过一系列的处理，输出相应的结果。 db.集合名称.aggregate({管道:{表达式}}) 常用管道在mongodb中，文阅读全文

posted @ 2018-10-28 12:57 Gloo 阅读(431) 评论(0) 推荐(0) 编辑

mongodb高级查询

摘要：数据查询方法find()：查询 db.集合名称.find({条件文档}) 方法find()：查询，只返回第一个 db.集合名称.findOne({条件文档}) 方法pretty()：将结果格式化 db.集合.find({条件文档}).pretty() 比较运算符等于：默认是等于判断，没有运算符阅读全文

posted @ 2018-10-28 12:56 Gloo 阅读(157) 评论(0) 推荐(0) 编辑

mongodb增删改查

摘要：关于database的基础命令查看当前的数据库：db 查看所有的数据库：show dbs /show databases 切换数据：use db_name 删除当前的数据库：db.dropDatabase() 关于集合的基础命令不手动创建集合：向不存在的集合中第一次加入数据时，集合会被创建出来阅读全文

posted @ 2018-10-28 12:55 Gloo 阅读(140) 评论(0) 推荐(0) 编辑

2018年10月27日

下载器中间件

摘要： Downloader Middlewares（下载器中间件）下载器中间件是引擎和下载器之间通信的中间件。在这个中间件中我们可以设置代理、更换请求头等来达到反反爬虫的目的。要写下载器中间件，可以在下载器中实现两个方法。一个是，这个方法是在请求发送之前执行，还有一个是，这个方法是数据下载到引擎之前阅读全文

posted @ 2018-10-27 22:50 Gloo 阅读(410) 评论(0) 推荐(0) 编辑

下载文件和图片

摘要：下载文件和图片 Scrapy为下载item中包含的文件（比如在爬取到产品时，同时也想保存对应的图片）提供了一个可重用的。这些有些共同的方法和结构我们称之为。一般来说你会使用或者。为什么要选择使用内置的下载文件的方法 1. 避免重新下载最近已经下载过的数据。 2. 可以方便的指定文件存储阅读全文

posted @ 2018-10-27 22:49 Gloo 阅读(233) 评论(0) 推荐(0) 编辑

Request和Response

摘要： Request对象：对象在我们写爬虫，爬取一页的数据需要重新发送一个请求的时候调用。这个类需要传递一些参数，其中比较常用的参数有： 1. ：这个request对象发送请求的url。 2. ：在下载器下载完相应的数据后执行的回调函数。 3. ：请求的方法。默认为方法，可以设置为其他方法。 4. ：阅读全文

posted @ 2018-10-27 22:40 Gloo 阅读(146) 评论(0) 推荐(0) 编辑

crawlspider

摘要： Scrapy中CrawSpider 回头看：之前的代码中，我们有很大一部分时间在寻找下一页的url地址或者是内容的url地址或者是内容的url地址上面，这个过程能更简单一些么？思路： 1. 从response中提取所有的a标签对应的url地址 2. 自动的构造自己requests请求，发送给引擎阅读全文

posted @ 2018-10-27 22:39 Gloo 阅读(223) 评论(1) 推荐(0) 编辑

导航

2018年10月28日

2018年10月27日