MongoDB 创建索引及其他

 


索引#

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
以提升查询速度
 
测试:插入十万条数据到数据库中
 
for(i=0;i<100000;i++){db.t255.insert({name:'test'+i,age:i})}
 
 
db.t1.find({name:'test100000'})
db.t1.find({name:'test100000'}).explain('executionStats')     可以查看查询的时间
 
建立索引之后对比:
 
语法:db.集合.ensureIndex({属性:1}),1表示升序,-1表示降序
 
具体操作: db.集合.ensureIndex({name:1})
 
db.t1.find({name:'test100000'}.explain('executionStats'))
 
在默认情况下索引字段的值可以相同
 
创建唯一索引(索引的值是唯一的):
db.t1.ensureIndex({"name":1},{"unique":true})
 
建立联合索引(什么时候需要联合索引)
db.t1.ensureIndex({name:1,age:1})
 
查看当前集合的所有索引:
db.t1.getIndexes()
 
删除索引:
db.t1.dropIndex('索引名称')

mongodb  mysql  redis的区别和使用场景#

1
2
3
4
5
6
7
8
9
10
11
12
13
mysql是关系型数据库,支持事务
 
mongodb,redis非关系型数据库,不支持事务
 
mysql   mongodb  redis的使用根据如何方便进行选择
 
   希望速度快的时候,选择mongodb或者是redis
 
   数据量过大的时候,选择频繁使用的数据存入redis,其他的存入mongodb
 
   mongodb不用提前建表建数据库,使用方便,字段数量不确定的时候使用mongodb
 
  后续需要用到数据之间的关系,此时考虑mysql

爬虫数据去重   实现增量式爬虫#

使用数据库建立关键字段(一个或多个)建立索引进行去重

根据url地址进行去重#

使用场景

  url地址对应的数据不会变的情况下,url地址能够唯一判别一个条数据的情况

思路
    url存在redis中
  拿到url地址,判断ur1在redis的url的集合中是否存在
  存在:说明ur1已经被请求过,不再请求
  不存在:ur地址没有被请求过,请求,把该ur1存入redis的集合中

布隆过滤器

1
2
3
4
5
使用多个加密算法加密ur1地址,得到多个值
往对应值的位置把结果设置为1
新来一个url地址,一样通过加密算法生成多个值
如果对应位置的值全为1,说明这个ur地址已经抓过
否则没有抓过,就把对应位置的值设置为1

根据数据本身进行去重#

选择特定的字段,使用加密算法(md5,sha1)将字段进行加密,生成字符串,存入redis的集合中

后续新来一条数据,同样的方法进行加密,如果得到的字符串在redis中存在,说明数据存在,对数据进行更新,否则说明数据不存在,直接插入

 

posted @   鲸鱼的海老大  阅读(516)  评论(0编辑  收藏  举报
编辑推荐:
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 周边上新:园子的第一款马克杯温暖上架
点击右上角即可分享
微信分享提示
CONTENTS