MongoDB
uri = 'mongodb://user:pass@39.108.29.203:27017/database'
client = MongoClient(uri)
保存图片(二进制)
from pymongo import MongoClient from gridfs import * import os #链接mongodb client=MongoClient('localhost',27017) #取得对应的collection db=client.image #本地硬盘上的图片目录 dirs = 'H:\PYTHON-DUJUN\day999-spider\db\mongodb' #列出目录下的所有图片 files = os.listdir(dirs) #遍历图片目录集合 for file in files: #图片的全路径 filesname = dirs + '\\' + file #分割,为了存储图片文件的格式和名称 f = file.split('.') #类似于创建文件 datatmp = open(filesname, 'rb') #创建写入流 imgput = GridFS(db) #将数据写入,文件类型和名称通过前面的分割得到 insertimg=imgput.put(datatmp,content_type=f[1],filename=f[0]) datatmp.close() print("保存成功")
提取图片(二进制)
from pymongo import MongoClient from gridfs import * client=MongoClient('localhost',27017) db=client.image #给予girdfs模块来写出,其中collection为上一步生成的,我不知道怎么该名称。实际上是由fs.flies和fs.chunks组成 gridFS = GridFS(db, collection="fs") count=0 for grid_out in gridFS.find(): count+=1 print(count) data = grid_out.read() # 获取图片数据 outf = open('%s.png' %count,'wb')#创建文件 outf.write(data) # 存储图片 print('ok') outf.close()
https://www.cnblogs.com/zhangxinqi/p/9242687.html
自建一个json格式的数据
mongodb curd
https://www.imooc.com/article/21772
那为什么要用mongo来存呢?
首先、数据关系复杂,没有表连接,结构化弱。
然后、利用mongo全文索引查找方便
最好、数据不重要,记录的日志数据库。意外丢失风险可以接受。
说了这么多,接下来幕客先给大家说说对mongo的CURD,如下:
一、安装mongo的支持
sudo /opt/python2.7.13/bin/pip install pymongo
二、简单操作
1) 数据库实例创建
In [1]: import pymongo
In [2]: pymongo.MongoClient('192.168.8.237',27017)
Out[2]: MongoClient(host=['192.168.8.237:27017'], document_class=dict, tz_aware=False, connect=True)
In [3]: mgc = pymongo.MongoClient('192.168.8.237',27017)
2)插入数据
In [4]: db = mgc['iops']
In [10]: col.insert_one(content)
Out[10]: <pymongo.results.InsertOneResult at 0x104907e60>
3)数据查找,确认插入成功
> db.logrecord.find()
{ "_id" : ObjectId("5a27b65dfa121a84df126d8c"), "status" : "success", "stepid" : 2, "stepinfo" : "ok! finished", "taskid" : 23432 }
4)直接通过python的对象获取内容
In [12]: col.find_one()
Out[12]:
{u'_id': ObjectId('5a27b65dfa121a84df126d8c'),
u'status': u'success',
u'stepid': 2,
u'stepinfo': u'ok! finished',
u'taskid': 23432}
(5) 通过查询条件查询
查询成功的内容
In [13]: col.find_one({'status':'success'})
Out[13]:
{u'_id': ObjectId('5a27b65dfa121a84df126d8c'),
u'status': u'success',
u'stepid': 2,
u'stepinfo': u'ok! finished',
u'taskid': 23432}
(6) 更新数据
col.update_one({"stepid":2},{"$set":{"stepid":3}})
(7) 获取所有的集合
相当于show tables获取集合操作
In [11]: db.collection_names()
Out[11]: [u'opts', u'logrecord']
mongo常用命令
show dbs //显示数据库
use theDb //进入某DB
show collections //显示该DB下所有表
创建表
db.createCollection("myColl") //建立myColl表
搜出collection中的数据
db.myColl.find(); 查找myColl表中的所有记录
db.myColl.find().limit(10) 查找myColl表中的10条记录
清空collection表中的所有数据
db.myColl.remove({}) 清空myColl表中的所有数据
删除表
db.myColl.drop()删除此表
统计数据
db.myColl.count() //统计myColl表记录数
使用$in operator 修改多条Doc:
db.inventory.update(
{ tags: { $in: ["appliances", "school"] } },
{ $set: { sale:true } }
)
更多方法是用命令
db.mycoll.help()
获取第一条/最早添加的数据
这个小伙伴们应该指定,如果是nodejs的api中之间使用user.findOne()就能找到,但是直接在mongo使用是不行滴:
但是我们可以这样做:
db.users.find({}).limit(1)
取出所有的再限制只取一条:
这样就成功取出了第一条。
获取最后一条/最晚添加的数据
这个似乎也没有直接可以使用的api接口哦。
所以我们想起来每一个文档都有一个ObjectId,而这个ObjectId是有带时间性质的哦,我们可以先按_id进行倒序排列,再取第一条,就OK了:
db.users.find({}).sort({_id:-1}.limit(1)
这样就成功取出了最后一条,
接着再验证试试:
可以发现最新插入的被取出来了,OK,没有问题。
导入 导出表数据
apt-get update
apt-get upgrade
apt-get install lrzsz
mongoexport --host localhost --port 27017 --collection schedules --db crawlab_test --out schedules.json
mongoimport --host localhost --port 27017 --collection schedules --db crawlab_test --file /opt/schedules.json