10/9
今日考题
1.聊聊你都了解哪些关于scrapy框架的知识
相当于是别人提前写好了个大概的爬虫程序
里面的spiders文件存放爬虫项目文件
settings.py 则是配置文件
items.py 存放数据存储相关文件
middlewares.py 存放中间件文件 中间件即操作流程中穿插着的小步骤
pipelines.py 数据库存储相关的文件
2.数据库的分类及常见数据库软件名称
关系型数据库
MySQL、Oracle、PostgreSQL、MariaDB
# 有固定的表结构 而且可以建立外键
非关系型数据库
redis、mongoDB、memcache
# 没有固定的表结构 数据储存用K:V键值对的形式
3.简述mongodb下载与安装流程
1.找到官网 之后进入数据库的专属页面
2.右边的下载框中选择4.4或者4.6的版本不要用最新版
3.下载系统对应的安装包 之后点开
4.自定义安装 在推荐安装全家桶的那个勾去掉
5.按步骤等待安装完成
6.然后查看根目录下是否有data和log两个文件夹 没有手动加上
7.将bin加入环境变量 并且与之同级创建一个mongod.cfg的文件
找到需要的配置代码写入
4.尝试着写几个库,集合,文档的nosql语句
# 库
show dbs
use db1
db.dropDatabase()
# 集合
db.createCollection('集合名')
show tables
db.集合名.drop()
# 文档
db.db1.insert({})
db.db1.insertMany([{},{},{}])
db.db1.find()
db.db1.update({},{$set:{}}) # 修改一定要加set
db.db1.update({},{}) # 这样直接写就把前一个找到的集合里所有东西都替换成后面一个集合里的了
db.db1.remove({})
复习巩固
- 爬虫框架Scrapy
爬虫领域中功能最近强大,使用最频繁的一款异步爬虫框架
'''
同步: 提交完任务之后原地等待任务的返回结果
异步: 提交完任务之后不原地等待任务的返回结果 结果通过回调获取
'''
下载
pip3 install scrapy
# 可能报错
vistual C++
# 基本使用
scrapy startproject 项目名
- 数据库分类
# SQL与NoSQL
SQL指代所有关系型数据库或者操作的指令
NoSQL指代所有非关系型数据库或者操作的指令
关系型数据库
MySQL Oracle PostgreSQL MariaDB sqllite sqlserver
非关系型数据库
redis mongodb memcache
- MongoDB下载安装
直接官网下载msi文件即可 最好别用最新版 4.X
双击msi文件安装 安装路径别是C盘
- MongoDB重要概念
MySQL MongoDB
库 库
表 集合
记录 文档
# 如果MySQL很熟悉 也可以使用MySQL的名词来表示(仅仅是为了方便理解)
- MongoDB启动
近几个版本的MongoDB服务端会自动启动(不校验用户身份)
早期版本还需要自己创建一些额外的文件夹和文件才行
- 基本操作命令
mongo
exit、quit()
show dbs
use db1
db.createDatabase('db1')
db.t1
db.createCollection('t1')
db.t1.insert({})
db.t1.update({})
db.t1.remove({})
db.t1.find({})
内容概要
- 文档操作补充
- 用户权限管理
- 查询关键字(很多)
只要SQL语句扎实这个相当简单
详细讲解
文档操作补充
涉及数据的嵌套查找 直接用句点符或者索引
db.t1.deleteOne({'addr.country':'Japan'})
# 找到addr对应值里的country 再找到country作为键时对应的Japan
db.t1.deleteOne({'hobby.1':'tea'})
# 找到hobby作为键对应的列表中第二个元素为tea的
用户权限管理
"""涉及到用户权限相关 引号推荐全部使用双引号"""
"""
mongodb针对用户权限的创建,数据可以保存在不同的数据库下
之后在登录的时候只需要自己指定账户数据来源于哪个数据库即可
但是管理员用户数据一般情况下推荐保存到admin库下
而普通用户任意库都可以,我们为了便于管理可以在test库下创建
"""
管理员账户需要在admin数据库下创建
1.切换到admin数据库下
use admin
2.创建账户并且赋予权限
db.createUser(
{
user: "root",
pwd: "123",
roles: [ { role: "root", db: "admin" } ]
}
)
其他用户在test数据库下创建
1.切换到任意数据库下 # 不过一般会指定一个库放其他用户
use 你想要创建用户的库
2.创建账户并赋予权限
db.createUser(
{
user: "jason",
pwd: "123",
roles: [ { role: "readWrite", db: "test" },
{ role: "read", db: "db1" } ]
}
)
# 针对test库用于读写的权限 针对db1库只拥有读的权限
'''上述账户都可以创建多个'''
# 最好是使用管理员打开cmd操作下列命令
先停止服务
net stop MongoDB
再移除服务
MongoD --remove
再次添加
mongod --bind_ip 0.0.0.0 --port 27017 --logpath D:\MongoDB\Server\4.4\log\mongod.log --logappend --dbpath D:\MongoDB\Server\4.4\data --serviceName "MongoDB" --serviceDisplayName "MongoDB" --install --auth
再次启动
net start MongoDB
两种验证方式
1.直接在登录的时候验证
mongo -u "root" -p "123" --port 27017 --authenticationDatabase "admin"
2.进入之后再验证
mongo
use admin
db.auth("root","123")
"""进入公司之后所有的数据库等都会有权限管理"""
数据准备
# 数据的主键值没有指定就会默认创建 有指定就按指定的来
user0={
"name":"jason",
"age":10,
'hobbies':['music','read','dancing'],
'addr':{
'country':'China',
'city':'BJ'
}
}
db.user.insert(user0)
user1={
"_id":1,
"name":"ax",
"age":10,
'hobbies':['music','read','dancing'],
'addr':{
'country':'China',
'city':'weifang'
}
}
user2={
"_id":2,
"name":"wi",
"age":20,
'hobbies':['music','read','run'],
'addr':{
'country':'China',
'city':'hebei'
}
}
user3={
"_id":3,
"name":"yo",
"age":30,
'hobbies':['music','drink'],
'addr':{
'country':'China',
'city':'heibei'
}
}
user4={
"_id":4,
"name":"jg",
"age":40,
'hobbies':['music','read','dancing','tea'],
'addr':{
'country':'China',
'city':'BJ'
}
}
user5={
"_id":5,
"name":"jn",
"age":50,
'hobbies':['music','read',],
'addr':{
'country':'China',
'city':'henan'
}
}
db.user.insertMany([user1,user2,user3,user4,user5])
NoSQL小诀窍
在不熟练的情况下 可以先写SQL语句 之后对比着拼接出NoSQL语句
学习mongodb语句的时候只要对比MySQL去学
就相当于将SQL语句翻译成mongoDB 还能顺便复习SQL
查询指定字段
找id为3的名称和年龄
# select name,age from db1.user where id=3;
db.user.find({'_id':3},{'_id':0,'name':1,'age':1})
主键_id如果不指定是必拿的
普通字段不指定则不拿
如果要拿 0代表不要 1代表要
比较运算符号
在SQL中是 =,!=,>,<,>=,<=
在MongoDB中等于就直接写出{K:V就行} 后面则对应"$ne","$gt","$lt","$gte","$lte"
#1、select * from db1.user where name = "jason";
db.user.find({'name':'jason'})
#2、select * from db1.user where name != "jason";
db.user.find({'name':{"$ne":'jason'}})
#3、select * from db1.user where id > 2;
db.user.find({'_id':{'$gt':2}})
#4、select * from db1.user where id < 3;
db.user.find({'_id':{'$lt':3}})
#5、select * from db1.user where id >= 2;
db.user.find({"_id":{"$gte":2,}})
#6、select * from db1.user where id <= 2;
db.user.find({"_id":{"$lte":2}})
逻辑运算符
SQL中 and,or,not
MongoDB:字典中逗号分隔的多个条件是and关系
"$or"的条件就放到[]内
"$not"取反
#1、select * from db1.user where id >= 2 and id < 4;
db.user.find({'_id':{"$gte":2,"$lt":4}})
#2、select * from db1.user where id >= 2 and age < 40;
db.user.find({"_id":{"$gte":2},"age":{"$lt":40}})
#3、select * from db1.user where id >= 5 or name = "ax";
db.user.find({
"$or":[
{'_id':{"$gte":5}},
{"name":"ax"}
]
})
"""取反操作了解一下即可"""
#4、select * from db1.user where id % 2=1;
db.user.find({'_id':{"$mod":[2,1]}})
#5、上题,取反
db.user.find({'_id':{"$not":{"$mod":[2,1]}}})
成员运算
# SQL:in,not in
# MongoDB:"$in","$nin"
#1、select * from db1.user where age in (20,30,31);
db.user.find({"age":{"$in":[20,30,31]}})
#2、select * from db1.user where name not in ('ax','yo');
db.user.find({"name":{"$nin":['ax','yo']}})
#3、select * from db1.user where age in (20,30,31) or name!='jason';
db.user.find({
'$or':[
{'age':{'$in':[20,30,31]}},
{'name':{'$ne':'jason'}}
]
})
正则
用一些符号的组合去文本中筛选符合条件的数据
SQL中用正则通过关键字 regexp 正则表达式
MongoDB中用正则通过 /两边是正则表达式的关键字这里写正则语句/i
# 1、select * from db1.user where name regexp '^j.*?(g|n)$';
db.user.find({'name':/^j.*?(g|n)$/i})
范围/模糊查询
find({查询条件},{筛选字段})
'''
MySQL
关键字 like
关键符号
% 匹配任意个数的任意字符
_ 匹配单个个数的任意字符
MongoDB:
通过句点符
$all
'''
#1、查看有dancing爱好的人
db.user.find({'hobbies':'dancing'}) # 默认就是范围查询
#2、查看既有dancing爱好又有tea爱好的人
db.user.find({
'hobbies':{
"$all":['dancing','tea']
}
})
#3、查看第4个爱好为tea的人
db.user.find({"hobbies.3":'tea'})
#4、查看所有人最后两个爱好
db.user.find({},{'_id':0,'name':1,'hobbies':{"$slice":-2}})
#5、查看所有人前面两个爱好
db.user.find({},{'_id':0,'name':1,'hobbies':{"$slice":2}})
#6、查看所有人中间的第2个到第3个爱好
db.user.find({},{"_id":0,"name":1,'hobbies':{"$slice":[1,2]}})
排序
"""
MySQL:
关键字 order by
升序 降序 asc desc
MongoDB
关键字 sort
升序 降序 1 -1
"""
# 排序:1代表升序,-1代表降序
# select * from db.user order by age asc;
db.user.find().sort({"age":1})
# select * from db.user order by age desc,_id asc
db.user.find().sort({"age":-1,'_id':1})
分页查询
"""
MySQL
关键字 limit
分页 5,5
MongoDB
关键字 limit
分页 skip
"""
# 分页:limit代表取多少个document,skip代表跳过前多少个document
# select * from db.user limit 2,1
db.user.find().sort({'age':1}).limit(1).skip(2)
杂项补充
# 获取数量
db.user.count({'age':{"$gt":30}})
--或者
db.user.find({'age':{"$gt":30}}).count()
#1、{'key':null} 匹配key的值为null或者没有这个key的数据
db.t2.insert({'a':10,'b':111})
db.t2.insert({'a':20})
db.t2.insert({'b':null})
> db.t2.find({"b":null})
{ "_id" : ObjectId("5a5cc2a7c1b4645aad959e5a"), "a" : 20 }
{ "_id" : ObjectId("5a5cc2a8c1b4645aad959e5b"), "b" : null }
#2、查找所有
db.user.find() #等同于db.user.find({})
#3、查找一个,与find用法一致,只是只取匹配成功的第一个
db.user.findOne({"_id":{"$gt":3}})
通过python数据准备
from pymongo import MongoClient
import datetime
client=MongoClient('mongodb://root:123@localhost:27017')
table=client['db1']['emp']
# table.drop()
l=[
('jason','male',18,'20170301','老男孩驻沙河办事处外交大使',7300.33,401,1), #以下是教学部
('ax','male',78,'20150302','teacher',1000000.31,401,1),
('wxx','male',81,'20130305','teacher',8300,401,1),
('yh','male',73,'20140701','teacher',3500,401,1),
('lz','male',28,'20121101','teacher',2100,401,1),
('jly','female',18,'20110211','teacher',9000,401,1),
('jx','male',18,'19000301','teacher',30000,401,1),
('成龙','male',48,'20101111','teacher',10000,401,1),
('歪歪','female',48,'20150311','sale',3000.13,402,2),#以下是销售部门
('丫丫','female',38,'20101101','sale',2000.35,402,2),
('丁丁','female',18,'20110312','sale',1000.37,402,2),
('星星','female',18,'20160513','sale',3000.29,402,2),
('格格','female',28,'20170127','sale',4000.33,402,2),
('张野','male',28,'20160311','operation',10000.13,403,3), #以下是运营部门
('程咬金','male',18,'19970312','operation',20000,403,3),
('程咬银','female',18,'20130311','operation',19000,403,3),
('程咬铜','male',18,'20150411','operation',18000,403,3),
('程咬铁','female',18,'20140512','operation',17000,403,3)
]
for n,item in enumerate(l):
d={
"_id":n,
'name':item[0],
'sex':item[1],
'age':item[2],
'hire_date':datetime.datetime.strptime(item[3],'%Y%m%d'),
'post':item[4],
'salary':item[5]
}
table.save(d)
分组查询
# 1.按照部门分组
db.emp.aggregate({'$group':{'_id':'$post'}})
# 2.按照年龄分组
db.emp.aggregate({'$group':{'_id':'$age'}})
# 3.求每个部门的平均年龄
db.emp.aggregate({
'$group':{
'_id':'$post',
'平均年龄':{'$avg':'$age'}
}
})
# 4.求每个部门的最高薪资与最低薪资
db.emp.aggregate({
'$group':{
'_id':'$post',
'最高薪资':{'$max':'$salary'},
'最低薪资':{'$min':'$salary'}
}
})
# 5.查询岗位名以及各岗位内的员工姓名
# SQL语句:select post,group_concat(name) from emp group by post;
db.emp.aggregate({
"$group":{"_id":"$post","names":{"$push":"$name"}}
})
# 6.select * from db1.emp where id > 3 group by post;
db.emp.aggregate(
{"$match":{"_id":{"$gt":3}}}, # 分组之前筛选数据
{"$group":{"_id":"$post"}}
)
# 7.select * from db1.emp where id > 3 group by post having avg(salary) > 10000;
db.emp.aggregate(
{"$match":{"_id":{"$gt":3}}}, # 出现在$group上面就是where
{"$group":{"_id":"$post",'avg_salary':{"$avg":"$salary"}}},
{"$match":{"avg_salary":{"$gt":10000}}} # 出现在$group下面就是having
)
训练巩固
1. 查询岗位名以及各岗位内的员工姓名
select post,group_concat(name) from emp group by post;
db.emp.aggregate({'$group':{'_id':'$post','names':{'$push':'$name'}}})
2. 查询岗位名以及各岗位内包含的员工个数
select post,count(name) from emp group by post;
db.emp.aggregate({'$group':{'_id':'$post','count':{'$sum':1}}})
3. 查询公司内男员工和女员工的个数
db.emp.aggregate({'$group':{'_id':'$sex','count':{'$sum',1}}})
4. 查询岗位名以及各岗位的平均薪资、最高薪资、最低薪资
db.emp.aggregate({'$group':{'_id':'$post','avg_salary':{'$avg':'$salary'},'max_salary':{'$max':'$salary'},'min_salary':{'$min':'$salary'}}})
5. 查询男员工与男员工的平均薪资,女员工与女员工的平均薪资
db.emp.aggregate({'$group':{'_id':'$sex','avg_salary':{'$avg':'$salary'}}})
6. 查询各岗位内包含的员工个数小于2的岗位名、岗位内包含员工名字、个数
select post,group_concat(name) from emp group by post having count(name) < 2;
db.emp.aggregate(
{
"$group":{"_id":"$post","count":{"$sum":1},"names":{"$push":"$name"}}
},
{"$match":{"count":{"$lt":2}}},
{"$project":{"count":1}}
)
7. 查询各岗位平均薪资大于10000的岗位名、平均工资
db.emp.aggregate({'$group':{'_id':'$post','avg_salary':{'$avg':'$salary'}}},
{'$match':{'avg_salary':{'$gt':10000}}},
{'$project':{'avg_salary':1}})
8. 查询各岗位平均薪资大于10000且小于20000的岗位名、平均工资
db.emp.aggregate(
{'$group':{'_id':'$post','avg_salary':{'$avg':'$salary'}}},
{'$match':{'avg_salary':{'$gt':10000,'$lt':20000}}},
{'$project':{'avg_salary':1}})
9. 查询所有员工信息,先按照age升序排序,如果age相同则按照hire_date降序排序
db.emp.find().sort({"age":1,'hire_date':-1})
10. 查询各岗位平均薪资大于10000的岗位名、平均工资,结果按平均薪资升序排列
db.emp.aggregate({"$group":{"_id":"$post","avg_salary":{"$avg":"$salary"}}},
{"$match":{"avg_salary":{"$gt":10000}}},
{"$sort":{"avg_salary":1}})
11. 查询各岗位平均薪资大于10000的岗位名、平均工资,结果按平均薪资降序排列,取前1个
db.emp.aggregate({"$group":{"_id":"$post","avg_salary":{"$avg":"$salary"}}},
{"$match":{"avg_salary":{"$gt":10000}}},
{'$sort':{'avg_salary':-1}},
{'$limit':1})
# 如果你是看了答案的 那么请写出SQL语句