【Ceph运维】ceph 日常运维

Ceph 日常运维管理

一、集群监控管理

1、集群整体运行状态

[root@cephnode01 ~]# ceph -s 
cluster:
    id:     8230a918-a0de-4784-9ab8-cd2a2b8671d0
    health: HEALTH_WARN
            application not enabled on 1 pool(s)
 
  services:
    mon: 3 daemons, quorum cephnode01,cephnode02,cephnode03 (age 27h)
    mgr: cephnode01(active, since 53m), standbys: cephnode03, cephnode02
    osd: 4 osds: 4 up (since 27h), 4 in (since 19h)
    rgw: 1 daemon active (cephnode01)
 
  data:
    pools:   6 pools, 96 pgs
    objects: 235 objects, 3.6 KiB
    usage:   4.0 GiB used, 56 GiB / 60 GiB avail
    pgs:     96 active+clean
    
    
# id：集群ID
# health：集群运行状态，这里有一个警告，说明是有问题，意思是pg数大于pgp数，通常此数值相等。
# mon：Monitors运行状态。
# osd：OSDs运行状态。
# mgr：Managers运行状态。
# mds：Metadatas运行状态。
# pools：存储池与PGs的数量。
# objects：存储对象的数量。
# usage：存储的理论用量。
# pgs：PGs的运行状态

2、常用查询状态指令

集群状态： HEALTH_OK，HEALTH_WARN，HEALTH_ERR

# 仅仅显示集群是否正常
[root@ceph2 ~]#ceph health detail
HEALTH_OK

# 显示集群状态/
[root@ceph2 ~]# ceph -s
cluster:
id: 35a91e48-8244-4e96-a7ee-980ab989d20d
health: HEALTH_OK

services:
mon: 3 daemons, quorum ceph2,ceph3,ceph4
mgr: ceph4(active), standbys: ceph2, ceph3
mds: cephfs-1/1/1 up {0=ceph2=up:active}, 1 up:standby
osd: 9 osds: 9 up, 9 in; 32 remapped pgs
rbd-mirror: 1 daemon active

data:
pools: 14 pools, 536 pgs
objects: 220 objects, 240 MB
usage: 1764 MB used, 133 GB / 134 GB avail
pgs: 508 active+clean
28 active+clean+remapped


# 动态观察ceph集群
[root@ceph2 ~]# ceph -w

3、集群标志

noup：OSD启动时，会将自己在MON上标识为UP状态，设置该标志位，则OSD不会被自动标识为up状态

nodown：OSD停止时，MON会将OSD标识为down状态，设置该标志位，则MON不会将停止的OSD标识为down状态，设置noup和nodown可以防止网络抖动

noout：设置该标志位，则mon不会从crush映射中删除任何OSD。对OSD作维护时，可设置该标志位，以防止CRUSH在OSD停止时自动重平衡数据。OSD重新启动时，需要清除该flag

noin：设置该标志位，可以防止数据被自动分配到OSD上

norecover：设置该flag，禁止任何集群恢复操作。在执行维护和停机时，可设置该flag

nobackfill：禁止数据回填

noscrub：禁止清理操作。清理PG会在短期内影响OSD的操作。在低带宽集群中，清理期间如果OSD的速度过慢，则会被标记为down。可以该标记来防止这种情况发生

nodeep-scrub：禁止深度清理

norebalance：禁止重平衡数据。在执行集群维护或者停机时，可以使用该flag

pause：设置该标志位，则集群停止读写，但不影响osd自检

full：标记集群已满，将拒绝任何数据写入，但可读

4、集群标志操作

a) 设置noout状态

[root@ceph2 ~]# ceph osd set noout
noout is set

b) 取消noout状态

[root@ceph2 ~]# ceph osd unset noout
noout is unset

c) 将指定文件作为对象写入到资源池中 put

[root@ceph2 ~]# rados -p ssdpool put testfull /etc/ceph/ceph.conf
2019-03-27 21:59:14.250208 7f6500913e40 0 client.65175.objecter FULL, paused modify 0x55d690a412b0 tid 0
[root@ceph2 ~]# rados -p ssdpool ls
testfull
test

5、PG操作

a) pg状态

Creating：PG正在被创建。通常当存储池被创建或者PG的数目被修改时，会出现这种状态

Active：PG处于活跃状态。可被正常读写

Clean：PG中的所有对象都被复制了规定的副本数

Down：PG离线

Replay：当某个OSD异常后，PG正在等待客户端重新发起操作

Splitting：PG正在初分割，通常在一个存储池的PG数增加后出现，现有的PG会被分割，部分对象被移动到新的PG

Scrubbing：PG正在做不一致校验

Degraded：PG中部分对象的副本数未达到规定数目

Inconsistent：PG的副本出现了不一致。如果出现副本不一致，可使用ceph pg repair来修复不一致情况

Peering：Perring是由主OSD发起的使用存放PG副本的所有OSD就PG的所有对象和元数据的状态达成一致的过程。Peering完成后，主OSD才会接受客户端写请求

Repair：PG正在被检查，并尝试修改被发现的不一致情况

Recovering：PG正在迁移或同步对象及副本。通常是一个OSD down掉之后的重平衡过程

Backfill：一个新OSD加入集群后，CRUSH会把集群现有的一部分PG分配给它，被称之为数据回填

Backfill-wait：PG正在等待开始数据回填操作

Incomplete：PG日志中缺失了一关键时间段的数据。当包含PG所需信息的某OSD不可用时，会出现这种情况

Stale：PG处理未知状态。monitors在PG map改变后还没收到过PG的更新。集群刚启动时，在Peering结束前会出现该状态

Remapped：当PG的acting set变化后，数据将会从旧acting set迁移到新acting set。新主OSD需要一段时间后才能提供服务。因此这会让老的OSD继续提供服务，直到PG迁移完成。在这段时间，PG状态就会出现Remapped

b) stuck（卡住）状态的PG

# 如果PG长时间（mon_pg_stuck_threshold，默认为300s）出现如下状态时，MON会将该PG标记为stuck：

	inactive：pg有peering问题

	unclean：pg在故障恢复时遇到问题

	stale：pg没有任何OSD报告，可能其所有的OSD都是down和out

	undersized：pg没有充足的osd来存储它应具有的副本数

默认情况下，Ceph会自动执行恢复，但如果未成自动恢复，则集群状态会一直处于HEALTH_WARN或者HEALTH_ERR

如果特定PG的所有osd都是down和out状态，则PG会被标记为stale。要解决这一情况，其中一个OSD必须要重生，且具有可用的PG副本，否则PG不可用

Ceph可以声明osd或PG已丢失，这也就意味着数据丢失。

需要说明的是，osd的运行离不开journal，如果journal丢失，则osd停止

c) 管理stuck状态的PG

# 检查处于stuck状态的pg
[root@ceph2 ceph]# ceph pg  dump_stuck
ok
PG_STAT STATE         UP    UP_PRIMARY ACTING ACTING_PRIMARY 
17.5    stale+peering [0,2]          0  [0,2]              0 
17.4    stale+peering [2,0]          2  [2,0]              2 
17.3    stale+peering [2,0]          2  [2,0]              2 
17.2    stale+peering [2,0]          2  [2,0]              2 
17.1    stale+peering [0,2]          0  [0,2]              0 
17.0    stale+peering [2,0]          2  [2,0]              2 
17.1f   stale+peering [2,0]          2  [2,0]              2 
17.1e   stale+peering [0,2]          0  [0,2]              0 
17.1d   stale+peering [2,0]          2  [2,0]              2 
17.1c   stale+peering [0,2]          0  [0,2]              0 
[root@ceph2 ceph]# ceph osd blocked-by
osd num_blocked 
  0          19 
  2          13 
  
# 检查导致pg一直阻塞在peering 状态的osd
ceph osd blocked-by

# 检查某个pg的状态
ceph pg dump |grep pgid

# 声明pg丢失
ceph pg pgid mark_unfound_lost revert|delete

# 声明osd丢失（需要osd状态为down 且out）
ceph osd lost osdid --yes-i-really-mean-it

6、pool管理

a) 查看pool状态

ceph osd  pool stats
ceph osd lspools

b）限制pool配置更改

# 禁止pool被删除
ceph tell osd.* injectargs --osd_pool_default_flag_nodelete true
# 禁止修改pool的pg_num和pgp_num 
ceph tell osd.* injectargs --osd_pool_default_flag_nopgchange true
# 禁止修改pool的size和min_size
ceph tell osd.* injectargs --osd_pool_default_flag_nosizechang true

7、查看osd状态

ceph osd stat
ceph osd status 
ceph osd dump
ceph osd tree
ceph osd df

8、Monitor 状态和查看仲裁状态

ceph  mon stat 
ceph  mon dump
ceph  quorum_status

9、集群空间用量

ceph df
ceph df detail

二、集群配置管理

1、查看运行配置

ceph daemon {daemon-type}.{id} config show 
# ceph daemon osd.0 config show

2、tell子命令格式

# 使用 tell 的方式适合对整个集群进行设置，使用 * 号进行匹配，就可以对整个集群的角色进行设置。而出现节点异常无法设置时候，只会在命令行当中进行报错，不太便于查找。

命令格式：
# ceph tell {daemon-type}.{daemon id or *} injectargs --{name}={value} [--{name}={value}]
命令举例：
# ceph tell osd.0 injectargs --debug-osd 20 --debug-ms 1


# daemon-type：为要操作的对象类型如osd、mon、mds等。
# daemon id：该对象的名称，osd通常为0、1等，mon为ceph -s显示的名称，这里可以输入*表示全部
# injectargs：表示参数注入，后面必须跟一个参数，也可以跟多个

3、daemon 子命令

# 使用 daemon 进行设置的方式就是一个个的去设置，这样可以比较好的反馈，此方法是需要在设置的角色所在的主机上进行设置。

命令格式：
# ceph daemon {daemon-type}.{id} config set {name}={value}
命令举例：
# ceph daemon mon.ceph-monitor-1 config set mon_allow_pool_delete false

三、集群操作

1、操作守护进程

1、启动所有守护进程
# systemctl start ceph.target
2、按类型启动守护进程
# systemctl start ceph-mgr.target
# systemctl start ceph-osd@id
# systemctl start ceph-mon.target
# systemctl start ceph-mds.target
# systemctl start ceph-radosgw.target

2、添加和删除OSD

a) 添加 osd

# 格式化磁盘
ceph-volume lvm zap /dev/sd<id>
# 进入到ceph-deploy执行目录/my-cluster，添加OSD
ceph-deploy osd create --data /dev/sd<id> $hostname

b) 删除osd

# 调整osd的crush weight为 0
ceph osd crush reweight osd.<ID> 0.0
# 将osd进程stop
systemctl stop ceph-osd@<ID>
# 将osd设置out
ceph osd out <ID>
# 立即执行删除OSD中数据
ceph osd purge osd.<ID> --yes-i-really-mean-it
# 卸载磁盘
umount /var/lib/ceph/osd/ceph-？

3、扩容pg

ceph osd pool set {pool-name} pg_num 128
ceph osd pool set {pool-name} pgp_num 128 

# 在更改pool的PG数量时，需同时更改PGP的数量。PGP是为了管理placement而存在的专门的PG，它和PG的数量应该保持一致。如果你增加pool的pg_num，就需要同时增加pgp_num，保持它们大小一致，这样集群才能正常rebalancing。

4、pool操作

a) 列出存储池

ceph OSD lspools

b) 创建存储池

# 命令格式：
ceph osd pool create {pool-name} {pg-num} [{pgp-num}]
# 命令举例：
ceph osd pool create rbd  32 32

c) 设置存储池配置

命令格式：
# ceph osd pool set-quota {pool-name} [max_objects {obj-count}] [max_bytes {bytes}]
命令举例：
# ceph osd pool set-quota rbd max_objects 10000

d) 删除存储池

ceph osd pool delete {pool-name} [{pool-name} --yes-i-really-really-mean-it]

e) 重命名存储池

ceph osd pool rename {current-pool-name} {new-pool-name}

f) 查看存储池统计信息

rados df

g) 给存储池做快照

ceph osd pool mksnap {pool-name} {snap-name}

h) 删除存储池的快照

ceph osd pool rmsnap {pool-name} {snap-name}

i) 获取存储池选项值

ceph osd pool get {pool-name} {key}

j) 调整存储池选项值

ceph osd pool set {pool-name} {key} {value}
# size：设置存储池中的对象副本数，详情参见设置对象副本数。仅适用于副本存储池。
# min_size：设置 I/O 需要的最小副本数，详情参见设置对象副本数。仅适用于副本存储池。
# pg_num：计算数据分布时的有效 PG 数。只能大于当前 PG 数。
# pgp_num：计算数据分布时使用的有效 PGP 数量。小于等于存储池的 PG 数。
# hashpspool：给指定存储池设置/取消 HASHPSPOOL 标志。
# target_max_bytes：达到 max_bytes 阀值时会触发 Ceph 冲洗或驱逐对象。
# target_max_objects：达到 max_objects 阀值时会触发 Ceph 冲洗或驱逐对象。
# scrub_min_interval：在负载低时，洗刷存储池的最小间隔秒数。如果是 0 ，就按照配置文件里的 
# osd_scrub_min_interval 。
# scrub_max_interval：不管集群负载如何，都要洗刷存储池的最大间隔秒数。如果是 0 ，就按照配置文件里的 
# osd_scrub_max_interval 。
# deep_scrub_interval：“深度”洗刷存储池的间隔秒数。如果是 0 ，就按照配置文件里的 
# osd_deep_scrub_interval 。

k) 获取对象副本数

ceph osd dump | grep 'replicated size'

5、用户管理

Ceph 把数据以对象的形式存于各存储池中。Ceph 用户必须具有访问存储池的权限才能够读写数据。另外，Ceph 用户必须具有执行权限才能够使用 Ceph 的管理命令。

a) 查看用户信息

# 查看所有用户信息
ceph auth list
# 获取所有用户的key与权限相关信息
ceph auth get client.admin
# 如果只需要某个用户的key信息，可以使用pring-key子命令
ceph auth print-key client.admin

b) 添加用户

ceph auth add client.john mon 'allow r' osd 'allow rw pool=liverpool'
ceph auth get-or-create client.paul mon 'allow r' osd 'allow rw pool=liverpool'
ceph auth get-or-create client.george mon 'allow r' osd 'allow rw pool=liverpool' -o george.keyring
ceph auth get-or-create-key client.ringo mon 'allow r' osd 'allow rw pool=liverpool' -o ringo.key

c) 修改用户权限

# ceph auth caps client.john mon 'allow r' osd 'allow rw pool=liverpool'
# ceph auth caps client.paul mon 'allow rw' osd 'allow rwx pool=liverpool'
# ceph auth caps client.brian-manager mon 'allow *' osd 'allow *'
# ceph auth caps client.ringo mon  ' ' osd ' '

e) 删除用户

# ceph auth del {TYPE}.{ID}
其中， {TYPE} 是 client，osd，mon 或 mds 的其中一种。{ID} 是用户的名字或守护进程的 ID 。

6、增加和删除Monitor

一个集群可以只有一个 monitor，推荐生产环境至少部署 3 个。 Ceph 使用 Paxos 算法的一个变种对各种 map 、以及其它对集群来说至关重要的信息达成共识。建议（但不是强制）部署奇数个 monitor 。Ceph 需要 mon 中的大多数在运行并能够互相通信，比如单个 mon，或 2 个中的 2 个，3 个中的 2 个，4 个中的 3 个等。初始部署时，建议部署 3 个 monitor。后续如果要增加，请一次增加 2 个。

a) 增加一个monnitor

# ceph-deploy mon create $hostname
注意：执行ceph-deploy之前要进入之前安装时候配置的目录。/my-cluster

b) 删除monitor

# ceph-deploy mon destroy $hostname
注意： 确保你删除某个 Mon 后，其余 Mon 仍能达成一致。如果不可能，删除它之前可能需要先增加一个。

7、ceph故障排除

此时说明部分osd的存储已经超过阈值，mon会监控ceph集群中OSD空间使用情况。如果要消除WARN,可以修改这两个参数，提高阈值，但是通过实践发现并不能解决问题，可以通过观察osd的数据分布情况来分析原因。

nearfull osds or pools nearfull

a) 配置文件设置阙值

 "mon_osd_full_ratio": "0.95",
 "mon_osd_nearfull_ratio": "0.85"

b) 自动处理

ceph osd reweight-by-utilization
ceph osd reweight-by-pg 105 cephfs_data(pool_name)

c) 手动处理

ceph osd reweight osd.2 0.8

d) 全局处理

ceph mgr module ls
ceph mgr module enable balancer
ceph balancer on
ceph balancer mode crush-compat
ceph config-key set "mgr/balancer/max_misplaced": "0.01"

四、pg状态和osd 状态

1、PG状态概述

一个PG在它的生命周期的不同时刻可能会处于以下几种状态中:

Creating(创建中)
在创建POOL时,需要指定PG的数量,此时PG的状态便处于creating,意思是Ceph正在创建PG。

Peering(互联中)
peering的作用主要是在PG及其副本所在的OSD之间建立互联,并使得OSD之间就这些PG中的object及其元数据达成一致。

Active(活跃的)
处于该状态意味着数据已经完好的保存到了主PG及副本PG中,并且Ceph已经完成了peering工作。

Clean(整洁的)
当某个PG处于clean状态时,则说明对应的主OSD及副本OSD已经成功互联,并且没有偏离的PG。也意味着Ceph已经将该PG中的对象按照规定的副本数进行了复制操作。

Degraded(降级的)
当某个PG的副本数未达到规定个数时,该PG便处于degraded状态,例如:

在客户端向主OSD写入object的过程,object的副本是由主OSD负责向副本OSD写入的,直到副本OSD在创建object副本完成,并向主OSD发出完成信息前,该PG的状态都会一直处于degraded状态。又或者是某个OSD的状态变成了down,那么该OSD上的所有PG都会被标记为degraded。
当Ceph因为某些原因无法找到某个PG内的一个或多个object时,该PG也会被标记为degraded状态。此时客户端不能读写找不到的对象,但是仍然能访问位于该PG内的其他object。

Recovering(恢复中)
当某个OSD因为某些原因down了,该OSD内PG的object会落后于它所对应的PG副本。而在该OSD重新up之后,该OSD中的内容必须更新到当前状态,处于此过程中的PG状态便是recovering。

Backfilling(回填)
当有新的OSD加入集群时,CRUSH会把现有集群内的部分PG分配给它。这些被重新分配到新OSD的PG状态便处于backfilling。

Remapped(重映射)
当负责维护某个PG的acting set变更时,PG需要从原来的acting set迁移至新的acting set。这个过程需要一段时间,所以在此期间,相关PG的状态便会标记为remapped。

Stale(陈旧的)
默认情况下,OSD守护进程每半秒钟便会向Monitor报告其PG等相关状态,如果某个PG的主OSD所在acting set没能向Monitor发送报告,或者其他的Monitor已经报告该OSD为down时,该PG便会被标记为stale。

2、OSD状态

单个OSD有两组状态需要关注,其中一组使用in/out标记该OSD是否在集群内,另一组使用up/down标记该OSD是否处于运行中状态。两组状态之间并不互斥,换句话说,当一个OSD处于“in”状态时,它仍然可以处于up或down的状态。

OSD状态为in且up
这是一个OSD正常的状态,说明该OSD处于集群内,并且运行正常。

OSD状态为in且down
此时该OSD尚处于集群中,但是守护进程状态已经不正常,默认在300秒后会被踢出集群,状态进而变为out且down,之后处于该OSD上的PG会迁移至其它OSD。

OSD状态为out且up
这种状态一般会出现在新增OSD时,意味着该OSD守护进程正常,但是尚未加入集群。

OSD状态为out且down
在该状态下的OSD不在集群内,并且守护进程运行不正常,CRUSH不会再分配PG到该OSD上。

转载自

https://www.cnblogs.com/passzhang/p/12191332.html

posted @ 2020-04-02 15:08 yanling0813 阅读(2793) 评论(0) 收藏举报

刷新页面返回顶部

DMan

苦海无涯，学无止境

【Ceph运维】ceph 日常运维

Ceph 日常运维管理

一、集群监控管理

1、集群整体运行状态

2、常用查询状态指令

3、集群标志

4、集群标志操作

5、PG操作

6、pool管理

7、查看osd状态

8、Monitor 状态和查看仲裁状态

9、集群空间用量

二、集群配置管理

1、查看运行配置

2、tell子命令格式

3、daemon 子命令

三、集群操作

1、操作守护进程

2、添加和删除OSD

3、扩容pg

4、pool操作

5、用户管理

6、增加和删除Monitor

7、ceph故障排除

四、pg状态和osd 状态

1、PG状态概述

2、OSD状态

公告

DMan

苦海无涯，学无止境

【Ceph运维】ceph 日常运维

Ceph 日常运维管理

一、集群监控管理

1、集群整体运行状态

2、常用查询状态指令

3、集群标志

4、集群标志操作

5、PG操作

6、pool管理

7、查看osd状态

8、Monitor 状态和查看仲裁状态

9、集群空间用量

二、集群配置管理

1、查看运行配置

2、tell子命令格式

3、daemon 子命令

三、集群操作

1、操作守护进程

2、添加和删除OSD

3、扩容pg

4、pool操作

5、用户管理

6、 增加和删除Monitor

7、ceph故障排除

四、pg状态和osd 状态

1、PG状态概述

2、OSD状态

公告

6、增加和删除Monitor