Doris分区、分片、副本的基本命令、修复副本思路

查看建表语句

SHOW CREATE TABLE my_table

关闭动态分区

ALTER TABLE my_table SET ( "dynamic_partition.enable" = "false" );
ALTER TABLE my_table SET ( "dynamic_partition.enable" = "true" );

删除分区

ALTER TABLE my_table DROP PARTITION p202309;

添加分区(顺便设置副本数)

ALTER TABLE my_table ADD PARTITION p1 VALUES LESS THAN ("2015-01-01") ("replication_num"="1");

查看分区

SHOW [TEMPORARY] PARTITIONS FROM [db_name.]table_name [WHERE] [ORDER BY] [LIMIT];

删除分区内的数据

TRUNCATE TABLE my_table PARTITION(part01);

调整分区的副本数

ALTER TABLE example_db.my_table MODIFY PARTITION p1 SET("replication_num"="1");

查看分片的副本信息

SHOW TABLETS from my_table;

查看分片的副本状态

ADMIN DIAGNOSE TABLET your_tablet_id;

查看分片里的副本具体信息

SHOW TABLET tabletid ## 该语句返回结果中,找到`detailCmd`字段 如下 ↓ SHOW PROC '/dbs/10003/1790279/partitions/1790278/4404968/4405353'; ## 该语句返回字段中,有url链接,可以查看详细的分片信息 ## 该分片返回多少条,就代表有多少副本

查看副本修复的进度

SHOW PROC '/cluster_balance';

查看集群的副本状态

SHOW PROC '/cluster_health/tablet_health'; SHOW PROC '/cluster_health/tablet_health/13402'; ## 其中 13402 是副本的id

查看表里面指定分区的副本状态

ADMIN SHOW REPLICA STATUS FROM tbl1 PARTITION (p1, p2) WHERE STATUS = "OK"; ## 其中可以关注isBad那一字段,可以看到副本的状态

查看副本的集群分布

ADMIN SHOW REPLICA DISTRIBUTION FROM tbl1;

查看等待被调度的任务

SHOW PROC '/cluster_balance/pending_tablets';

修复副本的思路

总体来讲,当我们需要将集群快速恢复到正常状态时,可以考虑按照以下思路处理:

1.找到导致高优任务报错的tablet,将有问题的副本置为bad。

2.通过admin repair语句高优修复某些表。

3.停止副本均衡逻辑以避免占用集群资源,等集群恢复后,再开启即可。

4.使用更保守的策略触发修复任务,以应对BE频繁宕机导致的雪崩效应。

5.按需关闭colocation表的调度任务,集中集群资源修复其他他高优数据。

设置副本的状态为 bad

ADMIN SET REPLICA STATUS PROPERTIES("tablet_id" = "4405353", "backend_id" = "10010", "status" = "bad"); ## 分片的id,be的id 需要在上面的语句执行结果中进行查找
  • 设置为bad之后,Doris会自动进行修复
  • 使用下面的语句可以查看Doris的修复进度
SHOW PROC '/cluster_balance';
  • 修复完成后,可以使用下面的语句查看集群整体的副本的健康情况
SHOW PROC '/cluster_health/tablet_health';
  • 手动修复(设置修复的优先级,让其先修复)
ADMIN REPAIR TABLE tbl [PARTITION (p1, p2, ...)];
  • 取消手动修复
ADMIN CANCEL REPAIR TABLE tbl [PARTITION (p1, p2, ...)];

尝试从回收站中修复tablet

http 请求方式

BE 中提供单个 tablet 数据恢复的 http 接口,接口如下:

curl -X POST "http://be_host:be_webserver_port/api/restore_tablet?tablet_id=11111\&schema_hash=12345"

成功的结果如下:

{"status": "Success", "msg": "OK"}

失败的话,会返回相应的失败原因,一种可能的结果如下:

{"status": "Failed", "msg": "create link path failed"}
脚本方式

restore_tablet_tool.sh
可用来实现单 tablet 数据恢复的功能。

sh tools/restore_tablet_tool.sh -b "http://127.0.0.1:8040" -t 12345 -s 11111 sh tools/restore_tablet_tool.sh --backend "http://127.0.0.1:8040" --tablet_id 12345 --schema_hash 11111

修复缺失或损坏的 Tablet

查看 Master FE 日志

fe.log
如果出现数据丢失的情况,则日志中会有类似如下日志:

backend [10001] invalid situation. tablet[20000] has few replica[1], replica num setting is [3]

这个日志表示,Tablet 20000 的所有副本已损坏或丢失。

使用空白副本填补缺失副本

当确认数据已经无法恢复后,可以通过执行以下命令,生成空白副本。

ADMIN SET FRONTEND CONFIG ("recover_with_empty_tablet" = "true");
- <font style="color:rgb(42, 47, 52);">注:可以先通过</font><font style="color:rgb(42, 47, 52);"> </font>`<font style="color:rgb(76, 87, 108);background-color:rgb(237, 242, 250);">SHOW FRONTEND CONFIG;</font>`<font style="color:rgb(42, 47, 52);"> </font><font style="color:rgb(42, 47, 52);">命令查看当前版本是否支持该参数。</font>
设置完成几分钟后,应该会在 Master FE 日志

fe.log
中看到如下日志:

tablet 20000 has only one replica 20001 on backend 10001 and it is lost. create an empty replica to recover it.

该日志表示系统已经创建了一个空白 Tablet 用于填补缺失副本。

通过查询来判断是否已经修复成功。
全部修复成功后,通过以下命令关闭

recover_with_empty_tablet 参数:

ADMIN SET FRONTEND CONFIG ("recover_with_empty_tablet" = "false");

如果使用以上方法进行副本修复,还未成功,或者是Mater FE 显示报错日志则需要进行删除数据,重新写入数据

原因为该分区里面只有一个副本,无法将该副本重新填充覆盖

publish version failed for transaction TransactionState. transaction id: 67607743, label: yfzaFUlqpNhvdrY76Dq-4000, db id: 10003, table id list: 1790279, callback id: -1, coordinator: BE: xxx.xxx.xxx.xxx, transaction status: COMMITTED, error replicas num: 0, replica ids: , prepare time: 1729052940470, commit time: 1729052947271, finish time: -1, reason: on tablet tabletId=4405353, with only 0 replicas less than quorum 1


__EOF__

本文作者Reisen7
本文链接https://www.cnblogs.com/reisen7/p/18615468.html
关于博主:评论和私信会在第一时间回复。或者直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角推荐一下。您的鼓励是博主的最大动力!
posted @   Reisen7  阅读(282)  评论(0编辑  收藏  举报  
相关博文:
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?
点击右上角即可分享
微信分享提示