MySQL全文索引源码剖析之Insert语句执行过程

合集 - 数据库最新分享(87)

1.华为云峰会2024，GaussDB扬帆出海，给世界一个更优选择2024-02-28 2.预算有限，资源冗余？DWS集群缩容如何帮你解决烦劳2024-02-29 3.数智融合，华为云GaussDB(for MySQL)助力企业释放数据新价值2024-03-01 4.RDS for MySQL Serverless公测上线：弹性伸缩，最高可降成本超80%2024-03-04 5.GaussDB跨云容灾：实现跨地域的数据库高可用能力2024-03-05 6.实例详解如何构建动态SQL语句2024-03-05 7.GaussDB(DWS)运维利刃：TopSQL工具解析2024-03-07 8.手把手带你认识GaussDB轻量化运维管理工具2024-03-08 9.守护更多女性健康，华为云GeminiDB助力美柚数据库高效稳定迁移2024-03-08 10.GaussDB(DWS)集群通信：详解pooler连接池2024-03-11 11.Libcomm通信库：GaussDB(DWS) 为解决建联过多的小妙招2024-03-12 12.实例带你了解GaussDB数据库的LOCK TABLE2024-03-12 13.RDS for MariaDB“智能DBA助手”，让运维效率嗖嗖地！2024-03-12 14.实例带你了解GaussDB的索引管理2024-03-14 15.详解GaussDB(DWS)中3个防过载检查项2024-03-18 16.华为云数据库创新发展论坛，打造行业更优数据库底座！2024-03-19 17.GaussDB(分布式)实例故障处理2024-03-19 18.华为云GeminiDB新版本发布：全面支持Redis 6.22024-03-20 19.究竟什么样的数据库，才能承接RTA广告这个技术活！2024-03-20 20.GaussDB(DWS) 业务高可靠的三大利器：CN RETRY、远程读、ELB2024-03-25 21.走在前、做示范，苏州农商银行携华为云完成超级网银系统改造2024-03-25 22.分布式数据库技术的演进和发展方向2024-03-26 23.新版Redis不再“开源”，对使用者都有哪些影响？2024-03-27 24.cgroup、资源池、用户的关系..涉及到GaussDB(DWS)的资源设置2024-03-29 25.GeminiDB Cassandra接口新特性FLASHBACK发布：任意时间点秒级闪回2024-04-01 26.探索GaussDB(DWS)湖仓融合：Hudi与元数据打通的深度解析2024-04-01 27.详解数仓对象设计中序列SEQUENCE原理与应用2024-04-02 28.数仓调优实战：GUC参数调优2024-04-07 29.详讲openGauss 5.0 单点企业版如何部署_Centos7_x862024-04-08 30.华为云GeminiDB，广告RTA的“登云梯”2024-04-09 31.DTC2024，华为云数据库创新融合大发展，打造世界级数据库！2024-04-17 32.GaussDB(DWS)基于Flink的实时数仓构建2024-04-18 33.数仓的两种轻量级数据交换格式：json与jsonb2024-04-19 34.重磅新品发布！云耀数据库HRDS，享受轻量级的极致体验2024-04-23 35.“企业创新新引擎”数据库专项赋能会，让云原生技术普惠千行百业！2024-04-24 36.GaussDB SQL查询语句执行过程解析2024-04-24 37.详解数仓的向量化执行引擎2024-04-25 38.Redis开源社区持续壮大，华为云为Valkey项目注入新的活力2024-05-06 39.详解数仓的3A安全能力2024-05-07 40.【GaussDB(for MySQL)】 Big IN查询优化2024-05-09 41.GaussDB细粒度资源管控技术透视2024-05-09 42.带你了解GaussDB SQL中的BOOLEAN表达式2024-05-10 43.数仓安全：数据脱敏技术深度解析2024-05-10 44.详解GaussDB(DWS)中的行执行引擎2024-05-11 45.了解GaussDB SQL中CASE表达式2024-05-13 46.JDBC连接openGauss6.0和PostgreSQL16.2性能对比2024-05-14 47.MySQL 给用户添加 ALTER VIEW 的权限2024-05-15

48.MySQL全文索引源码剖析之Insert语句执行过程2024-05-20

49.全球厂商之最，华为17篇论文入选国际数据库顶会ICDE2024-05-22 50.GeminiDB PITR，让游戏回档“进退自如”！2024-05-24 51.浅析MySQL 8.0直方图原理2024-05-27 52.LLVM技术在GaussDB等数据库中的应用2024-06-03 53.告别内存OOM，解决MySQL内存增长问题2024-06-04 54.从数据库设计到性能调优，全面掌握openGemini应用开发最佳实践2024-06-04 55.深度体验与测评openGauss 6.0.0新版本2024-06-11 56.深度解读数据库引入LLVM技术后如何提升性能2024-06-12 57.从Purge机制说起，详解GaussDB(for MySQL)的优化策略2024-06-17 58.攀登不止，华为数据库论文入选SIGMOD 2024，技术创新再谱新篇2024-06-18 59.技术解读数据库如何实现“多租户”？2024-06-20 60.解读MySQL 8.0数据字典的初始化与启动2024-06-24 61.GeminiDB全面联动MySQL：热点数据，一键加速2024-06-26 62.探秘数据库中的并行计算技术应用2024-07-01 63.硬核解读，WeTune是如何提升数据库查询重写性能？2024-07-04 64.开源数据库Greenplu突然闭源？GaussDB(DWS)提供数仓新可能2024-07-08 65.数据库异常难定位？GaussDB(DWS)运维神器TopSQL来解决2024-07-10 66.MySQL派生表合并优化的原理和实现2024-07-11 67.华为云发起，openGemini正式成为CNCF官方项目！2024-07-11 68.MySQL中为什么要使用索引合并(Index Merge)？2024-07-12 69.解读MySQL 8.0数据字典缓存管理机制2024-07-16 70.解读GaussDB(for MySQL)灵活多维的二级分区表策略2024-07-19 71.深度解读GaussDB(for MySQL)与MySQL的COUNT查询并行优化策略2024-07-25 72.一图为你揭秘云数据库GaussDB管理平台亮点2024-10-17 73.深度解读GaussDB逻辑解码技术原理2024-10-28 74.深度解读RDS for MySQL 审计日志功能和原理2024-10-29 75.遇到慢查询怎么办？一文解读MySQL 8.0查询分析工具2024-10-31 76.从源码分析，MySQL优化器如何估算SQL语句的访问行数2024-11-11 77.一文带你搞懂GaussDB数据库性能调优2024-11-18 78.揭秘UGO SQL审核功能4大特性，让业务平滑迁移至GaussDB2024-12-02 79.了解GaussDB性能调优之隐式转换，解决慢SQL问题2024-12-10 80.全面解读TaurusDB透明压缩特性，降低数据库使用成本2024-12-11 81.解读GaussDB的BTree索引和UBTree索引，如何带来更强并发能力2024-12-13 82.想提高查询性能，用GaussDB(DWS) in表达式还是or表达式？2024-12-13 83.详解GaussDB(DWS)逻辑集群，如何化解大规模业务数据管理难题2024-12-17 84.TaurusDB库表时间点极速恢复，大幅缩短数据恢复时间2024-12-18 85.拦截烂SQL，解读GaussDB(DWS)查询过滤器过滤规则原理2024-12-20 86.开源for Huawei，Beam适配GaussDB实践案例分享2024-12-24 87.优化大宽表查询性能，揭秘GaussDB(DWS) 谓词列analyze2024-12-25

本文分享自华为云社区《MySQL全文索引源码剖析之Insert语句执行过程》，作者：GaussDB 数据库。

1. 背景介绍

全文索引是信息检索领域的一种常用的技术手段，用于全文搜索问题，即根据单词，搜索包含该单词的文档，比如在浏览器中输入一个关键词，搜索引擎需要找到所有相关的文档，并且按相关性排好序。

全文索引的底层实现是基于倒排索引。所谓倒排索引，描述的是单词和文档的映射关系，表现形式为(单词,(单词所在的文档,单词在文档中的偏移))，下文的示例将会展示全文索引的组织方式：

mysql> CREATE TABLE opening_lines (
           id INT UNSIGNED AUTO_INCREMENT NOT NULL PRIMARY KEY,
           opening_line TEXT(500),
           author VARCHAR(200),
           title VARCHAR(200),
           FULLTEXT idx (opening_line)
           ) ENGINE=InnoDB;    
mysql> INSERT INTO opening_lines(opening_line,author,title) VALUES
           ('Call me Ishmael.','Herman Melville','Moby-Dick'),
           ('A screaming comes across the sky.','Thomas Pynchon','Gravity\'s Rainbow'), 
           ('I am an invisible man.','Ralph Ellison','Invisible Man'),
           ('Where now? Who now? When now?','Samuel Beckett','The Unnamable');      
mysql> SET GLOBAL innodb_ft_aux_table='test/opening_lines';
mysql> select * from information_schema.INNODB_FT_INDEX_TABLE; 
 +-----------+--------------+-------------+-----------+--------+----------+  
| WORD      | FIRST_DOC_ID | LAST_DOC_ID | DOC_COUNT | DOC_ID | POSITION |  
+-----------+--------------+-------------+-----------+--------+----------+  
| across    |            4 |           4 |         1 |      4 |       18 |  
| call      |            3 |           3 |         1 |      3 |        0 |  
| comes     |            4 |           4 |         1 |      4 |       12 |  
| invisible |            5 |           5 |         1 |      5 |        8 |  
| ishmael   |            3 |           3 |         1 |      3 |        8 |  
| man       |            5 |           5 |         1 |      5 |       18 |  
| now       |            6 |           6 |         1 |      6 |        6 |  
| now       |            6 |           6 |         1 |      6 |        9 |  
| now       |            6 |           6 |         1 |      6 |       10 |  
| screaming |            4 |           4 |         1 |      4 |        2 |  
| sky       |            4 |           4 |         1 |      4 |       29 |  
+-----------+--------------+-------------+-----------+--------+----------+

如上，创建了一个表，并在opening_line列上建立了全文索引。以插入'Call me Ishmael.'为例，'Call me Ishmael.'也即文档，其ID为3，在构建全文索引时，该文档会被分成3个单词'call', 'me', 'ishmael'，由于'me'小于设定的ft_min_word_len(4)最小单词长度被丢弃，最后全文索引中只会记录'call'和'ishmael'，其中'call'起始位置在文档中的第0个字符处，偏移为0，'ishmael'起始位置在文档中的第12个字符处，偏移即为12。

关于全文索引更详细的功能介绍可以参考MySQL 8.0 Reference Manual，本文将从源码层面，简要剖析Insert语句的执行过程。

2. 全文索引Cache

全文索引表中记录的是{单词,{文档ID,出现的位置}}，即插入一个文档需要将其分词成多个{单词,{文档ID,出现的位置}}这样的结构，如果每次分词完就马上刷磁盘，其性能会非常差。

为了缓解该问题，Innodb引入了全文索引cache，其作用与Change Buffer类似。每次插入一个文档时，先将分词结果缓存到cache，等到cache满了再批量刷到磁盘，从而避免频繁地刷盘。Innodb定义了fts_cache_t的结构来管理cache，如下图所示：

每张表维护一个cache，对于每个创建了全文索引的表都会在内存中创建一个fts_cache_t的对象。注意，fts_cache_t是表级别的cache, 若一个表创建了多个全文索引，内存中依旧是对应一个fts_cache_t对象。fts_cache_t的一些重要成员如下：

optimize_lock、deleted_lock、doc_id_lock：互斥锁，与并发操作相关。
deleted_doc_ids：vector类型，存储已删除的doc_id。
indexes：vector类型，每个元素表示一个全文索引，每次创建全文索引时，都会往该数组中添加一个元素，每个索引的分词结果以红黑树结构存储，key为word, value就是doc_id及单词的偏移。
total_size：cache已分配的全部内存，包含其子结构使用的内存。

3. Insert语句执行过程

以MySQL 8.0.22源码为例，Insert语句的执行主要分为三个阶段，分别为写入行记录阶段、事务提交阶段和刷脏阶段。

3.1 写入行记录阶段

写入行记录的主要工作流如下图所示：

如上图所示，这一阶段最主要是生成doc_id，并写入到Innodb的行记录中，并且将doc_id缓存，以供事务提交阶段根据doc_id获取文本内容，其函数调用栈如下：

  ha_innobase::write_row
        ->row_insert_for_mysql
            ->row_insert_for_mysql_using_ins_graph
                ->row_mysql_convert_row_to_innobase
                    ->fts_create_doc_id
                        ->fts_get_next_doc_id
                ->fts_trx_add_op
                    ->fts_trx_table_add_op

fts_get_next_doc_id与fts_trx_table_add_op是比较重要的两个函数，fts_get_next_doc_id是为了获取doc_id，innodb行记录中包含了一些隐藏列，比如row_id、trx_id等，若创建了全文索引，其行记录中也会增加一个隐藏字段FTS_DOC_ID，这个值在fts_get_next_doc_id中获取的，如下：

而fts_trx_add_op则是将对全文索引的操作添加到trx中，待事务提交时进一步处理。

3.2 事务提交阶段

事务提交阶段的主要工作流如下图所示：

这一阶段是整个FTS 插入的最重要的一步，对文档进行分词，获取{单词,{文档ID,出现的位置}}，插入到cache，这些都是在这一阶段完成的。其函数调用栈如下：

fts_commit_table
      ->fts_add
          ->fts_add_doc_by_id
              ->fts_cache_add_doc
                    // 根据doc_id获取文档，对文档分词
                  ->fts_fetch_doc_from_rec
                    // 将分词结果添加到cache中
                  ->fts_cache_add_doc
              ->fts_optimize_request_sync_table
                    // 创建FTS_MSG_SYNC_TABLE消息，通知刷脏线程刷脏
                  ->fts_optimize_create_msg(FTS_MSG_SYNC_TABLE)

其中，fts_add_doc_by_id是比较关键的一个函数，该函数主要完成了以下几件事：

1）根据doc_id找到行记录, 获取对应的文档；

2）对文档执行分词，获取{单词,(单词所在的文档,单词在文档中的偏移)}关联对，并添加到cache中；
3）判断cache->total_size是否达到阈值时，若达到阈值，则往刷脏线程的消息队列添加一个FTS_MSG_SYNC_TABLE消息, 通知该线程刷脏(fts_optimize_create_msg)，具体代码如下：

为方便理解，我把代码的异常处理部分以及一些查找记录的通用部分省略了，并给出了简要注释：

   static ulint fts_add_doc_by_id(fts_trx_table_t *ftt, doc_id_t doc_id)
    {
            /* 1. 根据docid在fts_doc_id_index索引中的查找记录 */
          /* btr_pcur_open_with_no_init函数中会调用btr_cur_search_to_nth_level，btr_cur_search_to_nth_level
            会执行b+树搜索记录的过程，先从根节点找到docid记录所在的叶子节点，再通过二分查找找到docid记录。*/
        btr_pcur_open_with_no_init(fts_id_index, tuple, PAGE_CUR_LE,
                                    BTR_SEARCH_LEAF, &pcur, 0, &mtr);
        if (btr_pcur_get_low_match(&pcur) == 1) { /* 如果找到了docid记录 */
            if (is_id_cluster) {
                 /** 1.1 如果fts_doc_id_index是聚集索引，则意味着已经找到行记录数据, 直接保存行记录 **/
                doc_pcur = &pcur;
              } else {
                /** 1.2 如果fts_doc_id_index是辅助索引，则需要根据1.1找到的主键id在聚集索引上进一步搜 索行记录，找到后保存行记录**/                btr_pcur_open_with_no_init(clust_index, clust_ref, PAGE_CUR_LE,
                                           BTR_SEARCH_LEAF, &clust_pcur, 0, &mtr); 
               doc_pcur = &clust_pcur;
             }        // 遍历cache->get_docs
            for (ulint i = 0; i < num_idx; ++i) {
                /***** 2. 对文档执行分词，获取{单词,(单词所在的文档，单词在文档中的偏移)}关联对，并添加到cache中 *****/
                fts_doc_t doc;
                fts_doc_init(&doc);
        /** 2.1 根据doc_id获取行记录中该全文索引对应列的内容文档，解析文档，主要是为了构建               fts_doc_t结构体的tokens，tokens为一个红黑树结构，每个元素是一个               {单词，[该单词在文档中出现的位置]}的结构，解析结果存于doc中 **/
                fts_fetch_doc_from_rec(ftt->fts_trx->trx, get_doc, clust_index,doc_pcur, offsets, &doc);
                /** 2.2 将2.1步骤获得的{单词，[该单词在文档中出现的位置]}添加到index_cache中 **/
                fts_cache_add_doc(table->fts->cache, get_doc->index_cache, doc_id, doc.tokens);
               /***** 3. 判断cache->total_size是否达到阈值时。  若达到阈值，则往刷脏线程的消息队列添加一个FTS_MSG_SYNC_TABLE消息, 通知该线程刷脏 *****/
                bool need_sync = false;
                if ((cache->total_size - cache->total_size_before_sync >
                     fts_max_cache_size / 10 || fts_need_sync) &&!cache->sync->in_progress) {
                  /** 3.1 判断是达到阈值 **/
                  need_sync = true;
                  cache->total_size_before_sync = cache->total_size;
                }
                    if (need_sync) {
                    /** 3.2 打包FTS_MSG_SYNC_TABLE消息挂载至fts_optimize_wq队列，                   通知fts_optimize_thread线程刷脏，消息的内容为table id **/                  fts_optimize_request_sync_table(table);
                }
            }
        }
    }

了解了上述过程，就可以解释官网所述的全文索引事务提交的特殊现象了，参考MySQL 8.0 Reference Manual 的InnoDB Full-Text Index Transaction Handling一节，若对全文索引表插入一些行记录，如果当前事务未提交，我们在当前事务中通过全文索引是查不到已插入的行记录。其原因在于，全文索引的更新是在事务提交的时完成的，事务未提交时，fts_add_doc_by_id尚未执行，因此，不能通过全文索引查找该记录。但是，通过3.1小节可以知道，此时Innodb的行记录是已经插入了的，如果通过全文索引查询，直接执行SELECT COUNT(*) FROM opening_lines是可以查到该记录的。

3.3 刷脏阶段

刷脏阶段的主要工作流如下图所示：

InnoDB启动时，会创建一个后台线程，线程函数为fts_optimize_thread，工作队列为fts_optimize_wq。3.2节事务提交阶段，当cache满时fts_optimize_request_sync_table函数会往fts_optimize_wq队列添加一个FTS_MSG_SYNC_TABLE消息，后台线程取下该消息后将cache刷新到磁盘。其函数调用栈如下：

  fts_optimize_thread
        ->ib_wqueue_timedwait
            ->fts_optimize_sync_table
                ->fts_sync_table
                    ->fts_sync
                        ->fts_sync_commit
                            ->fts_cache_clear

该线程主要执行的操作如下：

从fts_optimize_wq队列取一个消息；
判断消息的类型，若为FTS_MSG_SYNC_TABLE，则执行刷脏；
将cache中的内容刷新到磁盘上的辅助表；
清空cache, 置cache为初始状态；
返回至步骤1，取下一个消息；

在3.2节中，当事务提交时，若fts cache的total_size大于了设定的内存大小阈值，则会写入一条FTS_MSG_SYNC_TABLE插入到fts_optimize_wq队列，刷脏线程会处理该消息，将fts cache中的数据刷到磁盘，随后清空cache。

值得一提的是，当fts cache的total_size大于设定的内存大小阈值时，只会写条消息到fts_optimize_wq队列，此时fts cache在未被后台刷脏线程处理之前，依然可以写入数据，内存会继续增加，这也是导致了全文索引并发插入的OOM问题的根因，问题的修复patch Bug #32831765 SERVER HITS OOM CONDITION WHEN LOADING TWO INNODB，感兴趣的读者可以自行查阅。

OOM查阅链接：https://bugs.mysql.com/bug.php?id=103523

若刷脏线程还未对某个表的fts cache刷脏，此时MySQL进程crash了，cache中的数据丢失。重启之后，第一次对该表执行insert或者select时，在fts_init_index函数中会对crash之前cache中的数据进行恢复，此时会从config表中读取已落盘的synced_doc_id, 将表中大于synced_doc_id的记录读取并分词恢复到cache中，具体实现参考fts_doc_fetch_by_doc_id， fts_init_recover_doc函数。

点击关注，第一时间了解华为云新鲜技术~

posted @ 2024-05-20 10:28 华为云开发者联盟阅读(100) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 输入的查询SQL语句，是如何执行的？

· 从源码分析，MySQL优化器如何估算SQL语句的访问行数

· InnoDB 磁盘架构

· MySQL8-中文参考-三十-

· MySQL模糊查询再也用不着 like+%

阅读排行：
· 【.NET】调用本地 Deepseek 模型
· CSnakes vs Python.NET：高效嵌入与灵活互通的跨语言方案对比
· DeepSeek “源神”启动！「GitHub 热点速览」
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库
· 我与微信审核的“相爱相杀”看个人小程序副业

历史上的今天：
2022-05-20 520，用Python定制你的《本草纲目女孩》
2022-05-20 解读分布式调度平台Airflow在华为云MRS中的实践
2022-05-20 代码重构，真的只有复杂化一条路吗？
2021-05-20 云小课 | 玩转HiLens Studio之手机实时视频流调试代码
2021-05-20 浅析决策树的生长和剪枝
2021-05-20 OCR性能优化：从认识BiLSTM网络结构开始
2021-05-20 520特辑丨码神VS爱神：盘点程序员的四大男友力，你偏爱哪一种？

公告

昵称：华为云开发者联盟
园龄： 4年9个月
粉丝： 855
关注： 1

+加关注

2025年2月

日

一

二

三

四

五

六

MySQL全文索引源码剖析之Insert语句执行过程

1. 背景介绍

2. 全文索引Cache

3. Insert语句执行过程

3.1 写入行记录阶段

3.2 事务提交阶段

3.3 刷脏阶段

公告

搜索

常用链接

我的标签

积分与排名

合集 (21)

随笔分类 (4020)

随笔档案 (4101)

阅读排行榜

评论排行榜

推荐排行榜

最新评论