ubifs性能优化分析

本文通过分析ubifs的mount、read、write和commit流程，挖掘ubifs背后的设计决策和性能优化手段，并结合自身产品的特点，给出一些读写性能改进方案。

1. ubifs mount流程

mount过程就是初始化对象的过程。这其中包括上层（vfs层、页缓存层、通用块层）的回调接口的注册，从设备中获取相关信息（super block， master node，log，orphan， index node），初始化ubifs_info、TNC、LPT等内部对象，并对ubifs各区（默认不检查main区的index node，因为有log区的日志，一般情况下不需要扫描所有的index tree）、journal head、lpt head等进行校验、检查、修复、更新，创建后台进程等。可以看出，mount中包含了检查和修复过程，所以ubifs并没有提供额外的修复工具，这一点区别于vfat、ext3等文件系统。

mount的核心函数为ubifs_init，其主要负责外部对象的初始化，内部对象的初始化由ubifs_get_sb负责。具体细节如下：

ubifs_init主要流程：

创建ubifs inode slab（kmem_cache_create ）
注册ubifs TNC shrinker回收功能 ubifs_shrinker_info（register_shrinker ）
注册压缩算法（ubifs_compressors_init ）
注册debugfs（dbg_debugfs_init ）
注册ubifs文件系统 ubifs_fs_type（register_filesystem ）
调用ubifs_fs_type.ubifs_get_sb()继续初始化

ubifs_get_sb主要流程：

获取ubi_volume_desc对象
创建并初始化ubifs_info对象和super_block对象
读取并验证、修复ubifs_sb_node，并以ubifs_sb_node继续初始化ubifs_info对象
创建wbuf和后台线程ubifs_bgt1_0，其主要作用是后台同步write-buffers、commit、垃圾回收等。
读取并验证、修复ubifs_mst_node，并以ubifs_mst_node继续初始化ubifs_info对象
如果发现 index and LPT 头有损坏就进行修复，以继续初始化ubifs_info
更新master node信息
遍历、检查indexing node (ubifs_zbranch, ubifs_znode)的总大小是否与c->bi.old_idx_sz一致（dbg_check_idx_size，由chk_index控制，默认关闭）
回放log，检查修复index node，并更新TNC（ubifs_replay_journal）
删除orphan inode（ubifs_mount_orphans）
检查indexing tree的叶节点是否存在、crc等验证信息（dbg_check_filesystem，由chk_fs控制，默认关闭）
设置垃圾回收gc_waterline（UBIFS_FREE_RESERVE_RATIO 5），唤醒后台线程。

2. ubifs read流程

ubifs read按如下顺序，在存储层次中依次查找所需数据，直至找到并完成读取：

page cache
write buffer
flash

ubifs一切数据都封装成node，不同类型的node有不同的长度。一个data node最大可以存储的数据大小为UBIFS_BLOCK_SIZE （4096）。也就是说ubifs单次读的最大长度即block大小。

ubifs读系统调用路径如下：read -> do_sync_read -> aio_read -> generic_file_aio_read -> generic_file_aio_read -> do_generic_file_read -> readpage -> ubifs_bulk_read 或 do_readpage

do_readpage：读取一个内存page，ubifs按block大小，把page切分成ubifs block后再依次按block进行读(read_block)。

ubifs_bulk_read：如果data node连续并在同一个LEB中，并超过3个内存page及以上（read_in_a_row控制），自动启动bulk_read。或者在mount时可以指定bulk_read option使能bulk read功能。bulk read最多支持UBIFS_MAX_BULK_READ(32) 个block的连续读。

3. ubifs write流程

ubifs write按如下顺序，在存储层次中依次写入，直至写到flash中：

page cache
write buffer
TNC
log area
main area

ubifs wirte系统调用过程如下：

write -> do_sync_write -> aio_write -> ubifs_aio_write -> generic_file_aio_write -> __generic_file_aio_write -> generic_file_buffered_write -> generic_perform_write

ubifs wirte分为三个阶段：write_begin， write_end， writepage。

write_begin阶段主要做2件事：获取并更新page，flash空间预算申请。详细流程如下 :

查询cache page，如没有就创建一个；如果page需要update，调用do_readpage从flash读取数据更新page，
为page申请flash上的budget空间，如果page appending 没置位或者ui->dirty置位，则不需要为此page申请budget，否则调用allocate_budget申请budget，流程如下：a）如果没有新数据，则返回成功
b）如果flash空间足够，则返回成功
c）如果fast budgeting，因为页缓存已经锁定，不能触发后面流程，只能直接返回错误
d）脏也写回flash（shrink_liability）
e）垃圾回收（0run_gc）
f）内存数据提交（ubifs_run_commit）
如果allocate_budget失败，释放之前申请的页缓存，并调用write_begin_slow，slow path先调用allocate_budget申请budget，然后再申请页缓存
如果allocate_budget成功，vfs将用户数据就copy到page cache中，然后进入write_end

write_end阶段主要做1件事：更新page和inode标记。详细流程如下:

如果write_begin因为优化原因没有更新缓存页，在write_end中更新缓存页
如果发现脏页，设置page dirty标记
如果发现appending，设置inode dirty标记
然后vfs后台进程调度将page cache提交到 writeback queue，然后通过pdflush线程调用ubifs_writepage

writepage阶段主要做3件事：查找存储位置，更新wbuf，更新TNC。先写索引信息，再写数据信息。写入flash在commit流程中完成。

write_inode流程如下：

1. 按如下顺序查找存储位置（make_reservation）：

1.1. 如果当前的write buf剩余空间满足大小，如果空间足够直接返回；

1.2. 查找LPT内存节点

1.3. 触发垃圾回收（ubifs_garbage_collect，不是回收所有垃圾，只需要会受到符合要求的LEB即可）

1.4. 同步write buf（ubifs_wbuf_sync_nolock）

1.5. 将找到的leb作为bud 写入对于的refnode 以便commit的时候能找到这个bud

1.6. 更新wbuf中的leb为新的leb（ubifs_wbuf_seek_nolock）

1.7. 触发提交流程（do_commit）

2. 更新wbuf（write_head）。如果wbuf刚好满，将wbuf写入flash，并清空wbuf；如果node大小大于wbuf有效部分，先把wbuf填满并将wubf写入flash，剩余部分中将整page大小部分字节写入flash，不满整页的写入wbuf中。如果设置sync标志，同步wbuf数据到flash，并清空wbuf（ubifs_wbuf_sync_nolock）

3. 更新TNC（ubifs_tnc_add）。从TNC中查找匹配key（inode->i_ino）的znode，在叶子节点层查找指定key的znode节点，如果key值精确匹配，返回该节点对应分支在父节点分支数组中的序号；如果key值不是精确匹配，返回父节点中最接近的分支号；返回-1 说明key值太小在树的最左边不管最终有没有找到匹配key的znode。并将从根到找到的znode这条路径上的索引znode都会被设置为脏（lookup_level0_dirty）；如果znode不在TNC中，从flash中读取，并添加到TNC的页节点中；如果在TNC中找到，则将此页节点设置为脏，并找到LPT中此页节点对应的LEB所在路径上的所有LPT节点设置为脏。

do_writepage流程如下：

1. 将ubifs_data_node的data进行压缩（ubifs_compress）

2. 查找存储位置（make_reservation），同write_inode 步骤1

3. 更新wbuf（write_node），同write_head步骤2，但没有ubifs_wbuf_sync_nolock这一步

4. 更新TNC（ubifs_tnc_add），data 的key为（inode->i_ino, block）组合。同write_head步骤3

4. ubifs commit流程

多种场景下都可以触发commit流程，比如后台进程定时触发。commit的主要作用就是将内存中的大量数据对象刷新到flash中。为了减少commit过程中对系统的影响，commit分为2阶段：start阶段和end阶段。start阶段负责刷新前准备，比如收集需要刷新的内存数据、查找存储位置，更新节点属性等；end阶段负责写flash和内存数据更新。第二阶段的commit可以和文件系统正常操作同步进行。

start commit阶段：

将inode wbuf、data wbuf、gc wbuf同步到flash（ubifs_wbuf_sync）
ubifs_gc_start_commit
ubifs_log_start_commit：将各c->jheads[i].wbuf中的位置信息更新到内存对象树ubifs_bud，并写入log区
ubifs_tnc_start_commit：找出tnc中所有脏节点，加入c->cnext链表，为需要写入的znode分配leb，在leb上安排zonde的位置，更新znode的leb等属性，更新lpt属性
ubifs_lpt_start_commit：对LPT区进行垃圾回收，找出LPT中所有脏节点，加入c->lpt_cnext链表，更新c->ltab表数据，分配LPT 区LEB（alloc_lpt_leb）
ubifs_orphan_start_commit
ubifs_get_lp_stats：获取lprops统计信息，以便在更新master node时使用

end commit阶段：

ubifs_tnc_end_commit：根据c->cnext znode链表构造flash对象ubifs_idx_node，并将index node集合写入main区，释放或标记c->cnext上所有znode
ubifs_lpt_end_commit：更加ltab，lsave，nnode, pnode对象，构造UBIFS_LPT_LTAB，UBIFS_LPT_LSAVE，UBIFS_LPT_NNODE，UBIFS_LPT_PNODE LPT节点，并写入flash LPT区
ubifs_orphan_end_commit
ubifs_log_end_commit：更新log tail lnum（ltail_lnum）等信息
更新mst_node并写入flash master区
ubifs_log_post_commit：释放已提交到main区的ubifs_bud内存对象，并回收其相应的log区空间
ubifs_gc_end_commit
ubifs_lpt_post_commit：回收LPT区置垃圾回收标记的LEB块

5. 设计决策及性能优化手段总结

为了提高ubifs读写速度，ubifs采用了缓存、压缩和异地更新手段，这给ubifs的设计上引入了巨大的复杂性。

首先不同的缓存数据对象，有不同的缓存结构、写入策略、提交策略。

然后缓存、压缩和异地更新，又导致缓存数据实际占有的flash物理空间无法准确计算，给查找存储位置带来复杂性。

其次异地更新和数据的细分处理，导致存储对象和存储单元需要细分，给管理存储对象和存储单元带来复杂性。

6. 参考资料

linux kernel 2.6.32

—— 完 ——

posted @ 2015-05-14 22:38 wahaha02 阅读(2569) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 周边上新：园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源！
· 分享 3 个 .NET 开源的文件压缩处理库，助力快速实现文件压缩解压功能！
· Ollama——大语言模型本地部署的极速利器
· DeepSeek如何颠覆传统软件测试？测试工程师会被淘汰吗？

2025年3月

日

一

二

三

四

五

六

Write the code, change the world.

ubifs性能优化分析

1. ubifs mount流程

2. ubifs read流程

3. ubifs write流程

4. ubifs commit流程

5. 设计决策及性能优化手段总结

6. 参考资料

最新随笔

我的标签

随笔档案 (55)

阅读排行榜