关于NAND Flash调试的一点总结【转】
转自:https://zhuanlan.zhihu.com/p/131298394
作者:可爱的东东
经授权转载自公众号嵌入式系统砖家(略做修改)
很久没接触过 nandflash 驱动,最近工作又摸了,于是顺便总结一下。nandflash 在我看来(仅是个人观点,欢迎不同的声音)算是比较落后的存储设备,文章里没有太多细节的东西,更多的是一些开发思路和经验,文章难度适中,适合有一定基础的同学。
一、了解 nandflash 当前发展状况
什么是 nandflash?
nandflash 由许多保存位( bit )的单元( cell )组成,这些位通过电荷开启或关闭。这些开/关单元的组织方式表示存储在nandflash 上的数据。这些单元中的位数也决定了 nandflash 的命名,例如 Single Level Cell ( SLC ) nandflash 在每个单元中都包含一个位。MLC nandflash将每个单元的位数增加了一倍,而 TLC nandflash 则增加了三倍,这为更高容量的 nandflash 开辟了道路。
SLC 的优点是速度最快,最耐用,但缺点是价格昂贵,并且无法提供更高的存储容量。SLC 是企业使用的首选。与 SLC 相比,MLC 和 TLC 闪存的生产成本更低,存储容量更高,但要权衡相对较短的使用寿命和较慢的读/写速度。MLC 和 TLC 是日常消费计算机等个人用品的首选。
SLC \ MLC \ TLC nandflash 对照表:
为什么在嵌入式设备上 emmc 取代了 nandflash?
由于NAND Flash芯片的不同厂牌包括三星、KingMax、东芝(Toshiba)或海力士(Hynix)、美光(Micron)等,都需要根据每家公司的产品和技术特性来重新设计,过去并没有哪个技术能够通用所有厂牌的NAND Flash芯片。
而每次NAND Flash制程技术改朝换代,包括70纳米演进至50纳米,再演进至40纳米或30纳米制程技术,手机客户也都要重新设计(重新设计什么?因为你要通讯,就需要通讯的电压,时序,甚至接口命令,这些都随着不同厂商,不同制程技术而不同,你作为手机制造商或者soc厂商,想要把每种新的 nandflash 集成到你的产品中,就要根据这些新的特性来花时间设计。soc这边会有一个nandflash controller,你要根据采用的nandflash特性来配置nand flash controller,以达到成功通讯的目的)。
但半导体产品每1年制程技术都会推陈出新,存储器问题也拖累手机新机种推出的速度,因此像eMMC这种把所有存储器和管理nandflash的控制芯片都包在1颗MCP上的概念,逐渐风行起来。即:
- NAND Flash 是一种存储介质,要在上面读写数据,外部要加主控和电路设计;
- eMMC是NAND Flash+主控IC ,对外的接口协议与SD、TF卡类似;
emmc 内部根本的存储介质还是 nandflash,而不是一种全新的 storage。但是他定义并规范了统一接口比如:emmc 4.3, 4.4, 4.5(类似于usb 2.0, 3.0 这样的), 把和 nand flash 的通讯封装在emmc内部,而提供给外部的接口就是 emmc 接口。同理, 外部,比如soc就需要有个 sdmmc controller, 并且宣布支持 emmc 4.3/4.4...,那么,你需要做的就是,根据选用的emmc的版本号,来给 sdmmc controller 来选择一个通讯的接口版本号4.4。
二、如何驱动一款NAND Flash?
参考:
《韦东山嵌入式Linux视频第一期-nandflash》
(一) 基础硬件知识
nandflash 是一个存储芯片,那么它应该能提供“读地址A的数据,把数据B写到地址A"的功能。
以Mini2440为例简单说明一下:
问1:原理图上 NAND FLASH 和 S3C2440 之间只有数据线,如何传输地址呢?
答1.在DATA0~DATA7上既传输数据,又传输地址,当ALE为高电平时传输的是地址。
问2:从NAND FLASH芯片手册可知,要读写NAND FLASH需要先发出命令,如何传入命令?
答2:在DATA0~DATA7上既传输数据,又传输地址,也传输命令;
当ALE为高电平时传输的是地址;
当CLE为高电平时传输的是命令;
当ALE和CLE都为低电平时传输的是数据;
问3:数据线LDATAn既接到NAND FLASH,也接到NOR FLASH,还接到SDRAM、DM9000等等,cpu如何准确的将某个地址发到正确的芯片上而不干扰其他芯片呢?
答3:这些芯片,要访问之必须"选中"(即片选信号为低),没有选中的芯片不会工作,相当于没接一样。
问4:假设烧写NAND FLASH,把命令、地址、数据发给它之后,NAND FLASH肯定不可能瞬间完成烧写的,怎么判断烧写完成?
答4:通过状态引脚RnB来判断:它为高电平表示就绪,它为低电平表示正忙。
问5:怎么操作NAND FLASH呢?
答5. 根据NAND FLASH的芯片手册,一般的过程是:
(1) 发出命令
(2) 发出地址
(3) 写数据/读数据
(4) 等待
(二) CPU nandflash 控制器章节导读
以三星 s5pv210 芯片为例,摘选一下我认为比较重要的点:
SLC nandflash一般是1bit ecc,对应的编解码的过程需阅读上述内容。
MLC nandflash 一般是8/12/16 bit ecc,对应的编解码的过程需阅读上述内容。
(三) nandflash 芯片手册导读
以镁光 nandflash 芯片为例,摘选一下我认为比较重要的点:
特性列表,一般位于芯片手册首页,可以帮助我们快速了解芯片特性,基本可以认为是最重要的信息。
不同芯片厂商的nandflash芯片引脚定义基本是一致的,但是可能会有1~2引脚是有差异,需要核对。
上图可用于确定nandflash的存储布局;
上图可用于核对芯片的型号和详细的硬件特性;
(四) nandflash 调试思路:
1. 通读 CPU 芯片手册 nandflash 控制器章节:
- 了解该 CPU nandflash 控制器支持哪些特性,一般包括nandflash的bit数,以确定是否支持当前选用的nandflash芯片;- 明确该芯片的 nandflash 控制器 ecc 校验功能的工作流程;
2. 通读 nandflash 芯片手册:
- 了解 nandflash 芯片的基本信息,例如ID、容量、类型(SLC/MLC) - 结合板子的原理图一起查看,以确定 CPU 和 nandflash 芯片的引脚连接是否正确。不同厂商(例如三星、镁光)生产的nandflash引脚不一定完全兼容,可能会有一两根引脚有差异;
3. 在 U-boot 或者 Linux 下实现读取 nandflash 芯片的ID值的功能:nand_read_id()
- U-boot 和 Linux哪个顺手用哪个,U-boot的优点是启动快,做测试方便点,而 Linux的优点是支持网络/文件系统,功能强大;- 能读到 ID 只能说明 CPU 和 nandflash 芯片硬件连接上有了些许保障 (例如发命令、读数据),但是某些隐蔽的错误硬件连接仍然会导致写数据异常;
4. 在 U-boot 或者 Linux 下实现读取擦除 一块数据的功能:nand_erase_block()
- 相比起读写数据,擦除 nandflash 数据块较为容易。而且只有成功擦除了,才能进一步验证读写nandflash的功能。nandflash 数据块被擦除后所有数据均为 0xFF,利用这个特性可以验证稍后需要实现的读一页的操作是否正常;
5. 在 U-boot 或者 Linux 下实现裸读一页数据( 不考虑ecc校验 )的功能:nand_read_page_raw()
- nandflash 的1页包括 main 区域和oob区域, main 区域用于保存用户数据,spare 区域用于保存 ecc校验码;- 一般说写一页数据时,需要结合上下文才能判断是写 main 区域还是写 main + spare 区域;- nandflash 一般需要ecc 校验功能来保证数据的安全,但是在前期调试阶段,我们可以不考虑ecc 校验直接实现裸读一页数据的功能。事实上,我们也无法考虑ecc 校验的功能,因为到现在为止还不能写数据到 nandflash的main区域,更别说写 ecc 校验码到oob区域;- 我们需要先实现读数据的功能,确保读数据功能的可靠后,待会才能用其来验证写数据的操作;
6. 在 U-boot 或者 Linux 下实现裸写一页数据( 不考虑ecc校验 )的功能;nand_write_page_raw()- 裸写一页和裸读一页的操作可以相互协同验证;- uboot 的 cmp 命令可以对比两块内存的数据是否相同,该命令可以用于验证写操作是否成功;
7. 在 U-boot 或者 Linux 下实现写一页数据到 main区域,并将 nandflash 控制器生成的 ecc 校验码填写到oob区域:nand_write_page()
- 写一页数据到 main 区域时,nandflash 控制器会生成 ecc 校验码,这些校验码就是用来保护这一页数据的;
8. 在 U-boot 或者 Linux 下实现读一页数据的功能,包括读 main 区域的数据和 spare 区域的 ecc 校验码:nand_read_page()
- 从nandflash spare 区域读到的 ecc 校验码应该发送给 nandflash 控制器,nandflash 控制器会帮我们计算好是否有bit 错误,并且将结果和纠错需要用到的信息保存在寄存器中,软件通过寄存器里的信息推导出正确的数据;
9. 由于bit 错误的问题不容易出现,所以在调试阶段需要人为制造出与 spare 区域 不匹配的 main 数据,以检验ecc 校验功能是否正常,即数据是否能被纠正,大体的思路是:
- 通过 nand_write_page() 写一页正确的数据到 main 区域 和 spare 区域;- 篡改在内存中的数据,然后通过 nand_write_page_raw() 将篡改后的数据填写到 main 区域,spare 区域保持不变;- 通过nand_read_page 读 一页数据,如果能执行纠错相关的代码,并且能获取到被篡改之前的数据,则说明校验功能是可以工作的;
10. 如果 main 区域的 ecc 校验码字节数比较多,并且 spare 区域足够大的话,可以对存放在 spare 区域里的 main ecc校验码进行二次 ecc,这时生成的 ecc 校验码我将其称为 spare ecc,它一般会存放在spare区域的末尾,并不是必须的;
(五) Linux Nand Flash驱动
参考:
《韦东山嵌入式Linux视频第二期-nandflash》
Linux MTD stack
对于nandflash 驱动,需要重点关注的地方:
Flash memory abstraction layer/MTD layer drivers/mtd/mtd*.c
Flash type abstration layer/NAND core drivers/mtd/nand/nand_*.c
Flash controller drivers drivers/mtd/nand/*_nand.c
NAND legacy stack( Linux-4.16 之前)
/dev/mtd0是nandflash设备的字符设备驱动节点,上图展示了 read("/dev/mtd0") 的底层实现(MTD layer->NAND core->Controller driver)。
NAND legacy stack 的弊端
- 无法执行细粒度的NAND Flash 命令,粒度的大小被限制在NAND core层面了;
- 芯片厂商更新的NAND Flash特性时需修改所有的Controller driver;
NAND new stack( Linux-4.16 之后)
将NAND 的控制逻辑下放到Controller driver层,NAND Core统一调用Controller driver提供的钩子函数:exec_op();
(六) 测试稳定性和性能
MTD tests support
- mtd_nandecctest.ko:nand flash的ECC校验测试
- mtd_pagetest.ko:nand flash的page读写测试
- mtd_speedtest.ko:MTD分区的读写速度测试
- mtd_subpagetest.ko:nand flash的sub-page接口测试
- mtd_oobtest.ko:nand falsh的OOB区域读写测试
- mtd_readtest.ko:读取整个MTD分区
- mtd_stresstest.ko:随机读写,擦除操作测试
- mtd_torturetest.ko:该功能可用于做稳定性或者寿命测试,随机操作直到发生错误
示例如下:
insmod mtd_stresstest.ko dev=9 count=1000
[ 3289.273771] =================================================
[ 3289.279826] mtd_stresstest: MTD device: 9
[ 3289.284079] mtd_stresstest: MTD device size 268435456, eraseblock size 131072, page size 2048, count of eraseblocks 2048, pages per eraseblock 64, OOB size 64
[ 3289.303250] mtd_stresstest: scanning for bad eraseblocks
[ 3289.420267] mtd_stresstest: scanned 2048 eraseblocks, 0 are bad
[ 3289.426534] mtd_stresstest: doing operations
[ 3289.431031] mtd_stresstest: 0 operations done
[ 3339.606972] mtd_stresstest: finished, 1000 operations done
[ 3339.612992] =================================================
一个反复读写并校验数据正确性的小脚本:
#!/bin/sh
rm -rf /media/local/
count=1
while [ ${count} -lt 600 ]; do
TSTAMP="`date` | ---> ${count}"
echo "$TSTAMP"
mkdir -p /media
time cp /usr/local /media/ -raf
diff /usr/local /media/local -r || exit -1
rm -rf /media/local;
sync
let count=${count}+1
done
三、NAND Flash 文件系统的选择:YAFFS2
参考:
《基于nand flash的文件系统的整理》
《Cramfs、JFFS2、YAFFS2的全面对比》
针对 nandflash 特点优化其性能以及克服其缺点
- nanflash 不是通常意义上的块设备,块设备的特点是可以对数据块进行读、写操作(如磁盘,文件系统等),但是对于nanflash 来说有三种操作分别是:读、写、擦除。只有对已擦除的块才能进行写操作。所以为了使其兼容传统的硬件和系统,需要对其进行特殊处理;
- 当一个闪存处在干净状态时(被擦除过,但是还没有写操作发生),这块flash上的每一位(bit)都是逻辑1;
- 闪存的使用寿命是有限的,具体来说,闪存的使用寿命是由擦除块的最大可擦除次数来决定的。超过了最大可擦除次数,这个擦除块就成为坏块(bad block)了。因此要避免某个擦除块被过度使用,以至于先于其他擦除块变成坏块,应该在尽量少影响性能的前提下,使擦写操作均匀分布在每个擦除块上,叫做损耗均衡(wear leveling)。
YAFFS意为「Yet Another Flash File System」,是目前唯一一个专门为NAND Flash设计的文件系统。它采用了类日志结构,结合NAND Flash的特点,提供了损耗平衡和掉电保护机制,可以有效地避免意外掉电对文件系统一致性和完整性的影响。
nanflash 和 YAFFS2之间是如何配合的?
通过分析mkyaffs2iamge.c可知:
- yaffs2 映像文件是由一个个的main(4096) + spare(224)数据组成;
- main里存放的是文件(包括目录、普通文件、特殊文件等)数据;
- spare里前面的nand_oobinfo->oobfree(2+22=24)个字节归yaffs2自由使用,然后接下来的nand_oobinfo->eccbytes(104)个字节都填0xFF,即yaffs2 images本身是不含有ecc校验码的;(以上数值跟实际nandflash芯片相关)
更多细节:
how-yaffs-works[1]
参考资料
[1]
YAFF2官网: https://yaffs.net/documents/how-yaffs-works