Linux网络文件系统的实现与调试
http://t.zoukankan.com/wahaha02-p-9559345.html
NFS协议
NFS (网络文件系统)不是传统意义上的文件系统,而是访问远程文件系统的网络协议。整个NFS服务的TCP/IP协议栈如下图所示,NFS是应用层协议,表示层是XDR,会话层是RPC,传输层同时支持UDP和TCP,网络层是IP协议。NFS/XDR/RPC等协议规范细节在《TCP/IP详解 卷1:协议》第29章有详细的描述,这里不再赘述。
经过多年的演进,NFS协议有多个版本,每个版本都有相应的RFC规范,如RFC1813。每个NFS的版本对比如下所示。
NFS通过NFS过程来对外提供服务。如下是RFC1813中定义的一组NFS过程。
- null() 返回():不执行任何操作,有两个作用:相当于到服务器的ping,以及检测客户端和服务器间的RTT(Round Trip Time)。
- lookup(dirfh, name) 返回(fh, attr):返回目录中一个指定文件的fhandle和属性信息。
- create(dirfh, name, attr) 返回(newfh, attr):创建一个新文件并且返回它的fhandle和属性信息。
- remove(dirfh, name) 返回(status):从指定目录中删除文件。
- getattr(fh) 返回(attr):返回文件属性信息。这个调用类似于一个stat调用。
- setattr(fh, attr) 返回(attr):设置一个文件的mode,uid,gid,size,access time,modify time属性。将文件大小设置为0相当于对文件调用truncate。
- read(fh, offset, count) 返回(attr, data):从文件的offset偏移处开始,返回最多count个字节的数据。read操作也返回文件的属性信息。
- write(fh, fh, offset, count, data) 返回(attr):向文件offset偏移处开始,写入count字节的数据,返回写操作完成后的文件属性信息。
- rename(dirfh, name, tofh, toname) 返回(status):将dirfh目录中名为name的文件,重命名为tofh目录中名为toname的文件。
- link(dirfh, name, tofh, toname) 返回(status):在tofh目录中创建名为toname的链接,指向dirfh目录中的name文件。
- symlink(dirfh, name, string) 返回(status):在dirfh目录中创建一个名为name的符号链接。服务器不解释string的具体内容,而只是简单将其保存起来并且与符号链接文件相关联。
- mkdir(dirfh, name, attr) 返回(fh, newattr):在dirfh目录中创建名为name的目录,并返回其fhandle和属性信息。
- rmdir(dirfh, name) 返回(status):从dirfh中删除名为name的空目录。
- readdir(dirfh, cookie, count) 返回(entries):从dirfh目录返回组多count字节的目录项信息。每个目录项信息包含了一个文件名,文件id,和一个由服务器解释的指向下一个目录项的指针cookie。cookie的作用是在后续readdir操作中从一个指定的位置返回目录项信息。cookie为0的readdir调用从目录的第一个目录项开始返回。
- statfs(fh) 返回(fsstats):返回块大小、空闲块数等文件系统的信息。
NFS特性对比
NFSv3特性对比
- V2支持的最大的文件大小为2GB(32bit),V3则更大(64bit)。
- V2将每个READ和WRITE 过程可以读写的数据限制为8192个字节,V3则取消了限制。RPC的读写字节数只受TCP/IP限制。
- V3引入新的NFS过程COMMIT,支持异步写,提高写性能。
- V3引入新的NFS过程ACCESS,支持服务侧ACL访问权限检查。
- V3引入新的NFS过程READDIRPLUS,其返回file handle和属性,这样可以减少LOOKUP的调用次数。
- V3对RPC命令进行优化,每个影响文件属性的RPC都返回新的属性,这样可以减少GETATTR的调用次数。
NFSv4特性对比
- V3是无状态的,V4开始支持状态。改善文件系统的异常恢复能力。
- V4支持file delegation(客户端可以工作在本地副本,直到其他客户端请求同一个文件),改善文件系统一致性问题。
- V4引入新的NFS过程COMPOUND,支持一个COMPOUND请求包含多个NFS过程。提高请求的表达能力,减少RPC请求的调用次数。
- V4强制支持RPCSEC/GSS,改善文件系统的安全问题。
- V4支持加密ACL,改善文件访问权限管理。
- V4服务端为客户端支持统一的伪文件系统视图。服务端所有export目录都必须在一个伪文件系统root export目录下。
- V3客户端的IP是自动适配的,V4客户端支持mount clientaddr参数,可以指定客户端特定的IP地址。
NFSv4.1特性对比
- 客户端可以并行访问存储设备。
- 支持多个服务端。
- 支持文件系统的元数据和数据分离。
- delegation功能支持目录。
- 支持会话机制(session),改善断链、崩溃等异常恢复能力。
Linux NFS实现与实例
LInux NFS架构是典型的CS架构,其结构如下图所示。其中服务端应用程序主要由如下几部分组成:
- portmap:端口映射器,主要功能是进行RPC程序的端口映射工作。当客户端尝试连接并使用RPC服务器提供的服务(如NFS服务)时,portmap会将所管理的与服务对应的端口提供给客户端,从而使客户可以通过该端口向服务器请求服务。
- rpc.mountd:NFS挂载守护进程,主要功能是实现NFS MOUNT协议,负责挂载/卸载NFS文件系统和权限管理。它会读取NFS的配置文件/etc/exports来对比客户端访问权限。挂载成功后,客户获得服务器文件系统的一个文件句柄(fh)。
- rpc.nfsd:NFS服务端守护进程,是NFS服务的用户态部分,负责创建nfsd内核进程。需要提出的是,NFS服务的大部分功能都由nfsd内核进程处理。
可以看出NFS服务的大部分功能都是由内核模块实现的,除了图中所示的内核模块,内核还提供了几个内核守护进程:
- nfsd:主要作用是处理NFS的RPC请求。
- nfsiod:主要作用是为NFS客户端提供高效的缓冲机制,如预读、延时写等,从而改善NFS文件系统的性能。
- rpciod:主要作用是作为RPC(远过程调用服务)的守护进程,用于从客户端启动I/O服务。
下图是一个NFS协议消息流图实例(点击见大图),包含了一些典型的网络文件系统操作场景,如:
服务注册过程
- NFS挂载:mount 168.0.155.1:/datadisk0 /tmp
- 改变工作目录:cd /tmp
- 查看目录下文件:ls
- 读文件:more tail bootcfg.ini
Linux NFS调试
NFS应用程序调试
打开应用程序调试功能:
/usr/sbin/portmap -d
/usr/sbin/rpc.mountd -d all
/usr/sbin/rpc.nfsd -d -s
查看NFS配置与记录日志:
cat /etc/exports
cat /var/lib/nfs/rmtab
cat /var/lib/nfs/etab
cat /var/lib/nfs/xtab
cat /var/lib/nfs/state
tail /var/log/messages
NFS内核模块调试
- 打开NFS模块调试功能:
sysctl -w sunrpc.nfs_debug=2147483647
sysctl -w sunrpc.nfsd_debug=2147483647
- 查看NFS相关统计和日志:
cat /proc/slabinfo | grep nfs
/proc/fs/nfsfs/
nfsstat
dmesg
TCP/IP模块调试
- 打开RPC模块调试功能:
sysctl -w sunrpc.rpc_debug=2147483647
- 查看RPC相关统计和日志:
cat /var/run/portmap_mapping
cat /proc/net/rpc/nfs
cat /proc/net/rpc/nfsd
- 查看TCP/IP相关统计和配置:
ping // 查看网络情况
netstat -tpwn | grep 2049 // 查看NFS TCP链接
cat /proc/sys/net/ipv4/... // 查看网络配置,如tcp_retries2等
cat /proc/net/rpc/nfs
cat /proc/net/rpc/nfsd // deciles等字段
cat /proc/net/snmp // IP: ReasmFails等字段
sysctl -a | grep net // 查看所有网络配置参数,如/proc/sys/net/ipv4/tcp_retries2控制tcp断链尝试次数
- 网络抓包:
tcpdump -s 9000 -w /tmp/dump.out port 2049
其他
nfs-utils移植
./configure
CC=XX-gcc
--build=$(./config.guess)
--host=mips64-unknown-linux-gnu
LDFLAGS="-L/usr/local/lib"
CPPFLAGS="-I/usr/local/include"
--disable-tirpc --disable-gss --disable-uuid --without-tcp-wrappers --with-gnu-ld
make
make install
文件系统导出条件
由NFS导出的文件系统由配置文件/etc/exports配置,可以导出的文件系统需要满足如下2个条件:
- 文件系统必须有一个设备号(需要有FS_REQUIRES_DEV,即存储设备)或FSID号(需要有NFSEXP_FSID 或 ->uuid)。
- 文件系统必须支持s_export_op接口。而支持s_export_op接口的文件系统都是存储设备文件系统,如ext3/4、ubifs等。其他文件系统如rootfs、ramfs、sysfs等是不支持的。
本文来自博客园,作者:dolinux,未经同意,禁止转载