lsof命令

lsof命令

😄 Written by Zak Zhu

参考

lsof版本注意

CentOS6中lsof版本默认为4.82

2

CentOS7中lsof版本默认为4.87

1

上述两个版本差异见下图:

3

4

由上图可知, 如果在CentOS7中用lsof | wc -l命令来计算Open File Discriptor的总数, 那么Open File Discriptor的总数会明显偏大 !!!


特别建议

所以为了避免上述问题, 建议使用如下命令来查看FD:

  1. 统计System Open File Discriptor的总数

    cat /proc/sys/fs/file-nr | awk '{print $1-$2}'
    

    1380   180      65536
    |           |           |_ Max no. of file descriptors allowed on the system
    |           |               (与file-max一致)
    |           |
    |           |__ Total free allocated file descriptors
    |
    |__ Total allocated file descriptors

    To compute the number of file descriptors currently being used:
    1380 - 180 = 1200

  2. 统计The Process Open File Discriptor的总数

    ls -l /proc/<pid>/fd | wc -l
    

    5

  3. 查看哪些进程使用的FD较多

    执行pnofile.sh脚本:

    for pid_path in $(ls -d /proc/[0-9]*)
    do
      pid=$(echo ${pid_path} | awk -F'/' '{print $3}')
      pnofile=$(ls ${pid_path}/fd | wc -l) 
      echo "${pid_path} ${pnofile}" >> /tmp/stdout                                                           
    done
    
    cat /tmp/stdout | awk '{print $2,$1}' | sort -rn 
    
    rm -rf /tmp/stdout
    

    6


lsof用法

lsof(list open files)是一个查看当前系统文件的工具。在linux环境下,任何事物都以文件的形式存在,通过文件不仅仅可以访问常规数据,还可以访问网络连接和硬件。如传输控制协议 (TCP) 和用户数据报协议 (UDP) 套接字等,系统在后台都为该应用程序分配了一个文件描述符,该文件描述符提供了大量关于这个应用程序本身的信息。

下面我使用版本为4.87的lsof来演示用法:

1. List all Open Files with lsof Command

lsof

14

FD – stands for File descriptor and may seen some of the values as:

  • cwd # current working directory
  • rtd # root directory
  • txt # program text (code and data)
  • mem # memory-mapped file

Also in FD column numbers like 1u is actual file descriptor and followed by u,r,w of it’s mode as:

  • r # for read access
  • w # for write access
  • u # for read and write access

TYPE – of files and it’s identification.

  • DIR # Directory
  • REG # Regular file
  • CHR # Character special file
  • FIFO # First In First Out

2. List User Specific Opened Files

lsof -u root

15

3. Find Processes running on Specific Port

lsof -i TCP:22

16

4. List Open Files of TCP Port ranges 1-1024

lsof -i TCP:1-1024

17

5. Exclude User with '^' Character

lsof -i -u ^root

18

6. Search by PID

lsof -p 1

19

7. Kill all Activity of Particular User

kill -9 $(lsof -t -u zak)

lsof应用实例

1.恢复删除的文件

当Linux计算机受到入侵时,常见的情况是日志文件被删除,以掩盖攻击者的踪迹。管理错误也可能导致意外删除重要的文件,比如在清理旧日志时,意外地删除了数据库的活动事务日志。有时可以通过lsof来恢复这些文件。

当进程打开了某个文件时,只要该进程保持打开该文件,即使将其删除,它依然存在于磁盘中。这意味着,进程并不知道文件已经被删除,它仍然可以向打开该文件时提供给它的文件描述符进行读取和写入。除了该进程之外,这个文件是不可见的,因为已经删除了其相应的目录索引节点。

在/proc 目录下,其中包含了反映内核和进程树的各种文件。/proc目录挂载的是在内存中所映射的一块区域,所以这些文件和目录并不存在于磁盘中,因此当我们对这些文件进行读取和写入时,实际上是在从内存中获取相关信息。大多数与 lsof 相关的信息都存储于以进程的 PID 命名的目录中,即/proc/1234 中包含的是PID为1234 的进程的信息。每个进程目录中存在着各种文件,它们可以使得应用程序简单地了解进程的内存空间、文件描述符列表、指向磁盘上的文件的符号链接和其他系统信息。lsof 程序使用该信息和其他关于内核内部状态的信息来产生其输出。所以lsof 可以显示进程的文件描述符和相关的文件名等信息。也就是我们通过访问进程的文件描述符可以找到该文件的相关信息。

当系统中的某个文件被意外地删除了,只要这个时候系统中还有进程正在访问该文件,那么我们就可以通过lsof从/proc目录下恢复该文件的内容。

接下来, 我们做个实验:

  • 模拟文件被删除, 但是系统中还有进程正在访问该文件情况

    # 1
    echo "hello" > /tmp/test
    # 2
    less /tmp/test
    # 此时, 在另外一个终端, Jhon执行了删除该文件的操作
    # 3
    rm /tmp/test
    

    7

  • 恢复被删除的文件

    1. 通过lsof查找正使用该文件的PID以及FD

      lsof | grep "deleted" | grep "/tmp/test"
      

      8

    2. 在/proc目录下, 找到使用该文件的进程的FD

      cat /proc/32189/fd/4
      

      9

    3. 恢复文件

      cat /proc/32189/fd/4 > /tmp/test
      

      10

2.处理df和du的显示相差很大

今天一同事说文件系统/tmp目录下空间用满了,当时du统计目录所有文件的时候却很小。听到这个现象,第一感觉就是应该有大文件被删除,但是这个文件可能依然被其他程序打开,导致这个文件不能被清除。登上服务器使用lsof看了一下,果然如此,具体排查过程如下:

df -h 
# 下面内容为命令输出结果
Filesystem	Size	Used	Avail	Use%	Mounted on
/dev/sda5 	8.7G 	7.9G 	407M 	96% 	/tmp 

lsof | grep "deleted" | grep "/tmp" | sort -nr -k 7,7 
# 下面内容为命令输出结果 
netstat_2 13571 peien.htg 1w REG 8,5 8321143673 54 /tmp/netstat.log (deleted) 
...

上面lsof输出结果的第2列是PID,倒数第3列是占用空间大小

可以看到文件/tmp/netstat.log (deleted)占用7个多G的空间,虽然被删除了,但是还是有进程打开它。

然后,用PID看看是哪个程序占用这个文件:

ps -ef | grep "13571" | grep -v "grep" 
# 下面内容为命令输出结果
51717 13571 1 0 2011 ? 00:15:00 /bin/bash /tmp/netstat_20110829.sh 
51717 21456 13571 0 09:40 ? 00:00:00 sleep 10 

将这个进程KILL掉后,就OK了:

kill -9 13571 

df -h 
# 下面内容为命令输出结果
Filesystem	Size	Used	Avail	Use%	Mounted on
/dev/sda5	8.7G 	56M  	8.2G 	1%  	/tmp 

3.解决文件系统无法卸载

  • 模拟文件系统无法卸载的情况

    # 1
    mount /dev/sr0 /mnt/cdrom
    # 2
    less /mnt/cdrom/GPL
    #当文件系统中, 有文件正在被使用, 此时卸载该文件系统会失败
    # 3
    umount /dev/sr0
    

    11

  • 解决思路

    1. 通过lsof查看该文件系统中正在使用文件的进程

      lsof | grep "/mnt/cdrom"
      

      12

    2. 杀掉该文件系统中正在使用文件的进程

      kill -9 10506
      
    3. 成功卸载该文件系统

      umount /dev/sr0
      

      13

posted @ 2019-10-07 23:32  ZakZhu  阅读(440)  评论(0编辑  收藏  举报