shell逐行读取文件的4种方法比较
在Linux中有很多方法逐行读取一个文件的方法,其中最常用的就是下面的脚本里的方法,而且是效率最高,使用最多的方法。 这里通过生成一个大文件的方式来检验各种方法的执行效率。
方法1:while循环
脚本如下:
While read LINE
do
echo $LINE
done < $FILENAME
}
注释:这种方式在结束的时候需要执行文件,就好像是执行完的时候再把文件读进去一样。
方法2 : 管道
脚本如下:
cat $FILENAME | while read LINE
do
echo $LINE
done
}
注释:当遇见管道的时候管道左边的命令的输出会作为管道右边命令的输入然后被输入出来。
方法3: 文件描述符
脚本如下:
Exec 3<&0
Exec 0<$FILENAME
While read LINE
Do
Echo $LINE
Exec 0<&<3
}
注释: 这种方法分2步骤,第一,通过将所有内容重定向到文件描述符3来关闭文件描述符0.为此我们用了语法Exec 3<&0 。第二部将输入文件放送到文件描述符0,即标准输入。
方法4 for循环
脚本如下:
For i in `cat $FILENAME`
do
echo $i
done
}
注释:这种方式是通过for循环的方式来读取文件的内容。
然后通过下面的脚本来测试各个方法的执行效率,可以利用系统中日志文件生成测试文件,例如
for i in `seq 1 100` ;do cat /var/log/messages >> /tmp/loopfile.txt ;done
FILENAME="$1"
TIMEFILE="/tmp/loopfile.out" > $TIMEFILE
SCRIPT=$(basename $0)
function usage(){
echo -e "\nUSAGE: $SCRIPT file \n"
exit 1
}
function while_read_bottm(){
while read LINE
do
echo $LINE
done < $FILENAME
}
function while_read_line(){
cat $FILENAME | while read LINE
do
echo $LINE
done
}
function while_read_line_fd(){
exec 3<&0
exec 0< $FILENAME
while read LINE
do
echo $LINE
done
exec 0<&3
}
function for_in_file(){
for i in `cat $FILENAME`
do
echo $i
done
}
if [ $# -lt 1 ] ; then
usage
fi
echo -e " \n starting file processing of each method\n"
echo -e "method 1:"
echo -e "function while_read_bottm"
time while_read_bottm >> $TIMEFILE
echo -e "\n"
echo -e "method 2:"
echo -e "function while_read_line "
time while_read_line >> $TIMEFILE
echo -e "\n"
echo -e "method 3:"
echo "function while_read_line_fd"
time while_read_line_fd >>$TIMEFILE
echo -e "\n"
echo -e "method 4:"
echo -e "function for_in_file"
time for_in_file >> $TIMEFILE
脚本输出内容:
starting file processing of each method
method 1:
function while_read_bottm
real 0m1.545s
user 0m1.302s
sys 0m0.225s
method 2:
function while_read_line
real 0m3.433s
user 0m1.663s
sys 0m1.700s
method 3:
function while_read_line_fd
real 0m1.626s
user 0m1.342s
sys 0m0.234s
method 4:
function for_in_file
real 0m4.106s
user 0m3.111s
sys 0m0.813s
当处理数据量比较大的时候有必要根据实际情况择优选择。