百度脚本笔试题3道
1、写脚本实现,可以用shell、perl等。在目录/tmp下找到100个以abc开头的文件,然后把这些文件的第一行保存到文件new中。
2、写脚本实现,可以用shell、perl等。把文件b中有的,但是文件a中没有的所有行,保存为文件c,并统计c的行数。
解答思路:
1:觉得用shell更好一些,代码如下
#!/bin/sh for filename in `find /tmp -type f -name "abc*"|head -n 100` do sed -n '1p' $filename>>new done |
注释:第一,用到了find命令,其中-type f表示选取普通文件,-name用于设定文件名;第二,head -n 100命令用于取出前100项。第三,sed -n ‘1p’用于取出文件的第一行内容。第四,>>new表示追加到文件new中。
2:第二个题目还是用perl更方便一些,代码如下:
[rocrocket@wupengchong shellstudy]$ cat roc.pl
#!/usr/bin/perl -w open B,"<b" or die "b error.($!)"; open C,">c" or die "c error.($!)"; my $find=0; my ($myb,$mya); while(<B>){ $find=0; chomp($myb=$_); print "B ",$myb,"\n"; open A,"<a" or die "a error.($!)"; while(<A>){ chomp($mya=$_); print "A ",$mya,"\n"; if($mya=~/$myb/){ $find=1; print "FIND!\n"; } } if($find==0){ print C $myb,"\n"; } } close A; close B; close C; $linenum=`cat c|wc -l`; print "c line count:",$linenum; |
3.百度文件数统计
一个文本有多行,每行为一个URL,请编写一代码,统计出URL中的文件名及出现的次数
a)文件名不包括域名,路径和URL参数.例如:http://www.ourday.cn/bbs/forumdisplay.pha?fid=18中
的文件名是:forumdisplay.php
b)部分URL可能无文件名.例如:http://www.ourday.cn/,这类统计为"空文件名".
c)出现在不同URL中的相同文件名视为相同文件名.
文件内容如下:
http://www.ourday.cn/bbs/index.php
http://www.ourday.cn/index.php
http://ftp.ourday.cn/index.html
http://www.ourday.cn/bbs/index.php?k=8
http://www.ourday.cn/bbs/forumdisplay.php?fid=16
以上url地址经修改,不影响内容
方法一:sed实现
sed -e 's/.*\///g' url.txt|sort|uniq -c # 实测 cat 2.txt|sed -e 's/[ \t]*//g' -e 's/.*\///g'|cut -d'?' -f1|sort|uniq -c |sort -nr