Linux运维
统计行数
wc -l /home/hadoop/workspace/ChemicalFactory/input/device101.csv
输出前两行数据
head -n 2 /home/hadoop/workspace/ChemicalFactory/input/device101.csv
提取需要的某几列数据 (将csv文件中的第1,2和6列提取出来并输出到complexes.txt
cut -d ';' -f 1,2,6 allComplexes.csv > complexes.txt
按行取出含关键字的行并追加输入到另一文件中
sed -n '/P04800/ p' oldfile >> newfile
在关键字后加入内容(同行)
sed 's/1151/&10086xxx/' filename
替换字符串(可用于删除,例子删除了所有 '(' )
sed -i "s/(//g" protein_complexes.csv
找出所有符合格式的文件(find),并对所有文件进行操作(-exec),最后将 结果输出到一个文件中(>>)
find . -name "updates.20180129.*" -exec ../ripencc-bgpdump/bgpdump -m {} \; >> file
看文件大小(du)
du -b *
统计重复记录个数
* uniq -c 统计相邻的重复记录
* sort -k 1 对第一列排序 -n 按数字而不是ASCII码 -r 逆序,即从大到小
cut -d '|' -f 4 file | sort | uniq -c | sork -k 1 -n -r | head -n 10
统计重复记录并求平均数
cut -d '|' -f 4 file | sort | uniq -c | sork -k 1 -n -r | awk '{sum+=$1} END {print "Average=", sum/NR}'