linux文本处理命令

cat、tac、more、less、head、tail、cut、sort、job、uniq、wc、diff、tr、sed、grep、awk
cat命令
选项
-n 显示行号
-E 显示行结束符（Linux系统的文本文件的结束符是$, windows系统的文本文件的结束符是$+Enter)
-T 显示制表符
-A show-all
tac命令反过来显示文本内容
more命令

内部指令
    空格键   滚动到下一屏内容
    Enter键    滚动到下一行内容
    B键        向上滚动一屏内容
    Q键        退出

less命令
内部指令和vim内部指令一样

head命令
选项
-n<数字>：指定显示头部内容的行数；也支持 head -NO. FILENAME

tail命令
-n<数字>：指定显示尾部内容的行数；也支持 head -NO. FILENAME
-f 动态显示文件尾部内容变化（监视日志文件）
cut命令
-d：指定字段的分隔符，默认的字段分隔符为空格
-f：显示指定字段的内容；
job命令

sort命令（不对源文件做处理只是显示排序，依据ASII表中的次序升序排列）
-n：依照数值的大小排序；
-d 按字典顺序排序
-o<输出文件>：将排序后的结果存入制定的文件；
-r：以相反的顺序来排序；
-t<分隔字符>：指定排序时所用的栏位分隔字符
-k 选择以哪个区间进行排序。
-u 排序之后相同行只显示一次
-f 排序时忽略字符大小写

uniq命令（只处理相邻的重复行）
-d 只显示重复的行
-c 显示重复行的次数
wc命令（word count）
-c 统计文本中的字节
-l 统计文本中的行数
-w 统计文本中的单词数
-L 统计最长一行包含多少个字符
diff （vim -d 或 vimdiff 比较两个文件内容）
diff [OPTION] 文件1 文件2
-q 仅显示有无差异，不显示详细的信息
-c 显示全文内文，并标出不同之处
-b 不检查空格字符的不同
-B 不坚持空白行
-r 比较子目录中的文件
tr命令（字符处理命令）用于转换或删除字符
tr [OPTION]... set1 [set2]
-d 删除出现在字符集中的所有字符
grep，egrep，fgrep-不支持正则表达式
根据模式搜索文本，并将符合模式的文本行显示出来
Pattern: 文本字符和正则表达式的元字符组合而成的匹配条件
grep [OPTIONS] PATTERN [FILE...]
-i ignore 忽略大小写
--color 高亮颜色显示
-v 取反
R, -r, –recursive 在某一目录下递归[所有子目录]查找某一字串:
-o 只显示被模式匹配的关键字符串
-E 使用扩展正则表达式
-A n 显示匹配到的行及其后面的n行 after
-B n 显示匹配到的行及其前面的n行 before
-C n 显示匹配到的行及其前后的n行 context
基本正则表达式 REGEXP REGular EXPression

元字符：
. :匹配任意单个字符
[] 匹配指定范围内的任意单个字符
[^] 匹配指定范围外的任意字符
字符集合: [:digit:] [:lower:] [:upper:] [:alpha:] [:alnum:] [:space:] [:punct:]

匹配次数：（贪婪模式-尽可能长的匹配）
？：匹配其前面字符0或1次
：匹配其前面的字符任意次数
. : 匹配任意长度的任意字符（.*表示任意多个任意单个字符，即任意字符）
{m,n}: 匹配其前面的字符至少m次，至多n次（{m,} 表示至少出现m次 {,n} 表示最多出现n次 {Y} 表示出现Y次）

位置锚定：
^: 锚定行首，此字符后面的任意内容必须出现在行首
$: 锚定行尾，此字符前面的任意内容必须出现在行尾 ^$: 空白行
<或\b 锚定词首，其后面的任意字符必须作为单词首部出现
>或\b 锚定词尾，其前面的任意字符必须作为单词尾部出现

分组 (KEY) KEY看做一个整体
后向引用
\1 引用第一个左括号以及与之对应的右括号所包括的所有内容
\2 引用第二个左括号以及与之对应的右括号所包括的所有内容
& 引用模式匹配整个串

扩展正则表达式
字符匹配次数匹配以及其他和基本正则表达式相同
不同的如下：
+ 匹配其前面的字符一次或多次
{m，n} 匹配其前面的字符至少m次，至多n次（不需要大括号）
（）分组（不需要斜线转义）
| 或者（ a | b 表示a 或者b字符串表示竖线的左边或右边整体）

sed ( Stream EDitor)
sed 基本用法；（逐行处理，默认不修改原文件，仅对模式空间中的数据做处理，处理结束后，将模式空间打印至屏幕）
sed [OPTIONS] ‘AddressCommand’ file ...
-n 静默模式，不再默认显示模式空间的内容
-i 直接修改原文件
-e 多项使用 -e SCRIPT -e SCRIPT
-f /PATH/TO/SED_SCRIPT
-r 支持扩展正则表达式
Address:
1、StartLine,EndLine
1,100
$: 最后一行 2、/RegExp/ /^root/ 以root为开头的行 3、/pattern1/，/pattenrn2/ 第一次被pattern1匹配到的行开始，至第一次被pattenrn2匹配到的行结束，这中间的所有行 4、LineNumber 指定的行 5、StartLine，+N 从StartLine开始，向后的N行 Command： d 删除匹配的行 D-首次出现的行删除 p 显示符合条件的行 a \string 在指定的行后面追加新行，内容为string i \string 在指定的行前面追加新行，内容为string r FILE 将指定的文件的内容添加至符合条件的行处 w FILE 将地址指定范围内的行另存至指定的文件中 s/pattern/string/ 查找并替换（默认只替换每行中第一次被模式匹配到的字符串） s///中的/分割符也可以使用其他的（如s###，s@@@）加修饰符： g：全局替换 s/pattern/sting/g i: 忽略字符大小写也可以后向引用 \($,\1,\2 &:引用模式匹配整个串 awk 每次只读取一行操作默认以空白符作为分隔符以位置变量（\)N) 引用
awk [options] 'script' file1 file2 …
awk [options] 'PATTERN {action}' file1 file2 …
print
print使用格式：
print item1，item2，……
要点：
1、各项目之间使用逗号分隔，而输出时则以空白字符分隔
2、输出的item可以为字符串或数值，当前记录的字段（如$1),变量或awk的表达式，数值会先转换为字符串，而后再输出
3、print 命令后面的item可以省略，此时其功能相当于print $0 ,因此，如果想输出空白行，则需要使用print “ ”
例如：
awk ‘BEGIN {print "line one\nline two\nline three"}'
awk -F: '{print $1,$2}' /etc/passwd
printf
prinrf 命令的使用格式
printf format， item1，item2……
要点
1、其与print命令的最大不同是，printf需要指定formart；
2、format 用于指定后面的每个item的输出格式
3、printf 语句不会自动打印换行符: 常以\n作为换行操作符
formart格式的指示符都以%开头，后跟一个字符：
%c 显示字符的ASCII码
%d，%i 十进制整数
%e，%E 科学计数法显示数值
%f 显示浮点数
%g，%G 以科学计数法的格式或浮点数的格式显示数值
%s 显示字符串
%u 无符号整数
%% 显示%自身
修饰符
N：显示宽度
-：左对齐
+：显示数值符号
例如： awk
awk 变量
awk内置变量之记录变量
FS：field separator 读取文本时所使用字段分隔符默认是空白字符
RS： record separator 输入文本信息使用的换行符
OFS：out field separator 输出时所使用字段分隔符
ORS：out record separator 输出时所使用的换行符
awk内置变量之数据变量
NR：命令所处理的记录数；如果有多个文件，这个数目会把处理的多个文件中的行统一计数；
NF：当前记录的field个数
FNR：与NR不同的是，FNR用于记录正处理的行是当前这一文件中被总共处理的行数
ARGV：数组，保存命令行本身这个字符串，如 awk '{print $0}' a.txt b.txt 这个命令中，ARGV[0]保存awk， ARGV[1] 保存a.txt
AGRC：awk命令的参数的个数
FILENAME：awk命令所处理的文件的名称
ENVIRON：当前shell环境变量及其值得关联数组；
用户自定义变量
gawk 允许用户自定义自己的变量以便在程序代码中使用。
awk 的操作符：
算术操作符：
-x 负值
+x 转换为数值
x^y
x**y 次方
x*y 乘法
x/y 除法
x+y
x-y
x%y
字符串操作符：
=
+=
-=
*m
/m
%m
^=
**=
++
--
布尔值符号
x < y
x <= y
x > y
x >= y
x == y
x != y
x ~ y
x ! ~ y
subscript in array
表达式之间的逻辑关系
&&
||
条件表达式
selector ？ if-true-exp：if-false-exp
awk 的模式
1、Regexp 正则表达式，格式为/regular expression/
2、expression 表达式，其值非0或为非空字符时满足条件，如 $1 ~ /foo/ 或$1 == "baidu" 用运算符~ （匹配）和！~ （不匹配）
3、Ranges 指定的匹配范围，格式为pat1，pat2
4、BEGIN/END 特殊模式，仅在awk命令执行前运行一次或结算前运行一次
5、Empty(空模式）匹配任意输入行：

列如：
1、以':' 为分隔符,如果第五域有user则输出该行
awk -F ':' '{if ($5 ~ /user/) print $0}' /etc/passwd
2、统计单个文件中某个字符（串）(中文无效)出现的次数
awk -v RS='character' 'END {print --NR}' xxx.txt

常见的Action
Expression 表达式
Control statements 控制语句
Compound statements
Input statements
Output statements
文件查找
locate: 是基于根据全系统的文件数据库进行的，非实时，模糊匹配，查找速度快。
updatedb 手动更新文件数据库
find 实时查找、精确查找、遍历指定目录中的所有文件完成查找，速度慢
find 查找路径查找标准查找到以后的处理动作
查找路径：默认为当前目录
查找标准：默认为指定路径下的所有文件
处理动作：默认为显示
匹配标准：
-name FileName 对文件名作精确匹配（支持文件名通配符？ * [ ] )
-iname FileName 文件名匹配时不区分大小写
-regex Pattern 基于正则表达式进行文件名匹配
-user UserName 基于文件的属主文件查找
-group GroupName 基于文件的属组文件查找
-gid UID 基于文件的属主ID文件查找
-gid GID 基于文件的属组ID文件查找
-nouser 查找没有属主的文件
-nogroup 查找没有属组的文件
-type 根据文件类型查找
f 、d、c、b、l、p、s 文件的类型
-size
[+|-] #k 查找文件大于或小于#k大小的文件
#M
#G
组合条件查找 -a 、-o 、-not （默认的是或条件）
根据时间查找
-mtime 天数
-ctime
-atime
[+|-] 天数查找文件被多少天之前或之内修改（访问、改变）
-mmin 分钟数
-cmin
-amin
根据权限查找
-perm mode 权限位精确匹配
-perm /mode 任意一位匹配即满足条件
-perm -mode 文件权限能完全包含mode时才能匹配
执行动作：
-print：显示
-ls 类似ls -l的形式显示每一个项目的详细信息
-ok COMMAND {} ; 每一次操作都需要用户的确认
-exec COMMAND {} ; 不需要确认
find ./ -perm -020 -exec mv {} {}.new ;

posted @ 2022-02-17 09:22 在半空頫視地球╰☆╮ 阅读(161) 评论(0) 收藏举报

刷新页面返回顶部

Gavin

linux文本处理命令

公告