正规表示法与文件格式化处理
正规表示法与文件格式化处理
正规表示法就是处理字符串的方法,他是以行为单位来进行字符串的处理行为, 正规表示法透过一些特殊符号的辅助,可以让使用者轻易的达到『搜寻/删除/取代』某特定字符串的处理程序!
基础正规表示法
grep 的一些进阶选项
- grep [-A] [-B] [--color=auto] '搜寻字符串' filename
- 选项与参数:
- -A :后面可加数字,为 after 的意思,除了列出该行外,后续的 n 行也列出来;
- -B :后面可加数字,为 befer 的意思,除了列出该行外,前面的 n 行也列出来;
- --color=auto 可将正确的那个撷取数据列出颜色
基础正规表示法字符汇整 (characters)
sed 工具
-
sed [-nefr] [动作]
-
选项与参数:
- -n :使用安静(silent)模式。在一般 sed 的用法中,所有来自 STDIN 的数据一般都会被列出到屏幕上。但如果加上 -n 参数后,则只有经过 sed 特殊处理的那一行(或者动作)才会被列出来。
- -e :直接在指令列模式上进行 sed 的动作编辑;
- -f :直接将 sed 的动作写在一个文件内, -f filename 则可以执行 filename 内的 sed 动作;
- -r :sed 的动作支持的是延伸型正规表示法的语法。(预设是基础正规表示法语法)
- -i :直接修改读取的文件内容,而不是由屏幕输出。动作说明: [n1[,n2]]functionn1, n2 :不见得会存在,一般代表『选择进行动作的行数』,举例来说,如果我的动作是需要在 10 到 20 行之间进行的,则『 10,20[动作行为] 』
-
function 有底下这些咚咚:
- a :新增, a 的后面可以接字符串,而这些字符串会在新的一行出现(目前的下一行)~
- c :取代, c 的后面可以接字符串,这些字符串可以取代 n1,n2 之间的行!
- d :删除,因为是删除啊,所以 d 后面通常不接任何咚咚;
- i :插入, i 的后面可以接字符串,而这些字符串会在新的一行出现(目前的上一行);
- p :打印,亦即将某个选择的数据印出。通常 p 会与参数 sed -n 一起运作~
- s :取代,可以直接进行取代的工作哩!通常这个 s 的动作可以搭配正规表示法!例如 1,20s/old/new/g 就是啦!
延伸正规表示法
文件的格式化与相关处理
格式化打印: printf
- printf '打印格式' 实际内容
- 选项与参数:
- 关于格式方面的几个特殊样式:
- \a 警告声音输出
- \b 退格键(backspace)
- \f 清除屏幕 (form feed)
- \n 输出新的一行
- \r 亦即 Enter 按键
- \t 水平的 [tab] 按键
- \v 垂直的 [tab] 按键
\xNN NN 为两位数的数字,可以转换数字成为字符。
- 关于 C 程序语言内,常见的变数格式
- %ns 那个 n 是数字, s 代表 string ,亦即多少个字符;
- %ni 那个 n 是数字, i 代表 integer ,亦即多少整数字数;
- %N.nf 那个 n 与 N 都是数字, f 代表 floating (浮点),如果有小数字数,假设我共要十个位数,但小数点有两位,即为 %10.2f 啰!
awk:好用的数据处理工具
- awk '条件类型 1{动作 1} 条件类型 2{动作 2} ...' filename
awk 主要是处理『每一行的字段内的数据』,而默认的『字段的分隔符为 "空格键" 或 "[tab]键" 』!
diff 通常是用在同一的文件(或软件)的新旧版本差异
- diff [-bBi] from-file to-file
- 选项与参数:
- from-file :一个档名,作为原始比对文件的档名;
- to-file :一个档名,作为目的比对文件的档名;
- 注意,from-file 或 to-file 可以 - 取代,那个 - 代表『Standard input』之意。
- -b :忽略一行当中,仅有多个空白的差异(例如 "about me" 与 "about me" 视为相同
- -B :忽略空白行的差异。
- -i :忽略大小写的不同。
cmp 主要也是在比对两个文件,他主要利用『字节』单位去比对
- cmp [-l] file1 file2
- 选项与参数:
- -l :将所有的不同点的字节处都列出来。因为 cmp 预设仅会输出第一个发现的不同点。
patch 将旧的文件升级成为新的文件
- patch -pN < patch_file <==更新
- patch -R -pN < patch_file <==还原
- 选项与参数:
- -p :后面可以接『取消几层目录』的意思。
- -R :代表还原,将新的文件还原成原来旧的版本。
文件打印准备:pr
- pr 目标对象
重点回顾
- 正规表示法就是处理字符串的方法,他是以行为单位来进行字符串的处理行为;
- 正规表示法透过一些特殊符号的辅助,可以让使用者轻易的达到『搜寻/删除/取代』某特定字符串的处理程序;
- 只要工具程序支持正规表示法,那么该工具程序就可以用来作为正规表示法的字符串处理之用;
- 正规表示法与通配符是完全不一样的东西!通配符 (wildcard) 代表的是 bash 操作接口的一个功能, 但正规表示法则是一种字符串处理的表示方式!
- 使用 grep 或其他工具进行正规表示法的字符串比对时,因为编码的问题会有不同的状态,因此, 你最好将 LANG 等变量设定为 C 或者是 en 等英文语系!
- grep 与 egrep 在正规表示法里面是很常见的两支程序,其中, egrep 支持更严谨的正规表示法的语法;
- 由于编码系统的不同,不同的语系 (LANG) 会造成正规表示法撷取资料的差异。因此可利用特殊符号如[:upper:] 来替代编码范围较佳;
- 由于严谨度的不同,正规表示法之上还有更严谨的延伸正规表示法;
- 基础正规表示法的特殊字符有: *, ., [], [-], [^], ^, $ 等!
- 常见的支持正规表示法的工具软件有: grep , sed, vim 等等
- printf 可以透过一些特殊符号来将数据进行格式化输出;
- awk 可以使用『字段』为依据,进行数据的重新整理与输出;
- 文件的比对中,可利用 diff 及 cmp 进行比对,其中 diff 主要用在纯文本文件方面的新旧版本比对
- patch 指令可以将旧版数据更新到新版 (主要亦由 diff 建立 patch 的补丁来源文件)