R：正则表达式

例：sub("a","",c("abcd","dcba"))； [1] "bcd" "dcb"，将向量中的两个字符串中的a都去掉了。

“^” 匹配一个字符串的开始，

sub("^a","",c("abcd","dcba"))； [1] "bcd" "dcba" ，表示将开头为 a 的字符串中的 a 替换成空，在返回值中可以发现后面出现的a并没有被替换。

sub("^ab","",c("abcd","dcba"))； [1] "cd" "dcba" ，如果要将开头的一个字符串替换，简单地写成“^ab”就行。

“^”还可以表示逻辑的补集，需要写在“[]”中，

sub("[^ab]","",c("abcd","dcba"))；[1] "abd" "cba" ，由于sub只替换搜寻到的第一个，因此这个例子中用gsub效果更好

gsub("[^ab]","",c("abcd","dcba")); [1] "ab" "ba"

“[]” 还可以用来匹配多个字符，如果不使用任何分隔符号，则搜寻这个集合； “[-]”的形式可以匹配一个范围，

sub("[ab]","",c("abcd","dcba")); [1] "bcd" "dca" 中，和"a|b"效果一样。

sub("[a-c]","",c("abcde","edcba"))； [1] "bcde" "edba" 匹配从 a 到 c 的字符，

sub("[1-9]","",c("ab001","001ab"))； [1] "ab00" "00ab" 匹配从1到9的数字。

“$” 匹配一个字符串的结尾，

sub("a$","",c("abcd","dcba"))； [1] "abcd" "dcb" ，表示将以 a 结尾的字符串中的 a 替换成空。

"." 表示除了换行符以外的任意一个字符，

sub("a.c","",c("abcd","sdacd"))； [1] "d" "sdacd"

“*” 表示将其前的字符进行0个或多个的匹配，

sub("a*b","",c("aabcd","dcaaaba"))； [1] "cd" "dca"。类似地，

“?” 匹配 0 或 1 个正好在它之前的那个字符

“+” 匹配1或多个正好在它之前的那个字符

“.*” 可以匹配任意字符

sub("a.*e","",c("abcde","edcba"))； [1] "" "edcba"

“|” 表示逻辑的或

sub("ab|ba","",c("abcd","dcba"))； [1] "cd" "dc"，可以替换ab或者ba。。

以上是最基础的正则表达式元字符，在一些正则表达式的书籍和资料中有非常详细的介绍。

最后需要提一下的是“贪婪”和“懒惰”的匹配规则。

默认情况下是匹配尽可能多的字符，是为贪婪匹配，比如 sub("a.*b","",c("aabab","eabbe"))； [1] "" "ee"，默认匹配最长的a开头b结尾的字串，也就是整个字符串。

如果要进行懒惰匹配，也就是匹配最短的字串，只需要在后面加个“?”，比如 sub("a.*?b","",c("aabab","eabbe"))； [1] "ab" "ebe" ，就会匹配最开始找到的最短的a开头b结尾的字串。

posted @ 2018-05-31 22:01 number_5 阅读(761) 评论(0) 编辑收藏举报

刷新页面返回顶部

5号平凡的我