【R笔记】R语言中的字符串处理函数
内容概览
尽管R是一门以数值向量和矩阵为核心的统计语言,但字符串同样极为重要。从医疗研究数据里的出生日期到文本挖掘的应用,字符串数据在R程序中使用的频率非常高。R语言提供了很多字符串操作函数,本文仅简要以下几种常用的字符串函数。
-
字符串分割函数:strsplit( )
-
字符串连接函数:paste( )
-
计算字符串长度:nchar( )
-
字符串截取函数:substr( )及substring( )
-
字符串替换函数:chartr( )
-
大小写转换函数:toupper( )、tolower( )及casefold( )
字符串分割函数:strsplit( )
strsplit( )函数用于字符串分割,其中split 是分割参数。所得结果以默认以list形式展示。
字符串连接函数:paste( )
主要参数:paste(..., sep = " ", collapse = NULL)
paste( )函数用于字符串连接,其中sep 负责两组字符串间的连接;collapse 负责一组字符串内部的连接。
计算字符串长度:nchar( )
nchar( )返回字符串的长度。
字符串截取函数:substr( );substring( )
substr( )函数和substring( )函数是截取字符串最常用的函数,两个函数功能方面是一样的,只是其中参数设置不同。
substr( )函数:必须设置参数start和stop,如果缺少将出错。
substring( )函数:可以只设置first参数,last参数若不设置,则默认为1000000L,通常是指字符串的最大长度。
例子如下:
字符串替换函数:chartr( )
chartr( )函数:将原有字符串中特定字符替换成所需要的字符。
其中参数old 表示原有字符串中内容;new 表示替换后的字符内容。
大小写替换函数:toupper( )、tolower( )、casefold( )
toupper( )函数:将字符串统一转换为大写。
tolower( )函数:将字符串统一转换为小写。
casefold( )函数:根据参数转换大小写。