C++中 字符串的常见操作
字符串分割
在一些比较流行的语言中,字符串分割是一个比较重要的方法,不论是在python,java这样的系统级语言还是js这样的前端脚本都会在用到字符串的分割,然而在c++中却没有这样的方法用来调用。但是在boost中却提供分割方法。
使用vector实现
下面是用vector实现的一个简单的split函数,借助string::find函数查找匹配子串的位置,然后截取剩下的字符串之后继续处理,实现对原字符串的完整处理。
vector<string> split(string &s, string &delim, bool removeEmpty = false, bool fullMatch = false) {
vector<string> result;
string::size_type start = 0, skip = 1;
// 使用整个字符串进行查找,之后会直接跳过整个子字符串
if (fullMatch) {
skip = delim.length();
}
while (start != string::npos) {
// 从start位置开始查找子字符串delim第一次出现的位置
string::size_type finsh = s.find(delim, start);
if (skip == 0) {
finsh = string::npos;
}
// 从start开始到(finsh - start)处获得子字符串
// 获得匹配字符串之前的字符串
string token = s.substr(start, finsh - start);
// 对token进行判断并决定是否移除空
if (!(removeEmpty && token.empty())) {
// 将匹配字符串之前的字符串放进向量中
result.push_back(token);
}
// 判断此时是否到了原字符串的末尾
if ((start = finsh) != string::npos) {
// 将子字符串放进向量中,是为了保证原字符串的字符不丢失
result.push_back(delim);
// 将查找位置向前移动skip个位置
start = start + skip;
}
}
return result;
}
关于字符串的输入方法: std::cin , 多个单词使用函数std::getline(std::cin, s)
这个函数接受两个参数:一个输入流对象和一个 string 对象。getline 函数从输入流的下一行读取,并保存读取的内容到不包括换行符。和输入操作符不一样的是,getline 并不忽略行开头的换行符。只要 getline 遇到换行符,即便它是输入的第一个字符,getline 也将停止读入并返回。如果第一个字符就是换行符,则 string 参数将被置为空 string。
由于getline函数返回时丢弃换行符,换行符将不会存储在string对象中。
String的操作方法
s.empty()
Returns true if s is empty; otherwise returns false
如果 s 为空串,则返回 true,否则返回 false。
s.size()
Returns number of characters in s
返回 s 中字符的个数
s[n]
Returns the character at position n in s; positions start at 0.
返回 s 中位置为 n 的字符, 位置从 0 开始计数
【注意:1、引用下标时如果超出下标作用范围就会引起溢出错误。同样不会报错!2、索引的实际数据类型是类型 unsigned 类型string::size_type。】
#include <iostream>
#include <string>
int main()
{
std::string s = "hello world";
std::cout<<s<<std::endl;
for (std::string::size_type ix = 0; ix != s.size(); ++ix)
s[ix] = '*';
std::cout<<"Now s is:"<<s<<std::endl;
std::cout<<"s's len is:"<<s.size()<<", s[12]="<<s[100]<<std::endl;
return 0;
}
注意:循环中使用了 std::string::size_type ix = 0;请使用string内置类型size_type来操作。 因为int型可能不够string的长度,所以内置类型size_type(实际可以认为是 unsigned)被创建,保证各机器的兼容性, 避免溢出(和下标溢出可不是一回事)。 任何存储 string 的 size 操作结果的变量必须为 string::size_type 类型。特别重要的是,还要把 size 的返回值赋给一个 int 变量。
s1 + s2
Returns a string equal to the concatenation of s1 and s2
把 s1 和s2 连接成一个新字符串,返回新生成的字符串
【备注: 可以连续加,和Python类似。string s3 = s1 + ", " + s2 + "\n";。注意:当进行 string 对象和字符串字面值混合连接操作时,+ 操作符的左右操作数必须至少有一个是 string 类型的【想象下级联也就知道这确实是有道理的】。----1、也就是说+连接必须保证前两个有一个为string类型!2、字符串字面值不能直接相加,字符串字面值和string是不同类型的,字符串里面没有空字符'\0'。】
s1 = s2
Replaces characters in s1 by a copy of s2
把 s1 内容替换为 s2 的副本
【备注:。它必须先把 s1 占用的相关内存释放掉,然后再分配给 s2 足够存放 s2 副本的内存空间,最后把 s2 中的所有字符复制到新分配的内存空间。】
v1 == v2
Returns true if v1 and v2 are equal; false otherwise
比较 v1 与 v2 的内容,相等则返回 true,否则返回 false
!=, <, <=, >, and >=
Have their normal meanings
保持这些操作符惯有的含义
cctype Functions
我们经常要对 string 对象中的单个字符进行处理,例如,通常需要知道某个特殊字符是否为空白字符、字母或数字。以下 列出了各种字符操作函数,适用于 string 对象的字符(或其他任何 char 值)。这些函数都在cctype 头文件中定义。
isalnum(c)
True if c is a letter or a digit.如果 c 是字母或数字,则为 True。
isalpha(c)
true if c is a letter.如果 c 是字母,则为 true。
iscntrl(c)
true if c is a control character.如果 c 是控制字符,则为 true
isdigit(c)
true if c is a digit.如果 c 是数字,则为 true。
isgraph(c)
true if c is not a space but is printable.如果 c 不是空格,但可打印,则为 true。
islower(c)
true if c is a lowercase letter.如果 c 是小写字母,则为 true。
isprint(c)
True if c is a printable character.如果 c 是可打印的字符,则为 true。
【注意:可打印的字符是指那些可以表示的字符】
ispunct(c)
True if c is a punctuation character.如果 c 是标点符号,则 true。
【注意:标点符号则是除了数字、字母或(可打印的)空白字符(如空格)以外的其他可打印字符】
isspace(c)
true if c is whitespace.如果 c 是空白字符,则为 true。
【注意:空白字符则是空格、制表符、垂直制表符、回车符、换行符和进纸符中的任意一种】
isupper(c)
True if c is an uppercase letter.如果 c 是大写字母,则 true。
isxdigit(c)
true if c is a hexadecimal digit.如果是 c 十六进制数,则为 true。
tolower(c)
If c is an uppercase letter, returns its lowercase equivalent; otherwise returns c unchanged.如果 c 大写字母,返回其小写字母形式,否则直接返回 c。
toupper(c)
If c is a lowercase letter, returns its uppercase equivalent; otherwise returns c unchanged.如果 c 是小写字母,则返回其大写字母形式,否则直接返回 c。
【注意:ctype.h是定义在C标准库中的头文件,cctype 其实就是利用了 C 标准库函数。C 标准库头文件命名形式为 name 而 C++ 版本则命名为 cname ,少了后缀,.h而在头文件名前加了 c 表示这个头文件源自 C 标准库。因此,cctype 与 ctype.h 文件的内容是一样的,只是采用了更适合 C++程序的形式。特别地,cname 头文件中定义的名字都定义在命名空间 std 内,而 .h 版本中的名字却不是这样。通常,C++ 程序中应采用 cname 这种头文件的版本,而不采用 name.h 版本,这样,标准库中的名字在命名空间 std 中保持一致。使用 .h 版本会给程序员带来负担,因为他们必须记得哪些标准库名字是从 C 继承来的,而哪些是 C++ 所特有的。】
字符串操作
以下总结更新于2014.10.01,来源于经典教材。
其中:s和str是字符串string,ca是一个字符数组,str_ca是一个字符串或者一个字符数组,str_ca_ch是一个字符串、字符数组或一个字符,ch是一个字符,n、n1、n2、pos1、pos2是整数。
长度操作
s.capacity()
返回s获取的存储容量;
s.size()/s.length()
返回s的长度;
s.empty()
如果s没有包含字符则返回true,否则返回false;
s.max_size()
返回s可能的最大长度;
编辑操作
s.append(str_ca)
将str_ca添加到s的结尾,返回s;
s.append(ca, n)
将ca的前n个字符添加到s的结尾,返回s;
s.append(n, ch)
将ch的n份拷贝添加到s的结尾,返回s;
s.insert(pos, str)
将str的拷贝插入到s的pos位置,返回s;
s.insert(pos1, str, pos2, n)
将str中从pos2位置开始的n个字符插入到s的pos1位置,返回s;【如果n大于str的长度,不会有问题,没有溢出错误,只会复制到str的末尾】
s.insert(pos, ca, n)
将ca的前n个字符插入到s的pos位置,如果n被省略,则插入ca中所有的字符到pos位置,返回s;
s.insert(pos, n, ch)
将字符ch的n个拷贝插入到s的pos位置,返回s;
s.erase(pos, n)
删除s中从pos开始的n个字符(默认pos为0),返回s;
s.replace(pos1, n1, str)
将s中pos1位置开始的长度为n1的字符串替换为str【如果n1太大,从pos到s结尾的所有字符将被替换】,返回s;
s.replace(pos1, n1, ca, n2)
和上面一样,只不过取ca的前n2个字符,返回s;
s.swap(str)/swap(s, str)
交换s和str的内容分,返回为void;
复制操作
支持+ +=操作符。
s.assign(str_ca)
将str_ca的一份拷贝赋予s,返回s;
s.assign(ca, n)
将ca的前n个字符构成的字符串赋予s,返回s;
s.assign(n, ch)
将n个ch组成的字符串赋予s,返回s;
s.substr(pos, n)
返回s中从pos(默认为0)开始的,有n个字符组成的s的子串的拷贝;
查找操作
s.find(str_ca_ch, pos)
返回s中第一个大于等于pos的位置,并且从这个位置的下一个字符开始s中字符和str_ca_ch中相应字符匹配。如果没有这样的位置则返回npos,pos默认为0
s.find_first_of(str_ca_ch, pos)
返回s中大于等于pos的第一个和str_ca_ch中任意字符匹配的字符的位置,如果没有这样的位置则返回npos,pos的默认值为0
s.find_first_not_of(str_ca_ch, pos)
返回s中大于等于pos的第一个和str_ca_ch中任意字符都不匹配的字符的位置,如果没有这样的位置则返回npos,pos的默认值为0
s.find_last_of(str_ca_ch, pos)
返回s中小于等于pos的最大的一个和str_ca_ch中任意字符匹配的字符的位置,如果没有这样的位置则返回npos,pos的默认值为0
s.find_last_not(str_ca_ch, pos)
返回s中小于等于pos的最大的一个和str_ca_ch中任意字符都不匹配的字符的位置,如果没有这样的位置则返回npos,pos的默认值为0
s.rfind(str_ca_ch, pos)
返回s中最后一个小于等于pos的位置,并且从这个位置开始的str_ca_ch.size()个字符和str_ca_ch中相应的字符匹配。如果没有这样的位置则返回npos,pos默认为npos
比较操作
支持上述 <、<=、>、>=、==、!=操作符。
s.compare(str_ca)
返回值为正、0、负
string和C风格字符串的转换
s.c_str()
返回一个常字符数组,这个数组包含存储在s中字符,以一个空字符结束;
s.data()
返回一个常字符数组,这个数组包含存储在s中字符,但没有以空字符结束;
s.copy(charArray, pos, n)
将charArray替换为s中从pos开始的n个字符,如果pos被省略了,即从0开始,如果n太大,那么拷贝字符直到s结束,返回最终拷贝的字符个数。
备注:data()和c_str()都可以被用来从一个文件名中提取open操作所需要的字符数组。
#include <iostream>
#include <string>
#include <vector>
using std::cin; using std::cout; using std::endl; using std::string; using std::vector;
string deal_word(string word)
{
// 使用c++11 auto 语句 以及range for 语句
for(auto &c : word)
{
if (not ispunct(c))
{
c = toupper(c); //连接非标点字符到字符串
}
else
{
word.erase(word.size()-1, 1); //只能删除最后一个标点符号。有局限性!
}
}
return word;
}
string deal_word2(string word)
{
// 使用下标及c++11 decltype
for (decltype(word.size()) index = 0; index != word.size(); ++index)
{
if (not ispunct(word[index]))
{
word[index] = toupper(word[index]);
}
else
{
word.erase(index, 1); // 删除指定位置上的某一个字符,在此为标点
index -= 1; //保证下标不越界!重要!
}
}
return word;
}
int main()
{
string word; // 缓存输入的单词
vector<string> text; // empty vector
cout<<"Please input the text:"<<endl; //提示输入
while (std::cin >> word and word != "INPUTOVER") // INPUTOVER 用于标示输入结束,也可以ctrl + z停止输入
{
word = deal_word(word); // 单词处理
text.push_back(word); // append word to text
}
for(std::vector<int>::size_type ix =0, j = 0; ix != text.size(); ++ix, ++j)
{
if (j==8) // 8个单词一行
{
cout<<endl; //换行
j = 0; //重新计数
}
cout<<text[ix]<<" "; //加空格!
}
return 0;
}
改写了两种处理单词的方法。使用了c++11中的新特性!
str.erase()方法:
1、erase(pos, n); 删除从pos开始的n个字符,比如erase(0,1)就是删除第一个字符
2、erase(position); 删除position处的一个字符(position是个string类型的迭代器)
3、erase(first, last); 删除从first到last之间的字符(first和last都是迭代器)
c++中c_str()的用法详解
//标准库的string类提供了三个成员函数来从一个string得到c类型的字符数组 //主要介绍c_str //c_str():生成一个const char*指针,指向以空字符终止的数组。 //这个数组应该是string类内部的数组 #include <iostream> //需要包含cstring的字符串 #include <cstring> using namespace std; int main() { //string-->char* //c_str()函数返回一个指向正规C字符串的指针, 内容与本string串相同 //这个数组的数据是临时的,当有一个改变这些数据的成员函数被调用后,其中的数据就会失效。 //因此要么现用先转换,要么把它的数据复制到用户自己可以管理的内存中 const char *c; string s = "1234"; c = s.c_str(); cout<<c<<endl; s = "abcde"; cout<<c<<endl; }
结果是:
上面如果继续用c指针的话,导致的错误将是不可想象的。就如:1234变为abcde
其实上面的c = s.c_str(); 不是一个好习惯。既然c指针指向的内容容易失效,我们就应该按照上面的方法,那怎么把数据复制出来呢?这就要用到strcpy等函数(推荐)。
//标准库的string类提供了三个成员函数来从一个string得到c类型的字符数组 //主要介绍c_str //c_str():生成一个const char*指针,指向以空字符终止的数组。 //这个数组应该是string类内部的数组 #include <iostream> //需要包含cstring的字符串 #include <cstring> using namespace std; int main() { //更好的方法是将string数组中的内容复制出来 所以会用到strcpy()这个函数 char *c = new char[20]; string s = "1234"; // c_str()返回一个客户程序可读不可改的指向字符数组的指针,不需要手动释放或删除这个指针。 strcpy(c,s.c_str()); cout<<c<<endl; s = "abcd"; cout<<c<<endl;
}
vector<string> split(string &s, string &delim, bool removeEmpty = false, bool fullMatch = false) {
vector<string> result;
string::size_type start = 0, skip = 1; // 使用整个字符串进行查找,之后会直接跳过整个子字符串
if (fullMatch) { skip = delim.length(); }
while (start != string::npos) { // 从start位置开始查找子字符串delim第一次出现的位置
string::size_type finsh = s.find(delim, start);
if (skip == 0) { finsh = string::npos; } // 从start开始到(finsh - start)处获得子字符串// 获得匹配字符串之前的字符串
string token = s.substr(start, finsh - start); // 对token进行判断并决定是否移除空
if (!(removeEmpty && token.empty())) { // 将匹配字符串之前的字符串放进向量中
result.push_back(token); } // 判断此时是否到了原字符串的末尾
if ((start = finsh) != string::npos) { // 将子字符串放进向量中,是为了保证原字符串的字符不丢失
result.push_back(delim); // 将查找位置向前移动skip个位置
start = start + skip; } }
return result;
}