C++中字符串的常见操作

字符串分割

在一些比较流行的语言中，字符串分割是一个比较重要的方法，不论是在python,java这样的系统级语言还是js这样的前端脚本都会在用到字符串的分割，然而在c++中却没有这样的方法用来调用。但是在boost中却提供分割方法。

使用vector实现

下面是用vector实现的一个简单的split函数,借助string::find函数查找匹配子串的位置，然后截取剩下的字符串之后继续处理，实现对原字符串的完整处理。

vector<string> split(string &s, string &delim, bool removeEmpty = false, bool fullMatch = false) {

vector<string> result;

string::size_type start = 0, skip = 1;

//　使用整个字符串进行查找，之后会直接跳过整个子字符串

if (fullMatch) {

skip = delim.length();

}

while (start != string::npos) {

// 从start位置开始查找子字符串delim第一次出现的位置

string::size_type finsh = s.find(delim, start);

if (skip == 0) {

finsh = string::npos;

}

// 从start开始到(finsh - start)处获得子字符串

// 获得匹配字符串之前的字符串

string token = s.substr(start, finsh - start);

// 对token进行判断并决定是否移除空

if (!(removeEmpty && token.empty())) {

// 将匹配字符串之前的字符串放进向量中

result.push_back(token);

}

// 判断此时是否到了原字符串的末尾

if ((start = finsh) != string::npos) {

// 将子字符串放进向量中，是为了保证原字符串的字符不丢失

result.push_back(delim);

// 将查找位置向前移动skip个位置

start = start + skip;

}

return result;

}

关于字符串的输入方法： std::cin , 多个单词使用函数std::getline(std::cin, s)

这个函数接受两个参数：一个输入流对象和一个 string 对象。getline 函数从输入流的下一行读取，并保存读取的内容到不包括换行符。和输入操作符不一样的是，getline 并不忽略行开头的换行符。只要 getline 遇到换行符，即便它是输入的第一个字符，getline 也将停止读入并返回。如果第一个字符就是换行符，则 string 参数将被置为空 string。

由于getline函数返回时丢弃换行符，换行符将不会存储在string对象中。

String的操作方法

s.empty()

Returns true if s is empty; otherwise returns false

如果 s 为空串，则返回 true，否则返回 false。

s.size()

Returns number of characters in s

返回 s 中字符的个数

s[n]

Returns the character at position n in s; positions start at 0.

返回 s 中位置为 n 的字符，位置从 0 开始计数

【注意：1、引用下标时如果超出下标作用范围就会引起溢出错误。同样不会报错！2、索引的实际数据类型是类型 unsigned 类型string::size_type。】

#include <iostream>

#include <string>

int main()

{

std::string s = "hello world";

std::cout<<s<<std::endl;

for (std::string::size_type ix = 0; ix != s.size(); ++ix)

s[ix] = '*';

std::cout<<"Now s is:"<<s<<std::endl;

std::cout<<"s's len is:"<<s.size()<<", s[12]="<<s[100]<<std::endl;

return 0;

}

注意：循环中使用了 std::string::size_type ix = 0;请使用string内置类型size_type来操作。因为int型可能不够string的长度，所以内置类型size_type（实际可以认为是 unsigned）被创建，保证各机器的兼容性，避免溢出（和下标溢出可不是一回事）。任何存储 string 的 size 操作结果的变量必须为 string::size_type 类型。特别重要的是，还要把 size 的返回值赋给一个 int 变量。

s1 + s2

Returns a string equal to the concatenation of s1 and s2

把 s1 和s2 连接成一个新字符串，返回新生成的字符串

【备注：可以连续加，和Python类似。string s3 = s1 + ", " + s2 + "\n";。注意：当进行 string 对象和字符串字面值混合连接操作时，+ 操作符的左右操作数必须至少有一个是 string 类型的【想象下级联也就知道这确实是有道理的】。----1、也就是说+连接必须保证前两个有一个为string类型！2、字符串字面值不能直接相加，字符串字面值和string是不同类型的，字符串里面没有空字符'\0'。】

s1 = s2

Replaces characters in s1 by a copy of s2

把 s1 内容替换为 s2 的副本

【备注：。它必须先把 s1 占用的相关内存释放掉，然后再分配给 s2 足够存放 s2 副本的内存空间，最后把 s2 中的所有字符复制到新分配的内存空间。】

v1 == v2

Returns true if v1 and v2 are equal; false otherwise

比较 v1 与 v2 的内容，相等则返回 true，否则返回 false

!=, <, <=, >, and >=

Have their normal meanings

保持这些操作符惯有的含义

cctype Functions

我们经常要对 string 对象中的单个字符进行处理，例如，通常需要知道某个特殊字符是否为空白字符、字母或数字。以下列出了各种字符操作函数，适用于 string 对象的字符（或其他任何 char 值）。这些函数都在cctype 头文件中定义。

isalnum(c)

True if c is a letter or a digit.如果 c 是字母或数字，则为 True。

isalpha(c)

true if c is a letter.如果 c 是字母，则为 true。

iscntrl(c)

true if c is a control character.如果 c 是控制字符，则为 true

isdigit(c)

true if c is a digit.如果 c 是数字，则为 true。

isgraph(c)

true if c is not a space but is printable.如果 c 不是空格，但可打印，则为 true。

islower(c)

true if c is a lowercase letter.如果 c 是小写字母，则为 true。

isprint(c)

True if c is a printable character.如果 c 是可打印的字符，则为 true。

【注意：可打印的字符是指那些可以表示的字符】

ispunct(c)

True if c is a punctuation character.如果 c 是标点符号，则 true。

【注意：标点符号则是除了数字、字母或（可打印的）空白字符（如空格）以外的其他可打印字符】

isspace(c)

true if c is whitespace.如果 c 是空白字符，则为 true。

【注意：空白字符则是空格、制表符、垂直制表符、回车符、换行符和进纸符中的任意一种】

isupper(c)

True if c is an uppercase letter.如果 c 是大写字母，则 true。

isxdigit(c)

true if c is a hexadecimal digit.如果是 c 十六进制数，则为 true。

tolower(c)

If c is an uppercase letter, returns its lowercase equivalent; otherwise returns c unchanged.如果 c 大写字母，返回其小写字母形式，否则直接返回 c。

toupper(c)

If c is a lowercase letter, returns its uppercase equivalent; otherwise returns c unchanged.如果 c 是小写字母，则返回其大写字母形式，否则直接返回 c。

【注意：ctype.h是定义在C标准库中的头文件，cctype 其实就是利用了 C 标准库函数。C 标准库头文件命名形式为 name 而 C++ 版本则命名为 cname ，少了后缀，.h而在头文件名前加了 c 表示这个头文件源自 C 标准库。因此，cctype 与 ctype.h 文件的内容是一样的，只是采用了更适合 C++程序的形式。特别地，cname 头文件中定义的名字都定义在命名空间 std 内，而 .h 版本中的名字却不是这样。通常，C++ 程序中应采用 cname 这种头文件的版本，而不采用 name.h 版本，这样，标准库中的名字在命名空间 std 中保持一致。使用 .h 版本会给程序员带来负担，因为他们必须记得哪些标准库名字是从 C 继承来的，而哪些是 C++ 所特有的。】

字符串操作

以下总结更新于2014.10.01，来源于经典教材。

其中：s和str是字符串string，ca是一个字符数组，str_ca是一个字符串或者一个字符数组，str_ca_ch是一个字符串、字符数组或一个字符，ch是一个字符，n、n1、n2、pos1、pos2是整数。

长度操作

s.capacity()

返回s获取的存储容量；

s.size()/s.length()

返回s的长度；

s.empty()

如果s没有包含字符则返回true，否则返回false；

s.max_size()

返回s可能的最大长度；

编辑操作

s.append(str_ca)

将str_ca添加到s的结尾，返回s；

s.append(ca, n)

将ca的前n个字符添加到s的结尾，返回s；

s.append(n, ch)

将ch的n份拷贝添加到s的结尾，返回s；

s.insert(pos, str)

将str的拷贝插入到s的pos位置，返回s；

s.insert(pos1, str, pos2, n)

将str中从pos2位置开始的n个字符插入到s的pos1位置，返回s；【如果n大于str的长度，不会有问题，没有溢出错误，只会复制到str的末尾】

s.insert(pos, ca, n)

将ca的前n个字符插入到s的pos位置，如果n被省略，则插入ca中所有的字符到pos位置，返回s；

s.insert(pos, n, ch)

将字符ch的n个拷贝插入到s的pos位置，返回s；

s.erase(pos, n)

删除s中从pos开始的n个字符（默认pos为0），返回s；

s.replace(pos1, n1, str)

将s中pos1位置开始的长度为n1的字符串替换为str【如果n1太大，从pos到s结尾的所有字符将被替换】，返回s；

s.replace(pos1, n1, ca, n2)

和上面一样，只不过取ca的前n2个字符，返回s；

s.swap(str)/swap(s, str)

交换s和str的内容分，返回为void；

复制操作

支持+ +=操作符。

s.assign(str_ca)

将str_ca的一份拷贝赋予s，返回s；

s.assign(ca, n)

将ca的前n个字符构成的字符串赋予s，返回s；

s.assign(n, ch)

将n个ch组成的字符串赋予s，返回s；

s.substr(pos, n)

返回s中从pos（默认为0）开始的，有n个字符组成的s的子串的拷贝；

查找操作

s.find(str_ca_ch, pos)

返回s中第一个大于等于pos的位置，并且从这个位置的下一个字符开始s中字符和str_ca_ch中相应字符匹配。如果没有这样的位置则返回npos，pos默认为0

s.find_first_of(str_ca_ch, pos)

返回s中大于等于pos的第一个和str_ca_ch中任意字符匹配的字符的位置，如果没有这样的位置则返回npos，pos的默认值为0

s.find_first_not_of(str_ca_ch, pos)

返回s中大于等于pos的第一个和str_ca_ch中任意字符都不匹配的字符的位置，如果没有这样的位置则返回npos，pos的默认值为0

s.find_last_of(str_ca_ch, pos)

返回s中小于等于pos的最大的一个和str_ca_ch中任意字符匹配的字符的位置，如果没有这样的位置则返回npos，pos的默认值为0

s.find_last_not(str_ca_ch, pos)

返回s中小于等于pos的最大的一个和str_ca_ch中任意字符都不匹配的字符的位置，如果没有这样的位置则返回npos，pos的默认值为0

s.rfind(str_ca_ch, pos)

返回s中最后一个小于等于pos的位置，并且从这个位置开始的str_ca_ch.size()个字符和str_ca_ch中相应的字符匹配。如果没有这样的位置则返回npos，pos默认为npos

比较操作

支持上述 <、<=、>、>=、==、!=操作符。

s.compare(str_ca)

返回值为正、0、负

string和C风格字符串的转换

s.c_str()

返回一个常字符数组，这个数组包含存储在s中字符，以一个空字符结束；

s.data()

返回一个常字符数组，这个数组包含存储在s中字符，但没有以空字符结束；

s.copy(charArray, pos, n)

将charArray替换为s中从pos开始的n个字符，如果pos被省略了，即从0开始，如果n太大，那么拷贝字符直到s结束，返回最终拷贝的字符个数。

备注：data()和c_str()都可以被用来从一个文件名中提取open操作所需要的字符数组。

#include <iostream>

#include <string>

#include <vector>

using std::cin; using std::cout; using std::endl; using std::string; using std::vector;

string deal_word(string word)

{

// 使用c++11 auto 语句以及range for 语句

for(auto &c : word)

{

if (not ispunct(c))

{

c = toupper(c); //连接非标点字符到字符串

}

else

{

word.erase(word.size()-1, 1); //只能删除最后一个标点符号。有局限性！

}

return word;

}

string deal_word2(string word)

{

// 使用下标及c++11 decltype

for (decltype(word.size()) index = 0; index != word.size(); ++index)

{

if (not ispunct(word[index]))

{

word[index] = toupper(word[index]);

}

else

{

word.erase(index, 1); // 删除指定位置上的某一个字符，在此为标点

index -= 1; //保证下标不越界！重要！

}

return word;

}

int main()

{

string word; // 缓存输入的单词

vector<string> text; // empty vector

cout<<"Please input the text:"<<endl; //提示输入

while (std::cin >> word and word != "INPUTOVER") // INPUTOVER 用于标示输入结束，也可以ctrl + z停止输入

{

word = deal_word(word); // 单词处理

text.push_back(word); // append word to text

}

for(std::vector<int>::size_type ix =0, j = 0; ix != text.size(); ++ix, ++j)

{

if (j==8) // 8个单词一行

{

cout<<endl; //换行

j = 0; //重新计数

}

cout<<text[ix]<<" "; //加空格！

}

return 0;

}

改写了两种处理单词的方法。使用了c++11中的新特性！

str.erase()方法：

1、erase(pos, n); 删除从pos开始的n个字符，比如erase(0,1)就是删除第一个字符

2、erase(position); 删除position处的一个字符（position是个string类型的迭代器）

3、erase(first, last); 删除从first到last之间的字符（first和last都是迭代器）

c++中c_str()的用法详解

//标准库的string类提供了三个成员函数来从一个string得到c类型的字符数组
//主要介绍c_str
//c_str()：生成一个const char*指针，指向以空字符终止的数组。
//这个数组应该是string类内部的数组
#include <iostream>
//需要包含cstring的字符串
#include <cstring>
using namespace std;
 
int main()
{
    //string-->char*
    //c_str()函数返回一个指向正规C字符串的指针, 内容与本string串相同
 
    //这个数组的数据是临时的，当有一个改变这些数据的成员函数被调用后，其中的数据就会失效。
    //因此要么现用先转换，要么把它的数据复制到用户自己可以管理的内存中
    const char *c;
    string s = "1234";
    c = s.c_str();
    cout<<c<<endl;
    s = "abcde";
    cout<<c<<endl;
}

结果是：

上面如果继续用c指针的话，导致的错误将是不可想象的。就如：1234变为abcde

其实上面的c = s.c_str(); 不是一个好习惯。既然c指针指向的内容容易失效，我们就应该按照上面的方法，那怎么把数据复制出来呢？这就要用到strcpy等函数（推荐）。

//标准库的string类提供了三个成员函数来从一个string得到c类型的字符数组
//主要介绍c_str
//c_str()：生成一个const char*指针，指向以空字符终止的数组。
//这个数组应该是string类内部的数组
#include <iostream>
//需要包含cstring的字符串
#include <cstring>
using namespace std;
 
int main()
{
    //更好的方法是将string数组中的内容复制出来 所以会用到strcpy()这个函数
    char *c = new char[20];
    string s = "1234";
    // c_str()返回一个客户程序可读不可改的指向字符数组的指针，不需要手动释放或删除这个指针。
    strcpy(c,s.c_str());
    cout<<c<<endl;
    s = "abcd";
    cout<<c<<endl;

}参考：https://www.cnblogs.com/findumars/p/6353621.html

vector<string> split(string &s, string &delim, bool removeEmpty = false, bool fullMatch = false) { vector<string> result; string::size_type start = 0, skip = 1; //　使用整个字符串进行查找，之后会直接跳过整个子字符串if (fullMatch) { skip = delim.length(); } while (start != string::npos) { // 从start位置开始查找子字符串delim第一次出现的位置string::size_type finsh = s.find(delim, start); if (skip == 0) { finsh = string::npos; } // 从start开始到(finsh - start)处获得子字符串// 获得匹配字符串之前的字符串string token = s.substr(start, finsh - start); // 对token进行判断并决定是否移除空if (!(removeEmpty && token.empty())) { // 将匹配字符串之前的字符串放进向量中 result.push_back(token); } // 判断此时是否到了原字符串的末尾if ((start = finsh) != string::npos) { // 将子字符串放进向量中，是为了保证原字符串的字符不丢失 result.push_back(delim); // 将查找位置向前移动skip个位置 start = start + skip; } } return result; }

posted @ 2021-03-05 14:40 konglingbin 阅读(1340) 评论(0) 收藏举报

刷新页面返回顶部

konglingbin

C++中 字符串的常见操作

字符串分割

使用vector实现

公告

C++中字符串的常见操作