opencc 繁体简体互转 (C++)
繁体字通常采用BIG5编码,简体字通常采用GBK或者GB18030编码,这种情况下,直接使用iconv(linux下有对应的命令,也有对应的C API供编程调用)就行。对于默认采用utf-8编码的文件或者繁简体都并存的情况(通常采用utf-8)编码的情况,iconv这种方式就不行了。这里我们可以采用一个调用 opencc 的开源库,来实现UTF-8编码环境下的简体、繁体互转的功能。参照 https://github.com/BYVoid/OpenCC 完成opencc库的安装
下面是自己用C++程序调用相关的API来完成的繁体转简体的功能
//test.cpp #include <iostream> #include <opencc/opencc.h> using namespace std; int main ( int argc, char *argv[] ) { string str= "中華人民共和國反分裂國家法"; //string str= "中华人民共和国反分裂国家法"; //默认的是简体转繁体即OPENCC_DEFAULT_CONFIG_TRAD_TO_SIMP, opencc.h头文件中有详细介绍 opencc_t ot = opencc_open(OPENCC_DEFAULT_CONFIG_TRAD_TO_SIMP); char buffer[512] = {'\0'}; opencc_convert_utf8_to_buffer(ot, str.c_str(), str.size(), buffer); cout << "result is " << buffer << endl; opencc_close(ot); return 0; }
编译 g++ test.cpp -o test -lopencc
欢迎技术探讨:sxhlinux@163.com