Lazarus 0.9.26——UTF8编码副作用

Lazarus 0.9.26中，涉及范围最广的的改变就是所有的的String默认都采用UTF8编码，IDE终于有了完全的UTF8支持，以前在源码编辑器中“吃掉”半个汉字的情况不再出现。对于Linux下的用户来说这也是好消息，大家终于可以在源码编辑器中看到中文了。当然了，好东西总是代价比较昂贵的：旧代码和项目的迁移就变成了一个不小的问题。现在如果迁移旧项目到0.9.26会遇到以下的问题：

1、项目所有文件里面的中文字串都必须重新输入。
0.9.26提供了转换项目编码的工具：Convert encoding of project/packages，不过很可惜这个工具对中文的支持很差——它只能把所有的中文字符都变成问号，包括所有组件里面的中文字符。举例子说，例如一个Caption是“我的窗体”的Form，使用了0.9.26的转换工具转换为UTF8编后，他的Caption就会变成“？？？？”。目前来看唯一可行的处理方法就是不使用Lazarus自带的转码工具，改为用第三方软件打开所有源码文件来进行装换。

2、对String的使用。
0.9.24以前的版本String是ANSI编码，一个英文是1Byte，汉字是2Byte。0.9.26中使用UTF8编码，英文字母占据的空间不变，汉字占据的空间将是3~6个Byte不等。而在Lazarus0.9.26中并没有与ANSI编码中Char类型对应的UTF8char，所以在取String中某个汉字的操作相对而言就复杂了。0.9.26版本在LCLProc单元中提供了几个与UTF8字符串相关的函数，例如有UTF8Length、UTF8CharAt等等，在一定程度上可以给我们提供帮助，不过前提是大家要对UTF8编码方式有更深的理解。

3、Windows下访问文件系统时候遇到的中文目录及文件名。
以TStringList的SaveToFile为例，在0.9.26之前我们可以这样做：（TStringList实例）.SaveToFile('C:/中文目录/中文名称')，不过在现在这样做的结果就是扔个“找不到目录”的异常给你。原因在于系统库中还是使用的ANSI编码，所以将SaveToFile的参数按照ANSI编码来解析，自然就出错了。知道了原因，解决的办法就很简单了：把文件名用UTF8ToAnsi重新转换为ANSI编码，再传给SaveToFile做参数。

posted @ 2018-08-02 16:44 Thenext 阅读(689) 评论(0) 收藏举报

刷新页面返回顶部

Thenext

Lazarus 0.9.26——UTF8编码副作用

公告