Perl 国际化

使用 gettext 进行程序的本地化

在 perl 中也可以用 GNU gettext 工具进行本地化。先看这个例子：

1
use Locale::gettext;

2
use POSIX;                      # Needed for setlocale()

3
setlocale(LC_MESSAGES, "");

4
bindtextdomain("helloworld", "locale");

5
textdomain("helloworld");

6
print gettext("Hello World!\n"), "\n";

然后运行这两个命令：

1
xgettext -o helloworld.po helloworld.pl

打开 helloworld.po 文件，一个最重要的需要修改的地方是 charset=CHARSET
这一行，要改成 charset=UTF-8，这样在程序里用 Locale::gettext 系列函数才
能得到正确编码的字符串。然后修改 “Hello World!\n” 的翻译。如下：

01
# Copyright (C) YEAR THE PACKAGE'S COPYRIGHT HOLDER

02
# This file is distributed under the same license as the PACKAGE package.

03
# Ye Wenbin <wenbinye@gmail.com>, 2007.

04
#

05
#, fuzzy

06
msgid ""

07
msgstr ""

08
"Project-Id-Version: helloworld 0.01\n"

09
"Report-Msgid-Bugs-To: \n"

10
"POT-Creation-Date: 2007-07-28 01:43+0800\n"

11
"PO-Revision-Date: 2007-07-28 01:53+0800\n"

12
"Last-Translator: Ye Wenbin <wenbinye@gmail.com>\n"

13
"Language-Team: Chinese\n"

14
"MIME-Version: 1.0\n"

15
"Content-Type: text/plain; charset=UTF-8\n"

16
"Content-Transfer-Encoding: 8bit\n"

1
#: helloworld.pl:15

2
msgid "Hello World!\n"

3
msgstr "你好，世界！\n"

用 msgfmt 转换成 mo 格式：

1
mkdir -p locale/$LANG/LC_MESSAGES/

2
msgfmt -o locale/$LANG/LC_MESSAGES/helloworld.mo helloworld.po

现在再运行 helloworld.pl 程序，输出是不是已经是翻译过的了？

让我们再回过头来看看这个程序每一条语句的作用。

1
use Locale::gettext;

导入 Locale::gettext 库。使用 use 语句会引入一系列的常量和函数。在
gettext.pm 里是这样的：

1
%EXPORT_TAGS = (

2
locale_h => [qw(LC_CTYPE LC_NUMERIC LC_TIME LC_COLLATE LC_MONETARY LC_MESSAGES LC_ALL)],

3
libintl_h
 => [qw(gettext textdomain bindtextdomain dcgettext dgettext ngettext
 dngettext dcngettext bind_textdomain_codeset)],

4
);

所以默认情况下已经导入了常量 LC_CTYPE, LC_NUMERIC, LC_TIME[1],
LC_COLLATE, LC_MONETARY, LC_MESSAGES, LC_ALL，和函数 gettext，
textdomain, bindtextdomain, dcgettext, dgettext, ngettext, dngettext
dcngettext, bind_textdomain_codeset。

1
use POSIX;                      # Needed for setlocale()

2
setlocale(LC_MESSAGES, "");

setlocale 函数是在 POSIX 包中，可以在 POSIX 的文档或者 manpage
setlocale(3) 中找到它的说明。这句话的意思是让 LC_MESSAGES 从 locale 环
境变量中得到。不同实现所使用的环境变量也可能不同。在我这里测试修改
LANGUAGE 的值会改变 LC_MESSAGES。

1
bindtextdomain("helloworld", "locale");

2
textdomain("helloworld");

要得到翻译的字符串需要做两件事，一是确定查找的范围，也就是这里所说的域
（domain），二是在选择的域中得到字符串。bindtextdomain 和 textdomain
就是用于确定程序查找翻译字符串的范围。textdomain 告诉程序要全局使用的
domain 名字叫 helloworld。一个域实际上对应的是一个文件名。比如这
里就是 helloworld.mo 文件。bindtextdomain 告诉程序域 helloworld 的文件
是在 locale 目录下。所以 gettext 最终会选择从
locale/$LANG/LC_MESSAGES/helloworld.mo 文件中得到翻译的字符串。$LANG
是由 locale（在这里是指环境变量）所决定的。

1
print gettext("Hello World!\n"), "\n";

前面已经说过用 use 会导入一系列的函数。gettext 就是其中一个。它的作用
是查找 msgid 对应的 msgstr。类似的函数有 dgettext 和 dcgettext。
dgettext 还需要一个参数 domain，这便于在程序中使用多个域。dcgettext 还
有一个参数是 category，所谓 category 是前面前面 LC_xxx 这样的常量，包
括数字，时间日期，货币等等。需要注意的是这样得到的字符串是按文件中的编
码的字符串。

Locale::gettext 还提供面向对象的接口。比如前面这个程序可以改写成：

1
use Locale::gettext;

2
use POSIX;                      # Needed for setlocale()

3
setlocale(LC_MESSAGES, "");

4
my $d = Locale::gettext->domain("helloworld");

5
$d->dir("locale");

6
print $d->get("Hello World!\n");

使用这个方法的好处是它会根据 po 文件里的 charset 对字符串进行解码，这
样得到的 perl 内部表示的 unicode 字符串。

再来看看 gettext 是如何处理单复数的。比如：

1
foreach my $n( 0..2 ) {

2
printf(ngettext("%d file removed\n", "%d files removed\n", $n), $n);

3
}

再用 xgettext 提取一次，可以得到这样的条目：

1
#: helloworld.pl:20

2
#, perl-format

3
msgid "%d file removed"

4
msgid_plural "%d files removed"

5
msgstr[0] "%d 个文件被删除"

6
msgstr[1] "已经删除 %d 个文件"

为了显示区别，我把单数和复数用不同的形式翻译。这样运行前面的程序得到的
输出是：

1
已经删除 0 个文件

2
1 个文件被删除

3
已经删除 2 个文件

更详细的关于本地化的讨论可以参考 info gettext。

Footnotes:
[1] 这个常量好像不能用。在 gettext.xs 里没有导出这个常量。不知道是不
是一个 bug。

ACE封印

公告