使用 gettext 进行程序的本地化

在 perl 中也可以用 GNU gettext 工具进行本地化。先看这个例子:

1 use Locale::gettext;
2 use POSIX;                      # Needed for setlocale()
3 setlocale(LC_MESSAGES, "");
4 bindtextdomain("helloworld", "locale");
5 textdomain("helloworld");
6 print gettext("Hello World!\n"), "\n";

然后运行这两个命令:

1 xgettext -o helloworld.po helloworld.pl

打开 helloworld.po 文件,一个最重要的需要修改的地方是 charset=CHARSET
这一行,要改成 charset=UTF-8,这样在程序里用 Locale::gettext 系列函数才
能得到正确编码的字符串。然后修改 “Hello World!\n” 的翻译。如下:

01 # Copyright (C) YEAR THE PACKAGE'S COPYRIGHT HOLDER
02 # This file is distributed under the same license as the PACKAGE package.
03 # Ye Wenbin <wenbinye@gmail.com>, 2007.
04 #
05 #, fuzzy
06 msgid ""
07 msgstr ""
08 "Project-Id-Version: helloworld 0.01\n"
09 "Report-Msgid-Bugs-To: \n"
10 "POT-Creation-Date: 2007-07-28 01:43+0800\n"
11 "PO-Revision-Date: 2007-07-28 01:53+0800\n"
12 "Last-Translator: Ye Wenbin <wenbinye@gmail.com>\n"
13 "Language-Team: Chinese\n"
14 "MIME-Version: 1.0\n"
15 "Content-Type: text/plain; charset=UTF-8\n"
16 "Content-Transfer-Encoding: 8bit\n"
1 #: helloworld.pl:15
2 msgid "Hello World!\n"
3 msgstr "你好,世界!\n"

用 msgfmt 转换成 mo 格式:

1 mkdir -p locale/$LANG/LC_MESSAGES/
2 msgfmt -o locale/$LANG/LC_MESSAGES/helloworld.mo helloworld.po

现在再运行 helloworld.pl 程序,输出是不是已经是翻译过的了?

让我们再回过头来看看这个程序每一条语句的作用。

1 use Locale::gettext;

导入 Locale::gettext 库。使用 use 语句会引入一系列的常量和函数。在
gettext.pm 里是这样的:

1 %EXPORT_TAGS = (
2 locale_h => [qw(LC_CTYPE LC_NUMERIC LC_TIME LC_COLLATE LC_MONETARY LC_MESSAGES LC_ALL)],
3 libintl_h => [qw(gettext textdomain bindtextdomain dcgettext dgettext ngettext dngettext dcngettext bind_textdomain_codeset)],
4 );

所以默认情况下已经导入了常量 LC_CTYPE, LC_NUMERIC, LC_TIME[1],
LC_COLLATE, LC_MONETARY, LC_MESSAGES, LC_ALL,和 函数 gettext,
textdomain, bindtextdomain, dcgettext, dgettext, ngettext, dngettext
dcngettext, bind_textdomain_codeset。

1 use POSIX;                      # Needed for setlocale()
2 setlocale(LC_MESSAGES, "");

setlocale 函数是在 POSIX 包中,可以在 POSIX 的文档或者 manpage
setlocale(3) 中找到它的说明。这句话的意思是让 LC_MESSAGES 从 locale 环
境变量中得到。不同实现所使用的环境变量也可能不同。在我这里测试修改
LANGUAGE 的值会改变 LC_MESSAGES。

1 bindtextdomain("helloworld", "locale");
2 textdomain("helloworld");

要得到翻译的字符串需要做两件事,一是确定查找的范围,也就是这里所说的域
(domain),二是在选择的域中得到字符串。bindtextdomain 和 textdomain
就是用于确定程序查找翻译字符串的范围。textdomain 告诉程序要全局使用的
domain 名字叫 helloworld。一个域实际上对应的是一个文件名。比如这
里就是 helloworld.mo 文件。bindtextdomain 告诉程序域 helloworld 的文件
是在 locale 目录下。所以 gettext 最终会选择从
locale/$LANG/LC_MESSAGES/helloworld.mo 文件中得到翻译的字符串。$LANG
是由 locale(在这里是指环境变量)所决定的。

1 print gettext("Hello World!\n"), "\n";

前面已经说过用 use 会导入一系列的函数。gettext 就是其中一个。它的作用
是查找 msgid 对应的 msgstr。类似的函数有 dgettext 和 dcgettext。
dgettext 还需要一个参数 domain,这便于在程序中使用多个域。dcgettext 还
有一个参数是 category,所谓 category 是前面前面 LC_xxx 这样的常量,包
括数字,时间日期,货币等等。需要注意的是这样得到的字符串是按文件中的编
码的字符串。

Locale::gettext 还提供面向对象的接口。比如前面这个程序可以改写成:

1 use Locale::gettext;
2 use POSIX;                      # Needed for setlocale()
3 setlocale(LC_MESSAGES, "");
4 my $d = Locale::gettext->domain("helloworld");
5 $d->dir("locale");
6 print $d->get("Hello World!\n");

使用这个方法的好处是它会根据 po 文件里的 charset 对字符串进行解码,这
样得到的 perl 内部表示的 unicode 字符串。

再来看看 gettext 是如何处理单复数的。比如:

1 foreach my $n( 0..2 ) {
2 printf(ngettext("%d file removed\n", "%d files removed\n", $n), $n);
3 }

再用 xgettext 提取一次,可以得到这样的条目:

1 #: helloworld.pl:20
2 #, perl-format
3 msgid "%d file removed"
4 msgid_plural "%d files removed"
5 msgstr[0] "%d 个文件被删除"
6 msgstr[1] "已经删除 %d 个文件"

为了显示区别,我把单数和复数用不同的形式翻译。这样运行前面的程序得到的
输出是:

1 已经删除 0 个文件
2 1 个文件被删除
3 已经删除 2 个文件

更详细的关于本地化的讨论可以参考 info gettext。

Footnotes:
[1] 这个常量好像不能用。在 gettext.xs 里没有导出这个常量。不知道是不
是一个 bug。