使用 gettext 进行程序的本地化
在 perl 中也可以用 GNU gettext 工具进行本地化。先看这个例子:
3 |
setlocale(LC_MESSAGES, "" ); |
4 |
bindtextdomain( "helloworld" , "locale" ); |
5 |
textdomain( "helloworld" ); |
6 |
print gettext( "Hello World!\n" ), "\n" ; |
然后运行这两个命令:
1 |
xgettext -o helloworld.po helloworld.pl |
打开 helloworld.po 文件,一个最重要的需要修改的地方是 charset=CHARSET
这一行,要改成 charset=UTF-8,这样在程序里用 Locale::gettext 系列函数才
能得到正确编码的字符串。然后修改 “Hello World!\n” 的翻译。如下:
08 |
"Project-Id-Version: helloworld 0.01\n" |
09 |
"Report-Msgid-Bugs-To: \n" |
10 |
"POT-Creation-Date: 2007-07-28 01:43+0800\n" |
11 |
"PO-Revision-Date: 2007-07-28 01:53+0800\n" |
12 |
"Last-Translator: Ye Wenbin <wenbinye@gmail.com>\n" |
13 |
"Language-Team: Chinese\n" |
15 |
"Content-Type: text/plain; charset=UTF-8\n" |
16 |
"Content-Transfer-Encoding: 8bit\n" |
用 msgfmt 转换成 mo 格式:
1 |
mkdir -p locale/$LANG/LC_MESSAGES/ |
2 |
msgfmt -o locale/$LANG/LC_MESSAGES/helloworld.mo helloworld.po |
现在再运行 helloworld.pl 程序,输出是不是已经是翻译过的了?
让我们再回过头来看看这个程序每一条语句的作用。
导入 Locale::gettext 库。使用 use 语句会引入一系列的常量和函数。在
gettext.pm 里是这样的:
2 |
locale_h => [qw(LC_CTYPE LC_NUMERIC LC_TIME LC_COLLATE LC_MONETARY LC_MESSAGES LC_ALL)], |
3 |
libintl_h
=> [qw(gettext textdomain bindtextdomain dcgettext dgettext ngettext
dngettext dcngettext bind_textdomain_codeset)], |
所以默认情况下已经导入了常量 LC_CTYPE, LC_NUMERIC, LC_TIME[1],
LC_COLLATE, LC_MONETARY, LC_MESSAGES, LC_ALL,和 函数 gettext,
textdomain, bindtextdomain, dcgettext, dgettext, ngettext, dngettext
dcngettext, bind_textdomain_codeset。
2 |
setlocale(LC_MESSAGES, "" ); |
setlocale 函数是在 POSIX 包中,可以在 POSIX 的文档或者 manpage
setlocale(3) 中找到它的说明。这句话的意思是让 LC_MESSAGES 从 locale 环
境变量中得到。不同实现所使用的环境变量也可能不同。在我这里测试修改
LANGUAGE 的值会改变 LC_MESSAGES。
1 |
bindtextdomain( "helloworld" , "locale" ); |
2 |
textdomain( "helloworld" ); |
要得到翻译的字符串需要做两件事,一是确定查找的范围,也就是这里所说的域
(domain),二是在选择的域中得到字符串。bindtextdomain 和 textdomain
就是用于确定程序查找翻译字符串的范围。textdomain 告诉程序要全局使用的
domain 名字叫 helloworld。一个域实际上对应的是一个文件名。比如这
里就是 helloworld.mo 文件。bindtextdomain 告诉程序域 helloworld 的文件
是在 locale 目录下。所以 gettext 最终会选择从
locale/$LANG/LC_MESSAGES/helloworld.mo 文件中得到翻译的字符串。$LANG
是由 locale(在这里是指环境变量)所决定的。
1 |
print gettext( "Hello World!\n" ), "\n" ; |
前面已经说过用 use 会导入一系列的函数。gettext 就是其中一个。它的作用
是查找 msgid 对应的 msgstr。类似的函数有 dgettext 和 dcgettext。
dgettext 还需要一个参数 domain,这便于在程序中使用多个域。dcgettext 还
有一个参数是 category,所谓 category 是前面前面 LC_xxx 这样的常量,包
括数字,时间日期,货币等等。需要注意的是这样得到的字符串是按文件中的编
码的字符串。
Locale::gettext 还提供面向对象的接口。比如前面这个程序可以改写成:
3 |
setlocale(LC_MESSAGES, "" ); |
4 |
my $d = Locale::gettext->domain( "helloworld" ); |
6 |
print $d ->get( "Hello World!\n" ); |
使用这个方法的好处是它会根据 po 文件里的 charset 对字符串进行解码,这
样得到的 perl 内部表示的 unicode 字符串。
再来看看 gettext 是如何处理单复数的。比如:
1 |
foreach my $n ( 0..2 ) { |
2 |
printf (ngettext( "%d file removed\n" , "%d files removed\n" , $n ), $n ); |
再用 xgettext 提取一次,可以得到这样的条目:
3 |
msgid "%d file removed" |
4 |
msgid_plural "%d files removed" |
6 |
msgstr[1] "已经删除 %d 个文件" |
为了显示区别,我把单数和复数用不同的形式翻译。这样运行前面的程序得到的
输出是:
更详细的关于本地化的讨论可以参考 info gettext。
Footnotes:
[1] 这个常量好像不能用。在 gettext.xs 里没有导出这个常量。不知道是不
是一个 bug。