摘要: 本文是在Niutrans论坛中的系列教程中总结出来的。1、语料预处理预处理的结果是生成双语分词之后的文件,该步需要注意的是对规则短语,比如数字、日期、网址等,进行泛化处理。可以用正则方法或者其它方法。注意日期中的点和外文人名中的点和网址中的点和句末标点要区分开来,数字和日期也要区分开来。其中变化比较... 阅读全文
posted @ 2014-11-04 10:15 五色光 阅读(5521) 评论(0) 推荐(0) 编辑