摘要:
使用SRILM这个工具编写语言模型工具的问题就是内存不怎么够。。。,内存最多就3G,还在跑另外的一个程序,所以想要一次训练完是不可能的,在http://www-speech.sri.com/projects/srilm/manpages/srilm-faq.7.html给出了一个解决的办法,那就是将大文件拆分成多个小文件,然后再将多个小文件的count合并,完成最终的训练。具体的做法如下: 首先使用split将一个大文件分成最多26*26(使用字母后缀,这是默认的行为)或者是100(使用数字后缀,需要-d参数)个文件,可以将文件按行拆分(使用-l num参数)或者是按大小拆分(使用-bsiz. 阅读全文