摘要: 类型语料库名称及大小建设单位英语学习者语料库(书面语及口语)中国学习者语料库CLEC(100万)广外、上海交大大学英语学习者口语语料库COLSEC (5万)上海交大香港科技大学学习者语料库HKUST Learner Corpus香港科技大学中国英语专业语料库CEME (148万)南京大学中国英语学习者口语语料库SECCL (100万)南京大学国际外语学习者英语口语语料库中国部分LINSEI-China (10万)华南师大硕士写作语料库MWC (12万)华中科技大学平行语料库汉英平行语料库PCCE北外南大-国关平行语料库南京大学英汉文学作品语料库;外研社冯友兰《中国哲学史》汉英对照语料库李约瑟( 阅读全文
posted @ 2014-02-24 19:07 inspirationhyl 阅读(3104) 评论(0) 推荐(0) 编辑
摘要: NiuTrans是一个开源的统计机器翻译系统,由中国的 东北大学 自然语言处理实验室 开发,相对于moses,笔者认为Niutrans更好搭建,比如Niutrans内嵌小巧、高效的N-元语言模型,无需其它软件(如SRILM)的外部支持。 另外: NiuTrans支持多个统计机器翻译模型:a) 基于短语的模型b) 基于层次短语的模型c) 基于句法(树到串,串到树,树到树)的模型 所以还是比较好的契合使用需求,关键是Niutrans在windows下也可很好使用,笔者是在32bit的windows下搭建的。一、准备工作 在正式搭建Niutrans之前,应该保证机器上安装有:Visual ... 阅读全文
posted @ 2014-02-13 13:53 inspirationhyl 阅读(2711) 评论(0) 推荐(0) 编辑