浙江省高等学校教师教育理论培训

微信搜索“毛凌志岗前心得”小程序

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

欢迎访问 Babel 汉英平行语料库

 “平行语料”(Parallel Texts)是指使用不同语言撰写、相互间具有“翻译关系”的文本。在计算语言学界,它有别于“对比语料”(Comparable Texts),后者也使用不同的语言撰写、并且针对同一主题,但相互之间却不存在直接的“翻译关系”。

    人类历史上曾有过各式各样的平行语料。埃及出土的罗塞塔石碑,其碑文用两种语言、三种文字刻成,是颇具盛名的古代的平行语料。通过比较石碑上的文字,法国古代语学者商博良解读了古埃及的象形文字。此外,用不同语言对照书写的契约协议、宗教经典、文学作品也在不同的时期和不同的领域影响着人们的生活。20世纪50年代末,平行语料开始出现在机器翻译研究中。由于当时计算机的存储空间和计算能力有限,而大量文本数据的输入又相当困难,平行语料库的作用并没有得到太多的关注。70年代末期,翻译资源的收集工作在 Xerox PARC 、Brigham Young 等研究中心广泛地开展起来。1987年,Martin Kay 和 Martin Roscheisen 提出了最早的平行语料自动对齐算法。之后各种对齐方法层出不穷,对齐后的平行语料也被系统地应用到自然语言处理中,包括建立翻译记忆、编纂词典和双语术语表、跨语言信息检索、计算机辅助教学、语言对比研究等。

    babel 汉英平行语料库始建于2001年,它最初服务于一个面向新闻领域的机器翻译系统,为基于其中存储的引擎提供翻译实例。目前,语料库的规模已达20万句对。在建设babel 的过程中,我们一方面探索语言资源建设的方法,一方面开展相关的应用研究。这个站点向您介绍babel 汉英平行语料库的相关情况,衷心希望它能为您提供帮助,衷心希望您能多多指教。

项目资助
国家重点基础研究发展规划项目: 面向新闻领域的汉英机器翻译
教育部人文社会科学重点研究基地重大项目: 基于大规模汉英对齐语料的语言研究与教学平台

  关于我们

posted on 2013-01-30 14:23  lexus  阅读(2178)  评论(0编辑  收藏  举报