2018年6月4日

摘要: www.NiuTrans.com IBM的思路:EM算法。 由于语序问题肯定不能一个个词直接翻译。因此需要找到内在的词对齐的方式。 在IBM出现之前,采用过很多句法上的努力。例如利用语法syntax分析(现在已经不怎么用)。因为当句子很长的、表达方式越来越多元化的时候,如果想要通过直接归纳出来一个固 阅读全文
posted @ 2018-06-04 17:04 Josie_chen 阅读(913) 评论(0) 推荐(0) 编辑
摘要: 基于统计的机器翻译:mosesdecoder作为比对翻译效果的baseline,如果不如这个的效果,就说明测试系统效果不算好。 首先看看一共需要以下三个模型: 语言模型:用来评估这句话的通畅程度。 1、需要从大量的语料中学习出在新的句子知道对应的英语翻译是什么。 2、翻译模型:实质是基于短语的(不是 阅读全文
posted @ 2018-06-04 16:19 Josie_chen 阅读(375) 评论(0) 推荐(0) 编辑
摘要: LDA模型应用:一眼看穿希拉里的邮件 我们拿到希拉里泄露的邮件,跑一把LDA,看看她平时都在聊什么。 希望通过这样一个LDA模型将她所有的邮件进行分类,从而只需要从这些类中取出。 利用gensim中包含的LDA模型。 首先,导入我们需要的一些库 LDA模型应用:一眼看穿希拉里的邮件 我们拿到希拉里泄 阅读全文
posted @ 2018-06-04 13:20 Josie_chen 阅读(1251) 评论(0) 推荐(1) 编辑

导航