摘要:
www.NiuTrans.com IBM的思路:EM算法。 由于语序问题肯定不能一个个词直接翻译。因此需要找到内在的词对齐的方式。 在IBM出现之前,采用过很多句法上的努力。例如利用语法syntax分析(现在已经不怎么用)。因为当句子很长的、表达方式越来越多元化的时候,如果想要通过直接归纳出来一个固 阅读全文
摘要:
基于统计的机器翻译:mosesdecoder作为比对翻译效果的baseline,如果不如这个的效果,就说明测试系统效果不算好。 首先看看一共需要以下三个模型: 语言模型:用来评估这句话的通畅程度。 1、需要从大量的语料中学习出在新的句子知道对应的英语翻译是什么。 2、翻译模型:实质是基于短语的(不是 阅读全文
摘要:
LDA模型应用:一眼看穿希拉里的邮件 我们拿到希拉里泄露的邮件,跑一把LDA,看看她平时都在聊什么。 希望通过这样一个LDA模型将她所有的邮件进行分类,从而只需要从这些类中取出。 利用gensim中包含的LDA模型。 首先,导入我们需要的一些库 LDA模型应用:一眼看穿希拉里的邮件 我们拿到希拉里泄 阅读全文