2018年6月5日

摘要: 在初始状态确定的情况下,(1 0)状态下,马尔科夫链的结果最终会趋于稳态分布。 即最终结果会得到一个固定的稳态分布。 没有办法给出完整的判断,这个时候就需要多一条马尔科夫链。 先设置一个牛市和熊市的马尔科夫链,然后牛市对应涨跌,熊市也对应涨跌。从而得到一个双层结构的马尔科夫链。 能观测到的最外侧的涨 阅读全文
posted @ 2018-06-05 17:04 Josie_chen 阅读(502) 评论(0) 推荐(0) 编辑
摘要: Niutrans:基于短语的统计翻译系统 1. Data preparation数据准备阶段 a) Training data 训练数据 LM-training-set和 LM-training-set b) Tuning data 调参参数(相当于超参数:来调整权重参数) c) Test data 阅读全文
posted @ 2018-06-05 13:22 Josie_chen 阅读(203) 评论(0) 推荐(0) 编辑
摘要: 翻译其实是没有一个标准答案的,只能最终提供一个参考答案。所以评估结果是依据参考答案得出来的 常用的评估:BLEU: 判断翻译结果中,所有的N元祖,和标准答案N元祖之间的重合度 通常计算精确度是计算1~4元的 添加一个惩罚项penalty,当输出长度比参考的长度长的时候系数取1;当输出比参考短的时候, 阅读全文
posted @ 2018-06-05 11:48 Josie_chen 阅读(177) 评论(0) 推荐(0) 编辑
摘要: 两两组合看有多少种对齐方式列举成一棵树。 然后从头开始组成一句话。但是如果想要穷尽所有情况是一个NP难问题,没有办法实现,因此只能采取最优路径搜索。 例如,下面提到的beam search算法可以很优秀地进行路径查找。此方法在谷歌NN翻译的解码阶段也有采用。 Find Best Path:找最优路径 阅读全文
posted @ 2018-06-05 11:20 Josie_chen 阅读(194) 评论(0) 推荐(0) 编辑
摘要: 将很长的短语对进行拆分,来进行计算。 有时一个中文的词会对应好几个英文(一对多),因此才在抽取短语的时候需要满足“一致性要求”。 阅读全文
posted @ 2018-06-05 11:07 Josie_chen 阅读(232) 评论(0) 推荐(0) 编辑
摘要: 统计翻译模型核心就是基于短语的翻译(短语与短语的对应)。 上一讲中词到词的对应就是为了短语对应做铺垫。 一致性短语需要满足三个条件: 条件1:如果“北京 房价”对应的英文短语中包含“北京”、“房价”分别对应的英文单词(原因是在词对齐的时候,可以发现有很多轮空的.) 条件2: 以目标语言为基础,不同目 阅读全文
posted @ 2018-06-05 10:00 Josie_chen 阅读(513) 评论(0) 推荐(0) 编辑

导航