摘要: 贪心搜索(greedy search) 贪心搜索最为简单,直接选择每个输出的最大概率,直到出现终结符或最大句子长度。 集束搜索(beam search) 集束搜索可以认为是维特比算法的贪心形式,在维特比所有中由于利用动态规划导致当字典较大时效率低,而集束搜索使用beam size参数来限制在每一步保 阅读全文
posted @ 2019-04-28 18:04 山竹小果 阅读(946) 评论(0) 推荐(0) 编辑
摘要: 1、语料预处理 预处理的结果是生成双语分词之后的文件,该步需要注意的是对规则短语,比如数字、日期、网址等,进行泛化处理。可以用正则方法或者其它方法。注意日期中的点和外文人名中的点和网址中的点和句末标点要区分开来,数字和日期也要区分开来。 其中变化比较大的,比较难处理的,应该是中文的日期,因为它的格式 阅读全文
posted @ 2019-04-28 16:27 山竹小果 阅读(1975) 评论(0) 推荐(0) 编辑