随笔分类 - 自然语言处理
摘要:1 #加法平滑技术(加1) 2 def additive_smoothing(data): 3 global sentence, d, probability_key_value 4 probability = 1 # 存储句子概率的中间变量。 5 output = data.split() 6 o
阅读全文
摘要:参考书籍:《统计自然语言处理》 宗成庆 一、问题的提出 平滑技术就是用来解决句子中出现零概率的问题,“平滑”处理的基本思想是“劫富济贫”,即提高低概率(零概率),降低高概率,尽量使概率的分布趋于实际水平。 二、几种数据平滑技术 1.加法平滑技术 是实际应用中最简单的一种平滑技术,上世纪前半叶由Lid
阅读全文
摘要:主要总结的内容:n元语法的基本概念 训练语料:用于构建语言模型的文本。(对于n元语法模型,使用的训练语料的规模一般要有几百万个词) 对于n>2的n元语法模型,条件概率中要考虑前面的n-1个词的概率。 (1-1) 句子S中包含L个基元(“基元”可以是字、词、短语等,在这里是“词”), 句子S=W1*W
阅读全文
摘要:一、题目要求 二、实验数据集 https://github.com/liweikuan123/-.git 三、python代码 function.py(对语料进行处理,生成用于构建二元语言模型和模拟输入法的中间文件) 1 import re 2 import jsonlines 3 4 5 # 训练
阅读全文
摘要:分屏查看文件more/lessmore分屏查看,空格按屏查看less支持按行上下键查看,空格按屏查看 grep 查找 //若想使用正则表达式, 需要 -E选项grep -E "nice" metadata.txt //正则表达式匹配metadata中,包含nice的行egrep "nice" met
阅读全文