摘要: 我们知道语言模型(Language Model, LM)实际上是对一种token序列的概率分布。例如对一个句子\(S = w_1, ... , w_t\),我们要估计这一个句子的概率,计算过程如下: \[ P(S) = P(w_1, ..., w_t) \\ =P(w_1, ..., w_{t-1} 阅读全文
posted @ 2024-01-15 20:28 Teddyonthebench 阅读(18) 评论(0) 推荐(0) 编辑