n-gram

用过n-gram但没用好，所以改行了。没事瞎琢磨的：

n-门问题用来面试不坏。

什么叫句子的概率？设一个语言有10个句子，某个句子100%属于这个语言，P(该句子)=0.1而不是1，因为还有别的句子呢，句子们的概率和是1. 不过在比较句子的概率时，可以大家都放大一个倍数，免得一堆小数字乘到最后成了0.

P(A) * P(B|A) = P(AB) = P(B) * P(A|B)，我们好像只用了半个式子？如果offline处理corpus和online用时都for i = n to 1 step -1，再加上现有的for (i = 0; i < n; i++)，就算用全了吧。动量mv是笛卡尔发明的，一开始他没有考虑方向，惠更斯想到了速度是矢量。也许我们用的是矢量概率，语言不等于言语。

长句子比短句子吃亏，因为多乘了一堆0.x？如果乘了一堆1，不吃亏。P(中国)比P(中国人)大合理，因为有想象空间，再说言多必失。P(中国)=P(中国人), P(中国情)情何以堪。概率分布，分1这个蛋糕。

search(22nd International Conference on Computational Linguistics, Advanced Dynamic Programming in Computational Linguistics: Theory, Algorithms and Applications, Tutorial note),

This work received the outstanding paper award at ACL 2008 and a best paper award nomination at ACL 2007.

ABCDEFG，AB,BC这样的bi-gram加上AC, CE这样的bi-gram，再加上AD,DG这样的，比tri-gram小，好像有人试过了，效果不咋滴。

如何判断一个数是不是平方数？好像用集合最快。最惠墒模型：3-gram的痛点: 非常多，内存里的表格存不下。遇到XYZ你不敢丢，因为它可能最后次数很多。统计完发现XYZ出现了1次，这是多么痛的发现。:-) What if我们先在内存里统计2-gram，运气好的话XY只出现了1~2次。然后3-gram，XYZ是从天上掉下来的吗？没有XY会有XYZ吗？查下2-gram发现XY很少，于是XYZ可以安全地丢掉，于是3-gram可以用单机内存里的表格统计。与巨大熵相比，我们这个墒字是土字边的。

IBM Z15 T01: 190 CPUs, 5.2G主频, 14nm, 40TB memory. 14nm咋跑到5.2G主频的？还190个？泡在液氮里？

JIC: Just in time Compression. 2-gram只保留高频的。hash. GNU perfect hash. 3-gram:

if table is too big: if not XY is high-freq-2-gram and count < epsilon: discard

posted @ 2021-12-06 12:42 Fun_with_Words 阅读(66) 评论(0) 编辑收藏举报

刷新页面返回顶部

n-gram

公告