n-gram
用过n-gram但没用好,所以改行了。没事瞎琢磨的:
n-门问题用来面试不坏。
什么叫句子的概率?设一个语言有10个句子,某个句子100%属于这个语言,P(该句子)=0.1而不是1,因为还有别的句子呢,句子们的概率和是1. 不过在比较句子的概率时,可以大家都放大一个倍数,免得一堆小数字乘到最后成了0.
P(A) * P(B|A) = P(AB) = P(B) * P(A|B),我们好像只用了半个式子?如果offline处理corpus和online用时都for i = n to 1 step -1,再加上现有的for (i = 0; i < n; i++),就算用全了吧。动量mv是笛卡尔发明的,一开始他没有考虑方向,惠更斯想到了速度是矢量。也许我们用的是矢量概率,语言不等于言语。
长句子比短句子吃亏,因为多乘了一堆0.x?如果乘了一堆1,不吃亏。P(中国)比P(中国人)大合理,因为有想象空间,再说言多必失。P(中国)=P(中国人), P(中国情)情何以堪。概率分布,分1这个蛋糕。
search(22nd International Conference on Computational Linguistics, Advanced Dynamic Programming in Computational Linguistics: Theory, Algorithms and Applications, Tutorial note),
This work received the outstanding paper award at ACL 2008 and a best paper award nomination at ACL 2007.
ABCDEFG,AB,BC这样的bi-gram加上AC, CE这样的bi-gram,再加上AD,DG这样的,比tri-gram小,好像有人试过了,效果不咋滴。
如何判断一个数是不是平方数?好像用集合最快。最惠墒模型:3-gram的痛点: 非常多,内存里的表格存不下。遇到XYZ你不敢丢,因为它可能最后次数很多。统计完发现XYZ出现了1次,这是多么痛的发现。:-) What if我们先在内存里统计2-gram,运气好的话XY只出现了1~2次。然后3-gram,XYZ是从天上掉下来的吗?没有XY会有XYZ吗?查下2-gram发现XY很少,于是XYZ可以安全地丢掉,于是3-gram可以用单机内存里的表格统计。与巨大熵相比,我们这个墒字是土字边的。
IBM Z15 T01: 190 CPUs, 5.2G主频, 14nm, 40TB memory. 14nm咋跑到5.2G主频的?还190个?泡在液氮里?
JIC: Just in time Compression. 2-gram只保留高频的。hash. GNU perfect hash. 3-gram:
if table is too big: if not XY is high-freq-2-gram and count < epsilon: discard