班课4
1. non-word spelling errors
error指任何不在字典中的word,修正的方式是产生一系列候选名单,选择其中最好的
选择方式有两种,第一个是shortest weighted edit distance,另一个是highest noisy channel probability
第一个是判断从错误的单词到正确的单词所做出的大小幅度,第二种是是这个单词的概率是最高的
2. 针对第一种方法引入Damerau-Levenshtein edit distance,计算两个单词之间的距离
分别统计四种操作,分别是insertion、deletion、substitution替换、transposition of two adjacent letters相邻的交换顺序
3. 上面的第二种方法是计算candidates在文中出现的频率,选择出现频率最高的
4. channel model probability
P(x|w):给定w这个单词,对x进行修改的概率是多少
count即计算二者同时出现的次数
del[x,y]指计算xy被误写成x的次数,ins[x,y]指x被误写成xy的次数,sub[x,y]指计算x被误写成y的次数,trans[x,y]指xy被误写成yx的次数
5. noisy channel prob for acress即除了上面的概率,也要考虑单词出现在文章中的单词,即给P(x|w)乘以P(w)
6. Bigram language model:通过一系列单词,已知前一个,预测后一个单词出现的概率
P(a|b)*P(c|a)可理解为P(b a c)
7. real-word spelling errors:即单词被错写成另一个单词
对每一个单词产生一系列包含自己的candidate,分别计算,选择使整句话概率最高的句子
probability of no error:没有出现拼写错误的概率取决于application,即不修改的概率
需要修改的情况向刚才一样进行计算
0.90即10个单词出现一个错误,0.95即20个单词出现1个错误
8. 压缩优点
存放一个压缩的posting list,解压再使用比直接使用完整的要快
9. 压缩需要的两个定理
1)Heaps‘ Law:M = kT^b
用来衡量vocabulary与tokens的关系,tokens指文件中有多少单词,vocabulary是不包含重复的单词个数
通常k在30到100之间,b约等于0.5. 两边同时取log得到一个斜率为0.5的线性关系
2)Zipf's Law:频率的排名与频率的数值之间的关系,cfi=K/i
在frequency中排名第i的term,其出现的频率正比于i
举例来讲,若出现频率最高的单词出现了cf1次,则出现频率第二高的单词出现次数为cf1/2次,第三高的单词出现频率为cf1/3次
两边同时取log同样得到线性形式
10. 若是赋予每一个term一个20位的空间,对于没有这么长的单词会造成浪费,所以可以用dictionary-as-a string,将所有term连成一个string,将原始的term/posting pointer/frequency中的term替换成term pointer,pointer指向term开始的位置
则frequency 4bytes,posting 4bytes,term pointer 3 bytes,term平均8bytes,4+4+3+8=19,故而400K terms*19=7.6MB
若每个单词平均8bytes,字典里单词共400K个,则共有400K*8B=3.2MB。共需要的pointer数量为log以2为底3.2M的对数,即为3bytes。举例理解的话,若标记长度为7的字典,则7的表达为111,6为110。。。所需要的pointer个数用log求,就可以保证每个位置都有一个特殊的表示
11. 进一步压缩的话可以用blocking,即几个单词为一组形成block,四个term公用一个pointer
在每一个block里面增加表示后面几个字母代表一个单词的数字,如7代表后面7位属于同一个单词,从而减少空间的占用
这里的4只是一个合理值,如果整个string都作为一个block,可能检索的速度会非常慢(非blocking是tree所以速度较快,blocking会减慢速度)
从前没有blocking的时候,以block size为4而言,pointer所需要的空间为3*4=12bytes,但是现在不需要pointer,只需要增加表示位数的数字,即3+4=7bytes
12. 同一个block里面的term长得会很相似,所以可以进行front encoding
如第一个单词是auto,第二个单词是automata,我们将其改写为4,4,mata;即使用上面的4个字母,后面还有4个,为mata
下一个单词为automate,我们将其改为7,1 ,e,即为使用第二个单词的前面7个,即automat,后面还有一个字母e
partial 3 in 4 front encoding即对第一个以及最后一个单词进一步进行优化,因为第一个不需要前面信息,最后一个不需要知道后面有几位
13. 对于一些很罕见的单词,posting list会很短,所以term本身多占用一些空间没有关系,但是如the这种常见的,posting list会很长
第一种解决方法是using gap,即记录posting list的时候除了第一个的位置,后面的都是与前一个的差值,这样做的好处是将数值减小
对gap的压缩可以根据不同的单词采取不同压缩方法,如很罕见的单词可以用20 bits entry,而对于the这种常见的可以用1 bit entry
对于普通的单词,如果平均的gap是G,我们的gap entry就是log2G
variable length encoding指先转化为16进制,再将转化后的每一位数转化为2进制,然后相加。因为每行最多七位,所以从后往前数7位并在前面增加1表示code的最后一行,然后接着数7位,不到7位数字的用0补在前面,然后在前面加0表示不是code的最后一行如824为例
解码的时候注意补位的0,1不算。每行开头的0跟1相当于flag
14. simple9包含4位的selector以及28位的data bits
遇到一串gap的时候,计算gap最大的那个对应需要的编码数,查找对应的表格找到selector。data bits最多28个,每一段编码数固定,所以可能出现浪费1bit的情况
15. unary code
数字是几就是几个1,后面添加一个0,如3就是1110。0可以很好的对空间进行划分
16. Elias Gamma Code
Kd同时代表后面的Kr的位数
如255的Kd是7,用unary表示为11111110,同时7代表后面有7位,表示成127
解码很方便,从开始到第一个0都是Kd
17. 继续压缩的方法有Elias Delta code
因为Kd很大时,unary code会很长,方法是得到Kd与Kr之后,将Kd继续转化为Kdd与Krr
unary是控制长度的,即需要解码两次以缩短长度
18. Golomb code
定义一个参数b,首先假设其为2的k次方,根据公式求出q与r
因为r比b小,b需要k位,所以r也需要k位
q用unary表示,r用binary
b的选择比较好的是gap的均值*0.69。如果直接计算出来的数值就作为我们的b,这种方法是Golomb code,而rice code要求向下取整到2的次方
粉色框里的计算就是因式分解