语言统计学中的几个定律,可作为设计检索的参考
30定律:出现频率最高的30个词占全文本总词数的30%
如果剔除150个最高频率的词(由于df过大被认为是停用词):倒排表记录总个数会减少25-30%
Zipf定律: 在自然语料库中所有term的freq(频度)排名和其freq(频度)的乘积大致是一个常数
freq_NO1 * 1 = freq_NO2 * 2 = freq_NO3 * 3 = freq_NOn * N
那也就是说排名第二多的词的频度是第一多的一半,排名第三的词频度是第一的1/3,这样以此类推
heaps定律,在自然语料库中不重复term的个数和语料库数据量成指数关系
因为是指数关系,可以知道下面几个特征
1 文档数无限增大,不重复term的个数也不会趋于一个常数
2 随着文档数的增加,不重复term的增长率会有所下降,增长率渐渐趋于平稳
Benford law:在自然形成的十进制数据中,任何一个数据的第一个数字d出现的概率大致log10(1+1/d)
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步