摘要:
机制:select:只支持水平触发(数据不处理完无限通知)epoll:支持水平触发和边缘触发(仅通知一次)单进程监控FD个数select: 由FD_SETSIZE设置,默认值是2048。在大量连接的情况下明显不足。epoll: 和内存有关,1G内存10W个,一般都够用。内核监控事件的策略select... 阅读全文
摘要:
1 查询的总时间等于每个segment查询时间的总和2 合并的步骤 (1)做flush操作的先生成一个新的segment (2)检查在新segment之前已经存在的segment的数量是否大于maxmerge(默认是10个),大于了进行合并 (3)合并完成又会生成一个新的segment,然后把... 阅读全文
摘要:
昨天给公司同事们介绍了lucene相关度打分的公式,大家提到了一个问题,总感觉用相关度排序的时候,lucene会把查询关键字相邻紧密的doc排在前面,但是打分公式里面却没提到过这个因素,所以我现在来验证下查询词的紧密程度是否会影响打分。局部代码添加doc程序1 设置lucene保存field的所有信... 阅读全文
摘要:
Lucene Vint压缩策略是,用每个字节的最高位做标志位,后7位为有效算术位,如果标志位为1,则说明后一个字节和当前字节是同一个数字,为0说明后一个字节是一个新的数字Lucene源代码中进行存储和读取是这样的。OutputStream是负责写:1/**Writesanintinavariable... 阅读全文
摘要:
30定律:出现频率最高的30个词占全文本总词数的30%如果剔除150个最高频率的词(由于df过大被认为是停用词):倒排表记录总个数会减少25-30%Zipf定律: 在自然语料库中所有term的freq(频度)排名和其freq(频度)的乘积大致是一个常数freq_NO1 *1 =freq_NO2 *2... 阅读全文
摘要:
指的是多种成分均匀分布的情况,如果成分分布越均匀,则熵越高,相反则熵越低物理学比如某个物体由多个事物组成,如果各事物所占质量比重均匀,则质量熵就高概率学比如掷色子有6种结果,如果各结果的概率是一样的,则概率熵就高自然语言比如一个term和多个term都有搭配在一起出现的记录,如果各term出现的次数... 阅读全文
摘要:
两个field,一个是KFC数据 一个列放的内容是“same”每条数据都flushSLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".SLF4J: Defaulting to no-operation (NOP) logge... 阅读全文
摘要:
一、errno的由来 在C编程中,errno是个不可缺少的变量,特别是在网络编程中。如果你没有用过errno,那只能说明你的程序不够健壮。当然,如果你是WIN32平台的GetLastError(),效果也是一样的。 为什么会使用errno呢?个人认为,这是系统库设计中的一个无奈之举,他更多的是个技巧... 阅读全文
摘要:
1 和lucene一样 支持全域索引2 对字符串域提供全文检索,对数字类型域提供范围查询3 采取和lucene类似的倒排表压缩方式4 和lucene的多级跳转表不同,egg采取的是B+树做索引,这种数据结构在应付大数量的存储上面更加适合。5 和lucene不一样, egg不仅仅是个全文检索引擎包,采... 阅读全文
摘要:
167274doc 单字分词全压缩时间real 15m58.464suser 13m52.157ssys 2m3.445s空间tmpfs 12G 1.5G 11G 13% /ape/eqltmpfs-rw-rw-rw-. 1 ape ape 449M 9月 1 12:51 egg.dat-rw-rw... 阅读全文