白帆mvp - 博客园

2014年10月

摘要：机制：select:只支持水平触发（数据不处理完无限通知）epoll:支持水平触发和边缘触发（仅通知一次）单进程监控FD个数select: 由FD_SETSIZE设置，默认值是2048。在大量连接的情况下明显不足。epoll：和内存有关，1G内存10W个，一般都够用。内核监控事件的策略select... 阅读全文

posted @ 2014-10-19 14:02 白帆mvp 阅读(178) 评论(0) 推荐(0)

lucene合并测试的总结

摘要： 1 查询的总时间等于每个segment查询时间的总和2 合并的步骤（1）做flush操作的先生成一个新的segment （2）检查在新segment之前已经存在的segment的数量是否大于maxmerge（默认是10个），大于了进行合并（3）合并完成又会生成一个新的segment，然后把... 阅读全文

posted @ 2014-10-19 13:43 白帆mvp 阅读(250) 评论(0) 推荐(0)

验证相关度排序是否受查询的多个关键字在内容中相邻紧密程度有关

摘要：昨天给公司同事们介绍了lucene相关度打分的公式，大家提到了一个问题，总感觉用相关度排序的时候，lucene会把查询关键字相邻紧密的doc排在前面，但是打分公式里面却没提到过这个因素，所以我现在来验证下查询词的紧密程度是否会影响打分。局部代码添加doc程序1 设置lucene保存field的所有信... 阅读全文

posted @ 2014-10-19 13:36 白帆mvp 阅读(301) 评论(0) 推荐(0)

Lucene的Vint类型详解

摘要： Lucene Vint压缩策略是，用每个字节的最高位做标志位，后7位为有效算术位，如果标志位为1，则说明后一个字节和当前字节是同一个数字，为0说明后一个字节是一个新的数字Lucene源代码中进行存储和读取是这样的。OutputStream是负责写：1/**Writesanintinavariable... 阅读全文

posted @ 2014-10-19 13:33 白帆mvp 阅读(1365) 评论(0) 推荐(0)

语言统计学中的几个定律，可作为设计检索的参考

摘要： 30定律：出现频率最高的30个词占全文本总词数的30％如果剔除150个最高频率的词（由于df过大被认为是停用词）：倒排表记录总个数会减少25－30％Zipf定律：在自然语料库中所有term的freq（频度）排名和其freq（频度）的乘积大致是一个常数freq_NO1 *1 =freq_NO2 *2... 阅读全文

posted @ 2014-10-19 13:29 白帆mvp 阅读(503) 评论(0) 推荐(0)

熵的含义

摘要：指的是多种成分均匀分布的情况，如果成分分布越均匀，则熵越高，相反则熵越低物理学比如某个物体由多个事物组成，如果各事物所占质量比重均匀，则质量熵就高概率学比如掷色子有6种结果，如果各结果的概率是一样的，则概率熵就高自然语言比如一个term和多个term都有搭配在一起出现的记录，如果各term出现的次数... 阅读全文

posted @ 2014-10-19 13:28 白帆mvp 阅读(523) 评论(0) 推荐(0)

KFC数据测试hbase结果

摘要：两个field，一个是KFC数据一个列放的内容是“same”每条数据都flushSLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".SLF4J: Defaulting to no-operation (NOP) logge... 阅读全文

posted @ 2014-10-19 13:25 白帆mvp 阅读(455) 评论(0) 推荐(0)

errno多线程安全（转载）

摘要：一、errno的由来在C编程中，errno是个不可缺少的变量，特别是在网络编程中。如果你没有用过errno，那只能说明你的程序不够健壮。当然，如果你是WIN32平台的GetLastError()，效果也是一样的。为什么会使用errno呢？个人认为，这是系统库设计中的一个无奈之举，他更多的是个技巧... 阅读全文

posted @ 2014-10-19 13:24 白帆mvp 阅读(431) 评论(0) 推荐(0)

lucene和egg项目的异同点

摘要： 1 和lucene一样支持全域索引2 对字符串域提供全文检索，对数字类型域提供范围查询3 采取和lucene类似的倒排表压缩方式4 和lucene的多级跳转表不同，egg采取的是B+树做索引，这种数据结构在应付大数量的存储上面更加适合。5 和lucene不一样， egg不仅仅是个全文检索引擎包，采... 阅读全文

posted @ 2014-10-19 13:22 白帆mvp 阅读(182) 评论(0) 推荐(0)

关于egg的压缩测试报告

摘要： 167274doc 单字分词全压缩时间real 15m58.464suser 13m52.157ssys 2m3.445s空间tmpfs 12G 1.5G 11G 13% /ape/eqltmpfs-rw-rw-rw-. 1 ape ape 449M 9月 1 12:51 egg.dat-rw-rw... 阅读全文

posted @ 2014-10-19 13:21 白帆mvp 阅读(378) 评论(0) 推荐(0)

公告