bonelee - 博客园

2017年2月15日

Facebook的实时流处理技术——Scuba是Facebook的一个非常快速、分布式的内存数据库，用于实时分析和查询

摘要： Scuba，Facebook的一个非常快速、分布式的内存数据库，用于实时分析和查询。是Facebook的回归分析代码、错误报告监控、广告收入监控和性能调试的背后主力。 Facebook的实时流处理技术随着云计算大数据的发展，有越来越多的场景需要借助于实时数据处理技术，为此有很多公司开发了自己的实时阅读全文

posted @ 2017-02-15 12:29 bonelee 阅读(3269) 评论(0) 推荐(0)

2017年2月14日

孕期出血是否先兆流产——B超看婴儿是否在子宫内+hcg值是否过低孕激素不足

摘要：转自：http://blog.sina.com.cn/s/blog_4a869c130102e7nu.html 很多人都经历过孕早期阴道出血，但结局大不一样。人类受孕后，从一个单细胞逐渐发育成为一个活蹦乱跳的婴儿是一个很复杂的生理过程，首先要有健康的精子、健康的卵子才能够有健康的受精卵。受精卵在很阅读全文

posted @ 2017-02-14 16:24 bonelee 阅读(1222) 评论(0) 推荐(0)

ES里设置索引中倒排列表仅仅存文档ID——采用docs存储后可以降低pos文件和cfs文件大小

摘要： index_options index_options The index_options parameter controls what information is added to the inverted index, for search and highlighting purposes 阅读全文

posted @ 2017-02-14 14:39 bonelee 阅读(647) 评论(2) 推荐(0)

lucene IndexOptions可以设置DOCS_AND_FREQS_AND_POSITIONS_AND_OFFSETS DOCS，ES里也可以设置

摘要： org.apache.lucene.index Enum Constants Enum Constant and Description DOCS_AND_FREQS Only documents and term frequencies are indexed: positions are omi 阅读全文

posted @ 2017-02-14 14:28 bonelee 阅读(2368) 评论(1) 推荐(0)

护照办理流程——依赖1、身份证（原件+复印件）；2、户口分首页（可以只有复印件）；3、户口本个人信息页（原件+复印件）；4、暂住证（原件+复印件）；5、二寸免冠照片一张（这里可以有其他选择，后面解释）；6、人民币200

摘要：转自：https://www.zhihu.com/question/21207457/answer/91446518 刚刚在京办理完护照（户口在深圳），最新最简流程~哈哈如果有北京户口就简单了，带上身份证直接去出入境大厅直接办理就OK，周一到周五不用预约，周六需要预约。不是北京户口，要分三步：办理北阅读全文

posted @ 2017-02-14 13:17 bonelee 阅读(1756) 评论(0) 推荐(0)

南充市顺庆区护照办理地点——15个工作日，必须本人到场

摘要：南充市顺庆区护照办理地点_流程_费用_所需资料_咨询电话转自：http://www.qimaren.com/huzhaobanli/sichuan/nanchong/c72.html 南充市顺庆区金泉路300号（南充市公安局出入境接待大厅）地图公交线路：11、21、26路公交，到“金泉路”下车阅读全文

posted @ 2017-02-14 12:08 bonelee 阅读(5426) 评论(0) 推荐(0)

ES索引文件和数据文件大小对比——splunk索引文件大小远小于ES，数据文件的压缩比也较ES更低，有趣的现象：ES数据文件zip压缩后大小和splunk的数据文件相当！词典文件tim/tip+倒排doc/pos和cfs文件是索引的大头

摘要：和splunk对比： ES中各个倒排索引文件的分布：测试说明：ES2.41版本，数据使用500次批量插入，每批数据都不同，大小500条，每条数据50个字段，对应的字符串使用长度为1-10个单词随机生成！阅读全文

posted @ 2017-02-14 10:44 bonelee 阅读(2421) 评论(0) 推荐(0)

2017年2月13日

Lucene4.2源码解析之fdt和fdx文件的读写(续)——fdx文件存储一个个的Block，每个Block管理着一批Chunk，通过docID读取到document需要完成Segment、Block、Chunk、document四级查询，引入了LZ4算法对fdt的chunk docs进行了实时压缩/解压

摘要： 2 索引读取阶段当希望通过一个DocId得到Doc的全部内容，那么就需要对fdx/fdt文件进行读操作了。具体的代码在CompressingStoredFieldsReader类里面。与CompressingStoredFieldsWriter一样，这些操作都是建立在fdx/fdt文件格式理解的基阅读全文

posted @ 2017-02-13 20:14 bonelee 阅读(824) 评论(0) 推荐(0)

Lucene4.2源码解析之fdt和fdx文件的读写——fdx文件存储一个个的Block，每个Block管理着一批Chunk，通过docID读取到document需要完成Segment、Block、Chunk、document四级查询，引入了LZ4算法对fdt的chunk docs进行了实时压缩/解压

摘要：前言前言前言通常在搜索打分完毕后，IndexSearcher会返回一个docID序列，但是仅仅有docID我们是无法看到存储在索引中的document,这时候就需要通过docID来得到完整Document信息，这个过程就需要对fdx/fdt文件进行读操作。为了更清楚地了解fdx/fdt文件的作阅读全文

posted @ 2017-02-13 20:13 bonelee 阅读(1330) 评论(0) 推荐(0)

lucene反向索引——倒排表无论是文档号及词频，还是位置信息，都是以跳跃表的结构存在的

摘要：转自：http://www.cnblogs.com/forfuture1978/archive/2010/02/02/1661436.html 4.2. 反向信息反向信息是索引文件的核心，也即反向索引。反向索引包括两部分，左面是词典(Term Dictionary)，右面是倒排表(Posting 阅读全文

posted @ 2017-02-13 18:08 bonelee 阅读(1800) 评论(0) 推荐(1)

将者，智、信、仁、勇、严也。

Hi，我是李智华，华为-安全AI算法专家，欢迎来到安全攻防对抗的有趣世界。

公告