2017 年 2月 13 日随笔档案 - bonelee

2017年2月13日

Lucene4.2源码解析之fdt和fdx文件的读写(续)——fdx文件存储一个个的Block，每个Block管理着一批Chunk，通过docID读取到document需要完成Segment、Block、Chunk、document四级查询，引入了LZ4算法对fdt的chunk docs进行了实时压缩/解压

摘要： 2 索引读取阶段当希望通过一个DocId得到Doc的全部内容，那么就需要对fdx/fdt文件进行读操作了。具体的代码在CompressingStoredFieldsReader类里面。与CompressingStoredFieldsWriter一样，这些操作都是建立在fdx/fdt文件格式理解的基阅读全文

posted @ 2017-02-13 20:14 bonelee 阅读(780) 评论(0) 推荐(0) 编辑

Lucene4.2源码解析之fdt和fdx文件的读写——fdx文件存储一个个的Block，每个Block管理着一批Chunk，通过docID读取到document需要完成Segment、Block、Chunk、document四级查询，引入了LZ4算法对fdt的chunk docs进行了实时压缩/解压

摘要：前言前言前言通常在搜索打分完毕后，IndexSearcher会返回一个docID序列，但是仅仅有docID我们是无法看到存储在索引中的document,这时候就需要通过docID来得到完整Document信息，这个过程就需要对fdx/fdt文件进行读操作。为了更清楚地了解fdx/fdt文件的作阅读全文

posted @ 2017-02-13 20:13 bonelee 阅读(1264) 评论(0) 推荐(0) 编辑

lucene反向索引——倒排表无论是文档号及词频，还是位置信息，都是以跳跃表的结构存在的

摘要：转自：http://www.cnblogs.com/forfuture1978/archive/2010/02/02/1661436.html 4.2. 反向信息反向信息是索引文件的核心，也即反向索引。反向索引包括两部分，左面是词典(Term Dictionary)，右面是倒排表(Posting 阅读全文

posted @ 2017-02-13 18:08 bonelee 阅读(1753) 评论(0) 推荐(1) 编辑

lucene正向索引（续）——一个文档的所有filed+value都在fdt文件中！！！

摘要： 4.1.3. 域(Field)的数据信息(.fdt，.fdx) 域数据文件(fdt): 真正保存存储域(stored field)信息的是fdt文件在一个段(segment)中总共有segment size篇文档，所以fdt文件中共有segment size个项，每一项保存一篇文档的域的信息对于阅读全文

posted @ 2017-02-13 18:00 bonelee 阅读(785) 评论(0) 推荐(0) 编辑

Choosing a fast unique identifier (UUID) for Lucene——有时间再看下

摘要： Most search applications using Apache Lucene assign a unique id, or primary key, to each indexed document. While Lucene itself does not require this ( 阅读全文

posted @ 2017-02-13 17:34 bonelee 阅读(457) 评论(0) 推荐(0) 编辑

Lucene核心数据结构——FST存词典，跳表存倒排或者roarning bitmap 见另外一个文章

摘要： Lucene实现倒排表没有使用bitmap，为了效率，lucene使用了一些策略，具体如下：1. 使用FST保存词典，FST可以实现快速的Seek，这种结构在当查询可以表达成自动机时(PrefixQuery、FuzzyQuery、RegexpQuery等)效率很高。(可以理解成自动机取交集)此种场景阅读全文

posted @ 2017-02-13 16:43 bonelee 阅读(11123) 评论(0) 推荐(0) 编辑

lucene正向索引（续）——域(Field)的元数据信息在.fnm里，在倒排表里，利用跳跃表，有利于大大提高搜索速度。

摘要： 4.1.2. 域(Field)的元数据信息(.fnm) 一个段(Segment)包含多个域，每个域都有一些元数据信息，保存在.fnm文件中，.fnm文件的格式如下： FNMVersion 是fnm文件的版本号，对于Lucene 2.9为-2 FieldsCount 域的数目一个数组的域(Field 阅读全文

posted @ 2017-02-13 16:11 bonelee 阅读(843) 评论(0) 推荐(0) 编辑

lucene正向索引（续）——每次commit会形成一个新的段，段"_1"的域和词向量信息可能存在"_0.fdt"和"_0.fdx”中

摘要： DocStoreOffset DocStoreSegment DocStoreIsCompoundFile 对于域(Stored Field)和词向量(Term Vector)的存储可以有不同的方式，即可以每个段(Segment)单独存储自己的域和词向量信息，也可以多个段共享域和词向量，把它们存储到阅读全文

posted @ 2017-02-13 15:54 bonelee 阅读(903) 评论(0) 推荐(0) 编辑

lucene正向索引——正向信息，Index –> Segments (segments.gen, segments_N) –> Field(fnm, fdx, fdt) –> Term (tvx, tvd, tvf)

摘要：转自：http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623599.html 上面曾经交代过，Lucene保存了从Index到Segment到Document到Field一直到Term的正向信息，也包括了从Term到Document映阅读全文

posted @ 2017-02-13 15:29 bonelee 阅读(1000) 评论(0) 推荐(0) 编辑

lucene索引文件格式

摘要：学习lucene索引文件格式的目的是通过对lucene数据结构的理解，从而为lucene索引实现打下基础。索引文件的整体结构如下图，这是整个索引文件的整体结构，可以看到，实际上lucene索引保存下了相当多的东西但是，单从上面的文件罗列，很难看出来一个整体的结构，那么，接下来这张图就向我们展示阅读全文

posted @ 2017-02-13 15:21 bonelee 阅读(4340) 评论(0) 推荐(0) 编辑

深度解读Facebook刚开源的beringei时序数据库——数据压缩delta of delta+充分利用内存以提高性能

摘要：转自：https://yq.aliyun.com/topic/58?spm=5176.100239.blogcont69354.9.MLtp4T 摘要： Facebook最近开源了beringei时序数据库，其是用来解决其内部监控数据存储和查询需求的数据库，特点是读写速度快。beringei在压缩算阅读全文

posted @ 2017-02-13 10:35 bonelee 阅读(3141) 评论(0) 推荐(0) 编辑

Facebook开源时间序列内存数据库Beringei，追求极致压缩率——如果是int根据大多数时间序列中的值与相邻数据点相比并没有显著的变化，只要使用XOR将当前值与先前值进行比较，然后存储发生变化的比特。最终，该算法将整个数据集至少压缩了90%

摘要：转自：http://www.infoq.com/cn/news/2017/02/Facebook-Beringei 2017年2月3日，Facebook宣布将开源他们的高性能时序数据存储引擎Beringer。Beringei是用来解决其内部监控数据存储和查询需求的数据库，其特点是读写速度快，属于内存阅读全文

posted @ 2017-02-13 10:32 bonelee 阅读(1652) 评论(0) 推荐(1) 编辑

rethinkDB python入门

摘要： Start the server For a more detailed look, make sure to read the quickstart. $ rethinkdb Import the driver First, start a Python shell: $ python Then, 阅读全文

posted @ 2017-02-13 09:51 bonelee 阅读(1679) 评论(0) 推荐(0) 编辑

RethinkDB是什么？—— 面向文档的NOSQL数据库，MVCC+Btree索引，pushes JSON to your apps in realtime采用push思路，优化的ssd存储

摘要： RethinkDB是什么？ RethinkDB是新一代的面向文档的数据库存储管理系统，原本是MySQL中针对SSD优化的一个存储引擎，后来脱离了MySQL成为了独立的系统。数据如何存储在磁盘上？数据组织成B-Tree，且使用为rethinkdb定制的log-structured形式的存储引擎存储阅读全文

posted @ 2017-02-13 09:36 bonelee 阅读(1318) 评论(0) 推荐(0) 编辑

将者，智、信、仁、勇、严也。

Hi，我是李智华，华为-安全AI算法专家，欢迎来到安全攻防对抗的有趣世界。

公告