上一页 1 ··· 209 210 211 212 213 214 215 216 217 ··· 270 下一页
摘要: As you can see, hadoop fsck and hadoop fs -dus report the effective HDFS storage space used, i.e. they show the “normal” file size (as you would see o 阅读全文
posted @ 2017-06-07 10:50 bonelee 阅读(1776) 评论(0) 推荐(0) 编辑
摘要: sudo pip install -U pyyaml nltk 搞不定,必须代理: Installing via a proxy web server¶ If your web connection uses a proxy server, you should specify the proxy 阅读全文
posted @ 2017-06-03 13:36 bonelee 阅读(795) 评论(0) 推荐(0) 编辑
摘要: 注意:同时将原始数据放在DB里,ES里通过doc id去DB里获取。_all搜索时候使用cross_fields。.tim文件较大,可以采用降低shard个数来瘦身。 总之,上述设置后可以将es的索引数据磁盘占用降低为原始数据的50%以内。 阅读全文
posted @ 2017-06-02 16:52 bonelee 阅读(2028) 评论(1) 推荐(0) 编辑
摘要: 结果: total size, ['.doc', '.pos', '.tim', '.tip', '.dvd', '.dvm', '.fdt', '.fdx', '.fnm', '.nvd', '.nvm']1317898783 , 151402808 , 49137369 , 301883415 阅读全文
posted @ 2017-06-02 10:54 bonelee 阅读(1246) 评论(0) 推荐(0) 编辑
摘要: 什么是时序数据库 先来介绍什么是时序数据。时序数据是基于时间的一系列的数据。在有时间的坐标中将这些数据点连成线,往过去看可以做成多纬度报表,揭示其趋势性、规律性、异常性;往未来看可以做大数据分析,机器学习,实现预测和预警。 时序数据库就是存放时序数据的数据库,并且需要支持时序数据的快速写入、持久化、 阅读全文
posted @ 2017-06-01 15:10 bonelee 阅读(4631) 评论(6) 推荐(0) 编辑
摘要: 从应用角度看,需大数据平台提供如下4项安全功能: 图1 大数据平台安全功能 1、边界——限制只有合法用户身份的用户访问大数据平台集群 (1) 用户身份认证:关注于控制外部用户或者第三方服务对集群的访问过程中的身份鉴别,这是实施大数据平台安全架构的基础;用户在访问启用了安全认证的集群时,必须能通过服务 阅读全文
posted @ 2017-05-26 17:06 bonelee 阅读(7961) 评论(2) 推荐(0) 编辑
摘要: 看了下压缩算法的发展历史,根据倒排索引的数据结构特点,个人认为zstd不适合做倒排索引压缩,举例说明下: 假设有一份文档倒排列表为:[300, 302, 303, 332],对于这组倒排数据,是没法***直接***采用zstd这类字典压缩算法的,因为里面没有重复数据(字典压缩通常重复数据较多,例如一 阅读全文
posted @ 2017-05-25 15:25 bonelee 阅读(1154) 评论(0) 推荐(0) 编辑
摘要: 引言 无损压缩算法可行的基本原理是,任意一个非随机文件都含有重复数据,这些重复数据可以通过用来确定字符或短语出现概率的统计建模技术来压缩。统计模型可以用来为特定的字符或者短语生成代码,基于它们出现的频率,配置最短的代码给最常用的数据。这些技术包括熵编码(entropy encoding),游程编码( 阅读全文
posted @ 2017-05-25 15:00 bonelee 阅读(2863) 评论(0) 推荐(0) 编辑
摘要: Unary Arithmetic Asymmetric Numeral Systems Golomb Huffman Adaptive Canonical Modified Range Shannon Shannon–Fano Shannon–Fano–Elias Tunstall Universa 阅读全文
posted @ 2017-05-25 14:57 bonelee 阅读(1219) 评论(0) 推荐(0) 编辑
摘要: LMDB基本架构 lmdb的基本架构如下: lmdb的基本做法是使用mmap文件映射,不管这个文件存储实在内存上还是在持久存储上。lmdb的所有读取操作都是通过mmap将要访问的文件只读的映射到虚拟内存中,直接访问相应的地址.因为使用了read-only的mmap,同样避免了程序错误将存储结构写坏的 阅读全文
posted @ 2017-05-24 17:57 bonelee 阅读(5200) 评论(0) 推荐(0) 编辑
上一页 1 ··· 209 210 211 212 213 214 215 216 217 ··· 270 下一页