上一页 1 ··· 245 246 247 248 249 250 251 252 253 ··· 273 下一页
摘要: RethinkDB是什么? RethinkDB是新一代的面向文档的数据库存储管理系统,原本是MySQL中针对SSD优化的一个存储引擎,后来脱离了MySQL成为了独立的系统。 数据如何存储在磁盘上? 数据组织成B-Tree,且使用为rethinkdb定制的log-structured形式的存储引擎存储 阅读全文
posted @ 2017-02-13 09:36 bonelee 阅读(1360) 评论(0) 推荐(0)
摘要: DB目录总大小:2468MB 所有buckets的meta信息在.bucketManifest文件里: id,path,"raw_size","event_count","host_count","source_count","sourcetype_count","size_on_disk",mod 阅读全文
posted @ 2017-02-09 13:37 bonelee 阅读(479) 评论(0) 推荐(0)
摘要: Poseidon 系统是一个日志搜索平台,可以在百万亿条、100PB 大小的日志数据中快速分析和检索。360 公司是一个安全公司,在追踪 APT(高级持续威胁)事件,经常需要在海量的历史日志数据中检索某些信息,例如某个恶意样本在某个时间段内的活动情况。在 Poseidon 系统出现之前,都是写 Ma 阅读全文
posted @ 2017-02-09 12:11 bonelee 阅读(790) 评论(0) 推荐(0)
摘要: 了解如何解放你内心的自然领袖,从你的内心而非你的自我来领导你自己 获得真正的发自内心的信心,激发忠诚 当你真正实现自我价值的时候,练习自我同情 激发你创造者的本性 真正地享受工作和你给世界带来的价值 Michael Anderson在他的著作《以魂为中心的领导力》一书中介绍了如何通过与灵魂交流,发展 阅读全文
posted @ 2017-02-09 11:54 bonelee 阅读(291) 评论(0) 推荐(0)
摘要: Twitter工程团队近期提供了Twitter核心技术的演进和扩展的详细资料,这些核心技术支撑了Twitter自营数据中心的系统架构,用于提供社会媒体服务。他们分享的关键经验包括:超越原始规格和需求进行系统架构,并在流量趋向设计容量上限时迅速做出大刀阔斧的改进;不存在所谓的“临时更改或变通方案”,因 阅读全文
posted @ 2017-02-09 09:30 bonelee 阅读(414) 评论(0) 推荐(0)
摘要: 分布式流处理是对无边界数据集进行连续不断的处理、聚合和分析。它跟MapReduce一样是一种通用计算,但我们期望延迟在毫秒或者秒级别。这类系统一般采用有向无环图(DAG)。 DAG是任务链的图形化表示,我们用它来描述流处理作业的拓扑。如下图,数据从sources流经处理任务链到sinks。单机可以运 阅读全文
posted @ 2017-02-01 23:55 bonelee 阅读(8873) 评论(0) 推荐(0)
摘要: 简介 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。 在之前的文章中,我们曾经介绍过有关大数据系统的常规概念、处理过程,以及各种专门术 阅读全文
posted @ 2017-02-01 22:48 bonelee 阅读(3907) 评论(0) 推荐(1)
摘要: 转自:http://blog.csdn.net/lifuxiangcaohui/article/details/40588929 转自:http://blog.csdn.net/lifuxiangcaohui/article/details/40588929 Hive是基于Hadoop分布式文件系统 阅读全文
posted @ 2017-02-01 00:13 bonelee 阅读(10582) 评论(0) 推荐(0)
摘要: 转自:http://blog.csdn.net/wh_springer/article/details/51842496 近十年来,随着Hadoop生态系统的不断完善,Hadoop早已成为大数据事实上的行业标准之一。 1 Hive基本原理 Hadoop是一个流行的开源框架,用来存储和处理商用硬件上的 阅读全文
posted @ 2017-01-31 23:57 bonelee 阅读(2099) 评论(0) 推荐(0)
摘要: 准备数据 计算过程 默认设置了hive.map.aggr=true,所以会在mapper端先group by一次,最后再把结果merge起来,为了减少reducer处理的数据量。注意看explain的mode是不一样的。mapper是hash,reducer是mergepartial。如果把hive 阅读全文
posted @ 2017-01-31 23:21 bonelee 阅读(4063) 评论(0) 推荐(0)
上一页 1 ··· 245 246 247 248 249 250 251 252 253 ··· 273 下一页