bonelee - 博客园

2017年2月13日

RethinkDB是什么？—— 面向文档的NOSQL数据库，MVCC+Btree索引，pushes JSON to your apps in realtime采用push思路，优化的ssd存储

摘要： RethinkDB是什么？ RethinkDB是新一代的面向文档的数据库存储管理系统，原本是MySQL中针对SSD优化的一个存储引擎，后来脱离了MySQL成为了独立的系统。数据如何存储在磁盘上？数据组织成B-Tree，且使用为rethinkdb定制的log-structured形式的存储引擎存储阅读全文

posted @ 2017-02-13 09:36 bonelee 阅读(1360) 评论(0) 推荐(0)

2017年2月9日

slplunk原始数据和索引数据大小比较

摘要： DB目录总大小：2468MB 所有buckets的meta信息在.bucketManifest文件里： id,path,"raw_size","event_count","host_count","source_count","sourcetype_count","size_on_disk",mod 阅读全文

posted @ 2017-02-09 13:37 bonelee 阅读(479) 评论(0) 推荐(0)

Poseidon 系统是一个日志搜索平台——认证看链接ppt，本质是索引的倒排列表和原始日志数据都存在HDFS，而文档和倒排的元数据都在NOSQL里，同时针对单个filed都使用了独立索引，使用MR来索引和搜索

摘要： Poseidon 系统是一个日志搜索平台，可以在百万亿条、100PB 大小的日志数据中快速分析和检索。360 公司是一个安全公司，在追踪 APT（高级持续威胁）事件，经常需要在海量的历史日志数据中检索某些信息，例如某个恶意样本在某个时间段内的活动情况。在 Poseidon 系统出现之前，都是写 Ma 阅读全文

posted @ 2017-02-09 12:11 bonelee 阅读(790) 评论(0) 推荐(0)

解放你内心的自然领袖，从你的内心而非你的自我来领导你自己

摘要：了解如何解放你内心的自然领袖，从你的内心而非你的自我来领导你自己获得真正的发自内心的信心，激发忠诚当你真正实现自我价值的时候，练习自我同情激发你创造者的本性真正地享受工作和你给世界带来的价值 Michael Anderson在他的著作《以魂为中心的领导力》一书中介绍了如何通过与灵魂交流，发展阅读全文

posted @ 2017-02-09 11:54 bonelee 阅读(291) 评论(0) 推荐(0)

Twitter的支撑架构：扩展网络与存储并提供服务——架构原则：一次性将事情做对，NFL原则 LSM+B+存储替代cassandra

摘要： Twitter工程团队近期提供了Twitter核心技术的演进和扩展的详细资料，这些核心技术支撑了Twitter自营数据中心的系统架构，用于提供社会媒体服务。他们分享的关键经验包括：超越原始规格和需求进行系统架构，并在流量趋向设计容量上限时迅速做出大刀阔斧的改进；不存在所谓的“临时更改或变通方案”，因阅读全文

posted @ 2017-02-09 09:30 bonelee 阅读(414) 评论(0) 推荐(0)

2017年2月1日

大数据框架对比：Hadoop、Storm、Samza、Spark和Flink--容错机制（ACK，RDD，基于log和状态快照），消息处理at least once，exactly once两个是关键

摘要：分布式流处理是对无边界数据集进行连续不断的处理、聚合和分析。它跟MapReduce一样是一种通用计算，但我们期望延迟在毫秒或者秒级别。这类系统一般采用有向无环图(DAG)。 DAG是任务链的图形化表示，我们用它来描述流处理作业的拓扑。如下图，数据从sources流经处理任务链到sinks。单机可以运阅读全文

posted @ 2017-02-01 23:55 bonelee 阅读(8873) 评论(0) 推荐(0)

大数据框架对比：Hadoop、Storm、Samza、Spark和Flink——flink支持SQL，待看

摘要：简介大数据是收集、整理、处理大容量数据集，并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限，但这种计算类型的普遍性、规模，以及价值在最近几年才经历了大规模扩展。在之前的文章中，我们曾经介绍过有关大数据系统的常规概念、处理过程，以及各种专门术阅读全文

posted @ 2017-02-01 22:48 bonelee 阅读(3907) 评论(0) 推荐(1)

Hive数据导入——数据存储在Hadoop分布式文件系统中，往Hive表里面导入数据只是简单的将数据移动到表所在的目录中！

摘要：转自：http://blog.csdn.net/lifuxiangcaohui/article/details/40588929 转自：http://blog.csdn.net/lifuxiangcaohui/article/details/40588929 Hive是基于Hadoop分布式文件系统阅读全文

posted @ 2017-02-01 00:13 bonelee 阅读(10583) 评论(0) 推荐(0)

2017年1月31日

Hive数据分析——Spark是一种基于rdd（弹性数据集）的内存分布式并行处理框架，比于Hadoop将大量的中间结果写入HDFS，Spark避免了中间结果的持久化

摘要：转自：http://blog.csdn.net/wh_springer/article/details/51842496 近十年来，随着Hadoop生态系统的不断完善，Hadoop早已成为大数据事实上的行业标准之一。 1 Hive基本原理 Hadoop是一个流行的开源框架，用来存储和处理商用硬件上的阅读全文

posted @ 2017-01-31 23:57 bonelee 阅读(2099) 评论(0) 推荐(0)

Hive group by实现-就是word 统计

摘要：准备数据计算过程默认设置了hive.map.aggr=true，所以会在mapper端先group by一次，最后再把结果merge起来，为了减少reducer处理的数据量。注意看explain的mode是不一样的。mapper是hash，reducer是mergepartial。如果把hive 阅读全文

posted @ 2017-01-31 23:21 bonelee 阅读(4063) 评论(0) 推荐(0)

将者，智、信、仁、勇、严也。

Hi，我是李智华，华为-安全AI算法专家，欢迎来到安全攻防对抗的有趣世界。

公告