随笔分类 - 大数据
摘要:Kafka在0.10版本推出了Stream API,提供了对存储在Kafka内的数据进行流式处理和分析的能力。
本文将从流式计算出发,之后介绍Kafka Streams的特点,最后探究Kafka Streams的架构。
阅读全文
摘要:最近关注OpenMessaging项目,它尝试去定义一套MQ领域的行业标准。MQ目前确实没有一套标准的接口,如果我们尝试从更高的层次看自己的项目,即我们希望它成为行业标准,那么现在项目中接口的定义合适吗?是否够通用、简洁、易用、合理?
带着这样的疑问,最近把Kafka Consumer部分的源码读了一遍,因为:
1. Kafka应该是业界最著名的一个开源MQ了(RocketMQ最初也是参考了Kafka去实现的)
2. 希望通过读Kafka源码能找到一些定义MQ接口的想法
但是在读完Kafka Consumer部分的源码后稍稍有一些失望,因为它并没有给我代码我想要的,反而在读完后觉得接口设计和源码实现上相对于Kafka的盛名有一些名不副实的感觉。
阅读全文
摘要:我们设计Kafka用来作为统一的平台来处理大公司可能拥有的所有实时数据源。为了做到这点,我们必须思考大量的使用场景。
它必须有高吞吐去支持大数据流,例如实时日志聚合。
它必须优雅的处理数据积压,以支持定期从离线系统加载数据。
这也以为这系统必须支持低延迟的分发来处理传统消息系统的场景。
阅读全文
摘要:Kafka是一个分布式的流平台。这意味着什么?
我们认为流平台有3个核心的能力
允许发布和订阅记录流。在这方面类似消息队列和企业级的消息系统。
允许以容错的方式存储记录流。
允许以流的形式处理记录。
阅读全文
摘要:HIVE常用数据定义语言(DDL)、数据操作语言(MDL)、结构化查询语言(SQL)的说明
阅读全文
摘要:排查、解决HDFS Browse the filesystem无效问题
阅读全文
摘要:Hive权限相关的介绍及Hive中超级管理员的实现。
阅读全文