大数据 - 随笔分类 - 杭州.Mark

摘要：Kafka在0.10版本推出了Stream API，提供了对存储在Kafka内的数据进行流式处理和分析的能力。本文将从流式计算出发，之后介绍Kafka Streams的特点，最后探究Kafka Streams的架构。阅读全文

posted @ 2018-06-11 10:11 杭州.Mark 阅读(1386) 评论(1) 推荐(1) 编辑

摘要：最近关注OpenMessaging项目，它尝试去定义一套MQ领域的行业标准。MQ目前确实没有一套标准的接口，如果我们尝试从更高的层次看自己的项目，即我们希望它成为行业标准，那么现在项目中接口的定义合适吗？是否够通用、简洁、易用、合理？带着这样的疑问，最近把Kafka Consumer部分的源码读了一遍，因为： 1. Kafka应该是业界最著名的一个开源MQ了（RocketMQ最初也是参考了Kafka去实现的） 2. 希望通过读Kafka源码能找到一些定义MQ接口的想法但是在读完Kafka Consumer部分的源码后稍稍有一些失望，因为它并没有给我代码我想要的，反而在读完后觉得接口设计和源码实现上相对于Kafka的盛名有一些名不副实的感觉。阅读全文

posted @ 2017-12-04 09:25 杭州.Mark 阅读(2505) 评论(3) 推荐(0) 编辑

Kafka官方文档翻译——设计

摘要：我们设计Kafka用来作为统一的平台来处理大公司可能拥有的所有实时数据源。为了做到这点，我们必须思考大量的使用场景。它必须有高吞吐去支持大数据流，例如实时日志聚合。它必须优雅的处理数据积压，以支持定期从离线系统加载数据。这也以为这系统必须支持低延迟的分发来处理传统消息系统的场景。阅读全文

posted @ 2017-06-24 12:03 杭州.Mark 阅读(1543) 评论(0) 推荐(0) 编辑

Kafka官方文档翻译——简介

摘要：Kafka是一个分布式的流平台。这意味着什么？我们认为流平台有3个核心的能力允许发布和订阅记录流。在这方面类似消息队列和企业级的消息系统。允许以容错的方式存储记录流。允许以流的形式处理记录。阅读全文

posted @ 2017-06-23 10:12 杭州.Mark 阅读(2474) 评论(0) 推荐(1) 编辑

Hive DDL DML SQL操作

摘要：HIVE常用数据定义语言（DDL）、数据操作语言（MDL）、结构化查询语言（SQL）的说明阅读全文

posted @ 2013-10-23 16:34 杭州.Mark 阅读(5626) 评论(2) 推荐(1) 编辑

Hadoop Browse the filesystem 无效处理

摘要：排查、解决HDFS Browse the filesystem无效问题阅读全文