随笔分类 -  大数据

摘要:Kafka在0.10版本推出了Stream API,提供了对存储在Kafka内的数据进行流式处理和分析的能力。 本文将从流式计算出发,之后介绍Kafka Streams的特点,最后探究Kafka Streams的架构。 阅读全文
posted @ 2018-06-11 10:11 杭州.Mark 阅读(1386) 评论(1) 推荐(1) 编辑
摘要:最近关注OpenMessaging项目,它尝试去定义一套MQ领域的行业标准。MQ目前确实没有一套标准的接口,如果我们尝试从更高的层次看自己的项目,即我们希望它成为行业标准,那么现在项目中接口的定义合适吗?是否够通用、简洁、易用、合理? 带着这样的疑问,最近把Kafka Consumer部分的源码读了一遍,因为: 1. Kafka应该是业界最著名的一个开源MQ了(RocketMQ最初也是参考了Kafka去实现的) 2. 希望通过读Kafka源码能找到一些定义MQ接口的想法 但是在读完Kafka Consumer部分的源码后稍稍有一些失望,因为它并没有给我代码我想要的,反而在读完后觉得接口设计和源码实现上相对于Kafka的盛名有一些名不副实的感觉。 阅读全文
posted @ 2017-12-04 09:25 杭州.Mark 阅读(2505) 评论(3) 推荐(0) 编辑
摘要:我们设计Kafka用来作为统一的平台来处理大公司可能拥有的所有实时数据源。为了做到这点,我们必须思考大量的使用场景。 它必须有高吞吐去支持大数据流,例如实时日志聚合。 它必须优雅的处理数据积压,以支持定期从离线系统加载数据。 这也以为这系统必须支持低延迟的分发来处理传统消息系统的场景。 阅读全文
posted @ 2017-06-24 12:03 杭州.Mark 阅读(1543) 评论(0) 推荐(0) 编辑
摘要:Kafka是一个分布式的流平台。这意味着什么? 我们认为流平台有3个核心的能力 允许发布和订阅记录流。在这方面类似消息队列和企业级的消息系统。 允许以容错的方式存储记录流。 允许以流的形式处理记录。 阅读全文
posted @ 2017-06-23 10:12 杭州.Mark 阅读(2474) 评论(0) 推荐(1) 编辑
摘要:HIVE常用数据定义语言(DDL)、数据操作语言(MDL)、结构化查询语言(SQL)的说明 阅读全文
posted @ 2013-10-23 16:34 杭州.Mark 阅读(5626) 评论(2) 推荐(1) 编辑
摘要:排查、解决HDFS Browse the filesystem无效问题 阅读全文
posted @ 2013-07-29 20:06 杭州.Mark 阅读(2812) 评论(0) 推荐(0) 编辑
摘要:Hive权限相关的介绍及Hive中超级管理员的实现。 阅读全文
posted @ 2013-06-20 19:32 杭州.Mark 阅读(9940) 评论(0) 推荐(1) 编辑