java - 随笔分类(第3页) - 哥不是小萝莉

Kafka监控系统Kafka Eagle剖析

摘要：1.概述最近有同学留言反馈了使用Kafka监控工具Kafka Eagle的一些问题，这里笔者特意整理了这些问题。并且希望通过这篇博客来解答这些同学的在使用Kafka Eagle的时候遇到的一些困惑，同时也给出一些定位分析Kafka Eagle异常的时的解决办法。 2.内容 2.1 背景在使用Ka 阅读全文

posted @ 2018-07-27 01:02 哥不是小萝莉阅读(39710) 评论(4) 推荐(7) 编辑

剖析HBase负载均衡和性能指标

摘要：1.概述在分布式系统中，负载均衡是一个非常重要的功能，在HBase中通过Region的数量来实现负载均衡，HBase中可以通过hbase.master.loadbalancer.class来实现自定义负载均衡算法。下面将为大家剖析HBase负载均衡的相关内容以及性能指标。 2.内容在HBase系阅读全文

posted @ 2018-07-01 04:10 哥不是小萝莉阅读(6476) 评论(2) 推荐(2) 编辑

Hadoop大数据挖掘从入门到进阶实战

摘要：1.概述大数据时代，数据的存储与挖掘至关重要。企业在追求高可用性、高扩展性及高容错性的大数据处理平台的同时还希望能够降低成本，而Hadoop为实现这些需求提供了解决方案。面对Hadoop的普及和学习热潮，笔者愿意分享自己多年的开发经验，带领读者比较轻松地掌握Hadoop数据挖掘的相关知识。这边是笔阅读全文

posted @ 2018-06-22 20:52 哥不是小萝莉阅读(4108) 评论(2) 推荐(2) 编辑

实战Kafka ACL机制

摘要：1.概述在Kafka0.9版本之前，Kafka集群时没有安全机制的。Kafka Client应用可以通过连接Zookeeper地址，例如zk1:2181:zk2:2181,zk3:2181等。来获取存储在Zookeeper中的Kafka元数据信息。拿到Kafka Broker地址后，连接到Kafk 阅读全文

posted @ 2018-06-17 03:08 哥不是小萝莉阅读(18795) 评论(3) 推荐(3) 编辑

Hadoop 3.x 新特性剖析系列2

摘要：1.概述接着上一篇博客的内容，继续介绍Hadoop3的其他新特性。其内容包含：优化Hadoop Shell脚本、重构Hadoop Client Jar包、支持等待Container、MapReduce任务级别本地优化、支持多个NameNode、部分默认服务端口被改变、支持文件系统连接器、DataN 阅读全文

posted @ 2018-05-12 12:55 哥不是小萝莉阅读(4960) 评论(2) 推荐(3) 编辑

Apache Ignite剖析

摘要：1.概述 Apache Ignite和Apache Arrow很类似，属于大数据范畴中的内存分布式管理系统。在《Apache Arrow 内存数据》中介绍了Arrow的相关内容，它统一了大数据领域各个生态系统的数据格式，避免了序列化和反序列化所带来的资源开销（能够节省80%左右的CPU资源）。今天来阅读全文

posted @ 2018-03-11 02:42 哥不是小萝莉阅读(14060) 评论(1) 推荐(2) 编辑

HBase MemStore和Compaction剖析

摘要：1.概述客户端读写数据是先从Zookeeper中获取RegionServer的元数据信息，比如Region地址信息。在执行数据写操作时，HBase会先写MemStore,为什么会写到MemStore。本篇博客将为读者剖析HBase MemStore和Compaction的详细内容。 2.内容 HB 阅读全文

posted @ 2018-02-10 17:21 哥不是小萝莉阅读(2996) 评论(0) 推荐(1) 编辑

HBase存储剖析与数据迁移

摘要：1.概述 HBase的存储结构和关系型数据库不一样，HBase面向半结构化数据进行存储。所以，对于结构化的SQL语言查询，HBase自身并没有接口支持。在大数据应用中，虽然也有SQL查询引擎可以查询HBase，比如Phoenix、Drill这类。但是阅读这类SQL查询引擎的底层实现，依然是调用了HB 阅读全文

posted @ 2017-12-10 12:21 哥不是小萝莉阅读(3802) 评论(0) 推荐(2) 编辑

HBase流量限制和表负载均衡剖析

摘要：1.概述在HBase-1.1.0之前，HBase集群中资源都是全量的。用户、表这些都是没有限制的，看似完美实则隐患较大。今天，笔者就给大家剖析一下HBase的流量限制和表的负载均衡。 2.内容也许有同学有疑问，为啥要做流量限制，无限制全量跑不是更好吗？举个例子，比如今天的双十一日，数据流量是非常阅读全文

posted @ 2017-11-11 20:55 哥不是小萝莉阅读(5217) 评论(0) 推荐(3) 编辑

Zeppelin源码

摘要：1.概述在大数据应用场景中，处理数据分析方面，由于开发者的水平不一样，使用的编程语言也不尽相同，可能会涉及到R、Python、Java、Scala等，数据计算模型也估计不一样，可能涉及的有Spark、Hive、Flink、Kylin等等。本篇博客笔者给大家介绍的内容并不是告诉大家如何去使用。在《Z 阅读全文

posted @ 2017-10-15 03:26 哥不是小萝莉阅读(5038) 评论(2) 推荐(4) 编辑

Kafka Streams 剖析

摘要：1.概述 Kafka Streams 是一个用来处理流式数据的库，属于Java类库，它并不是一个流处理框架，和Storm，Spark Streaming这类流处理框架是明显不一样的。那这样一个库是做什么的，能应用到哪些场合，如何使用。笔者今天就给大家来一一剖析这些内容。 2.内容首先，我们研究这样阅读全文

posted @ 2017-09-14 11:10 哥不是小萝莉阅读(7201) 评论(0) 推荐(1) 编辑

分布式系统选举算法剖析

摘要：1.概述我们在了解分布式选举算法之前，我们需要这样一种算法产生的背景。在一个分布式系统中，因为各种意外的因素，有的服务器可能会崩溃或变得不可靠，它就不能和其他服务器达成一致状态。因而这样就需要一种Consensus协议，来确保服务器的容错性，也就是说即使系统中有一两个服务器节点Crash，也不会影阅读全文

posted @ 2017-07-16 13:37 哥不是小萝莉阅读(8515) 评论(0) 推荐(1) 编辑

Kafka 源码剖析

摘要：1.概述在对Kafka使用层面掌握后，进一步提升分析其源码是极有必要的。纵观Kafka源码工程结构，不算太复杂，代码量也不算大。分析研究其实现细节难度不算太大。今天笔者给大家分析的是其核心处理模块，core模块。 2.内容首先，我们需要对Kafka的工程结构有一个整体的认知度，Kafka 大家最阅读全文

posted @ 2017-05-06 18:14 哥不是小萝莉阅读(19043) 评论(1) 推荐(2) 编辑

Apache Beam 剖析

摘要：1.概述在大数据的浪潮之下，技术的更新迭代十分频繁。受技术开源的影响，大数据开发者提供了十分丰富的工具。但也因为如此，增加了开发者选择合适工具的难度。在大数据处理一些问题的时候，往往使用的技术是多样化的。这完全取决于业务需求，比如进行批处理的MapReduce，实时流处理的Flink，以及SQL交阅读全文

posted @ 2017-04-09 16:14 哥不是小萝莉阅读(14309) 评论(0) 推荐(1) 编辑

Kafka Eagle 源码解读

摘要：1.概述在《Kafka 消息监控 - Kafka Eagle》一文中，简单的介绍了 Kafka Eagle这款监控工具的作用，截图预览，以及使用详情。今天笔者通过其源码来解读实现细节。目前该项目已托管于 Github 之上，作者编写了使用手册，告知使用者如何安装，部署，启动该系统。但对于实现的细节阅读全文

posted @ 2017-03-07 10:56 哥不是小萝莉阅读(5429) 评论(17) 推荐(4) 编辑

Apache Arrow 内存数据

摘要：1.概述 Apache Arrow 是 Apache 基金会全新孵化的一个顶级项目。它设计的目的在于作为一个跨平台的数据层，来加快大数据分析项目的运行速度。 2.内容现在大数据处理模型很多，用户在应用大数据分析时，除了将 Hadoop 等大数据平台作为一个存储和批处理平台之外，同样也得关注系统的扩阅读全文

posted @ 2017-02-05 16:04 哥不是小萝莉阅读(14214) 评论(1) 推荐(1) 编辑

Kafka Offset Storage

摘要：1.概述目前，Kafka 官网最新版[0.10.1.1]，已默认将消费的 offset 迁入到了 Kafka 一个名为 __consumer_offsets 的Topic中。其实，早在 0.8.2.2 版本，已支持存入消费的 offset 到Topic中，只是那时候默认是将消费的 offset 存阅读全文

posted @ 2017-01-09 20:26 哥不是小萝莉阅读(13712) 评论(0) 推荐(4) 编辑

Hive Streaming 追加 ORC 文件

摘要：1.概述在存储业务数据的时候，随着业务的增长，Hive 表存储在 HDFS 的上的数据会随时间的增加而增加，而以 Text 文本格式存储在 HDFS 上，所消耗的容量资源巨大。那么，我们需要有一种方式来减少容量的成本。而在 Hive 中，有一种 ORC 文件格式可以极大的减少存储的容量成本。今天，阅读全文

posted @ 2016-12-07 12:08 哥不是小萝莉阅读(4842) 评论(6) 推荐(2) 编辑

Kafka 分区备份实战

摘要：1.概述在 Kafka 集群中，我们可以对每个 Topic 进行一个或是多个分区，并为该 Topic 指定备份数。这部分元数据信息都是存放在 Zookeeper 上，我们可以使用 zkCli 客户端，通过 ls 和 get 命令来查看元数据信息。通过 log.dirs 属性控制消息存放路径，每个分阅读全文

posted @ 2016-11-04 16:27 哥不是小萝莉阅读(6879) 评论(2) 推荐(3) 编辑

Hive SQL 监控系统 - Hive Falcon

摘要：1.概述在开发工作当中，提交 Hadoop 任务，任务的运行详情，这是我们所关心的，当业务并不复杂的时候，我们可以使用 Hadoop 提供的命令工具去管理 YARN 中的任务。在编写 Hive SQL 的时候，需要在 Hive 终端，编写 SQL 语句，来观察 MapReduce 的运行情况，长此阅读全文

posted @ 2016-10-08 09:56 哥不是小萝莉阅读(6019) 评论(5) 推荐(4) 编辑

哥不是小萝莉

随笔分类 - java

公告

搜索

最新随笔

积分与排名

随笔分类 (351)

随笔档案 (195)

阅读排行榜

评论排行榜

推荐排行榜

最新评论