哥不是小萝莉

2019年7月14日

摘要： 1.概述 Kafka Eagle是一款开源的Kafka集群监控系统，源代码托管在Github。目前Kafka Eagle已更新到V1.3.4版本，域名已经统一更新为http://www.kafka-eagle.org/，之前的下载地址和官网使用手册地址均已替换，例如http://download.s 阅读全文

posted @ 2019-07-14 21:13 哥不是小萝莉阅读(3010) 评论(11) 推荐(1)

2019年6月17日

万亿数据下Hadoop的核心竞争力

摘要： 1.前言在大数据时代，Hadoop有着得天独厚的优势。然而，每个企业的技术储备和需求特点不同，他们希望从海量的客户数据中挖掘真正的商业价值，像Google、Facebook、Twitter等这样的企业更是Hadoop的最早获益者。那么，今天我们就来聊一聊，万亿数据下Hadoop的核心竞争力。 2. 阅读全文

posted @ 2019-06-17 09:19 哥不是小萝莉阅读(1689) 评论(0) 推荐(4)

2019年6月3日

基于Kafka的实时计算引擎如何选择？Flink or Spark？

摘要： 1.前言目前实时计算的业务场景越来越多，实时计算引擎技术及生态也越来越成熟。以Flink和Spark为首的实时计算引擎，成为实时计算场景的重点考虑对象。那么，今天就来聊一聊基于Kafka的实时计算引擎如何选择？Flink or Spark？ 2.为何需要实时计算？根据IBM的统计报告显示，过去两阅读全文

posted @ 2019-06-03 09:13 哥不是小萝莉阅读(7857) 评论(0) 推荐(2)

2019年5月26日

Kafka应用实践与生态集成

摘要： 1.前言 Apache Kafka发展至今，已经是一个很成熟的消息队列组件了，也是大数据生态圈中不可或缺的一员。Apache Kafka社区非常的活跃，通过社区成员不断的贡献代码和迭代项目，使得Apache Kafka功能越发丰富、性能越发稳定，截止本篇博客Apache Kafka发布了V2.2.0 阅读全文

posted @ 2019-05-26 23:48 哥不是小萝莉阅读(2643) 评论(1) 推荐(2)

2019年4月23日

Hadoop3.2.0使用详解

摘要： 1.概述 Hadoop3已经发布很久了，迭代集成的一些新特性也是很有用的。截止本篇博客书写为止，Hadoop发布了3.2.0。接下来，笔者就为大家分享一下在使用Hadoop3中遇到到一些问题，以及解决方法。 2.内容 2.1 基础软件包在使用这些组件时，我们需要做一些准备工作，内容如下： Hado 阅读全文

posted @ 2019-04-23 00:19 哥不是小萝莉阅读(14240) 评论(0) 推荐(2)

2019年3月18日

Kafka数据迁移

摘要： 1.概述 Kafka的使用场景非常广泛，一些实时流数据业务场景，均依赖Kafka来做数据分流。而在分布式应用场景中，数据迁移是一个比较常见的问题。关于Kafka集群数据如何迁移，今天笔者将为大家详细介绍。 2.内容本篇博客为大家介绍两种迁移场景，分别是同集群数据迁移、跨集群数据迁移。如下图所示：阅读全文

posted @ 2019-03-18 11:28 哥不是小萝莉阅读(14894) 评论(0) 推荐(3)

2019年2月24日

Flink生成Parquet格式文件实战

摘要： 1.概述在流数据应用场景中，往往会通过Flink消费Kafka中的数据，然后将这些数据进行结构化到HDFS上，再通过Hive加载这些文件供后续业务分析。今天笔者为大家分析如何使用Flink消费Kafka的数据后，将消费后的数据结构化到Hive数据仓库中。 2.内容 Hive能够识别很多类型的文件，阅读全文

posted @ 2019-02-24 16:47 哥不是小萝莉阅读(13002) 评论(3) 推荐(2)

2019年1月9日

HBase2实战：HBase Flink和Kafka整合

摘要： 1.概述 Apache官方发布HBase2已经有一段时间了，HBase2中包含了许多个Features，从官方JIRA来看，大约有4500+个ISSUES（查看地址），从版本上来看是一个非常大的版本了。本篇博客将为大家介绍HBase2的新特性，以及如何在实战中与Flink、Kafka等组件进行整合。阅读全文

posted @ 2019-01-09 18:08 哥不是小萝莉阅读(10322) 评论(0) 推荐(1)

2018年12月9日

Kafka性能测试实例

摘要： 1.概述在分布式实时数据流场景下，随着数据量的增长，对Kafka集群的性能和稳定性的要求也很高。本篇博客将从生产者和消费者两方面来做性能测试，针对具体的业务和数据量，来调优Kafka集群。 2.内容 2.1 测试环境本次测试的环境信息由三台物理机组成，具体信息如下所示： 2.2 测试工具 Kaf 阅读全文

posted @ 2018-12-09 22:37 哥不是小萝莉阅读(23522) 评论(2) 推荐(4)

2018年11月19日

使用Flume消费Kafka数据到HDFS

摘要： 1.概述对于数据的转发，Kafka是一个不错的选择。Kafka能够装载数据到消息队列，然后等待其他业务场景去消费这些数据，Kafka的应用接口API非常的丰富，支持各种存储介质，例如HDFS、HBase等。如果不想使用Kafka API编写代码去消费Kafka Topic，也是有组件可以去集成消费阅读全文

posted @ 2018-11-19 17:12 哥不是小萝莉阅读(21230) 评论(0) 推荐(1)

哥不是小萝莉

公告