大数据 - 随笔分类(第8页) - 独孤风

Kafka监控工具汇总

摘要：对于大数据集群来说，监控功能是非常必要的，通过日志判断故障低效，我们需要完整的指标来帮我们管理Kafka集群。本文讨论Kafka的监控以及一些常用的第三方监控工具。一、Kafka Monitoring 首先介绍kafka的监控原理，第三方工具也是通过这些来进行监控的，我们也可以自己去是实现监控，官阅读全文

posted @ 2019-08-23 11:48 独孤风阅读(20383) 评论(3) 推荐(0) 编辑

实时计算大数据处理的基石-Google Dataflow

摘要：此文选自Google大神Tyler Akidau的另一篇文章：Streaming 102: The world beyond batch 欢迎回来！如果您错过了我以前的帖子，Streaming-大数据的未来，强烈建议您先花时间阅读那篇文章。简要回顾一下，上一篇我们介绍了Streaming，阅读全文

posted @ 2019-08-22 16:06 独孤风阅读(1077) 评论(0) 推荐(0) 编辑

Streaming-大数据的未来

摘要：分享一篇关于实时流式计算的经典文章，这篇文章名为Streaming 101: The world beyond batch 那么流计算如何超越批处理呢？从这几个方面说明：实时流计算系统，数据处理模式，还有大数据的未来。一、实时流式计算系统实时流式计算的意义： 1、企业渴望获得更及时的数据，实时阅读全文

posted @ 2019-08-21 15:43 独孤风阅读(1488) 评论(0) 推荐(0) 编辑

Kafka 2.3 Producer (0.9以后版本适用)

摘要：使用kafka客户端的时候，一定要注意版本的问题，不然可能会各种报错。 kafka0.9版本以后用java重新编写了producer，废除了原来scala编写的版本。这里直接使用最新2.3版本，0.9以后的版本都适用。注意引用的包为：org.apache.kafka.clients.produc 阅读全文

posted @ 2019-08-21 09:40 独孤风阅读(616) 评论(0) 推荐(0) 编辑

Kafka 0.8 Producer (0.9以前版本适用)

摘要：Kafka旧版本producer由scala编写，0.9以后已经废除，但是很多公司还在使用0.9以前的版本，所以总结如下：要注意包Producer是 kafka.javaapi.producer.Producer 这个才是java api使用的包示例代码如下： import kafka.prod 阅读全文

posted @ 2019-08-20 14:26 独孤风阅读(326) 评论(0) 推荐(0) 编辑

Kafka——JAVA_API的使用之Producer（核心原理与示例）

摘要：通过https://www.cnblogs.com/tree1123/p/11243668.html 已经对consumer有了一定的了解。producer比consumer要简单一些。一、旧版本producer 0.9.0.0版本以前，是由scala编写的旧版本producer。入口类：kaf 阅读全文

posted @ 2019-08-19 16:47 独孤风阅读(4260) 评论(1) 推荐(1) 编辑

Kafka单线程Consumer及参数详解

摘要：请使用0.9以后的版本：示例代码 Properties props = new Properties(); props.put("bootstrap.servers", "kafka01:9092，kafka02:9092"); props.put("group.id", "test"); pro 阅读全文

posted @ 2019-08-16 10:17 独孤风阅读(2387) 评论(0) 推荐(1) 编辑

什么是Kafka？

摘要：通过Kafka的快速入门 https://www.cnblogs.com/tree1123/p/11150927.html 能了解到Kafka的基本部署，使用，但他和其他的消息中间件有什么不同呢？ Kafka的基本原理，术语，版本等等都是怎么样的？到底什么是Kafka呢？一、Kafka简介 htt 阅读全文

posted @ 2019-08-15 16:14 独孤风阅读(2247) 评论(0) 推荐(0) 编辑

什么是实时流式计算？

摘要：实时流式计算，也就是RealTime,Streaming,Analyse,在不同的领域有不同的定义,这里我们说的是大数据领域的实时流式计算。实时流式计算,或者是实时计算,流式计算,在大数据领域都是差不多的概念。那么，到底什么是实时流式计算呢？谷歌大神Tyler Akidau在《the-world 阅读全文

posted @ 2019-08-09 08:52 独孤风阅读(6020) 评论(0) 推荐(1) 编辑

Kafka学习（四）-------- Kafka核心之Producer

摘要：通过https://www.cnblogs.com/tree1123/p/11243668.html 已经对consumer有了一定的了解。producer比consumer要简单一些。一、旧版本producer 0.9.0.0版本以前，是由scala编写的旧版本producer。入口类：kaf 阅读全文

posted @ 2019-08-06 15:58 独孤风阅读(1287) 评论(0) 推荐(0) 编辑

Kafka学习（三）-------- Kafka核心之Consumer

摘要：了解了什么是kafka（ https://www.cnblogs.com/tree1123/p/11226880.html）以后学习Kafka核心之消费者，kafka的消费者经过几次版本变化，特别容易混乱，所以一定要搞清楚是哪个版本再研究。一、旧版本consumer 只有旧版本（0.9以前）才有阅读全文

posted @ 2019-07-25 13:24 独孤风阅读(4797) 评论(0) 推荐(0) 编辑

Kafka学习（二）-------- 什么是Kafka

摘要：通过Kafka的快速入门 https://www.cnblogs.com/tree1123/p/11150927.html 能了解到Kafka的基本部署，使用，但他和其他的消息中间件有什么不同呢？ Kafka的基本原理，术语，版本等等都是怎么样的？到底什么是Kafka呢？一、Kafka简介 htt 阅读全文

posted @ 2019-07-22 16:51 独孤风阅读(662) 评论(0) 推荐(0) 编辑

Kafka学习（一）-------- Quickstart

摘要：参考官网：http://kafka.apache.org/quickstart 一、下载Kafka 官网下载地址 http://kafka.apache.org/downloads 截至2019年7月8日最新版本为 2.3.0 2.12为编译的scala版本 2.3.0为kafka版本 Scala 阅读全文

posted @ 2019-07-08 14:22 独孤风阅读(1060) 评论(0) 推荐(0) 编辑

大数据学习（二）-------- MapReduce

摘要：前提已经安装好hadoop的hdfs集群，可以查看 https://www.cnblogs.com/tree1123/p/10683570.html Mapreduce是hadoop的运算框架，可以对hdfs中的数据分开进行计算，先执行很多maptask，在执行reducetask，这个过程中任务的阅读全文

posted @ 2019-04-15 15:56 独孤风阅读(410) 评论(0) 推荐(1) 编辑

大数据学习（一）-------- HDFS

摘要：需要精通java开发，有一定linux基础。 1、简介大数据就是对海量数据进行数据挖掘。已经有了很多框架方便使用，常用的有hadoop，storm，spark，flink等，辅助框架hive，kafka，es，sqoop，flume等。常见应用推荐系统，用户画像等。 2、hadoop hado 阅读全文

posted @ 2019-04-10 15:14 独孤风阅读(426) 评论(0) 推荐(0) 编辑

NoteBook学习（一）-------- Zeppelin VS Jupyter

摘要：notebook1.md NoteBook学习（一） Zeppelin VS Jupyter1 NoteBook是什么？比IDE更受数据科学家欢迎的数据处理工具，笔记本。提供了基于浏览器的交互式分析环境，数据科学家可以使用Python、Scala或者R进行交互式的开发，来设计分析模型，可视化展现分析阅读全文

posted @ 2018-12-28 11:54 独孤风阅读(3860) 评论(0) 推荐(0) 编辑

NoteBook学习（二）-------- Zeppelin简介与安装

摘要：Zeppelin官网地址： http://zeppelin.apache.org/ Github地址： https://github.com/apache/zeppelin （参照官网） 1、什么是zeppelin 多用途的笔记本。数据的采集发现分析可视化协作。。支持20+种后端语言，支持阅读全文

posted @ 2018-12-27 13:35 独孤风阅读(1148) 评论(0) 推荐(0) 编辑

Spark2.0学习（三）--------核心API

摘要：Spark核心API [SparkContext] 连接到spark集群,入口点. [HadoopRDD] 读取hadoop上的数据， [MapPartitionsRDD] 针对父RDD的每个分区提供了函数构成的新类型RDD. [PairRDDFunctions] 对偶RDD函数类。可用于KV类型阅读全文

posted @ 2018-12-12 16:15 独孤风阅读(197) 评论(0) 推荐(0) 编辑

Spark2.0学习（二）--------RDD详解

摘要：添加针对scala文件的编译插件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema 阅读全文

posted @ 2018-12-11 17:17 独孤风阅读(236) 评论(0) 推荐(0) 编辑

Spark2.0学习（一）--------Spark简介

摘要：官网对Spark的介绍 http://spark.apache.org/ Apache Spark™ is a unified analytics engine for large-scale data processing Lightning-fast cluster computing。快如闪阅读全文

posted @ 2018-12-10 17:21 独孤风阅读(656) 评论(0) 推荐(0) 编辑

大数据流动

公众号大数据流动。追随大数据的流动，专注于大数据相关技术。相关学习交流群已经成立，欢迎加入~

随笔分类 - 大数据

公告

搜索

常用链接

我的标签

积分与排名

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论