随笔分类 -  大数据

上一页 1 ··· 4 5 6 7 8 9 下一页
摘要:对于大数据集群来说,监控功能是非常必要的,通过日志判断故障低效,我们需要完整的指标来帮我们管理Kafka集群。本文讨论Kafka的监控以及一些常用的第三方监控工具。 一、Kafka Monitoring 首先介绍kafka的监控原理,第三方工具也是通过这些来进行监控的,我们也可以自己去是实现监控,官 阅读全文
posted @ 2019-08-23 11:48 独孤风 阅读(20383) 评论(3) 推荐(0) 编辑
摘要:​ 此文选自Google大神Tyler Akidau的另一篇文章:Streaming 102: The world beyond batch ​ 欢迎回来!如果您错过了我以前的帖子,Streaming-大数据的未来,强烈建议您先花时间阅读那篇文章。 简要回顾一下,上一篇我们介绍了Streaming, 阅读全文
posted @ 2019-08-22 16:06 独孤风 阅读(1077) 评论(0) 推荐(0) 编辑
摘要:分享一篇关于实时流式计算的经典文章,这篇文章名为Streaming 101: The world beyond batch 那么流计算如何超越批处理呢? 从这几个方面说明:实时流计算系统,数据处理模式,还有大数据的未来。 一、实时流式计算系统 实时流式计算的意义: 1、企业渴望获得更及时的数据,实时 阅读全文
posted @ 2019-08-21 15:43 独孤风 阅读(1488) 评论(0) 推荐(0) 编辑
摘要:使用kafka客户端的时候,一定要注意版本的问题,不然可能会各种报错。 kafka0.9版本以后用java重新编写了producer,废除了原来scala编写的版本。 这里直接使用最新2.3版本,0.9以后的版本都适用。 注意引用的包为:org.apache.kafka.clients.produc 阅读全文
posted @ 2019-08-21 09:40 独孤风 阅读(616) 评论(0) 推荐(0) 编辑
摘要:Kafka旧版本producer由scala编写,0.9以后已经废除,但是很多公司还在使用0.9以前的版本,所以总结如下: 要注意包Producer是 kafka.javaapi.producer.Producer 这个才是java api使用的包 示例代码如下: import kafka.prod 阅读全文
posted @ 2019-08-20 14:26 独孤风 阅读(326) 评论(0) 推荐(0) 编辑
摘要:通过https://www.cnblogs.com/tree1123/p/11243668.html 已经对consumer有了一定的了解。producer比consumer要简单一些。 一、旧版本producer 0.9.0.0版本以前,是由scala编写的旧版本producer。 入口类:kaf 阅读全文
posted @ 2019-08-19 16:47 独孤风 阅读(4260) 评论(1) 推荐(1) 编辑
摘要:请使用0.9以后的版本: 示例代码 Properties props = new Properties(); props.put("bootstrap.servers", "kafka01:9092,kafka02:9092"); props.put("group.id", "test"); pro 阅读全文
posted @ 2019-08-16 10:17 独孤风 阅读(2387) 评论(0) 推荐(1) 编辑
摘要:通过Kafka的快速入门 https://www.cnblogs.com/tree1123/p/11150927.html 能了解到Kafka的基本部署,使用,但他和其他的消息中间件有什么不同呢? Kafka的基本原理,术语,版本等等都是怎么样的?到底什么是Kafka呢? 一、Kafka简介 htt 阅读全文
posted @ 2019-08-15 16:14 独孤风 阅读(2247) 评论(0) 推荐(0) 编辑
摘要:实时流式计算,也就是RealTime,Streaming,Analyse,在不同的领域有不同的定义,这里我们说的是大数据领域的实时流式计算。 实时流式计算,或者是实时计算,流式计算,在大数据领域都是差不多的概念。那么,到底什么是实时流式计算呢? 谷歌大神Tyler Akidau在《the-world 阅读全文
posted @ 2019-08-09 08:52 独孤风 阅读(6020) 评论(0) 推荐(1) 编辑
摘要:通过https://www.cnblogs.com/tree1123/p/11243668.html 已经对consumer有了一定的了解。producer比consumer要简单一些。 一、旧版本producer 0.9.0.0版本以前,是由scala编写的旧版本producer。 入口类:kaf 阅读全文
posted @ 2019-08-06 15:58 独孤风 阅读(1287) 评论(0) 推荐(0) 编辑
摘要:了解了什么是kafka( https://www.cnblogs.com/tree1123/p/11226880.html)以后 学习Kafka核心之消费者,kafka的消费者经过几次版本变化,特别容易混乱,所以一定要搞清楚是哪个版本再研究。 一、旧版本consumer 只有旧版本(0.9以前)才有 阅读全文
posted @ 2019-07-25 13:24 独孤风 阅读(4797) 评论(0) 推荐(0) 编辑
摘要:通过Kafka的快速入门 https://www.cnblogs.com/tree1123/p/11150927.html 能了解到Kafka的基本部署,使用,但他和其他的消息中间件有什么不同呢? Kafka的基本原理,术语,版本等等都是怎么样的?到底什么是Kafka呢? 一、Kafka简介 htt 阅读全文
posted @ 2019-07-22 16:51 独孤风 阅读(662) 评论(0) 推荐(0) 编辑
摘要:参考官网:http://kafka.apache.org/quickstart 一、下载Kafka 官网下载地址 http://kafka.apache.org/downloads 截至2019年7月8日 最新版本为 2.3.0 2.12为编译的scala版本 2.3.0为kafka版本 Scala 阅读全文
posted @ 2019-07-08 14:22 独孤风 阅读(1060) 评论(0) 推荐(0) 编辑
摘要:前提已经安装好hadoop的hdfs集群,可以查看 https://www.cnblogs.com/tree1123/p/10683570.html Mapreduce是hadoop的运算框架,可以对hdfs中的数据分开进行计算,先执行很多maptask,在执行reducetask,这个过程中任务的 阅读全文
posted @ 2019-04-15 15:56 独孤风 阅读(410) 评论(0) 推荐(1) 编辑
摘要:需要精通java开发,有一定linux基础。 1、简介 大数据就是对海量数据进行数据挖掘。 已经有了很多框架方便使用,常用的有hadoop,storm,spark,flink等,辅助框架hive,kafka,es,sqoop,flume等。 常见应用推荐系统,用户画像等。 2、hadoop hado 阅读全文
posted @ 2019-04-10 15:14 独孤风 阅读(426) 评论(0) 推荐(0) 编辑
摘要:notebook1.md NoteBook学习(一) Zeppelin VS Jupyter1 NoteBook是什么?比IDE更受数据科学家欢迎的数据处理工具,笔记本。提供了基于浏览器的交互式分析环境,数据科学家可以使用Python、Scala或者R进行交互式的开发,来设计分析模型,可视化展现分析 阅读全文
posted @ 2018-12-28 11:54 独孤风 阅读(3860) 评论(0) 推荐(0) 编辑
摘要:Zeppelin官网地址: http://zeppelin.apache.org/ Github地址: https://github.com/apache/zeppelin (参照官网) 1、什么是zeppelin 多用途的笔记本。数据的采集 发现 分析 可视化 协作。。 支持20+种后端语言,支持 阅读全文
posted @ 2018-12-27 13:35 独孤风 阅读(1148) 评论(0) 推荐(0) 编辑
摘要:Spark核心API [SparkContext] 连接到spark集群,入口点. [HadoopRDD] 读取hadoop上的数据, [MapPartitionsRDD] 针对父RDD的每个分区提供了函数构成的新类型RDD. [PairRDDFunctions] 对偶RDD函数类。 可用于KV类型 阅读全文
posted @ 2018-12-12 16:15 独孤风 阅读(197) 评论(0) 推荐(0) 编辑
摘要:添加针对scala文件的编译插件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema 阅读全文
posted @ 2018-12-11 17:17 独孤风 阅读(236) 评论(0) 推荐(0) 编辑
摘要:官网对Spark的介绍 http://spark.apache.org/ Apache Spark™ is a unified analytics engine for large-scale data processing Lightning-fast cluster computing。 快如闪 阅读全文
posted @ 2018-12-10 17:21 独孤风 阅读(656) 评论(0) 推荐(0) 编辑

上一页 1 ··· 4 5 6 7 8 9 下一页
点击右上角即可分享
微信分享提示