摘要:
1).Receiver模式 a).receiver模式使用zookeeper管理offset,要使用一个task接收kafka中的数据,会有丢失数据的问题,开启WAL机制将数据备份到checkpoint目录中一份,避免数据丢失,开启WAL机制之后会降低任务总体执行效率,延长时间。 b).receiv 阅读全文
摘要:
Kafka 1).kafka是分布式消息系统,生产者消费者模式,数据默认保存7天。 2).概念: producter: 消息的生产者,自己决定往哪个partition中生产数据,i).轮循 ii).hash consumer: 消息消费者,自己在zookeeper中维护消费者偏移量,每个消费者都有自 阅读全文
摘要:
1.SparkStreaming 1).SparkStreaming是流式处理框架,7*24小时不间断运行,微批处理。 2).与Storm的区别: i).Storm是纯实时处理数据,SparkStreaming是微批处理数据 ii).Storm擅长处理汇总型业务,SparkStreaming擅长处理 阅读全文
摘要:
Spark 调优[ 1.资源调优 1).搭建集群 在spark安装包的conf下spark-env.sh SPARK_WORKER_CORES SPARK_WORKER_MEMORY SPARK_WORKER_INSTANCE 2).提交任务的时候 提交命令选项:(在提交Application的时候 阅读全文
摘要:
一、你是怎么理解Spark,它的特点是什么? Spark是一个基于内存的,用于大规模数据处理(离线计算、实时计算、快速查询(交互式查询))的统一分析引擎。 它内部的组成模块,包含SparkCore,SparkSQL,SparkStreaming,SparkMLlib,SparkGraghx等... 阅读全文