2021 年 7月 24 日随笔档案 - 小阿政

2021年7月24日

摘要： 1).Receiver模式 a).receiver模式使用zookeeper管理offset，要使用一个task接收kafka中的数据，会有丢失数据的问题，开启WAL机制将数据备份到checkpoint目录中一份，避免数据丢失，开启WAL机制之后会降低任务总体执行效率，延长时间。 b).receiv 阅读全文

posted @ 2021-07-24 20:06 小阿政阅读(169) 评论(1) 推荐(0) 编辑

kafka基本知识

摘要： Kafka 1).kafka是分布式消息系统，生产者消费者模式，数据默认保存7天。 2).概念： producter: 消息的生产者，自己决定往哪个partition中生产数据，i).轮循 ii).hash consumer：消息消费者，自己在zookeeper中维护消费者偏移量,每个消费者都有自阅读全文

posted @ 2021-07-24 20:00 小阿政阅读(260) 评论(0) 推荐(0) 编辑

spark streaming

摘要： 1.SparkStreaming 1).SparkStreaming是流式处理框架，7*24小时不间断运行，微批处理。 2).与Storm的区别： i).Storm是纯实时处理数据，SparkStreaming是微批处理数据 ii).Storm擅长处理汇总型业务，SparkStreaming擅长处理阅读全文

posted @ 2021-07-24 19:58 小阿政阅读(190) 评论(0) 推荐(0) 编辑

spark调优

摘要： Spark 调优[ 1.资源调优 1).搭建集群在spark安装包的conf下spark-env.sh SPARK_WORKER_CORES SPARK_WORKER_MEMORY SPARK_WORKER_INSTANCE 2).提交任务的时候提交命令选项：（在提交Application的时候阅读全文

posted @ 2021-07-24 19:56 小阿政阅读(74) 评论(0) 推荐(0) 编辑

spark面试题

摘要：一、你是怎么理解Spark，它的特点是什么？ Spark是一个基于内存的，用于大规模数据处理（离线计算、实时计算、快速查询（交互式查询））的统一分析引擎。它内部的组成模块，包含SparkCore，SparkSQL，SparkStreaming，SparkMLlib，SparkGraghx等... 阅读全文

posted @ 2021-07-24 19:36 小阿政阅读(379) 评论(0) 推荐(0) 编辑

小阿政

公告