随笔分类 -  Spark

Spark——Yarn模式下的日志存储及配置
摘要:前言 在YARN术语中,执行者和应用程序masters在“容器”内部运行。在应用程序完成后,YARN有两种处理容器日志的模式。 如果打开日志聚合(使用 yarn.log-aggregation-enable配置),容器日志将复制到HDFS中,而本地计算机上的日志将被删除。查看日志可以通过 yarn 阅读全文

posted @ 2020-09-09 10:02 曹伟雄 阅读(11837) 评论(0) 推荐(2) 编辑

Spark——几种运行模式与作业提交
摘要:Spark-shell 参数 Spark-shell 是以一种交互式命令行方式将Spark应用程序跑在指定模式上,也可以通过Spark-submit提交指定运用程序,Spark-shell 底层调用的是Spark-submit,二者的使用参数一致的,通过- -help 查看参数: -master:  阅读全文

posted @ 2020-08-26 10:55 曹伟雄 阅读(3816) 评论(0) 推荐(0) 编辑

Spark——Structured Streaming 监控Kafka消费进度
摘要:前言 Structured Streaming 消费 Kafka 时并不会将 Offset 提交到 Kafka 集群,本文介绍利用 StreamingQueryListener 间接实现对 Kafka 消费进度的监控。 基于StreamingQueryListener向Kafka提交Offset 监 阅读全文

posted @ 2020-08-26 10:54 曹伟雄 阅读(1848) 评论(1) 推荐(1) 编辑

Hadoop、Spark——完全分布式HA集群搭建
摘要:前言 完全分布式就是把Hadoop核心组件分开部署到不同的服务器节点上运行。 通常,建议HDFS和YARN以单独的用户身份运行。在大多数安装中,HDFS进程以“hdfs”执行。YARN通常使用“yarn”帐户。 搭建分为四个阶段,每一个是环境准备,第二个是Zookeeper集群的搭建,第三是Hado 阅读全文

posted @ 2020-08-26 10:53 曹伟雄 阅读(1669) 评论(0) 推荐(0) 编辑

Spark——系统调优
摘要:JVM层 降低cache操作的内存占比 Spark中,堆内存被划分成了两块: 专门用来给RDD的cache、persist操作进行RDD数据缓存用的; 用来给spark算子函数的运行使用的,存放函数中自己创建的对象。 默认情况下,给RDD cache操作的内存占比是0.6,即60%的内存都给了cac 阅读全文

posted @ 2020-08-26 10:51 曹伟雄 阅读(562) 评论(0) 推荐(0) 编辑

Spark——Spark Streaming 对比 Structured Streaming
摘要:简介 Spark Streaming Spark Streaming是spark最初的流处理框架,使用了微批的形式来进行流处理。 提供了基于RDDs的Dstream API,每个时间间隔内的数据为一个RDD,源源不断对RDD进行处理来实现流计算。 Structured Streaming Spark 阅读全文

posted @ 2020-08-26 10:50 曹伟雄 阅读(3506) 评论(0) 推荐(2) 编辑

Spark——需要HADOOP来运行SPARK吗?
摘要:前言 Spark,是分布式计算平台,是一个用scala语言编写的计算框架,基于内存的快速、通用、可扩展的大数据分析引擎。 Hadoop,是分布式管理、存储、计算的生态系统;包括HDFS(存储)、MapReduce(计算)、Yarn(资源调度)。 Hadoop和Apache Spark都是当今蓬勃发展 阅读全文

posted @ 2020-08-05 15:37 曹伟雄 阅读(9068) 评论(0) 推荐(0) 编辑

Spark——常用命令
摘要:查看正在处理(appStatus=SUBMITED、ACCEPTED、RUNNING)的应用 yarn application -list 查看所有的应用 yarn application -list -appStates ALL 查看某个应用的状态 yarn application -status 阅读全文

posted @ 2020-08-05 15:36 曹伟雄 阅读(1162) 评论(0) 推荐(0) 编辑

Prometheus + Grafana(十二)系统监控之Spark
摘要:前言 Spark 提供的 webui 已经提供了很多信息,用户可以从上面了解到任务的 shuffle,任务运行等信息,但是运行时 Executor JVM 的状态对用户来说是个黑盒, 在应用内存不足报错时,初级用户可能不了解程序究竟是 Driver 还是 Executor 内存不足,从而也无法正确的 阅读全文

posted @ 2020-04-20 17:13 曹伟雄 阅读(5183) 评论(10) 推荐(1) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示