2020年8月26日

Linux——防火墙设置

摘要: CentOS 6.X 查看防水墙是否开启 service iptables status 防水墙开启状态: 防水墙关闭状态: 关闭防火墙 service iptables stop 开机关闭防火墙 chkconfig iptables off CentOS 7.X CentOS 7.0默认使用的是f 阅读全文

posted @ 2020-08-26 10:56 曹伟雄 阅读(685) 评论(0) 推荐(1) 编辑

Spark——几种运行模式与作业提交

摘要: Spark-shell 参数 Spark-shell 是以一种交互式命令行方式将Spark应用程序跑在指定模式上,也可以通过Spark-submit提交指定运用程序,Spark-shell 底层调用的是Spark-submit,二者的使用参数一致的,通过- -help 查看参数: -master:  阅读全文

posted @ 2020-08-26 10:55 曹伟雄 阅读(3400) 评论(0) 推荐(0) 编辑

Spark——Structured Streaming 监控Kafka消费进度

摘要: 前言 Structured Streaming 消费 Kafka 时并不会将 Offset 提交到 Kafka 集群,本文介绍利用 StreamingQueryListener 间接实现对 Kafka 消费进度的监控。 基于StreamingQueryListener向Kafka提交Offset 监 阅读全文

posted @ 2020-08-26 10:54 曹伟雄 阅读(1766) 评论(1) 推荐(1) 编辑

Hadoop、Spark——完全分布式HA集群搭建

摘要: 前言 完全分布式就是把Hadoop核心组件分开部署到不同的服务器节点上运行。 通常,建议HDFS和YARN以单独的用户身份运行。在大多数安装中,HDFS进程以“hdfs”执行。YARN通常使用“yarn”帐户。 搭建分为四个阶段,每一个是环境准备,第二个是Zookeeper集群的搭建,第三是Hado 阅读全文

posted @ 2020-08-26 10:53 曹伟雄 阅读(1526) 评论(0) 推荐(0) 编辑

Hadoop——集群参数配置详解

摘要: 一、配置文件 在hadoop集群中,需要配置的文件主要包括四个,分别是core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml, 这四个文件分别是对不同组件的配置参数,主要内容如下表所示: 二、配置时重要参数 1、core-site.xml 阅读全文

posted @ 2020-08-26 10:52 曹伟雄 阅读(2807) 评论(0) 推荐(0) 编辑

Spark——系统调优

摘要: JVM层 降低cache操作的内存占比 Spark中,堆内存被划分成了两块: 专门用来给RDD的cache、persist操作进行RDD数据缓存用的; 用来给spark算子函数的运行使用的,存放函数中自己创建的对象。 默认情况下,给RDD cache操作的内存占比是0.6,即60%的内存都给了cac 阅读全文

posted @ 2020-08-26 10:51 曹伟雄 阅读(536) 评论(0) 推荐(0) 编辑

Spark——Spark Streaming 对比 Structured Streaming

摘要: 简介 Spark Streaming Spark Streaming是spark最初的流处理框架,使用了微批的形式来进行流处理。 提供了基于RDDs的Dstream API,每个时间间隔内的数据为一个RDD,源源不断对RDD进行处理来实现流计算。 Structured Streaming Spark 阅读全文

posted @ 2020-08-26 10:50 曹伟雄 阅读(3360) 评论(0) 推荐(2) 编辑

Prometheus——PromQL内置函数

摘要: increase() increase(v range-vector) 函数获取区间向量中的第一个和最后一个样本并返回其增长量,它会在单调性发生变化时(如由于采样目标重启引起的计数器复位)自动中断。 由于这个值被外推到指定的整个时间范围,所以即使样本值都是整数,你仍然可能会得到一个非整数值,如果除以 阅读全文

posted @ 2020-08-26 10:49 曹伟雄 阅读(7411) 评论(0) 推荐(0) 编辑

导航