08 2020 档案

Linux——防火墙设置
摘要:CentOS 6.X 查看防水墙是否开启 service iptables status 防水墙开启状态: 防水墙关闭状态: 关闭防火墙 service iptables stop 开机关闭防火墙 chkconfig iptables off CentOS 7.X CentOS 7.0默认使用的是f 阅读全文

posted @ 2020-08-26 10:56 曹伟雄 阅读(724) 评论(0) 推荐(1) 编辑

Spark——几种运行模式与作业提交
摘要:Spark-shell 参数 Spark-shell 是以一种交互式命令行方式将Spark应用程序跑在指定模式上,也可以通过Spark-submit提交指定运用程序,Spark-shell 底层调用的是Spark-submit,二者的使用参数一致的,通过- -help 查看参数: -master:  阅读全文

posted @ 2020-08-26 10:55 曹伟雄 阅读(3816) 评论(0) 推荐(0) 编辑

Spark——Structured Streaming 监控Kafka消费进度
摘要:前言 Structured Streaming 消费 Kafka 时并不会将 Offset 提交到 Kafka 集群,本文介绍利用 StreamingQueryListener 间接实现对 Kafka 消费进度的监控。 基于StreamingQueryListener向Kafka提交Offset 监 阅读全文

posted @ 2020-08-26 10:54 曹伟雄 阅读(1848) 评论(1) 推荐(1) 编辑

Hadoop、Spark——完全分布式HA集群搭建
摘要:前言 完全分布式就是把Hadoop核心组件分开部署到不同的服务器节点上运行。 通常,建议HDFS和YARN以单独的用户身份运行。在大多数安装中,HDFS进程以“hdfs”执行。YARN通常使用“yarn”帐户。 搭建分为四个阶段,每一个是环境准备,第二个是Zookeeper集群的搭建,第三是Hado 阅读全文

posted @ 2020-08-26 10:53 曹伟雄 阅读(1669) 评论(0) 推荐(0) 编辑

Hadoop——集群参数配置详解
摘要:一、配置文件 在hadoop集群中,需要配置的文件主要包括四个,分别是core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml, 这四个文件分别是对不同组件的配置参数,主要内容如下表所示: 二、配置时重要参数 1、core-site.xml 阅读全文

posted @ 2020-08-26 10:52 曹伟雄 阅读(3041) 评论(0) 推荐(0) 编辑

Spark——系统调优
摘要:JVM层 降低cache操作的内存占比 Spark中,堆内存被划分成了两块: 专门用来给RDD的cache、persist操作进行RDD数据缓存用的; 用来给spark算子函数的运行使用的,存放函数中自己创建的对象。 默认情况下,给RDD cache操作的内存占比是0.6,即60%的内存都给了cac 阅读全文

posted @ 2020-08-26 10:51 曹伟雄 阅读(562) 评论(0) 推荐(0) 编辑

Spark——Spark Streaming 对比 Structured Streaming
摘要:简介 Spark Streaming Spark Streaming是spark最初的流处理框架,使用了微批的形式来进行流处理。 提供了基于RDDs的Dstream API,每个时间间隔内的数据为一个RDD,源源不断对RDD进行处理来实现流计算。 Structured Streaming Spark 阅读全文

posted @ 2020-08-26 10:50 曹伟雄 阅读(3506) 评论(0) 推荐(2) 编辑

Prometheus——PromQL内置函数
摘要:increase() increase(v range-vector) 函数获取区间向量中的第一个和最后一个样本并返回其增长量,它会在单调性发生变化时(如由于采样目标重启引起的计数器复位)自动中断。 由于这个值被外推到指定的整个时间范围,所以即使样本值都是整数,你仍然可能会得到一个非整数值,如果除以 阅读全文

posted @ 2020-08-26 10:49 曹伟雄 阅读(7858) 评论(0) 推荐(0) 编辑

Spark——需要HADOOP来运行SPARK吗?
摘要:前言 Spark,是分布式计算平台,是一个用scala语言编写的计算框架,基于内存的快速、通用、可扩展的大数据分析引擎。 Hadoop,是分布式管理、存储、计算的生态系统;包括HDFS(存储)、MapReduce(计算)、Yarn(资源调度)。 Hadoop和Apache Spark都是当今蓬勃发展 阅读全文

posted @ 2020-08-05 15:37 曹伟雄 阅读(9068) 评论(0) 推荐(0) 编辑

Spark——常用命令
摘要:查看正在处理(appStatus=SUBMITED、ACCEPTED、RUNNING)的应用 yarn application -list 查看所有的应用 yarn application -list -appStates ALL 查看某个应用的状态 yarn application -status 阅读全文

posted @ 2020-08-05 15:36 曹伟雄 阅读(1162) 评论(0) 推荐(0) 编辑

Hadoop——常用命令
摘要:查询 hadoop dfs -ls / hadoop dfs -ls -R / 注:-R 是递归查询 创建目录 hadoop dfs -mkdir /test 创建文件 hadoop dfs -touchz /aa.txt 查看文件内容 hadoop dfs -cat /test/aa.txt 上传 阅读全文

posted @ 2020-08-05 15:35 曹伟雄 阅读(519) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示