Fork me on GitHub

06 2021 档案

摘要:spark 运行模式 0.spark-submit提交参数说明 --master MASTER_URL spark://host:port, mesos://host:port, yarn, or local. --deploy-mode DEPLOY_MODE driver运行之处,client运 阅读全文
posted @ 2021-06-23 15:22 是阿凯啊 阅读(189) 评论(0) 推荐(0) 编辑
摘要:spark+hadoop错误相关记录: 错误1:java.lang.Exception: Unknown container. Container either has not started ...Yarn 在我通过运行spark提交yarn任务,在hadoop平台查看日志报错java.lang. 阅读全文
posted @ 2021-06-23 13:46 是阿凯啊 阅读(352) 评论(0) 推荐(0) 编辑
摘要:1.spark内存分配 MemoryManager |__StaticMemoryManager 静态内存管理机制 |__UnifiedMemoryManger 统一内存管理机制 1.静态内存管理机制 静态内存管理机制实现起来较为简单,但没有根据具体的数据规模和计算任务做相应的配置,很容易造成"一半 阅读全文
posted @ 2021-06-23 11:30 是阿凯啊 阅读(308) 评论(0) 推荐(0) 编辑
摘要:Spark分区 1分区: 自定义分区在对RDD数据进行分区时,默认使用的是 HashPartitioner,该partitioner对key进行哈希,然后mod 上分区数目,mod的结果相同的就会被分到同一个partition中如果嫌HashPartitioner 功能单一,可以自定义partiti 阅读全文
posted @ 2021-06-23 09:44 是阿凯啊 阅读(567) 评论(0) 推荐(0) 编辑
摘要:spark-RDD缓存,checkpoint机制,有向无环图,stage 1.RDD依赖关系 RDD依赖关系有2种不同类型,窄依赖和宽依赖。 窄依赖(narrow dependency):是指每个父RDD的Partition最多被子RDD一个Partition使用。就好像独生子女一样。窄依赖的算子包 阅读全文
posted @ 2021-06-22 17:20 是阿凯啊 阅读(366) 评论(0) 推荐(0) 编辑
摘要:Spark-广播变量 当我们产生了几百个或是几千个task这些task后期都需要使用到一份共同的数据,假如这个数据量有1G,这些task后期运行完成需要内存开销 几百或几千乘以1g,内存开销还是特别大的,特别浪费资源。而spark提供一个叫数据共享机制广播变量。可以把共同数据从Driver段下发到每 阅读全文
posted @ 2021-06-21 23:08 是阿凯啊 阅读(466) 评论(0) 推荐(0) 编辑
摘要:1.镜像构建打包推送阿里镜像: DockerFile构建: FROM java:openjdk-8-jdk ENV hadoop_ver 2.8.2 ENV spark_ver 2.4.4 RUN mkdir -p /opt ADD hadoop-${hadoop_ver}.tar.gz /opt/ 阅读全文
posted @ 2021-06-18 17:18 是阿凯啊 阅读(1172) 评论(0) 推荐(0) 编辑
摘要:spark搭建 继续使用上次搭建hadoop scala安装:https://downloads.lightbend.com/scala/2.12.12/scala-2.12.12.tgz # 解压 tar -zxvf scala-2.12.12.tgz # 配置环境变量 vi /etc/profi 阅读全文
posted @ 2021-06-18 11:34 是阿凯啊 阅读(172) 评论(0) 推荐(0) 编辑
摘要:hadoop部署 准备好三台机器,规划配置如下 linux01 10.0.0.155 NameNode DataNode NodeManager linux02 10.0.0.156 SecondaryNameNode DataNode NodeManager ResourceManager lin 阅读全文
posted @ 2021-06-18 09:24 是阿凯啊 阅读(160) 评论(0) 推荐(0) 编辑
摘要:Mysql redis 阅读全文
posted @ 2021-06-10 23:13 是阿凯啊 阅读(101) 评论(0) 推荐(0) 编辑
摘要:Ingress介绍和部署IngressController Ingress是为了弥补nodeport不足而生的,nodeport存在不足:一个端口只能一个服务使用,端口需要提前规划,只支持4层负载均衡。 Ingress 公开了从集群外部到集群内部服务的HTTP和HTTPS路由的规则集合,而具体实现流 阅读全文
posted @ 2021-06-09 23:02 是阿凯啊 阅读(3462) 评论(0) 推荐(0) 编辑
摘要:k8s+rancher+阿里云镜像简单部署flask项目 k8s简单部署一个flask项目示例,镜像从阿里镜像仓库拉取。首先搭建一个k8s集群,用kubeadm,二进制都可以。 1.示例项目准备 项目目录: simpleweb |—————Dockerfile# 镜像构建文件 |_____gunic 阅读全文
posted @ 2021-06-05 23:41 是阿凯啊 阅读(822) 评论(0) 推荐(0) 编辑
摘要:helm 部署minio helm安装 curl -O https://get.helm.sh/helm-v3.5.0-linux-amd64.tar.gz tar -zxvf helm-v3.5.0-linux-amd64.tar.gz cd linux-amd64/ cp helm /usr/l 阅读全文
posted @ 2021-06-04 23:41 是阿凯啊 阅读(1861) 评论(0) 推荐(0) 编辑
摘要:k8s存储 在容器中的磁盘文件是短暂的,当容器挂掉时候,k8s会将它重启,而重启后容器文件会丢失,并且有的pod会有多容器进行文件交互。为了解决这个问题,k8s引入数据卷概念。 k8s中Volume提供在容器中挂在外部存储的能力。 Pod需要设置卷来源(spec.volume)和挂载点(spec.c 阅读全文
posted @ 2021-06-04 23:19 是阿凯啊 阅读(689) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示