2024 年 1月 12 日随笔档案 - 阿飞藏泪

2024年1月12日

摘要： IDEA可以抽取一些通用一样的代码为一个方法函数，快捷键为Ctrl+Alt+m 阅读全文

posted @ 2024-01-12 21:47 阿飞藏泪阅读(8) 评论(0) 推荐(0) 编辑

摘要：文档的查询同样适用昨天学习的 RestHighLevelClient对象，基本步骤包括： 1）准备Request对象 2）准备请求参数 3）发起请求 4）解析响应 1.快速入门我们以match_all查询为例 1.发起查询请求代码解读：第一步，创建SearchRequest对象，指定索引库名阅读全文

posted @ 2024-01-12 21:44 阿飞藏泪阅读(24) 评论(0) 推荐(0) 编辑

pom.xml一些标签

摘要： <groupId> 是项目组织的唯一标识符，通常是一个公司或组织的域名反写 <artifactId> 是项目的唯一标识符，通常是项目的名称 <version> 是项目的版本号，通常遵循语义化版本控制规范，例如 "0.0.1-SNAPSHOT"。 <name> 是项目的名称，通常与 <artifact 阅读全文

posted @ 2024-01-12 21:28 阿飞藏泪阅读(3) 评论(0) 推荐(0) 编辑

SparkContext

摘要： Spark Application程序入口为：SparkContext，任何一个应用首先需要构建SparkContext对象，如下两步构建：第一步、创建SparkConf对象设置Spark Application基本信息，比如应用的名称AppName和应用运行Master 第二步、基于Spark 阅读全文

posted @ 2024-01-12 21:07 阿飞藏泪阅读(11) 评论(0) 推荐(0) 编辑

PySpark类库

摘要： PySpark 是Spark官方提供的一个Python类库, 内置了完全的Spark API, 可以通过PySpark类库来编写Spark应用程序, 并将其提交到Spark集群中运行. 下图是,PySpark类库和标准Spark框架的简单对比阅读全文

posted @ 2024-01-12 16:56 阿飞藏泪阅读(5) 评论(0) 推荐(0) 编辑

Spark on YARN的两种部署模式

摘要： Client模式和Cluster模式最最本质的区别是：Driver程序运行在哪里。  Client模式：学习测试时使用，生产不推荐(要用也可以,性能略低,稳定性略低) 1.Driver运行在Client上,和集群的通信成本高 2.Driver输出结果会在客户端显示  Cluster模式：生产环境阅读全文

posted @ 2024-01-12 16:39 阿飞藏泪阅读(17) 评论(0) 推荐(0) 编辑

SparkOnYarn

摘要： Spark On Yarn的本质? Master角色由YARN的ResourceManager担任. Worker角色由YARN的NodeManager担任. Driver角色运行在YARN容器内或提交任务的客户端进程中真正干活的Executor运行在YARN提供的容器内 Spark On Y 阅读全文

posted @ 2024-01-12 16:17 阿飞藏泪阅读(3) 评论(0) 推荐(0) 编辑

daitu66

公告