摘要: IDEA可以抽取一些通用一样的代码为一个方法函数,快捷键为Ctrl+Alt+m 阅读全文
posted @ 2024-01-12 21:47 阿飞藏泪 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 文档的查询同样适用昨天学习的 RestHighLevelClient对象,基本步骤包括: 1)准备Request对象 2)准备请求参数 3)发起请求 4)解析响应 1.快速入门 我们以match_all查询为例 1.发起查询请求 代码解读: 第一步,创建SearchRequest对象,指定索引库名 阅读全文
posted @ 2024-01-12 21:44 阿飞藏泪 阅读(15) 评论(0) 推荐(0) 编辑
摘要: <groupId> 是项目组织的唯一标识符,通常是一个公司或组织的域名反写 <artifactId> 是项目的唯一标识符,通常是项目的名称 <version> 是项目的版本号,通常遵循语义化版本控制规范,例如 "0.0.1-SNAPSHOT"。 <name> 是项目的名称,通常与 <artifact 阅读全文
posted @ 2024-01-12 21:28 阿飞藏泪 阅读(1) 评论(0) 推荐(0) 编辑
摘要: Spark Application程序入口为:SparkContext,任何一个应用首先需要构建SparkContext对象,如下两步构建: 第一步、创建SparkConf对象 设置Spark Application基本信息,比如应用的名称AppName和应用运行Master 第二步、基于Spark 阅读全文
posted @ 2024-01-12 21:07 阿飞藏泪 阅读(4) 评论(0) 推荐(0) 编辑
摘要: PySpark 是Spark官方提供的一个Python类库, 内置了完全的Spark API, 可以通过PySpark类库来编写Spark应用程序, 并将其提交到Spark集群中运行. 下图是,PySpark类库和标准Spark框架的简单对比 阅读全文
posted @ 2024-01-12 16:56 阿飞藏泪 阅读(5) 评论(0) 推荐(0) 编辑
摘要: Client模式和Cluster模式最最本质的区别是:Driver程序运行在哪里。  Client模式:学习测试时使用,生产不推荐(要用也可以,性能略低,稳定性略低) 1.Driver运行在Client上,和集群的通信成本高 2.Driver输出结果会在客户端显示  Cluster模式:生产环境 阅读全文
posted @ 2024-01-12 16:39 阿飞藏泪 阅读(10) 评论(0) 推荐(0) 编辑
摘要: Spark On Yarn的本质? Master角色由YARN的ResourceManager担任. Worker角色由YARN的NodeManager担任. Driver角色运行在YARN容器内 或 提交任务的客户端进程中 真正干活的Executor运行在YARN提供的容器内 Spark On Y 阅读全文
posted @ 2024-01-12 16:17 阿飞藏泪 阅读(2) 评论(0) 推荐(0) 编辑
1 2 3
4