在做统计计算的时候,根据条件将不同数据分组存放,可以方便后续取数、分析。 Flink中有分流算子,可以将这一批处理后的数据,分成不同的流数据,Spark虽然没有这种算子,但是有类似的操作。 根据key值,将数据写到不同目录下 import org.apache.hadoop.mapred.lib.M Read More
posted @ 2025-06-27 15:52 MrSponge Views(1) Comments(0) Diggs(0)
python不仅在获取外部传参跟Scala、Java有区别,还在提交Spark任务上也有区别。 python不像Java、Scala项目那样,可以通过Maven将项目的一些资源(jar、resource...)打成一个jar包提交到集群上,它不能打包(暂时不知道怎么打包),每次都是通过spark-s Read More
posted @ 2025-05-14 16:06 MrSponge Views(7) Comments(0) Diggs(0)
最近在学PySpark,发现有几个有意思的点。 ScalaSpark→JavaSpark→PySpark Python如何获取外部传参 在Java、Scala中,可执行文件代码都会有一个main方法 def main(args: Array[String]): Unit = { val input Read More
posted @ 2025-05-13 22:38 MrSponge Views(12) Comments(0) Diggs(0)
前言:由于Spark的闭包检查,Driver端的数据无法获取到Executor端的计算数据。 因此需要特殊类型——累加器(ACC) 目录累加器实现原理调用系统累加器注意事项自定义累加器广播变量 累加器实现原理 累加器用来把Executor端变量信息聚合到Driver端。再Driver程序中定义的变量 Read More
posted @ 2025-04-10 23:42 MrSponge Views(27) Comments(0) Diggs(0)
查看源码发现 aggregateByKey 的返回值与传入的zeroVlue类型是一样的 package com.pzb.rdd.operator.transform import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf Read More
posted @ 2025-04-10 23:38 MrSponge Views(3) Comments(0) Diggs(0)
最近在写Spark导数程序的时候,为了实现程序的多元化,即使用同一套程序,实现不同场景的需求,而参考Spark的org.apache.spark.deploy.master.MasterArguments解析main()方法参数写法 @tailrec def parameterMatching(ar Read More
posted @ 2025-04-10 23:35 MrSponge Views(6) Comments(0) Diggs(0)
最近公司让我们学习部署一下deepseek,看能不能扩展一些AI新业务(个人感觉我没这个实力😂),在此记录一下部署遇到的问题!!! 环境:本地下载ollama,然后通过ollama pull deepseek r1 模型,Linux服务器通过ragflow开源项目整合ollama接口实现大模型调用 Read More
posted @ 2025-02-17 15:16 MrSponge Views(512) Comments(0) Diggs(0)
在字符串中添加换行符 在PostgreSQL中如果想在字符串中添加特殊符号,是不等直接在字符串中显示的,如:select '\n',最后查出来的就是\n而不是换行符。 这是需要借用E。在PostgreSQL中,字符串前面的 E 表示该字符串是一个转义字符串(escape string)。转义字符串可 Read More
posted @ 2024-12-31 16:11 MrSponge Views(107) Comments(0) Diggs(0)
这里引用官网的文章 + 我在使用时遇到的问题。官网已经讲解的很明白了。 版本信息: mysql:8.0.33 starRocks:3.0.1 官网有另外一种更简便的方法(DML、DDL一起同步),但好像是我的StarRocks版本太低了,实现不了,看了一下jar包,得3.1以上的才行 从MySQL实 Read More
posted @ 2024-12-17 16:52 MrSponge Views(1202) Comments(0) Diggs(0)
背景 前段时间在做一个数据中台的项目,系统用到了不同数据库中的数据。自己又不想手写JDBC连接,既然我有这个需求,那功能应该有人实现了,于是开始了网上搜了,搜索后发现基本都是讲读写分离、主备切换的,后面也查略了Mybatis-plus的官网,里面有这个功能,但好像是我组件的版本之间不兼容,导致出现了 Read More
posted @ 2024-10-30 17:57 MrSponge Views(1687) Comments(0) Diggs(0)