在Linux系统中通过 vim 进行文本替换 本文转自:https://www.cnblogs.com/wind-wang/p/5768000.html 在vim中,可以通过:set nu或:set number的命令来显示文本的行号 在VIM中进行文本替换: 1. 替换当前行中的内容: :s/fr Read More
posted @ 2023-12-04 11:39 MrSponge Views(150) Comments(0) Diggs(0) Edit
前言 PostgreSQL官方文档:http://www.postgres.cn/docs/11/functions-comparison.html 今天在预览PostgreSQL文档的时候看到了这个功能,平时写SQL都是a is [not] null来进行判断的,第一次见到可以这样,觉得挺新奇的就 Read More
posted @ 2023-11-27 11:22 MrSponge Views(39) Comments(0) Diggs(0) Edit
背景 从ScalaSpark代码转PySpark代码,同时实现连续读多个文件,避免因某些路径不存在导致程序终止。 在Scala的Spark中可以直接导下面两个模块的包 import org.apache.hadoop.conf.Configuration import org.apache.hado Read More
posted @ 2023-11-07 15:52 MrSponge Views(278) Comments(0) Diggs(0) Edit
Kafka实操命令 kafka版本:scala2.11,kafka1.1.0 kafka_2.11-1.1.0.jar Kafka命令行操作 1)查看当前服务器中的所有topic kafka-topics.sh --zookeeper hadoop111:2181/kafka --list 2)创建 Read More
posted @ 2023-11-06 17:36 MrSponge Views(257) Comments(0) Diggs(0) Edit
Yarn是一个资源管理器和任务调度器,如果你的大数据集群是用的Yarn来管理的,那下面有几个比较常用的命令。 查看任务列表 yarn application -list 该命令是查看在所有Yarn上运行的任务信息,一般包括:Application-Id、Application-Name、Applic Read More
posted @ 2023-06-11 23:27 MrSponge Views(921) Comments(0) Diggs(0) Edit
众所周知,RDD只会保留血缘关系,不存储计算结果。如果想要让计算结果持久化存储,那就要引入cache和persist方法。 提前感受变化 禁用持久化 package com.pzb.rdd.persist import org.apache.spark.rdd.RDD import org.apac Read More
posted @ 2023-04-20 14:01 MrSponge Views(14) Comments(0) Diggs(0) Edit
介绍 val fileRDD: RDD[String] = sc.textFile("input/1.txt") println(fileRDD.toDebugString) println(" ") val wordRDD: RDD[String] = fileRDD.flatMap(_.spli Read More
posted @ 2023-04-20 13:55 MrSponge Views(45) Comments(0) Diggs(0) Edit
Spark的算子分为两大类:transform(转换算子)和action(行动算子) transform算子:map、mapPartitions、mapPartitionsWithIndex、flatMap、glom、groupBy、filter、sample、distinct、coalesce、r Read More
posted @ 2023-04-20 13:45 MrSponge Views(172) Comments(2) Diggs(0) Edit
题目需求 根据用户登录明细表(user_login_detail),求出平台同时在线最多的人数。 结果如下: | cn | | : : | | 7 | 需要用到的表: 用户登录明细表:user_login_detail | user_id(用户id) | ip_address(ip地址) | log Read More
posted @ 2023-03-06 11:13 MrSponge Views(421) Comments(0) Diggs(0) Edit
Hive Hive中文手册 思考: Hive的架构原理 Hive和数据库的比较 几种访问方式的不同 1.1 什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化数据文件映射为一张表,并提供类SQL查询功能。 Hive本质是将HQL转换成MapReduce Hive处理的数据存储 Read More
posted @ 2023-03-05 15:26 MrSponge Views(74) Comments(0) Diggs(0) Edit