2023 年 10月随笔档案 - whiteY

pyspark数据写入文件及数据库hive

摘要：原始数据如下 POD9_6ec8794bd3297048d6ef7b6dff7b8be1|#$2023-10-24|#$0833|#$#|#$#|#$99999999999|#$#|#$12345678912 POD9_352858578708f144bb166a77bad743f4|#$2023- 阅读全文

posted @ 2023-10-31 16:20 whiteY 阅读(839) 评论(0) 推荐(0) 编辑

pyspark.sql处理多分隔符数据文件生成DF案例

摘要：pyspark程序清洗多分隔符数据案例原始数据可以看到原始数据是以“|#$”多分隔符进行数据分割的 POD9_6ec8794bd3297048d6ef7b6dff7b8be1|#$2023-10-24|#$0833|#$#|#$#|#$99999999999|#$#|#$12345678912 阅读全文

posted @ 2023-10-25 17:03 whiteY 阅读(122) 评论(0) 推荐(0) 编辑

pyspark 广播变量和累加器

摘要：广播变量broadcast 广播变量允许程序缓存一个只读变量在集群的每台机器上，而不是每个任务保存一个拷贝。借助广播变量，可以用一种更高效的方法来共享一些数据，比如一个全局配置文件。 from pyspark import SparkConf,SparkContext conf = SparkCon 阅读全文

posted @ 2023-10-24 15:38 whiteY 阅读(88) 评论(0) 推荐(0) 编辑

hive表加字段

摘要：hive原表结构 hive表加新字段interface_type alter table test.test_table add columns(interface_type string); hive表新表结构阅读全文

posted @ 2023-10-20 10:01 whiteY 阅读(18) 评论(0) 推荐(0) 编辑

pyspark 连接hive

摘要：pyspark连接hive 想要spark能够连接上hive，就需要将hive的一些配置文件放到spark中，让spark可以通过配置文件中的metastore.uris找到hive的元数据库，从而访问hive. 1.将hive的conf文件夹下的hive-site.xml和hadoop/conf文阅读全文

posted @ 2023-10-19 10:49 whiteY 阅读(685) 评论(0) 推荐(0) 编辑

spark sql使用--创建SparkDataFrame

摘要：Spark SQL模块这个模块是Spark中用来处理结构化数据的，提供一个叫SparkDataFrame的东西并且自动解析为分布式SQL查询数据。在RDD阶段，程序的执行入口对象是： SparkContext 在Spark 2.0后，推出了SparkSession对象，作为Spark编码的统一入阅读全文

posted @ 2023-10-17 16:08 whiteY 阅读(212) 评论(0) 推荐(0) 编辑

pyspark 常用action 算子

摘要：from pyspark import SparkConf, SparkContext conf = SparkConf().setAppName("test_SamShare").setMaster("local[4]") sc = SparkContext(conf=conf) # 1. col 阅读全文

posted @ 2023-10-16 17:50 whiteY 阅读(76) 评论(0) 推荐(0) 编辑

pyspark 常用Transform算子

摘要：from pyspark import SparkConf, SparkContext conf = SparkConf().setAppName("test_SamShare").setMaster("local[4]") sc = SparkContext(conf=conf) # 1.map对阅读全文

posted @ 2023-10-16 17:11 whiteY 阅读(55) 评论(0) 推荐(0) 编辑

windows 安装pyspark环境及pycharm配置

摘要：1.安装JDK https://www.cnblogs.com/whiteY/p/13332708.html 2.安装hadoop2.7 下载hadoop2.7.1安装包链接: https://pan.baidu.com/s/1saGhaKbcvwrE4P3F5_UhZQ 提取码: 1234 解压阅读全文

posted @ 2023-10-11 17:34 whiteY 阅读(1357) 评论(0) 推荐(0) 编辑

pyspark：spark-sql使用

摘要：使用spark-sql操作文件进行sql查询示例代码如下 if __name__ == '__main__': #SparkSession用于SparkSQL编程作为入口对象 #用于SparkCore编程，可以通过SparkSession对象中获取到SparkContext #也可以直接进入pys 阅读全文

posted @ 2023-10-10 11:19 whiteY 阅读(117) 评论(0) 推荐(0) 编辑

linux环境pyspark环境搭建

摘要：安装anaconda 1.首先安装spark，在安装spark之前需要安装anaconda 可以到清华大学镜像源下载： https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 以镜像源为例：由于使用python3.8，anaconda下载的版本阅读全文

posted @ 2023-10-08 18:06 whiteY 阅读(872) 评论(0) 推荐(0) 编辑

whiteY

10 2023 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

推荐排行榜