大数据开发

SparkSession spark = SparkSession.builder()
.appName("spark-item")
.config("spark.sql.warehouse.dir", warehouse_location)
.enableHiveSupport()
.config("spark.sql.adaptive.enabled",true)
.config("spark.sql.hive.mergeFiles",true)
.config("spark.executor.heartbeatInterval", "18000")
.config("spark.network.timeout", "36000")
.config("spark.sql.broadcastTimeout", "1800")
.getOrCreate();
/**
*
*/

// 通过enconder对数据类进行Dataset转化
String reduplicatedListSql = GetExecuteSql.getFocusDataMapAddItemGdResultList(yesterday);
Encoder<ItemFocusDataMapItemGd> itemFocusDataMapItemGdEncoder = Encoders.bean(ItemFocusDataMapItemGd.class);
Dataset<ItemFocusDataMapItemGd> itemMixedEtlResultDataset = spark.sql(reduplicatedListSql).as(itemFocusDataMapItemGdEncoder);
Encoder<ItemMixedEtlResultTmp> itemMixedEtlResultTmpEncoder = Encoders.bean(ItemMixedEtlResultTmp.class);
Dataset<ItemMixedEtlResultTmp> itemMixedEtlDuplicatedResultDataset = itemMixedEtlResultDataset.repartition(repartitions).
mapPartitions(new MapPartitionFocusDataMapAddItem(),itemMixedEtlResultTmpEncoder);
itemMixedEtlDuplicatedResultDataset.createOrReplaceTempView("result_data");
spark.sqlContext().setConf("hive.merge.mapfiles","true");
spark.sqlContext().setConf("hive.merge.mapredfiles","true");
spark.sqlContext().setConf("hive.merge.size.per.task","167772160");
spark.sqlContext().setConf("hive.merge.smallfiles.avgsize","125829120");
spark.sqlContext().setConf("hive.exec.dynamic.partition", "true");
spark.sqlContext().setConf("hive.exec.dynamic.partition.mode", "nonstrict");
// 对生成的临时表进行去重
spark.sql(GetExecuteSql.getInsertFocusDataMapAddItemGdSql(source));

}

posted @ 2023-05-25 10:36 15375357604 阅读(19) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· huggface

· milvus操作

· Spark读取http数据写入hive

· 大数据 | Spark基本使用示例

· 学习笔记7

阅读排行：
· 全程不用写代码，我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· .NET10 - 预览版1新功能体验（一）

公告

昵称： 15375357604
园龄： 6年4个月
粉丝： 1
关注： 1

+加关注

2025年3月

日

一

二

三

四

五

六

15375357604

大数据开发

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜