Dataset与DataFrame创建的比较方式
DataFrame | Dataset | |
---|---|---|
创建方式 | 1.根据集合或者RDD的隐式函数toDF(列名)创建(需要引入SparkSession的隐式转换函数)2.SparkSession的createDataFrame函数3.外部结构化文件4.外部关系型数据库5.Hive数据仓库 | 1.根据集合或者RDD的隐式转换函数toDS()创建2.通过sparksession的createDataset函数来创建3.从DataFrame转化的来(这三种方式都是引入SparkSession的隐式转换内容,构建Dataset的时候,需要一个Encoder编码器,编码器时使用隐式参数声明的,所以我们需要一个隐式变量来填充隐式参数)4.从外部结构文件创建sparksession.read.options.textFile5.[注意]SparkSQL中,Dataset中存放的数据类型我们一般希望是Bean类型的 |
本文来自博客园,作者:jsqup,转载请注明原文链接:https://www.cnblogs.com/jsqup/p/16640507.html
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?