摘要: 大数据场景下,联表远比微小型关系型数据库中使用的频繁。网上有句话: 传统数据库单机模式做Join的场景毕竟有限,也建议尽量减少使用Join。 然而大数据领域就完全不同,Join是标配,OLAP业务根本无法离开表与表之间的关联,对Join的支持成熟度一定程度上决定了系统的性能,夸张点说,'得Join者 阅读全文
posted @ 2021-12-13 11:27 大卫小东(Sheldon) 阅读(1093) 评论(0) 推荐(0) 编辑
摘要: 通过DF,Spark可以跟大量各型的数据源(文件/数据库/大数据)进行交互。前面我们已经看到DF可以生成视图,这就是一个非常使用的功能。 简单的读写流程如下: 通过read方法拿到DataFrameReader对象,与之类似的就有DataFrameWriter对象,通过DF的write方法拿到,通过 阅读全文
posted @ 2021-12-13 11:21 大卫小东(Sheldon) 阅读(482) 评论(0) 推荐(0) 编辑