yetang307

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
1. DataFrame 在结构层面上由StructField组成列描述,由
StructType构造表描述。在数据层面上,Column对象记录列数据
,Row对象记录行数据
2. DataFrame可以从RDD转换、Pandas DF转换、读取文件、读取
JDBC等方法构建
3. spark.read.format()和df.write.format() 是DataFrame读取和写出
的统一化标准API
4. SparkSQL默认在Shuffle阶段200个分区,可以修改参数获得最好
性能
5. dropDuplicates可以去重、dropna可以删除缺失值、fillna可以填
充缺失值
6. SparkSQL支持JDBC读写,可用标准API对数据库进行读写操作
posted on 2024-01-28 22:33  椰糖  阅读(2)  评论(0编辑  收藏  举报