摘要: 开发调优: 避免创建重复的RDD 尽可能服用一个RDD 对多次使用的RDD进行持久化:调用cache()和persist() 持久化级别含义解释 MEMORY_ONLY 使用未序列化的Java对象格式,将数据保存在内存中。如果内存不够存放所有的数据,则数据可能就不会进行持久化。那么下次对这个RDD执 阅读全文
posted @ 2019-12-08 21:22 1440min 阅读(430) 评论(0) 推荐(0) 编辑
摘要: 源码包: org.apache.spark.sql.Dataset.scala 数据: stu.json{"stuid":"19001","classid":"1002","name": "Michael", "age": 12}{"stuid":"","classid":"1001","name" 阅读全文
posted @ 2019-12-08 20:43 1440min 阅读(2070) 评论(0) 推荐(0) 编辑