摘要:
开发调优: 避免创建重复的RDD 尽可能服用一个RDD 对多次使用的RDD进行持久化:调用cache()和persist() 持久化级别含义解释 MEMORY_ONLY 使用未序列化的Java对象格式,将数据保存在内存中。如果内存不够存放所有的数据,则数据可能就不会进行持久化。那么下次对这个RDD执 阅读全文
摘要:
源码包: org.apache.spark.sql.Dataset.scala 数据: stu.json{"stuid":"19001","classid":"1002","name": "Michael", "age": 12}{"stuid":"","classid":"1001","name" 阅读全文