1、HDFS只能读取,或者通过其他途径创建2、transfrmation是lazy的。3、传统的容错方式,数据检查点或者记录数据的更新容错是分布式最困难的部分。数据检查点:通过数据中心的网络,连接所在的机器之间,复制庞大的数据集。消耗网络和磁盘。记录数据的更新:更新的很多,则记录成本很高。4、RDD容错方式所有的RDD知道自己的是从哪来的,并记录自己的数据是如何生成的,通过重新计算来生成原来丢失的数据。