herman很慢

导航

spark的RDD如何转换为DataFrame

1、Dataset与RDD之间的交互

        Spark仅支持两种方式来将RDD转成Dataset。第一种方式是使用反射来推断一个RDD所包含的对象的特定类型。这种基于反射的方式会让代码更加地简洁,当你在编写一个Spark应用程序的时候,如果你已经了解该schema,这种方式就很适用。

        第二种方式是通过一个编程接口来创建一个schema,然后将其作用于一个已经存在的RDD,从而创建出一个Dataset,尽管这种方式不太简洁,但它允许你即使在程序运行之前不知道列和类型,你仍然能创建一个Dataset。

 

2、使用反射推导schema

        scala提供给Spark SQL的接口支持自动将一个包含case class的RDD转成DataFrame,这个case class必须定义了表的schema,case class中的参数通过反射读取进来就成了列名,class class可以嵌套或者包含一些复杂的类型,比如sequence、Array等。这个RDD可以隐式地转换成一个DataFrame并且注册成一张表,该表可以使用SQL进行查询。

 

posted on 2019-03-01 17:06  herman很慢  阅读(501)  评论(0编辑  收藏  举报