摘要: 一.引言 Spark SQL支持两种不同的方法将现有RDD转换为数据集。 1.第一种方法使用反射来推断包含特定类型对象的RDD的模式。这种基于反射的方法可以使代码更简洁,并且在编写Spark应用程序时已经了解了模式,因此可以很好地工作。详细资料参考 DataFrame与RDD互操作之反射 在开始之前 阅读全文
posted @ 2019-01-24 19:08 夏延 阅读(344) 评论(0) 推荐(0) 编辑
摘要: 在spark的早期版本中,SparkContext是spark的主要切入点,由于RDD是主要的API,我们通过sparkcontext来创建和操作RDD。对于每个其他的API,我们需要使用不同的context。例如,对于Streming,我们需要使用StreamingContext;对于sql,使用 阅读全文
posted @ 2019-01-24 07:20 夏延 阅读(1532) 评论(0) 推荐(0) 编辑
摘要: 1.前提 首先是hadoop的两个服务要开启 然后是hive 的metastore 然后启动spark-shell,如果没有启动hive的metastore,则会在这一步报错,说找不到hive的9083端口。至于启动spark-shell,则是为了看4040端口上的JDBS/ODBC服务 然后启动h 阅读全文
posted @ 2019-01-24 00:01 夏延 阅读(685) 评论(0) 推荐(0) 编辑