2019 年 1月 24 日随笔档案 - 夏延

2019年1月24日

摘要：一.引言 Spark SQL支持两种不同的方法将现有RDD转换为数据集。 1.第一种方法使用反射来推断包含特定类型对象的RDD的模式。这种基于反射的方法可以使代码更简洁，并且在编写Spark应用程序时已经了解了模式，因此可以很好地工作。详细资料参考 DataFrame与RDD互操作之反射在开始之前阅读全文

posted @ 2019-01-24 19:08 夏延阅读(344) 评论(0) 推荐(0) 编辑

SparkSQL——SparkSession的使用

摘要：在spark的早期版本中，SparkContext是spark的主要切入点，由于RDD是主要的API，我们通过sparkcontext来创建和操作RDD。对于每个其他的API，我们需要使用不同的context。例如，对于Streming，我们需要使用StreamingContext；对于sql，使用阅读全文

posted @ 2019-01-24 07:20 夏延阅读(1532) 评论(0) 推荐(0) 编辑

SparkSQL——通过JDBC的方式访问

摘要： 1.前提首先是hadoop的两个服务要开启然后是hive 的metastore 然后启动spark-shell，如果没有启动hive的metastore，则会在这一步报错，说找不到hive的9083端口。至于启动spark-shell，则是为了看4040端口上的JDBS/ODBC服务然后启动h 阅读全文

posted @ 2019-01-24 00:01 夏延阅读(685) 评论(0) 推荐(0) 编辑

夏延

公告