寒假7

今天学习SparkSQL方面的知识

该模型允许你使用SQL或者DataFrame或DataSet进行关系型查询 Spark SQL划分为四个子项目:

  • Catalyst (sql/catalyst) - 解析关系操作算子和表达式的语法树的实现框架
  • Execution (sql/core) - 代表planner / execution engine 用来转化Catalyst的逻辑查询计划为park RDDs. 该部件也允许用户将 RDDs and Parquet files转化为表,来进行查询分析.
  • Hive Support (sql/hive) - 包含了一个SqlContext扩展HiveContext,允许使用 HiveQL 的子集and 允许使用 * Hive SerDes去访问hive metastore的数据. 也可以使用Hive 的UDFs, UDAFs, and UDTFs来进行查询分析.
  • HiveServer and CLI support (sql/hive-thriftserver) - Includes support for the SQL CLI (bin/spark-sql) and a HiveServer2 (for JDBC/ODBC) compatible server.
  • dataFrame进一步抽象了数据集

练习了加载数据使用DataFrame

还有将RDD转化为DataFrame

posted @   互联.王  阅读(86)  评论(0编辑  收藏  举报
编辑推荐:
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· DeepSeek 开源周回顾「GitHub 热点速览」
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
点击右上角即可分享
微信分享提示