寒假7

今天学习SparkSQL方面的知识

该模型允许你使用SQL或者DataFrame或DataSet进行关系型查询 Spark SQL划分为四个子项目:

Catalyst (sql/catalyst) - 解析关系操作算子和表达式的语法树的实现框架
Execution (sql/core) - 代表planner / execution engine 用来转化Catalyst的逻辑查询计划为park RDDs. 该部件也允许用户将 RDDs and Parquet files转化为表，来进行查询分析.
Hive Support (sql/hive) - 包含了一个SqlContext扩展HiveContext，允许使用 HiveQL 的子集and 允许使用 * Hive SerDes去访问hive metastore的数据. 也可以使用Hive 的UDFs, UDAFs, and UDTFs来进行查询分析.
HiveServer and CLI support (sql/hive-thriftserver) - Includes support for the SQL CLI (bin/spark-sql) and a HiveServer2 (for JDBC/ODBC) compatible server.
dataFrame进一步抽象了数据集

练习了加载数据使用DataFrame

还有将RDD转化为DataFrame

posted @ 2020-02-07 22:08 互联.王阅读(86) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 全程不用写代码，我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· DeepSeek 开源周回顾「GitHub 热点速览」
· 白话解读 Dapr 1.15：你的「微服务管家」又秀新绝活了

温馨提示cute-cnblogs 样式已开源查看一期样式

+加关注

昵称：互联.王
园龄： 7年3个月
粉丝： 5
关注： 14

麋鹿鲁哟

靡不有初鲜克有终

2025年3月

日

一

二

三

四

五

六

迷人的字符