spark教程(10)-sparkSQL

sparkSQL 的由来

我们知道最初的计算框架叫 mapreduce，他的缺点是计算速度慢，还有一个就是代码比较麻烦，所以有了 hive；

hive 是把类 sql 的语句转换成 mapreduce，解决了开发难的问题，但是 hive 的底层还是 mapreduce，仍然是慢；

spark 也看到了 hive 的优势，以 hive 为中心的一套框架 shark 营运而生，它是 spark 的前身，h 就是 hive 的意思；

但是为了提高 shark 的效率，spark 自己开发了一套算法，替代了之前 hive 的思路，这套算法就是 sparkSQL

sparkSQL 是 spark 专门处理结构化数据的一个模块，也就是像数据表一样的数据，处理方式就是像 sql 一样；

换句话说，sparkSQL 使用 sql 的方式代替了之前数据处理的方式。

sparkSQL 提供了两个编程抽象：DataFrame 和 DataSet，起到了分布式 SQL 查询引擎的作用；

sparkSQL 把 sql 语句和 dataFrame、dataSet 转换成了 RDD，执行效率非常快；

也就是说 dataFrame、dataSet 的底层仍然是 RDD，并且可以互相转换

官方解释

易整合：

兼容 hive：

统一的数据访问方式：用同样的方式读取各类文件

标准的数据库连接：可以通过 JDBC 或者 ODBC 连接标准数据库

后面会详细解释。

发表于 2019-10-19 09:21 努力的孔子阅读(868) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 全程不用写代码，我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· .NET10 - 预览版1新功能体验（一）