strongmore

2023年6月2日

摘要： ### Spark SQL Spark SQL和我们之前讲Hive的时候说的hive on spark是不一样的。 hive on spark是表示把底层的mapreduce引擎替换为spark引擎。而Spark SQL是Spark自己实现的一套SQL处理引擎。 Spark SQL是Spark中的阅读全文

posted @ 2023-06-02 08:37 strongmore 阅读(35) 评论(0) 推荐(0) 编辑

Spark性能优化

摘要： ### 性能优化分析一个计算任务的执行主要依赖于CPU、内存、带宽 Spark是一个基于内存的计算引擎，所以对它来说，影响最大的可能就是内存，一般我们的任务遇到了性能瓶颈大概率都是内存的问题，当然了CPU和带宽也可能会影响程序的性能，这个情况也不是没有的，只是比较少。 Spark性能优化，其实主要阅读全文

posted @ 2023-06-02 08:18 strongmore 阅读(320) 评论(0) 推荐(0) 编辑

Spark扩展内容

摘要： ### 宽依赖和窄依赖 - 窄依赖(Narrow Dependency)：指父RDD的每个分区只被子RDD的一个分区所使用，例如map、filter等这些算子一个RDD，对它的父RDD只有简单的一对一的关系，也就是说，RDD的每个partition仅仅依赖于父RDD中的一个partition，父R 阅读全文

posted @ 2023-06-02 07:34 strongmore 阅读(30) 评论(0) 推荐(0) 编辑

Spark之RDD相关

摘要： ### 创建RDD RDD是Spark编程的核心，在进行Spark编程时，首要任务是创建一个初始的RDD，这样就相当于设置了Spark应用程序的输入源数据然后在创建了初始的RDD之后，才可以通过Spark 提供的一些高阶函数，对这个RDD进行操作，来获取其它的RDD Spark提供三种创建RDD方阅读全文

posted @ 2023-06-02 07:31 strongmore 阅读(31) 评论(0) 推荐(0) 编辑

Spark实战

摘要： ### WordCount程序这个需求就是类似于我们在学习MapReduce的时候写的案例需求这样的：读取文件中的所有内容，计算每个单词出现的次数注意：由于Spark支持Java、Scala这些语言，目前在企业中大部分公司都是使用Scala语言进行开发，个别公司会使用java进行开发，为了加深阅读全文

posted @ 2023-06-02 07:07 strongmore 阅读(69) 评论(0) 推荐(0) 编辑

Spark详解

摘要： ### 什么是Spark Spark是一个用于大规模数据处理的统一计算引擎注意：Spark不仅仅可以做类似于MapReduce的离线数据计算，还可以做实时数据计算，并且它还可以实现类似于Hive的SQL计算，所以说它是一个统一的计算引擎既然说到了Spark，那就不得不提一下Spark里面最重要的阅读全文

posted @ 2023-06-02 06:50 strongmore 阅读(682) 评论(0) 推荐(0) 编辑

2023年6月1日

Scala语言入门

摘要： ### 为什么要学习Scala语言 - 最直接的一点就是因为我们后面要学的Spark框架需要用到Scala这门语言，但是Spark其实是同时支持Scala语言和Java语言的，为什么非要学Scala呢，使用java难道不香吗？ - 这就要说第二点了：scala相比java代码量更少，更适合函数式编程阅读全文

posted @ 2023-06-01 20:48 strongmore 阅读(77) 评论(0) 推荐(0) 编辑

Hbase入门

摘要： ### Hbase简介 Hbase是一种NoSQL数据库，这意味着它不像传统的RDBMS数据库那样支持SQL作为查询语言。Hbase是一种分布式存储的数据库，技术上来讲，它更像是分布式存储而不是分布式数据库，它缺少很多RDBMS系统的特性，比如列类型，辅助索引，触发器，和高级查询语言等待。那Hbas 阅读全文

posted @ 2023-06-01 14:22 strongmore 阅读(51) 评论(0) 推荐(0) 编辑

Hive扩展内容

摘要： ### 一个SQL语句的分析 ```sql SELECT a.Key, SUM(a.Cnt) AS Cnt FROM ( SELECT Key, COUNT(*) AS Cnt FROM TableName GROUP BY Key, CASE WHEN Key = 'KEY001' THEN Ha 阅读全文

posted @ 2023-06-01 11:27 strongmore 阅读(33) 评论(0) 推荐(0) 编辑

Hive高级函数实战

摘要： ### 函数的基本操作和mysql一样的，hive也是一个主要做统计的工具，所以为了满足各种各样的统计需要，它也内置了相当多的函数 ```sql show functions; # 查看所有内置函数 desc function functionName; # 查看指定函数的描述信息 desc fu 阅读全文

posted @ 2023-06-01 11:12 strongmore 阅读(84) 评论(0) 推荐(0) 编辑

怕什么真理无穷，进一寸有一寸的欢喜。

公告