赤兔胭脂小吕布

2022年3月7日

摘要： RDD 分区数的设置 package com.shujia.spark import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Demo2Partition { def main 阅读全文

posted @ 2022-03-07 22:41 赤兔胭脂小吕布阅读(148) 评论(0) 推荐(0) 编辑

RDD的五大特性、spark WordCount 流程图

摘要：什么是 RDD RDD 全称 ResilientDistributedDataset （弹性分布式数据集） RDD 仅为一个抽象的编程模型，RDD 默认没有数据 RDD 的五大特性 A list of partitions 由一组分区组成，默认一个 Block 块对应一个 partition A 阅读全文

posted @ 2022-03-07 21:34 赤兔胭脂小吕布阅读(91) 评论(0) 推荐(0) 编辑

spark简介、spark local 运行模式环境搭建

摘要： spark 的简介什么是 spark ？ spark 与 MapReduce spark 是一个计算引擎，是用来代替 MapReduce 的 MapReduce 的优点：稳定 spark 的优点：快 Apache Spark is an open source cluster computing 阅读全文

posted @ 2022-03-07 20:21 赤兔胭脂小吕布阅读(142) 评论(0) 推荐(0) 编辑

2022年3月5日

Scala 练习

摘要： Scala 练习统计总分年级排名前十学生各科的分数 package com.shujia.scala import scala.io.{BufferedSource, Source} object Demo35Student { def main(args: Array[String]): Uni 阅读全文

posted @ 2022-03-05 23:04 赤兔胭脂小吕布阅读(25) 评论(0) 推荐(0) 编辑

Scala WordCount、Scala 集合与 java 集合的相互转换、Scala 模式匹配、隐式转换、偏应用函数、Scala 反射

摘要： Scala WordCount WordCount groupBy 链式调用 package com.shujia.scala import java.io.{BufferedReader, FileReader} import java.util import scala.io.Source ob 阅读全文

posted @ 2022-03-05 22:56 赤兔胭脂小吕布阅读(35) 评论(0) 推荐(0) 编辑

2022年3月4日

Scala 函数、Scala 集合

摘要： Scala函数面向对象编程和面向函数编程 Scala中函数的定义函数类型的定义函数的简写 lambda表达式匿名函数 package com.shujia.scala object Demo14Fun1 { def main(args: Array[String]): Unit = { /* 阅读全文

posted @ 2022-03-04 23:11 赤兔胭脂小吕布阅读(48) 评论(0) 推荐(0) 编辑

2022年3月3日

Scala HelloWorld、Scala和java的关系、Scala是什么、Scala的特点、Scala和java的兼容(Scala的基础语法简介)

摘要： Scala HelloWorld 在 Scala 模块的 src.main.java 目录下创建一个包用来管理我们的 Scala 代码然后在包中新建一个 Scala 的类，右击包 --> New --> Scala Class 并指定 Scala 类的类型为 Object(对象) 注意：在阅读全文

posted @ 2022-03-03 21:39 赤兔胭脂小吕布阅读(101) 评论(0) 推荐(0) 编辑

Scala环境的搭建

摘要： Scala环境的搭建在现阶段大数据中必须熟练掌握 Hadoop 、hive 、spark ，因为在工作中 90% 的时间都是在跟他们打交道 1、新建一个 Maven 项目来管理IDEA项目的依赖因为我们不会在项目的 src 目录下写代码，所以项目的 src 目录可以删掉然后在项目的 pom.x 阅读全文

posted @ 2022-03-03 19:52 赤兔胭脂小吕布阅读(44) 评论(0) 推荐(0) 编辑

2022年3月2日

Linux top 持续监听进程运行状态

摘要： Linux top 持续监听进程运行状态查看内存 top 命令的基本格式如下： [root@localhost ~]#top [选项] 选项： -d 秒数：指定 top 命令每隔几秒更新。默认是 3 秒； -b：使用批处理模式输出。一般和"-n"选项合用，用于把 top 命令重定向到文件中； -n 阅读全文

posted @ 2022-03-02 00:31 赤兔胭脂小吕布阅读(121) 评论(0) 推荐(0) 编辑

面对百亿数据，HBase为什么查询速度依然非常快？

摘要：面对百亿数据，HBase为什么查询速度依然非常快？ HBase适合存储PB级别的海量数据（百亿千亿量级条记录），如果根据记录主键Rowkey来查询，能在几十到百毫秒内返回数据。那么HBase是如何做到的呢？接下来，简单阐述一下数据的查询思路和过程。查询过程第1步：项目有100亿业务数据，存阅读全文

posted @ 2022-03-02 00:26 赤兔胭脂小吕布阅读(300) 评论(0) 推荐(0) 编辑

赤兔胭脂小吕布

天行健，君子以自强不息！

公告