上一页 1 2 3 4 5 6 7 8 9 ··· 46 下一页
摘要: RDD 分区数的设置 package com.shujia.spark import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Demo2Partition { def main 阅读全文
posted @ 2022-03-07 22:41 赤兔胭脂小吕布 阅读(148) 评论(0) 推荐(0) 编辑
摘要: 什么是 RDD RDD 全称 ResilientDistributedDataset (弹性分布式数据集 ) RDD 仅为一个抽象的编程模型,RDD 默认没有数据 RDD 的五大特性 A list of partitions 由一组分区组成,默认一个 Block 块对应一个 partition A 阅读全文
posted @ 2022-03-07 21:34 赤兔胭脂小吕布 阅读(91) 评论(0) 推荐(0) 编辑
摘要: spark 的简介 什么是 spark ? spark 与 MapReduce spark 是 一个计算引擎,是用来代替 MapReduce 的 MapReduce 的优点:稳定 spark 的优点:快 Apache Spark is an open source cluster computing 阅读全文
posted @ 2022-03-07 20:21 赤兔胭脂小吕布 阅读(142) 评论(0) 推荐(0) 编辑
摘要: Scala 练习 统计总分年级排名前十学生各科的分数 package com.shujia.scala import scala.io.{BufferedSource, Source} object Demo35Student { def main(args: Array[String]): Uni 阅读全文
posted @ 2022-03-05 23:04 赤兔胭脂小吕布 阅读(25) 评论(0) 推荐(0) 编辑
摘要: Scala WordCount WordCount groupBy 链式调用 package com.shujia.scala import java.io.{BufferedReader, FileReader} import java.util import scala.io.Source ob 阅读全文
posted @ 2022-03-05 22:56 赤兔胭脂小吕布 阅读(35) 评论(0) 推荐(0) 编辑
摘要: Scala函数 面向对象编程和面向函数编程 Scala中函数的定义 函数类型的定义 函数的简写 lambda表达式 匿名函数 package com.shujia.scala object Demo14Fun1 { def main(args: Array[String]): Unit = { /* 阅读全文
posted @ 2022-03-04 23:11 赤兔胭脂小吕布 阅读(48) 评论(0) 推荐(0) 编辑
摘要: Scala HelloWorld 在 Scala 模块的 src.main.java 目录下创建一个包用来管理我们的 Scala 代码 然后 在包中新建一个 Scala 的类,右击包 --> New --> Scala Class 并 指定 Scala 类的类型为 Object(对象) 注意 : 在 阅读全文
posted @ 2022-03-03 21:39 赤兔胭脂小吕布 阅读(101) 评论(0) 推荐(0) 编辑
摘要: Scala环境的搭建 在现阶段大数据中必须熟练掌握 Hadoop 、hive 、spark ,因为在工作中 90% 的时间都是在跟他们打交道 1、新建一个 Maven 项目来管理IDEA项目的依赖 因为我们不会在项目的 src 目录下写代码,所以项目的 src 目录可以删掉 然后在项目的 pom.x 阅读全文
posted @ 2022-03-03 19:52 赤兔胭脂小吕布 阅读(44) 评论(0) 推荐(0) 编辑
摘要: Linux top 持续监听进程运行状态 查看内存 top 命令的基本格式如下: [root@localhost ~]#top [选项] 选项: -d 秒数:指定 top 命令每隔几秒更新。默认是 3 秒; -b:使用批处理模式输出。一般和"-n"选项合用,用于把 top 命令重定向到文件中; -n 阅读全文
posted @ 2022-03-02 00:31 赤兔胭脂小吕布 阅读(121) 评论(0) 推荐(0) 编辑
摘要: 面对百亿数据,HBase为什么查询速度依然非常快? HBase适合存储PB级别的海量数据(百亿千亿量级条记录),如果根据记录主键Rowkey来查询,能在几十到百毫秒内返回数据。 那么HBase是如何做到的呢? 接下来,简单阐述一下数据的查询思路和过程。 查询过程 第1步: 项目有100亿业务数据,存 阅读全文
posted @ 2022-03-02 00:26 赤兔胭脂小吕布 阅读(300) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 46 下一页