01 2022 档案
摘要:List分为两种: mutable immutable 默认使用的immutable List =list是不可变的, List集合注意事项: 1- List集合中长度和元素的值都不可变。 2- 数组是长度不能改变。 3- List中不可变的是:List 可变的是:ListBuffer 4- Lis
阅读全文
摘要:Scala中的集合: 元组没有可变的,声明以后只能使用,不能修改。 1- 元组对象的关键字: tuple。 Tuple是一个类,是一个关键字。 2- 元组没有可变的,都是不可变的。 3- 没有可变的,声明以后只能使用,不能修改(tuple)。 4- 概念:一系列数据的集合,可以理解成array,但是
阅读全文
摘要:方法中的返回值: 1- 方法中返回值的关键字是return 2- 方法中如果最后没有返回值类型不能使用return关键字。 方法中没有返回值不能使用return关键字。 方法中不添加return关键字,返回值类型会自己适配。 3- 方法中如果使用return关键字,方法中必须添加返回值类型。 sca
阅读全文
摘要:今天学习scala, if else 用法 1.If else具有返回值,重点。 2.如果有多个值的情况下,最后一行的返回值生效。 3.不加{ }只能适配一行内容。 4.如果两个分支,返回数据不一样,那么找寻最近的那个父类。 5 如果满足返回字符串,不满足可能返回Int类型,所以返回类型是Any类型
阅读全文
摘要:我在想视频教程是怎么用idea写spark代码的,我需要去学习scala,先安装windows的scala,按照教程解压安装包,将放置路径写入环境变量。然后在本地cmd运行scala。 然后想来配置idea的环境,按照教程,但是被Scala sdk难住了,我没有这个东西,查找资料后去官网下载,将路径
阅读全文
摘要:分区算子:可以将RDD中的分区数量改变: 1-repartition (再分配) 可将分区数量变大变小: 转换类算子 示例: scala> val a=Array(1,2,34,4,5,6,7) a: Array[Int] = Array(1, 2, 34, 4, 5, 6, 7) scala> s
阅读全文
摘要:11- countByKey:算子: ** 该算子先按照key分组再做count操作 ** 数据类型是K,V的RDD才能调用该算子 12- collectAsMap:算子: ** 该算子是将RDD的数据收集到Driver端,但是以Map的形式收集: ** 收集的RDD类型必须是: RDD[(key,
阅读全文
摘要:Action算子: 1-foreach:算子: 一对一的遍历算子,主要用于打印,但是控制台上不会显示结果数据,数据在每个Executor中自己打印自己处理完的数据: scala> val a=Array(1,2,3,4,5,6) a: Array[Int] = Array(1, 2, 3, 4, 5
阅读全文
摘要:10-reduceByKey:算子: ** 一个聚合算子,将相同的kry进行聚合。 ** 可以分区的算子 示例1: val conf = new SparkConf().setMaster("local[*]").setAppName("demo") val sc = new SparkContex
阅读全文
摘要:4-zipWithIndex: 根据下标进行拉链操作: 示例1: 将普通数组数据和下标进行拉链操作: val a=Array(1,2,3,4,5,6,7,8,9,10) val rdd1: RDD[Int] = sc.makeRDD(a) val rdd2 = rdd1.zipWithIndex()
阅读全文
摘要:spark中的算子分为两类: [or 三类 ] 说明: RDD一旦创建不能修改,但是可以使用算子让一个RDD转换成新的RDD,这个过程的所有操作都要基于算子进行操作。 1--transformation 转换类算子 : 根据数据集创建一个新的数据集,计算后返回一个新RDD;例如:一个rdd进行map
阅读全文
摘要:昨天对开题原型进行汇报后,老师说我们的想法不对,是股票的权重制,但是经过我们的讨论后和对试题文件的分析 ,它要求的是先到先得。是一个队列而不是随机。
阅读全文
摘要:修改分区数量的方法: [分区的数量决定了任务并行化处理任务的程度] 1-集合并行化创建RDD的时候可以手动的设置分区数量。Eg: sc.makeRDD(a,3) def makeRDD[T: ClassTag]( seq: Seq[T], numSlices: Int = defaultParall
阅读全文
摘要:RDD的分区: 集合并行化的方式创建分区: [默认根据cores数自动分区,可以手动设置分区数量] scala> val a=Array(11,22,33) a: Array[Int] = Array(11, 22, 33) scala> sc.makeRDD(a,3) res1: org.apac
阅读全文
摘要:今天做原型的时候遇到一个很奇怪的问题,layui open 的content属性我想打开一个指定页面,但是他把这个参数当作字符串。 写原型,做css和html的调整有的地方会有困难,就硬是达不到想要的效果 css中margin的四个参数的顺序,这个对调位置非常有用 margin:top right
阅读全文
摘要:今天和队友对项目需求再次进行讨论,然后我们统一了意见,就是分一个秒杀的系统和一个对用户的判定机制,分为这两块来实现。此部分规则适用于贷款产品,而非本次题目中的存款产品。引入目的是希望参赛者实现一个简单的、可灵活配置规则的风险决策引擎。这是后面的期望。
阅读全文
摘要:RDD:分布式的数据集 Rdd是spark中最基本的抽象,它代表的是一个只读的不能被改变的被分区的数据集。 在spark中存在很多的方法,这些方法都可以进行操作rdd,而这些方法就叫做算子。 特点: 只读:一旦创建,不能被修改,因为RDD是一个抽象。 不可变:一旦创建,不能被修改,只能生成新的RDD
阅读全文
摘要:今天继续学习spark ,进入shell模式命令, bin/spark-shell --master spark://hadoop102:7077 会比较慢,相当于打开一个应用程序,所以会很慢 退出的命令是 :quit wordcount的demo 在命令行中,这里的结果要在网页的结果中看到,如果要
阅读全文
摘要:今天继续安装spark,采用自带的例子进行测试 先启动saprk ,然后输入如下命令,注意格式,不然很容易报错。我就在格式上出错,找了好久的原因。 会得到pi的结果 这样就结束了。 提交命令用到的一些参数
阅读全文
摘要:今天选择安装spark 在参考了很多视频后选择了standalone模式,按照网上的教程进行配置 注意这个启动命令要在spark的目录下就执行。 完成后在网页上查看 得到这个界面,spark独立部署模式安装成功
阅读全文
摘要:今天初步了解spark,看了三个小时的视频,有点茫然,视频安装了三种模式的spark,本地模式,独立模式需要配置三台虚拟机,还有混合yarn的模式,不知道该安装哪种模式。配置好困难。 按照教程敲了一个小时的秒杀系统,看到后面的视频我发现他又大量的用到了虚拟机,我有点茫然。好多不会的东西。
阅读全文