11 2019 档案
摘要:RDD没有可以这种可以注册的方法。在使用sparksql过程中发现UDF还是有点用的所以,还是单独写一篇博客记录一下。 一:简介 UDF=》一个输入一个输出。相当于mapUDAF=》多个输入一个输出。相当于reduceUDTF=》一个输入多个输出。相当于flatMap。(需要hive环境,暂时未测试
阅读全文
摘要:一:注解(注解相关的实在是不想看,后面想起来了再补上吧) 1.什么是注解 //这个大家都比较熟悉,我就写一个官方的解释,写一下scala和java的不同吧 //注解是那些你插入到代码中以便有工具可以对他们进行处理的标签 //java注解并不影响源码编译成字节码,他们仅仅是忘字节码中添加数据, //以
阅读全文
摘要:一:集合 1.主要的集合特质 scala集合中重要的特质: Trait(Iterable) Trait(Seq) Trait(Set) Trait(Map) Trait(IndexedSeq) Trait(SoredSet) Trait(SoredMap) Seq是一个有先后次序的值的序列,比如数组
阅读全文
摘要:一:操作符 这一章几乎是Java操作符的简单介绍,大佬们可以直接跳过,看第二章。 1.标识符 val ** = "as" //**也可以是变量名称 println(**) val `【】四川省` = "abcd" //``内可以写任意的字符串 println(`【】四川省`) 2.中置操作符 for
阅读全文
摘要:一:文件和正则表达式 1.读取行 import scala.io.Source val lines = Source.fromFile("D://report_data2.txt","UTF-8").getLines() for( i <- lines) println(i)//遍历每一行的数据 v
阅读全文
摘要:一:包和引入 这一章暂时没有发现什么有用的,大家直接使用java中package的方法即可。此处只是为了文章的完整性。大佬们可以直接看第二章 1.包 书上讲的太局限了。个人感觉就是你在的类前面加上package就行了 package com.test.aa.bb object FastLearnSc
阅读全文
摘要:一:类 1.简单类和无参方法 class Counter{ var value = 14 def increment(aa:Int) = { value = aa } def crement() = { value } } val counter = new Counter() println(co
阅读全文
摘要:一:数组相关操作 1.定长数组 val array = Array[String]("a","b","c") //直接初始化数组的内容 println(array.mkString("|")) val array = new Array[String](2) //new一个长度为2的数据在通过更新的
阅读全文
摘要:平时使用Spark比较多,但是对于scala的学习只限于看过书、能写代码,从来没有系统的学习过。此次看《快学scala》,做读书笔记,算是从头学习一下。《快学scala》pdf书百度云地址:https://pan.baidu.com/s/1Bv-k08wffXpnkzCymnYe8w 一:基础 1.
阅读全文
摘要:本文目的是hive的文件格式的生成数据时间和文件存储大小查询时间的对比。生成数据使用的都是hivesql 及配置选项,该选项暂不都适用于spark。 一:建表语句 1.简单介绍 原始文件描述:原始文件未压缩:69G 记录数:11.8亿 文件数:100Hive引擎:tez。资源限制:输入文件大小确定,
阅读全文