又又IT

2019年6月25日

摘要： spark围绕弹性分布式数据集（RDD）的概念展开的，RDD是一个可以并行操作的容错集合。创建RDD的方法： 1.并行化集合（并行化驱动程序中现有的集合）调用SparkContext的parallelize收集方法 2.外部数据集操作（引用外部系统存储的数据集） RDD操作 1.Transfor 阅读全文

posted @ 2019-06-25 16:30 又又IT 阅读(400) 评论(0) 推荐(0) 编辑

spark的体系结构

摘要： spark的体系结构 1.客户端（Driver Program）需要构建一个对象，核心是sc(SparkContext) 以应用程序为例：链接本地启动方式： 1.Spark-Shell 2.Spark-Submit 3.应用程序 2.服务端 1.客户端将job提交给Master(主节点) 2.主阅读全文

posted @ 2019-06-25 16:22 又又IT 阅读(820) 评论(0) 推荐(0) 编辑

spark 省份次数统计实例

摘要： //统计access.log文件里面IP地址对应的省份，并把结果存入到mysqlpackage access1 import java.sql.DriverManager import org.apache.spark.broadcast.Broadcast import org.apache.spark.{SparkConf, SparkContext} object AccessIp ... 阅读全文

posted @ 2019-06-25 12:13 又又IT 阅读(755) 评论(0) 推荐(0) 编辑

2019年6月24日

spark热门电影

摘要： package moviesimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object Movice { def main(args: Array[String]): Unit = { val cof = new SparkConf () .setAppName ... 阅读全文

posted @ 2019-06-24 17:35 又又IT 阅读(342) 评论(0) 推荐(0) 编辑

二分查找法

摘要：条件：1.数组 2.有序（升序/降序）一、最基本的二分查找注意：查找条件：low<=high(下边界<=上边界) 2.为了防止溢出：mid=low+(high-mid)/2 (或者mid=(high+low)/2)) 3.当array(mid)>target时 high=mid-1 当arra 阅读全文

posted @ 2019-06-24 16:28 又又IT 阅读(682) 评论(0) 推荐(0) 编辑

2019年6月20日

spark map和mapPartitions的区别

摘要： package dayo1 import org.apache.spark.{SparkConf, SparkContext} import scala.collection.mutable.ArrayBuffer object MapAndPartitions { def main(args: Array[String]): Unit = { val cof = new Sp... 阅读全文

posted @ 2019-06-20 15:24 又又IT 阅读(1010) 评论(0) 推荐(0) 编辑

RDD实例

摘要：实例一： teacher.log 全局topn 组内topn 代码：实例二：去重代码：实例三： temperature.txt 需求：分析每年的最高温度代码：阅读全文

posted @ 2019-06-20 14:53 又又IT 阅读(396) 评论(0) 推荐(1) 编辑

2019年6月13日

Scala类和对象

摘要： 1.面向对象 Scala的类与java、C++的一些比起来更简洁，速度更快对象：使用object关键字修饰的类：使用class关键字修饰的new Person()实例对象 new类：类的实例（对象） 1.1.单例对象（1）scala中没有静态方法和静态字段，没有static (2) java中阅读全文

posted @ 2019-06-13 15:12 又又IT 阅读(1230) 评论(0) 推荐(0) 编辑

2019年6月12日

Scala的集合框架

摘要： 1.元组定义方式：val tp=("nana',1,1.1) 特点：集合中的数据可以是不同类型的最多只能放22个元素取值：通过角标取值，这里的角标是从1开始的，元组名称._角标 tp._1 ("nana") 当出现数组长度不相同时，报错对偶元组：val tp=("nana",1) 两个元素阅读全文

posted @ 2019-06-12 22:45 又又IT 阅读(517) 评论(0) 推荐(0) 编辑

Scala的to和until

摘要： object test03 { def main(args: Array[String]): Unit = { //to 每次迭代为1 val to1=1 to 10 print("to1"+to1) println() //to by 自定义迭代的大小 val to2=1 to 10 by 2 print("to2"+to2) ... 阅读全文

posted @ 2019-06-12 16:34 又又IT 阅读(4256) 评论(0) 推荐(0) 编辑

公告