随笔分类 -  Spark

摘要:一、文件数据读写 1.本地文件系统的数据读写 可以采用多种方式创建Pair RDD,其中一种主要方式是使用map()函数来实现 惰性机制,即使输入了错误的语句spark-shell也不会马上报错。 (1)读 给出路径名称,TextFile会把路径下面的所有文件都读进来,生成一个RDD (2)写 当只 阅读全文
posted @ 2019-11-07 17:12 nxf_rabbit75 阅读(438) 评论(0) 推荐(0) 编辑
摘要:一、键值对RDD的创建 1.从文件中加载 2.通过并行集合(数组)创建RDD 二、常用的键值对RDD转换操作 1.reduceByKey(func) 功能:使用func函数合并具有相同键的值 2.groupByKey() 功能:对具有相同键的值进行分组 3.keys 4.values 5.sortB 阅读全文
posted @ 2019-11-07 14:38 nxf_rabbit75 阅读(511) 评论(0) 推荐(0) 编辑
摘要:一、RDD编程基础 1.创建 spark采用textFile()方法来从文件系统中加载数据创建RDD,该方法把文件的URL作为参数,这个URL可以是: 本地文件系统的地址 分布式文件系统HDFS的地址 从云端加载数据,比如亚马逊的云端存储S3 (1)从本地文件系统中加载数据创建RDD (2)从分布式 阅读全文
posted @ 2019-11-06 16:56 nxf_rabbit75 阅读(468) 评论(0) 推荐(0) 编辑
摘要:一、安装Spark spark和Hadoop可以部署在一起,相互协作,由Hadoop的HDFS、HBase等组件复制数据的存储和管理,由Spark负责数据的计算。 Linux:CentOS Linux release 7.6.1810(Core)(cat /etc/centos-release 查看 阅读全文
posted @ 2019-10-31 20:37 nxf_rabbit75 阅读(1041) 评论(0) 推荐(0) 编辑
摘要:一、Spark的部署 1.单机Local 2.集群 (1)Standalonc Spark自带的资源管理器,效率不高 (2)YARN 如果部署的是Hadoop集群,可以用YARN资源调度 (3)Mesos Spark和Mesos是相互优化的,它们之间性能匹配得非常好。 二、Spark的应用方式 Sp 阅读全文
posted @ 2019-10-31 20:30 nxf_rabbit75 阅读(268) 评论(0) 推荐(0) 编辑
摘要:一、基本概念 1.RDD Resillient Distributed Dataset 弹性分布式数据集 2.DAG 反映RDD之间的依赖关系 3.Executor 进程驻守在机器上面,由进程派生出很多的线程,然后去执行任务。 4.应用application 5.任务 6.作业Job 一个应用程序提 阅读全文
posted @ 2019-10-30 18:20 nxf_rabbit75 阅读(268) 评论(0) 推荐(0) 编辑
摘要:一、Spark简介 1.Spark的特点 特点1:运行速度快(内存计算,循环数据流、有向无环图设计机制) 把所有针对数据集的操作转换成一张有向无环图,整个执行引擎调度都是基于这个有向无环图,对这个有向无环图的后期操作,会进行拆分,分成不同的阶段,每一阶段分成不同的任务,再去分发到不同的机器上去执行。 阅读全文
posted @ 2019-10-30 14:54 nxf_rabbit75 阅读(244) 评论(0) 推荐(0) 编辑
摘要:一、函数定义与使用 1.函数的定义 2.匿名函数 举例: Scala自动推断变量类型,不用声明; 一个下划线只能表示这一个参数的一次出现 二、高阶函数 定义:函数定义的括号里仍然是个函数的函数,叫作高阶函数 三、针对容器的操作 1.遍历(foreach) f是lambda表达式 case(k,v)相 阅读全文
posted @ 2019-10-28 16:13 nxf_rabbit75 阅读(163) 评论(0) 推荐(0) 编辑
摘要:一、类 1.类的定义 Unit表示什么都不返回 方法体最后一句的值,就是方法的返回值。 2.类成员的可见性 3.方法的定义方式 定义方法的时候加圆括号,调用时可以加圆括号c.getValue()也可以不加圆括号c.getValue; 定义方法的时候不加圆括号,调用时不可以加圆括号。 4.(类)构造器 阅读全文
posted @ 2019-10-23 00:06 nxf_rabbit75 阅读(174) 评论(0) 推荐(0) 编辑
摘要:一、基本数据类型和变量 1.基本数据类型 java中每一个数据类型都是一个类; scala没有自己定义String类型,String类型是从java.lang.String照搬的。 字面量(literal) 2.变量 同一个环境中,可以重复使用同样一个变量名,只会记录最后一次用的那个类型。 二、输入 阅读全文
posted @ 2019-10-22 17:45 nxf_rabbit75 阅读(154) 评论(0) 推荐(0) 编辑
摘要:一、编程范式 命令式编程没有办法充分利用多核CPU; 函数式编程很多变量是不可修改的。 二、Scala简介 特点 scala运行在JVM上,兼容现有的Java程序; 面向对象的编程语言; 一门函数式语言 三、Scala的安装 1.windows系统安装Scala 第一步:安装Java Scala程序 阅读全文
posted @ 2019-10-21 15:00 nxf_rabbit75 阅读(220) 评论(0) 推荐(0) 编辑
摘要:一、大数据关键技术 (1)数据采集 (2)数据存储 (3)数据处理 (4)数据安全 二、大数据计算模式 1.批处理计算 特点:无法实时响应,但是能得到接近准实时性。 2.流计算 特点:数据量少,源源不断到达,但是响应时间要求非常短,一般是秒级/毫秒级 3.图计算 应用场景:社交网络、物流 4.查询分 阅读全文
posted @ 2019-10-21 13:15 nxf_rabbit75 阅读(979) 评论(0) 推荐(0) 编辑