摘要:
一、求top值 任务描述:求出多个文件中数值的最大、最小值 二、求最大最小值 任务描述:求出多个文件中数值的最大、最小值 解题思路:通过一个人造的key,让所有的值都成为“key”的value-list,然后对value-list进行遍历,用两个变量求出最大最小值。 代码如下: import org 阅读全文
摘要:
最长公共子序列 & 最长公共子串的区别: 找两个字符串的最长公共子串,这个子串要求在原字符串中是连续的。而最长公共子序列则并不要求连续。 一、最长连续公共子串 题目: 找出两个字符串的最长连续公共子串例: abccade 和 dgcadde ==> cad思路:动态规划 考虑两种情况: M[i+1] 阅读全文
摘要:
(一)字符串 1、子串:串中任意个连续的字符组成的子序列称为该串的子串备注:空串属于子串 2、串中字符均不相同:n个字符构成的字符串,假设每个字符都不一样,问有多少个子串 答案:n(n+1)/2+1 提示:每个字符均不相同解析:包含1个字符的子串共n个包含2个字符的子串共n-1个包含3个字符的子串共 阅读全文
摘要:
一、文件数据读写 1.本地文件系统的数据读写 可以采用多种方式创建Pair RDD,其中一种主要方式是使用map()函数来实现 惰性机制,即使输入了错误的语句spark-shell也不会马上报错。 (1)读 给出路径名称,TextFile会把路径下面的所有文件都读进来,生成一个RDD (2)写 当只 阅读全文
摘要:
一、键值对RDD的创建 1.从文件中加载 2.通过并行集合(数组)创建RDD 二、常用的键值对RDD转换操作 1.reduceByKey(func) 功能:使用func函数合并具有相同键的值 2.groupByKey() 功能:对具有相同键的值进行分组 3.keys 4.values 5.sortB 阅读全文
摘要:
一、RDD编程基础 1.创建 spark采用textFile()方法来从文件系统中加载数据创建RDD,该方法把文件的URL作为参数,这个URL可以是: 本地文件系统的地址 分布式文件系统HDFS的地址 从云端加载数据,比如亚马逊的云端存储S3 (1)从本地文件系统中加载数据创建RDD (2)从分布式 阅读全文
摘要:
一、安装Spark spark和Hadoop可以部署在一起,相互协作,由Hadoop的HDFS、HBase等组件复制数据的存储和管理,由Spark负责数据的计算。 Linux:CentOS Linux release 7.6.1810(Core)(cat /etc/centos-release 查看 阅读全文
摘要:
一、Spark的部署 1.单机Local 2.集群 (1)Standalonc Spark自带的资源管理器,效率不高 (2)YARN 如果部署的是Hadoop集群,可以用YARN资源调度 (3)Mesos Spark和Mesos是相互优化的,它们之间性能匹配得非常好。 二、Spark的应用方式 Sp 阅读全文
摘要:
一、基本概念 1.RDD Resillient Distributed Dataset 弹性分布式数据集 2.DAG 反映RDD之间的依赖关系 3.Executor 进程驻守在机器上面,由进程派生出很多的线程,然后去执行任务。 4.应用application 5.任务 6.作业Job 一个应用程序提 阅读全文
摘要:
一、Spark简介 1.Spark的特点 特点1:运行速度快(内存计算,循环数据流、有向无环图设计机制) 把所有针对数据集的操作转换成一张有向无环图,整个执行引擎调度都是基于这个有向无环图,对这个有向无环图的后期操作,会进行拆分,分成不同的阶段,每一阶段分成不同的任务,再去分发到不同的机器上去执行。 阅读全文