nxf_rabbit75 - 博客园

2019年11月9日

摘要：一、求top值任务描述：求出多个文件中数值的最大、最小值二、求最大最小值任务描述：求出多个文件中数值的最大、最小值解题思路：通过一个人造的key，让所有的值都成为“key”的value-list，然后对value-list进行遍历，用两个变量求出最大最小值。代码如下： import org 阅读全文

posted @ 2019-11-09 17:02 nxf_rabbit75 阅读(1429) 评论(0) 推荐(0) 编辑

2019年11月7日

8.2 数据结构---字符串（查找）

摘要：最长公共子序列 & 最长公共子串的区别：找两个字符串的最长公共子串，这个子串要求在原字符串中是连续的。而最长公共子序列则并不要求连续。一、最长连续公共子串题目: 找出两个字符串的最长连续公共子串例: abccade 和 dgcadde ==> cad思路：动态规划考虑两种情况： M[i+1] 阅读全文

posted @ 2019-11-07 19:45 nxf_rabbit75 阅读(355) 评论(0) 推荐(0) 编辑

8.1 数据结构---字符串

摘要：（一）字符串 1、子串：串中任意个连续的字符组成的子序列称为该串的子串备注：空串属于子串 2、串中字符均不相同：n个字符构成的字符串，假设每个字符都不一样，问有多少个子串答案：n(n+1)/2+1 提示：每个字符均不相同解析：包含1个字符的子串共n个包含2个字符的子串共n-1个包含3个字符的子串共阅读全文

posted @ 2019-11-07 19:44 nxf_rabbit75 阅读(390) 评论(0) 推荐(0) 编辑

5.3 RDD编程---数据读写

摘要：一、文件数据读写 1.本地文件系统的数据读写可以采用多种方式创建Pair RDD，其中一种主要方式是使用map()函数来实现惰性机制，即使输入了错误的语句spark-shell也不会马上报错。（1）读给出路径名称，TextFile会把路径下面的所有文件都读进来，生成一个RDD （2）写当只阅读全文

posted @ 2019-11-07 17:12 nxf_rabbit75 阅读(445) 评论(0) 推荐(0) 编辑

5.2 RDD编程---键值对RDD

摘要：一、键值对RDD的创建 1.从文件中加载 2.通过并行集合（数组）创建RDD 二、常用的键值对RDD转换操作 1.reduceByKey(func) 功能：使用func函数合并具有相同键的值 2.groupByKey() 功能：对具有相同键的值进行分组 3.keys 4.values 5.sortB 阅读全文

posted @ 2019-11-07 14:38 nxf_rabbit75 阅读(525) 评论(0) 推荐(0) 编辑

2019年11月6日

5.1 RDD编程

摘要：一、RDD编程基础 1.创建 spark采用textFile()方法来从文件系统中加载数据创建RDD，该方法把文件的URL作为参数，这个URL可以是：本地文件系统的地址分布式文件系统HDFS的地址从云端加载数据，比如亚马逊的云端存储S3 （1）从本地文件系统中加载数据创建RDD （2）从分布式阅读全文

posted @ 2019-11-06 16:56 nxf_rabbit75 阅读(474) 评论(0) 推荐(0) 编辑

2019年10月31日

4.Spark环境搭建和使用方法

摘要：一、安装Spark spark和Hadoop可以部署在一起，相互协作，由Hadoop的HDFS、HBase等组件复制数据的存储和管理，由Spark负责数据的计算。 Linux：CentOS Linux release 7.6.1810(Core)（cat /etc/centos-release 查看阅读全文

posted @ 2019-10-31 20:37 nxf_rabbit75 阅读(1050) 评论(0) 推荐(0) 编辑

3.3 Spark的部署和应用方式

摘要：一、Spark的部署 1.单机Local 2.集群（1）Standalonc Spark自带的资源管理器，效率不高（2）YARN 如果部署的是Hadoop集群，可以用YARN资源调度（3）Mesos Spark和Mesos是相互优化的，它们之间性能匹配得非常好。二、Spark的应用方式 Sp 阅读全文

posted @ 2019-10-31 20:30 nxf_rabbit75 阅读(269) 评论(0) 推荐(0) 编辑

2019年10月30日

3.2 Spark运行架构

摘要：一、基本概念 1.RDD Resillient Distributed Dataset 弹性分布式数据集 2.DAG 反映RDD之间的依赖关系 3.Executor 进程驻守在机器上面，由进程派生出很多的线程，然后去执行任务。 4.应用application 5.任务 6.作业Job 一个应用程序提阅读全文

posted @ 2019-10-30 18:20 nxf_rabbit75 阅读(271) 评论(0) 推荐(0) 编辑

3.1 Spark概述

摘要：一、Spark简介 1.Spark的特点特点1：运行速度快（内存计算，循环数据流、有向无环图设计机制）把所有针对数据集的操作转换成一张有向无环图，整个执行引擎调度都是基于这个有向无环图，对这个有向无环图的后期操作，会进行拆分，分成不同的阶段，每一阶段分成不同的任务，再去分发到不同的机器上去执行。阅读全文

posted @ 2019-10-30 14:54 nxf_rabbit75 阅读(267) 评论(0) 推荐(0) 编辑