摘要: DataSet概述 DataSet是什么 DataSet是分布式的数据集合,Dataset提供了强类型支持,也是在RDD的每行数据加了类型约束。 强类型:所属类型必须在编译时确定。 DataSet是在Spark1.6中添加的新的接口。它集中了RDD的优点(强类型和可以用强大lambda函数)以及使用 阅读全文
posted @ 2020-08-25 05:52 Whatever_It_Takes 阅读(665) 评论(1) 推荐(0) 编辑
摘要: # linux上安装禅道 环境准备 1.一台Linux服务器, 操作系统: CentOS 6.4 32位 (装在shop环境上即可) 2.Xshell 6.0 3.Xftp 5.0 4.ZenTaoPMS.9.8.3.zbox_86.tar.gz安装包 (在共享文件夹中) 把禅道安装包上传到lin 阅读全文
posted @ 2020-08-25 05:50 Whatever_It_Takes 阅读(370) 评论(0) 推荐(0) 编辑
摘要: # linux常用命令 操作文件及目录 命令 参数 示例 说明 cd cd /home 切换目录 pwd pwd 显示当前工作目录 touch touch 1.txt 创建空文件 mkdir mkdir testdir 创建一个新目录 -p mkdir -p /dir1/dir2 创建多级目录,父 阅读全文
posted @ 2020-08-25 05:22 Whatever_It_Takes 阅读(286) 评论(0) 推荐(0) 编辑
摘要: DataFrame概述 spark core >操控RDD spark sql >操控DataFrame DataFrame发展 DataFrame前身是schemaRDD,这个schemaRDD是直接继承自RDD,它是RDD的一个实现类 在spark1.3.0之后把schemaRDD改名为Data 阅读全文
posted @ 2020-08-25 04:56 Whatever_It_Takes 阅读(1329) 评论(0) 推荐(0) 编辑
摘要: # Linux介绍 Linux起源 芬兰大学生Linus Torvalds在从1990年底到1991年的几个月中,利用Minix操作系统作为开发平台,为他自己的操作系统课程和后来的上网用途而陆续编写了若干程序。 1991.10.5 在Internet的comp.os.minix讨论区发表了一篇文章 阅读全文
posted @ 2020-08-25 04:52 Whatever_It_Takes 阅读(191) 评论(0) 推荐(0) 编辑
摘要: sparksql概述 sparksql的前世今生 Shark是专门针对于spark的构建大规模数据仓库系统的一个框架 Shark与Hive兼容、同时也依赖于Spark版本 Hivesql底层把sql解析成了mapreduce程序,Shark是把sql语句解析成了Spark任务 随着性能优化的上限,以 阅读全文
posted @ 2020-08-25 04:47 Whatever_It_Takes 阅读(698) 评论(0) 推荐(0) 编辑
摘要: 基于wordcount程序剖析spark任务的提交、划分、调度流程(★★★★★) 阅读全文
posted @ 2020-08-25 04:42 Whatever_It_Takes 阅读(179) 评论(0) 推荐(0) 编辑
摘要: DAG有向无环图生成 DAG是什么 DAG(Directed Acyclic Graph) 叫做有向无环图(有方向,无闭环,代表着数据的流向),原始的RDD通过一系列的转换就形成了DAG。 下图是基于单词统计逻辑得到的DAG有向无环图 DAG划分stage(★★★★★) stage是什么 一个Job 阅读全文
posted @ 2020-08-25 04:30 Whatever_It_Takes 阅读(3713) 评论(1) 推荐(1) 编辑
摘要: RDD的缓存机制(★★★★★) 什么是rdd的缓存 spark可以把一个rdd的数据缓存起来,后续有其他的job需要用到该rdd的结果数据,可以直接从缓存中获取得到,避免了重复计算。缓存是加快后续对该数据的访问操作。 如何对rdd设置缓存 可以通过persist方法或cache方法将前面的RDD的数 阅读全文
posted @ 2020-08-24 03:25 Whatever_It_Takes 阅读(884) 评论(0) 推荐(1) 编辑
摘要: RDD的依赖关系 依赖类型 RDD根据依赖关系,可以分为父RDD和子RDD,父RDD就是被子RDD依赖的RDD。 而父RDD与子RDD的依赖关系,可以分为两种类型: 窄依赖(narrow dependency) 宽依赖(wide dependency) 窄依赖 窄依赖:指的是每一个父RDD的Part 阅读全文
posted @ 2020-08-24 03:22 Whatever_It_Takes 阅读(537) 评论(0) 推荐(0) 编辑