摘要:
DataSet概述 DataSet是什么 DataSet是分布式的数据集合,Dataset提供了强类型支持,也是在RDD的每行数据加了类型约束。 强类型:所属类型必须在编译时确定。 DataSet是在Spark1.6中添加的新的接口。它集中了RDD的优点(强类型和可以用强大lambda函数)以及使用 阅读全文
摘要:
# linux上安装禅道 环境准备 1.一台Linux服务器, 操作系统: CentOS 6.4 32位 (装在shop环境上即可) 2.Xshell 6.0 3.Xftp 5.0 4.ZenTaoPMS.9.8.3.zbox_86.tar.gz安装包 (在共享文件夹中) 把禅道安装包上传到lin 阅读全文
摘要:
# linux常用命令 操作文件及目录 命令 参数 示例 说明 cd cd /home 切换目录 pwd pwd 显示当前工作目录 touch touch 1.txt 创建空文件 mkdir mkdir testdir 创建一个新目录 -p mkdir -p /dir1/dir2 创建多级目录,父 阅读全文
摘要:
DataFrame概述 spark core >操控RDD spark sql >操控DataFrame DataFrame发展 DataFrame前身是schemaRDD,这个schemaRDD是直接继承自RDD,它是RDD的一个实现类 在spark1.3.0之后把schemaRDD改名为Data 阅读全文
摘要:
# Linux介绍 Linux起源 芬兰大学生Linus Torvalds在从1990年底到1991年的几个月中,利用Minix操作系统作为开发平台,为他自己的操作系统课程和后来的上网用途而陆续编写了若干程序。 1991.10.5 在Internet的comp.os.minix讨论区发表了一篇文章 阅读全文
摘要:
sparksql概述 sparksql的前世今生 Shark是专门针对于spark的构建大规模数据仓库系统的一个框架 Shark与Hive兼容、同时也依赖于Spark版本 Hivesql底层把sql解析成了mapreduce程序,Shark是把sql语句解析成了Spark任务 随着性能优化的上限,以 阅读全文
摘要:
基于wordcount程序剖析spark任务的提交、划分、调度流程(★★★★★) 阅读全文
摘要:
DAG有向无环图生成 DAG是什么 DAG(Directed Acyclic Graph) 叫做有向无环图(有方向,无闭环,代表着数据的流向),原始的RDD通过一系列的转换就形成了DAG。 下图是基于单词统计逻辑得到的DAG有向无环图 DAG划分stage(★★★★★) stage是什么 一个Job 阅读全文