05 2019 档案
摘要:Yarn产生的背景 在没有YARN之前,是一个集群一个计算框架。比如:Hadoop一个集群、Spark一个集群、HBase一个集群等,造成各个集群管理复杂,资源的利用率很低;比如:在某个时间段内Hadoop集群忙而Spark集群闲着,反之亦然,各个集群之间不能共享资源造成集群间资源并不能充分利用;
阅读全文
摘要:WC案例 查看http://hadoop001:4040的web界面 查看http://hadoop001:4040的web界面 从Job_id 可以看出,一个WC一共有3个job发生,点击第三个job(即Job_id=2),我们可以看到job的DAG导向图 从DAG图中可以看出,一共有2个stag
阅读全文
摘要:转载于https://blog.csdn.net/qq_33314107/article/details/80889282 Spark Core面试篇01随着Spark技术在企业中应用越来越广泛,Spark成为大数据开发必须掌握的技能。前期分享了很多关于Spark的学习视频和文章,为了进一步巩固和掌
阅读全文
摘要:RDD的缓存一般就是用cache和persist,那二者之间有什么关系,又有什么区别呢? 关系: persist()内部调用了persist(StorageLevel.MEMORY_ONLY) cache()调用了persist() 区别: persist有一个 StorageLevel 类型的参数
阅读全文
摘要:1.Azkaban 简介 azkaban是一个开源的任务调度系统,用于负责的调度运行(如数据仓库调度),用以替代Linux中的crontab。 azkaban是一个开源的任务调度系统,用于负责的调度运行(如数据仓库调度),用以替代Linux中的crontab。 Azkaban是一套简单的任务调度服务
阅读全文
摘要:<1>map /** * Return a new RDD by applying a function to all elements of this RDD. * 一对一的进行RDD的转换操作,并且产生一个新的RDD储存所有的elements */ def map[U: ClassTag](f:
阅读全文
摘要:SparkCore算子简介 SparkCore中的算子可以分为2类:Transformations Operation 和 Action Operation 在Spark的提交过程中,会将RDD及作用于其上的一系列算子(即:RDD及其之间的依赖关系)构建成一个DAG有向无环视图。当遇到action算
阅读全文
摘要:1.RDD的官网定义 A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable,partitioned collection of elements that can
阅读全文
摘要:以下的这篇文章是spark官网关于集群规模的一篇概述,以及一些术语的解释,还有一些图解架构 Cluster Mode Overview 群集模式概述 本文档简要概述了Spark如何在集群上运行,以便更容易理解所涉及的组件。阅读应用程序提交指南 ,了解有关在群集上启动应用程序的信息。 Componen
阅读全文
摘要:scala部署好以后我们来进行基础学习 val与var scala> val name:String = "17"name: String = 17 scala> name = "dashu"<console>:12: error: reassignment to val name = "dashu
阅读全文
摘要:环境准备 环境准备 如果你是scala2.11.8,应该也没有问题,因为看下图,也就是说我们的spark2.4.2版本对应着2.11版本的任何一个小版本的scala都可以。 下载 下载 解压 解压 配置文件 --这里有巨坑 配置文件 --这里有巨坑 修改make-distribution.sh 修改
阅读全文
摘要:数据结构 customer表 oder表 MAPJOIN 场景:我们模拟一个有一份小表一个大表的场景,customer是那份小表,order是那份大表做法:直接将较小的数据加载到内存中,按照连接的关键字建立索引, 大份数据作为MapTask的输入键值对 map()方法的每次输入都去内存当中直接去匹配
阅读全文
摘要:1、fsimage和edit的区别? 2、列举几个配置文件优化? --发挥 3、datanode 首次加入 cluster 的时候,如果 log 报告不兼容文件版本,那需要namenode 执行格式化操作,这样处理的原因是? 4、MapReduce 中排序发生在哪几个阶段?这些排序是否可以避免?为什
阅读全文
摘要:scalikejdbc的简介: ScalikeJDBC是一款给Scala开发者使用的简介访问类库,它是基于SQL的,使用者只需要关注SQL逻辑的编写,所有的数据库操作都交给ScalikeJDBC。这个类库内置包含了JDBCAPI,并且给用户提供了简单易用并且非常灵活的API。并且,QueryDSl(
阅读全文
摘要:【环境准备】 scala-2.11.8 下载地址 :https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz jdk1.8 【安装过程】 部署完成 这是我学大数据以来,安装部署最顺利最没有坑的一个软件,大爱
阅读全文