12 2019 档案
摘要:一、Maven能做什么 1、假设我们有10个项目,都需要引入spring core模块,那么需要十份重复的Spring Core.jar和commons-logging.jar 使用Maven:maven使用本地仓库存储的jar,所有项目都会公用仓库中的同一分jar 2、Spring Core.ja
阅读全文
摘要:一、git的本地操作 1、git的基本原理 解析:workspace是工作区,index是暂存区,local repository是本地仓库,remote repository是远程区。 a、增加代码之后,会将新增的代码保存在index区域,然后commit之后上传到本地仓库local reposi
阅读全文
摘要:一、切片与MapTask的关系 1、概述 大家要注意区分切片与切块的区别: 切块Block是HDFS物理上把数据分成一块一块的,默认是128M; 数据切片:只是在逻辑上对输入进行分片,并不会在磁盘上分成片进行存储;而是分成片对数据进行处理。 物理上HDFS会把数据进行切块存储,但是当进行数据处理时,
阅读全文
摘要:一、概述 每个job提交到yarn上执行时,都会分配Container容器去运行,而这个容器需要资源才能运行,这个资源就是Cpu和内存。 1、CPU资源调度 目前的CPU被Yarn划分为虚拟CPU,这是yarn自己引入的概念,表示的是每台中可以分配给yarn的Cpu核数,因为每个服务器的Cpu计算能
阅读全文
摘要:一、Hadoop数据压缩及其优缺点 1、压缩技术的好处与坏处 好处: 减少存储磁盘空间 降低IO(网络的IO和磁盘的IO) 加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度。 坏处: 由于使用数据时,需要先将数据解压,加重了CPU的负荷。 使用压缩的基本原则: 运算密集型的job,少用压缩
阅读全文
摘要:1、概述 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 Yarn的架构如下图所示: 从Yarn的架构图来看,他主要由ResourceManager、NodeManager、Appli
阅读全文
摘要:1、下载一个linux版本的jdk包 2、新建一个目录,专门用来存放安装包 mkdir /home/software 3、将jdk包拷贝到/home/software下面,并解压 4、配置jdk环境变量 第一步:进入到/etc/profile目录中 vim /etc/profile 第二步:配置环境
阅读全文
摘要:1、概述 为了更好地理解调度,我们先看一下集群模式的Spark程序运行架构图,如上所示: 2、Spark中的基本概念 1、Application:表示你的程序 2、Driver:表示main函数,创建SparkContext。并由SC负责与ClusterMananger通信,进行资源的申请,任务的监
阅读全文