1、请简单介绍maven?
自动化构建工具,专注服务于java平台的项目构建和依赖管理
2、请简述Maven核心概念之POM是什么意思?
Project object model 项目对象模型
3、依靠什么可以在Maven仓库中确定一个唯一的Maven工程?
依靠Maven坐标,其表示为groupld+artifactld+version
4、请简述几种Maven仓库?
本地仓库
远程仓库:私服,中央仓库,中央仓库的镜像
5、请简述几种Maven仓库的主要区别?
本地仓库:本机上创建的Maven仓库
远程仓库:私服:公司或局域网的Maven仓库
中央仓库:最具有权威的,全世界通用的Maven仓库
中央仓库的镜像:是各大洲或者有能力的企业,学校 所搭建,维护的Maven仓库,相当于重要仓库的拷贝
6、请简述Maven中依赖的范围?
Compile:默认的依赖范围,主程序main可以访问,测试程序test 不可以访问
test:测试依赖范围
Provided:已依赖的范围,主程序和测试程序都可以访问,但不参 与打包和部署环节
runtime:运行时依赖
System:系统依赖范围
7、请简述配置镜像仓库的原因?
镜像仓库可以为中央仓库分流,减轻中央仓库的负担,同时也可 以更快的响应用户的请求,提高用户访问速度;
镜像仓库是中央仓库的一个备份,他设置在各大洲,就是为了提 高用户的下载速度,并且各大厂商可以自己设置自己的镜像仓库
8、Maven对java程序进行自动化构建的原因是?
约定>配置>编码。能用配置解决的问题就不编码,能基于约定的 就不进行配置。而Maven正是因为指定了特定文件保存的目录才 能够对我们的java工程进行自动化构建。
Maven存在约定好的目录结构,特定的目录存放的是特定的文件, 当编译时,程序只要到约定好的目录下找到文件即可。
9、请简单介绍使用Maven的好处 及原因?
好处:
Maven可以根据配置文件的参数自动的导入所需要的的依赖,快 捷方便,省时省力
原因:
Maven可以自动导入第三方jar包及其依赖的jar包,
自动处理jar包之间的依赖关系、自动获取第三方jar包
10、请介绍Maven中坐标概念
Groupld:公司或组织的域名倒序+当前项目名称
Artifactld:当前项目的模块名称
Version:当前模块的版本
11、使用哪三个向量在Maven仓库中唯一确定一个Maven工程?
Groupld(组织域名)、artifactld(包名)、version(版本号)
12、Maven中坐标是什么?
通过配置文件进行源选择,以配置文件中的参数与其组成一个绝 对路径,从路径上进行导入依赖
--------------------------------------------------------------------------
13、大数据的有哪些特点?
Valume:大量
Velocity:高速
Variety:多样
Value:低价值密度
14、什么是大数据?
指无法在一定的时间范围内用常规软件工具进行捕捉、管理和处 理的数据集合,是需要新处理的模式才具有更强大的决策力、洞 察发现力和流程优化能力的海量、高增长率和多样化的信息资产
15、大数据主要是用来解决什么的?
主要解决,海量数据的存储和海量数据的分析计算问题
16、What is Hadoop?
分布式系统基础框架
17、Hadoop有哪些优势?
高可靠性:Hadoop底层维护多个数据副本,即使hadoop某个计 算元素或存储出现故障,也不会导致数据的丢失
高扩展性:在集群分配任务数据,可方便扩展数以千计的节点
高效性:在MapReduce的思想下,Hadoop是并行工作的,以加 快任务处理速度
高容错性:能够自动将失败的任务重新分配
18、sudo命令用处?
可为Hadoop用户增加管理员权限,方便不熟,避免比较棘手的 问题
19、使用sudo时有几点需要注意的?
尊重别人的隐私
输入前要考虑后果和风险
权限越大,责任越大
20、Hadoop2个组件 HDFS\YARN,一个思想(框架)MapReduce,它 们的组成架构?
HDFS:
NameNode(nn)存储文件的元数据
DataNode(dn) 在本地系统存储文件块数据
Secondary Namenode(2nn)每隔一段时间对NameNode元数 据备份
YARN:RescourceManager 资源管理器
NodeManager 节点管理器
ApplicationMaster 应用程序管理器
Container 容器
MapReduce:MapReduce将计算过程分为两个阶段,map和reduce
Map阶段并行处理输入数据
Reduce阶段对map结果进行汇总
21、中大型企业,大数据部门都由什么组成?
平台组,数据仓库组,实时组,数据挖掘组,报表开发组
22、Hadoop几种运行模式?
本地模式、伪分布模式、完全分布模式
23、SCP命令使用
scp:secure copy 安全拷贝
Scp可以实现服务器与服务器之间的数据拷贝
24、rsync命令使用
远程同步工具
主要用于备份和镜像。具有速度快、避免复制相同内容和支持符 号链接的优点。
25、rsync\SCP不同
Rsync做文件的复制要比scp的速度快
Rsync只对差异文件做更新
Scp是把所有文件都复制过去
26、DataNode和NameNode进程同时只能工作一个,排查方案。
原因:
NameNode在format初始化后会生成claserld(集群id),在没有 关闭进程或删除原有DataNode信息的情况下,再次格式化 namenode,生成不同的clusterld不同,所以导致两个不能对应上。
解决方案:jps查看namenode和DataNode,先将两个关闭
删除DataNode生成的data目录和logs目录,所有相关的 都要删除
执行格式化命令