1、请简单介绍maven

自动化构建工具,专注服务于java平台的项目构建和依赖管理

2、请简述Maven核心概念之POM是什么意思?

Project object model 项目对象模型

3、依靠什么可以在Maven仓库中确定一个唯一的Maven工程?

依靠Maven坐标,其表示为groupld+artifactld+version

4、请简述几种Maven仓库?

本地仓库

远程仓库:私服,中央仓库,中央仓库的镜像

5、请简述几种Maven仓库的主要区别?

本地仓库:本机上创建的Maven仓库

远程仓库:私服:公司或局域网的Maven仓库

        中央仓库:最具有权威的,全世界通用的Maven仓库

 中央仓库的镜像:是各大洲或者有能力的企业,学校  所搭建,维护的Maven仓库,相当于重要仓库的拷贝

6、请简述Maven中依赖的范围?

Compile:默认的依赖范围,主程序main可以访问,测试程序test 不可以访问

test:测试依赖范围

Provided:已依赖的范围,主程序和测试程序都可以访问,但不参 与打包和部署环节

runtime:运行时依赖

System:系统依赖范围

7、请简述配置镜像仓库的原因?

镜像仓库可以为中央仓库分流,减轻中央仓库的负担,同时也可 以更快的响应用户的请求,提高用户访问速度;

镜像仓库是中央仓库的一个备份,他设置在各大洲,就是为了提 高用户的下载速度,并且各大厂商可以自己设置自己的镜像仓库

8、Mavenjava程序进行自动化构建的原因是?

约定>配置>编码。能用配置解决的问题就不编码,能基于约定的 就不进行配置。而Maven正是因为指定了特定文件保存的目录才 能够对我们的java工程进行自动化构建。

 

Maven存在约定好的目录结构,特定的目录存放的是特定的文件, 当编译时,程序只要到约定好的目录下找到文件即可。

9、请简单介绍使用Maven的好处 及原因?

好处:

Maven可以根据配置文件的参数自动的导入所需要的的依赖,快 捷方便,省时省力

原因:

Maven可以自动导入第三方jar包及其依赖的jar包,

自动处理jar包之间的依赖关系、自动获取第三方jar

10、请介绍Maven中坐标概念

Groupld:公司或组织的域名倒序+当前项目名称

Artifactld:当前项目的模块名称

Version:当前模块的版本

11、使用哪三个向量在Maven仓库中唯一确定一个Maven工程?

Groupld(组织域名)、artifactld(包名)、version(版本号)

12、Maven中坐标是什么?

通过配置文件进行源选择,以配置文件中的参数与其组成一个绝 对路径,从路径上进行导入依赖

--------------------------------------------------------------------------

13、大数据的有哪些特点?

Valume:大量

Velocity:高速

Variety:多样

Value:低价值密度

14、什么是大数据?

指无法在一定的时间范围内用常规软件工具进行捕捉、管理和处 理的数据集合,是需要新处理的模式才具有更强大的决策力、洞 察发现力和流程优化能力的海量、高增长率和多样化的信息资产

15、大数据主要是用来解决什么的?

主要解决,海量数据的存储和海量数据的分析计算问题

16、What is Hadoop

分布式系统基础框架

17、Hadoop有哪些优势?

高可靠性:Hadoop底层维护多个数据副本,即使hadoop某个计  算元素或存储出现故障,也不会导致数据的丢失

高扩展性:在集群分配任务数据,可方便扩展数以千计的节点

高效性:在MapReduce的思想下,Hadoop是并行工作的,以加 快任务处理速度

高容错性:能够自动将失败的任务重新分配

18、sudo命令用处?

可为Hadoop用户增加管理员权限,方便不熟,避免比较棘手的 问题

19、使用sudo时有几点需要注意的?

尊重别人的隐私

输入前要考虑后果和风险

权限越大,责任越大

20、Hadoop2个组件 HDFS\YARN,一个思想(框架)MapReduce,它 们的组成架构?

HDFS

NameNode(nn)存储文件的元数据

DataNode(dn) 在本地系统存储文件块数据

Secondary Namenode(2nn)每隔一段时间对NameNode元数 据备份

YARNRescourceManager 资源管理器

NodeManager  节点管理器

ApplicationMaster 应用程序管理器

Container 容器

MapReduceMapReduce将计算过程分为两个阶段,mapreduce

Map阶段并行处理输入数据

Reduce阶段对map结果进行汇总

21、中大型企业,大数据部门都由什么组成?

平台组,数据仓库组,实时组,数据挖掘组,报表开发组

22、Hadoop几种运行模式?

本地模式、伪分布模式、完全分布模式

23、SCP命令使用

scpsecure copy 安全拷贝

Scp可以实现服务器与服务器之间的数据拷贝

24、rsync命令使用

远程同步工具

主要用于备份和镜像。具有速度快、避免复制相同内容和支持符 号链接的优点。

25、rsync\SCP不同

Rsync做文件的复制要比scp的速度快

Rsync只对差异文件做更新

Scp是把所有文件都复制过去

26、DataNodeNameNode进程同时只能工作一个,排查方案。

原因:

NameNodeformat初始化后会生成claserld(集群id),在没有 关闭进程或删除原有DataNode信息的情况下,再次格式化 namenode,生成不同的clusterld不同,所以导致两个不能对应上。

解决方案:jps查看namenodeDataNode,先将两个关闭

删除DataNode生成的data目录和logs目录,所有相关的 都要删除

执行格式化命令

 

 posted on 2020-11-11 20:59  17668166  阅读(107)  评论(0编辑  收藏  举报