release中技术点的定义

zeepplin

zeeplin是基于Notebook技术开发的大数据交互分析服务软件,可以基于Web界面组合多个大数据分析引擎的处理能力,并内置提供了基于web的可视化界面,可以连接肌肤所有的Apache大数据处理服务系统。(用于大数据的分析和可视化)

zeppelin-daemon.sh start/stop 开启或关闭

hive

hive是一个构建在Hadoop上的数据仓库工具(框架),可以将结构化的数据文件映射成一张数据表,并可以使用类sql的方式来对这样的数据文件进行读,写以及管理(包括元数据)。这套HIVE SQL 简称HQL。hive的执行引擎可以是MR、spark、tez。

hive的内嵌模式:使用hive自带数据库derby来进行存储元数据,通常用于测试

hive的本地模式:使用mysql替换derby进行元数据的存储,hive的相关进程都是在同一台机器上,即本地模式。mysql因为是独立的进程,所以mysql可以和hive在同一机器上,也可以在其他机器上。

hive的远程模式:将hive中的相关进程比如hiveserver2或者metastore这样的进程单独开启,使用客户端工具或者命令行进行远程连接这样的服务,即远程模式。客户端可以在任何机器上,只要连接到这个server,就可以进行操作。客户端可以不需要密码。

slave2:service mysqld start

slave1:hive --service metastore 2>&1 >/dev/null &

 

 master:hive

hdfs:分布式文件系统

master:9000

hdfs dfs -mkdir -p /csair/data/rule-black-list/

[hadoop@master ~]$  hdfs dfs -mkdir -p /csair/data/rule-computed/         递归创建文件

[hadoop@master ~]$ hdfs dfs -put a.txt /dmpfiles/

hdfs dfs -ls /      查看hdfs中的文件目录

[hadoop@master conf]$ hdfs dfs -chown -R hadoop /

[hadoop@master ~]$ hdfs dfs -chmod -R 777  /

posted @ 2020-06-15 10:33  齐方  阅读(205)  评论(0编辑  收藏  举报