release中技术点的定义
zeepplin
zeeplin是基于Notebook技术开发的大数据交互分析服务软件,可以基于Web界面组合多个大数据分析引擎的处理能力,并内置提供了基于web的可视化界面,可以连接肌肤所有的Apache大数据处理服务系统。(用于大数据的分析和可视化)
zeppelin-daemon.sh start/stop 开启或关闭
hive
hive是一个构建在Hadoop上的数据仓库工具(框架),可以将结构化的数据文件映射成一张数据表,并可以使用类sql的方式来对这样的数据文件进行读,写以及管理(包括元数据)。这套HIVE SQL 简称HQL。hive的执行引擎可以是MR、spark、tez。
hive的内嵌模式:使用hive自带数据库derby来进行存储元数据,通常用于测试
hive的本地模式:使用mysql替换derby进行元数据的存储,hive的相关进程都是在同一台机器上,即本地模式。mysql因为是独立的进程,所以mysql可以和hive在同一机器上,也可以在其他机器上。
hive的远程模式:将hive中的相关进程比如hiveserver2或者metastore这样的进程单独开启,使用客户端工具或者命令行进行远程连接这样的服务,即远程模式。客户端可以在任何机器上,只要连接到这个server,就可以进行操作。客户端可以不需要密码。
slave2:service mysqld start
slave1:hive --service metastore 2>&1 >/dev/null &
master:hive
hdfs:分布式文件系统
master:9000
hdfs dfs -mkdir -p /csair/data/rule-black-list/
[hadoop@master ~]$ hdfs dfs -mkdir -p /csair/data/rule-computed/ 递归创建文件
[hadoop@master ~]$ hdfs dfs -put a.txt /dmpfiles/
hdfs dfs -ls / 查看hdfs中的文件目录
[hadoop@master conf]$ hdfs dfs -chown -R hadoop /
[hadoop@master ~]$ hdfs dfs -chmod -R 777 /