摘要:
Lateral View和UDTF类功能函数一起使用,表中的每一行和UDTF函数输出的每一行进行连接,生成一张新的虚拟表,可以对UDTF产生的记录设置字段名称,新加的字段可以使用在sort by,group by等语句中,不需要再套一层子查询。Lateral View的作用是可以扩展原来的表数据。 阅读全文
摘要:
数字类 | 类型 | 长度 | 备注 | | : | : | : | | TINYINT | 1字节 | 有符号整型 | | SMALLINT | 2字节 | 有符号整型 | | INT | 4字节 | 有符号整型 | | BIGINT | 8字节 | 有符号整型 | | FLOAT | 4字节 | 阅读全文
摘要:
函数分类 UDF(User Defined Function):数据一对一 UDAF(User Defined Aggreation Function):数据多对一 UDTF(User Defined Table Generating Function):数据一对多 group by / sort 阅读全文
摘要:
beeline客户端 hive server、hive server2 的客户端,底层通过jdbc接口通讯 hive命令后面会取消,会使用beeline替代 不需要单独启动hive server的使用方式,类似于hive命令 需要单独启动hive server的使用方式 本地模式 默认任务会提交到h 阅读全文
摘要:
环境说明 CentOS7,hadoop 2.6.5,hive 1.2.2,MariaDB 5.5.60,jdk 1.8 假设hive机已经安装好了MariaDB(已启动且已创建好hive账号,对hive数据库有所有权限)和jdk copy一份hadoop2.6.5到hive机器 只需要保留 bin, 阅读全文
摘要:
新特性 NameNode支持HA 命名空间支持分区(Federation) 支持ViewFS 支持目录快照 支持权限ACL 支持缓存指定的文件 QJM实现名字节点HA (图片来源互联网) 命名空间分区(NameNode Federation) 文件系统命名空间进行分组,每组由一个NameNode集群 阅读全文
摘要:
YARN(Yet Another Resource Negotiator)是Hadoop2.0集群中负责资源管理和调度以及监控运行在它上面的各种应用,是hadoop2.0中的核心,它类似于一个分布式操作系统,通过它的api编写的应用可以跑在它上面,支持临时和常驻的应用,集群的资源可以得到最大限度的共 阅读全文
摘要:
配置 修改 mapred site.xml 修改yarn site.xml 重启 yarn 启动 jobhistory server (配置在哪台,就在哪台机器启动) 停止 jobhistory server 参考资料 【0】Hadoop failed redirect for container 阅读全文
摘要:
主要步骤跟Hadoop1.0( "1.0安装地址" )一致,主要在配置这块有更改 安装 下载地址:http://archive.apache.org/dist/hadoop/core/hadoop 2.6.5/ hadoop安装目录创建./tmp目录,./dfs/name,./dfs/data 修改 阅读全文
摘要:
Scala安装 Spark使用Scala开发,安装的Scala版本必须和Spark使用的版本一致,否则使用Scala编写的Spark任务会有兼容性问题 可以到Spark官网查看确定Scala版本,或者通过执行Spark的bin/spark shell查看 依赖jdk,安装之前需要先安装好Scala依 阅读全文