摘要:
函数总结 date_format:将日期进行格式化 date_add:对当前日期增加天数 next_day:取当前日期的下一个周几 last_day:当前日期的最后一天 regexp_replace: 使用正则表达式匹配目标字符串,匹配成功后替换! case when:类似于java里的switch 阅读全文
摘要:
数据库的DDL 建库语法 CREATE DATABASE [IF NOT EXISTS] database_name [IF NOT EXISTS] --增强代码的健壮性 [COMMENT database_comment] --这个库是干嘛的 [LOCATION hdfs_path] --你当前的 阅读全文
摘要:
基本数据类型 HIVE MySQL JAVA 长度 例子 TINYINT TINYINT byte 1byte有符号整数 2 SMALINT SMALINT short 2byte有符号整数 20 INT INT int 4byte有符号整数 20 BIGINT BIGINT long 8byte有 阅读全文
摘要:
hadoop压缩配置 MR支持的压缩编码 压缩格式 算法 文件扩展名 是否可切分 DEFLATE DEFLATE .deflate 否 Gzip DEFLATE .gz 否 bzip2 bzip2 .bz2 是 LZO LZO .lzo 是 Snappy Snappy .snappy 否 为了支持多 阅读全文
摘要:
排序 全局排序(Order by) 对整个输出结果集进行排序,只会产生一个Reduce 每个Reduce内部排序(Sort by) Sort By:对于大规模的数据集order by的效率非常低。在很多情况下,并不需要全局排序,此时可以使用sort by。 Sort by为每个reducer产生一个 阅读全文
摘要:
编写集群分发脚本xsync 1)scp 安全拷贝 1)定义: scp可以实现服务器与服务器之间的数据拷贝 2)特点 scp会把整个文件对象赋值到目标服务器上 3)基本语法 scp -r $pdir/$fname $user@$host:$pdir/$fname 命令 递归 要拷贝的文件路径/名称 目 阅读全文
摘要:
Linux中环境变量的搭建(推荐用法) 第一步:进入到/etc/profile.d文件夹下 cd /etc/profile.d 第二步:创建并编辑一个my_env.sh文件 vim my_env.sh 第三步:搭建环境,以下为案例模板 #JAVA_HOME export JAVA_HOME=/opt 阅读全文
摘要:
运行hadoop程序时,I/O操作、网络数据传输、shuffle和merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,这个时候,使用数据压缩可以提高效率 阅读全文
摘要:
最近尝试在windows开发MR程序并且提交Job,在解压缩好hadoop,配置好环境变量后, 打开cmd 输入hadoop version 的时候出现以下错误: Error: JAVA_HOME is incorrectly set. Please update F:\hadoop\conf\ha 阅读全文