摘要: HDFS 并不擅长存储小文件,因为每个文件最少一个 block,每个 block 的元数据都会在 NameNode 占用内存,如果存在大量的小文件,它们会吃掉NameNode 节点的大量内存。 Hadoop Archives 可以有效的处理以上问题,它可以把多个文件归档成为一个文件,归档成一个文件后 阅读全文
posted @ 2018-07-13 16:58 jiFeng丶 阅读(986) 评论(0) 推荐(0) 编辑
摘要: Azkaban介绍 Azkaban 是由 Linkedin 公司推出的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban 使用 job 配置文件建立任务之间的依赖关系,并提供一个易于使用的 web 用户界面维护和跟踪你的工作流。 Azkaban 功能特点: 阅读全文
posted @ 2018-07-13 15:07 jiFeng丶 阅读(908) 评论(0) 推荐(0) 编辑
摘要: 目录 一、概述 二、工作机制 三、安装 1、前提概述 2、软件下载 3、安装步骤 四、Sqoop的基本命令 基本操作 示例 五、Sqoop的数据导入 1、从RDBMS导入到HDFS中 2、把MySQL数据库中的表数据导入到Hive中 3、把MySQL数据库中的表数据导入到hbase 目录 一、概述 阅读全文
posted @ 2018-07-13 00:11 jiFeng丶 阅读(397) 评论(0) 推荐(0) 编辑
摘要: 定义: UDF(User-Defined-Function),用户自定义函数对数据进行处理。 UDTF(User-Defined Table-Generating Functions) 用来解决 输入一行输出多行(On-to-many maping) 的需求。 UDAF(User Defined A 阅读全文
posted @ 2018-07-10 00:13 jiFeng丶 阅读(5506) 评论(0) 推荐(0) 编辑
摘要: 当 Hive 提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。 测试各种内置函数的快捷方法: 创建一个 dual 表 create table dual(id string); load 一个文件(只有一行内容:内容为 阅读全文
posted @ 2018-07-08 00:44 jiFeng丶 阅读(15203) 评论(0) 推荐(0) 编辑
摘要: 1 . Hive 命令行 输入$HIVE_HOME/bin/hive –H 或者 –help 可以显示帮助选项: 说明: 1、 -i 初始化 HQL 文件。 2、 -e 从命令行执行指定的 HQL 3、 -f 执行 HQL 脚本 4、 -v 输出执行的 HQL 语句到控制台 5、 -p <port> 阅读全文
posted @ 2018-07-08 00:28 jiFeng丶 阅读(7689) 评论(0) 推荐(0) 编辑
摘要: hive 常用运算 测试各种内置函数的快捷方法: 创建一个 dual 表 create table dual(id string); load 一个文件(只有一行内容:内容为一个空格)到 dual 表 第一部分:关系运算 Hive支持的关系运算符 •常见的关系运算符 •等值比较: = •不等值比较: 阅读全文
posted @ 2018-07-08 00:23 jiFeng丶 阅读(687) 评论(0) 推荐(0) 编辑
摘要: 1. Load 在将数据加载到表中时,Hive 不会进行任何转换。加载操作是将数据文件移动到与 Hive表对应的位置的纯复制/移动操作。 语法结构: 说明: 1、 filepath 相对路径,例如:project/data1 绝对路径,例如:/user/hive/project/data1 完整 U 阅读全文
posted @ 2018-07-07 23:58 jiFeng丶 阅读(842) 评论(0) 推荐(0) 编辑
摘要: DDL(数据定义语言)操作 Hive配置单元包含一个名为 default 默认的数据库. create database [if not exists] <database name>; 创建数据库 show databases | schemas; --显示所有数据库 drop database 阅读全文
posted @ 2018-07-07 22:01 jiFeng丶 阅读(472) 评论(0) 推荐(1) 编辑
摘要: 简介 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件 映射为一张数据库表,并提供类 SQL 查询功能。 本质是将 SQL 转换为 MapReduce 程序。 Hive组件 用户接口:包括 CLI、JDBC/ODBC、WebGUI。其中,CLI(command linein 阅读全文
posted @ 2018-07-07 18:37 jiFeng丶 阅读(303) 评论(0) 推荐(0) 编辑