摘要: Pig的自定义函数有三种:1、自定义过滤函数:相当于where条件2、自定义运算函数:3、自定义加载函数:使用load语句加载数据,生成一个bag 默认:一行解析成一个Tuple 需要MR的jar包 一.自定义过滤函数 二.自定义运算函数 三.自定义加载函数 注册jar包: register def 阅读全文
posted @ 2018-03-26 22:27 梦里南柯 阅读(563) 评论(0) 推荐(1) 编辑
摘要: 一、Pig简介和Pig的安装配置 1、最早是由Yahoo开发,后来给了Apache 2、支持语言:PigLatin 类似SQL 3、翻译器 PigLatin > MapReduce(Spark) 4、安装和配置 (1)tar -zxvf pig-0.17.0.tar.gz -C ~/training 阅读全文
posted @ 2018-03-26 21:46 梦里南柯 阅读(535) 评论(0) 推荐(0) 编辑
摘要: 一.Hive的Java客户端 JDBC工具类:JDBCUtils.java DemoTest.java 启动HiveServer:hiveserver2,会报错: java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException:Us 阅读全文
posted @ 2018-03-26 21:14 梦里南柯 阅读(316) 评论(0) 推荐(0) 编辑
摘要: 一.常见的数据分析引擎 Hive HDFS 表 目录 数据 文件 分区 目2 2.Pig 3.Impala 4.Spark SQL 二.Hive 的体系结构 用户接口主要有三个: 1.CLI Shell命令行 2.JDBC/ODBC:Hive的Java,与传统JDBC相似 3.Web管理界面 三.H 阅读全文
posted @ 2018-03-26 20:41 梦里南柯 阅读(287) 评论(0) 推荐(0) 编辑
摘要: 一. HBase过滤器 1、列值过滤器 2、列名前缀过滤器 3、多个列名前缀过滤器 4、行键过滤器5、组合过滤器 二. HDFS上的mapreduce 建立表 create 'word','content' put 'word','1','content:info','I love Beijing' 阅读全文
posted @ 2018-03-26 14:03 梦里南柯 阅读(549) 评论(0) 推荐(0) 编辑