摘要: Hive数据模型 Hive中的数据模型主要分为: 表,这些类似于关系数据库中的表。表可以过滤,投影,连接和联合。此外,表的所有数据都存储在HDFS的目录中。 Hive还支持外部表的概念,其中通过向表创建DDL提供适当的位置,可以在HDFS中的现有文件或目录上创建表。 分区,每个表可以有一个或多个分区 阅读全文
posted @ 2019-02-20 21:27 LestatZ 阅读(974) 评论(0) 推荐(0) 编辑
摘要: PigLatin中没有类似于if-else的控制结构。如果需要完成类似的控制结构,则需要使用embedded pig来完成。例如我们可以在Python中嵌入Pig Latin语句和Pig命令(请确保Jython jar包含在类路径中)。以下例子为判断pig作... 阅读全文
posted @ 2019-02-20 16:24 LestatZ 阅读(122) 评论(0) 推荐(0) 编辑
摘要: 问题描述 原来pig作业中的连接器只指定了一个primary host,为了防止mongo服务器主从切换时能够继续使用,于是想利用replica set的特性,将多个host传给mongo连接器:例如 ‘mongodb://user:passwd@host1:port1,host2:port2/’ 阅读全文
posted @ 2019-02-20 12:41 LestatZ 阅读(137) 评论(0) 推荐(0) 编辑