摘要: GP主要用于数据仓库领域,在GP数据库中,如果由于ETL重复跑数导致数据重复的话,就需要进行去重复操作。 一种方法是把某一时间段的数据全部删掉,然后重新跑数据,这样其实工作量也比较大,需要补数据,重跑ETL。 另一种方法就是把重复的数据删掉就行,本文就是针对Greenplum分布式数据库如何进行去重 阅读全文
posted @ 2019-08-11 16:01 空谷幽兰~泊逸 阅读(2654) 评论(1) 推荐(0) 编辑
摘要: Linux中有几个命令可以查看文件的内容,而不需要调用其他的文本编辑器,如vim. 1.file查看文件类型 file命令可以探测文件的内部,并能查看到文件是什么类型的。 2. cat命令 cat命令时一个用于显示文本文件中所有数据的比较好用的工具 cat test.txt cat 可以带一些参数, 阅读全文
posted @ 2019-08-11 14:01 空谷幽兰~泊逸 阅读(14877) 评论(0) 推荐(0) 编辑
摘要: 链接文件是Linux文件系统的一个优势。如需要在系统上维护同一文件的两份或者多份副本,除了保存多份单独的物理文件之外,可以采用保留一份物理文件副本和多个虚拟副本的方式,这种虚拟的副本就成为链接。链接是目录中指向文件真实位置的占位符。在Linux中有两种不同类型的文件链接: 1.符号链接。 2.硬链接 阅读全文
posted @ 2019-08-11 11:13 空谷幽兰~泊逸 阅读(3452) 评论(0) 推荐(0) 编辑
摘要: PostgreSQL是功能最接近Oracle的开源数据库,对标Oracle 的sqlplus工具,在PostgreSQL中也有一个类似的命令行工具,就是plsq,它允许你交互地键入SQL或命令,本节就来讲讲psql的使用方法。 一. 进入psql psql -h <hostname or ip> - 阅读全文
posted @ 2019-08-08 23:51 空谷幽兰~泊逸 阅读(11129) 评论(0) 推荐(1) 编辑
摘要: 一般在主机上创建的虚拟机默认是通过DHCP(Dynamic Host Configuration Protocol,动态主机配置协议)网络协议来动态生成的,这样会导致你安装的虚拟机的IP地址是动态变化的,在安装多节点集群时,这就导致了有些配置会因为IP的改变而失效,因此可以修改虚拟机软件以及虚拟机的 阅读全文
posted @ 2018-10-21 14:35 空谷幽兰~泊逸 阅读(532) 评论(0) 推荐(0) 编辑
摘要: 在Hive中,ORDER BY语句是对查询结果集进行整体的排序,最终将会产生一个reducer进行全局的排序,达到的最终结果是和传统的关系型数据库是一样的。 在数据量非常大的时候,全局排序的单个reducer将会成为性能瓶颈,有可能由于数据量过大而跑不出来结果。 Hive中可以设置hive.mapr 阅读全文
posted @ 2018-08-17 00:01 空谷幽兰~泊逸 阅读(330) 评论(0) 推荐(0) 编辑
摘要: namenode是Hadoop集群HDFS的管理节点,管理着整个分布式文件系统的命名空间,以及文件与块的映射关系等,在Hadoop集群中扮演着至关重要的作用。 我之前安装的Hadoop集群中namenode和secondary namenode是在一个节点上安装的,安装的节点是在masters文件中 阅读全文
posted @ 2018-08-13 00:03 空谷幽兰~泊逸 阅读(16528) 评论(0) 推荐(0) 编辑
摘要: 虚拟机环境的Linux系统由于是虚拟化虚拟出来的主机环境,因此 经常会出现一些操作系统的问题,今天我遇到了一个Ubuntu操作系统文件系统成了只读模式,无法进行系统的操作,由于出问题的主机是我个人搭建的Hadoop集群的name主节点,对整个集群时比较重要的,因此在网上也查了一些资料,后来也成功解决 阅读全文
posted @ 2018-08-12 23:38 空谷幽兰~泊逸 阅读(5253) 评论(0) 推荐(0) 编辑
摘要: Hive中有一些参数是系统给提供给用户的,我们可以通过这些参数的设置可以让Hive在不同的模式下工作,或者改变显示的效果。 1.通过set对参数值进行设定,这种设置只能是在本次会话有效,退出Hive就会失效; hive (default)> set hive.exec.dynamic.partiti 阅读全文
posted @ 2018-06-17 10:33 空谷幽兰~泊逸 阅读(3213) 评论(0) 推荐(0) 编辑
摘要: 各位看官,今天我们来讨论下再Hive中的动态分区和混合分区方面的一些知识点以及相关的一些问题。 前面我们已经讲过管理表和外部表的一般分区的一些知识点,对于需要对表创建很多的分区,那么用户就需要些很多的SQL代码,举例: 比如我创建了一张分区表emp,需要 将分区表employees中的某些区数据按分 阅读全文
posted @ 2018-06-17 10:07 空谷幽兰~泊逸 阅读(2826) 评论(0) 推荐(0) 编辑