摘要:
GP主要用于数据仓库领域,在GP数据库中,如果由于ETL重复跑数导致数据重复的话,就需要进行去重复操作。 一种方法是把某一时间段的数据全部删掉,然后重新跑数据,这样其实工作量也比较大,需要补数据,重跑ETL。 另一种方法就是把重复的数据删掉就行,本文就是针对Greenplum分布式数据库如何进行去重 阅读全文
摘要:
Linux中有几个命令可以查看文件的内容,而不需要调用其他的文本编辑器,如vim. 1.file查看文件类型 file命令可以探测文件的内部,并能查看到文件是什么类型的。 2. cat命令 cat命令时一个用于显示文本文件中所有数据的比较好用的工具 cat test.txt cat 可以带一些参数, 阅读全文
摘要:
链接文件是Linux文件系统的一个优势。如需要在系统上维护同一文件的两份或者多份副本,除了保存多份单独的物理文件之外,可以采用保留一份物理文件副本和多个虚拟副本的方式,这种虚拟的副本就成为链接。链接是目录中指向文件真实位置的占位符。在Linux中有两种不同类型的文件链接: 1.符号链接。 2.硬链接 阅读全文