06 2022 档案
摘要:简介 Hive从0.7.0版本开始加入了索引,目的是提高Hive表指定列的查询速度。没有索引的时候,Hive在执行查询时需要加载整个表或者整个分区,然后处理所有的数据,但当在指定列上存在索引,再通过指定列查询时,那么只会加载和处理部分文件。此外,同传统关系型数据库一样,增加索引在提升查询速度的同时,
阅读全文
摘要:Hive表优化 小表、大表join 将key相对分散,并且数据量小的表放在join的左边,这样可以有效减少内存溢出错误发生的几率;再进一步,可以使用Group让小的维度表(1000条以下的记录条数)先进内存。在map端完成reduce。 实际测试发现:新版的hive已经对小表JOIN大表和大表JOI
阅读全文
摘要:hive原理不多说了。 hive版本:hive-common-1.1.0-cdh5.16.2.jar Hive设置配置参数的方法 Hive提供三种可以改变环境变量的方法,分别是: (1)、修改${HIVE_HOME}/conf/hive-site.xml配置文件; (2)、命令行参数; (3)、在已
阅读全文
摘要:查询表结构: DESC table ALL; desc table; 查询版本号: select version(); // mysql 的版本? 查询分区信息: SHOW TEMPORARY PARTITIONS FROM table_name; //临时分区SHOW PARTITIONS FRO
阅读全文
摘要:一、conda安装 anaconda是一个非常流行的包管理软件,我个人尤其爱好,但是有一个问题就是它所有的软件包全部在国外,安装起来很麻烦,关键是下载速度慢,而且经常中断,所以需要配置国内安装的镜像,下载速度就很快了。 1.1 conda的配置文件config 如果用户从来没有使用过conda co
阅读全文