随笔分类 - Tools / Hadoop
Hadoop相关
摘要:参考 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-AlterTable%2FPartitionStatements 这里主要列一些常用操作。 添加分区 删除分区 修改分区
阅读全文
摘要:Sqoop中文手册 1. 概述 本文档主要对SQOOP的使用进行了说明,参考内容主要来自于Cloudera SQOOP的官方文档。为了用中文更清楚明白地描述各参数的使用含义,本文档几乎所有参数使用说明都经过了我的实际验证而得到。 2. codegen 将关系数据库表映射为一个java文件、java
阅读全文
摘要:1. 只支持相等JOIN。 2. 多表连接当使用不同的列进行JOIN时,会产生多个MR作业。 3. 最后的表的数据是从流中读取,而前面的会在内存中缓存,因此最好把最大的表放在最后。 SELECT /*+ STREAMTABLE(a) */ a.val, b.val, c.val FROM a JOI
阅读全文
摘要:hive.optimize.cp=true:列裁剪hive.optimize.prunner:分区裁剪hive.limit.optimize.enable=true:优化LIMIT n语句hive.limit.row.max.size=1000000:hive.limit.optimize.limi
阅读全文
摘要:前置条件 已经成功安装配置Hadoop和Mysql数据库服务器,如果将数据导入或从Hbase导出,还应该已经成功安装配置Hbase。 下载sqoop和Mysql的JDBC驱动 sqoop-1.2.0-CDH3B4.tar.gz :http://archive.cloudera.com/cdh/3/s
阅读全文