随笔分类 -  Hive

摘要:问题:我用 sqoop 把 Mysql 中的数据导入到 hive,使用了--delete-target-dir --hive-import --hive-overwrite 等参数,执行了两次。 mysql 中只有 20 条记录。在 hive shell 中,查询导入到的表的记录,得到结果 20 条 阅读全文
posted @ 2019-06-10 11:10 一剑侵心 阅读(2277) 评论(0) 推荐(0) 编辑
摘要:为了开发测试方便,想直接在 IDEA 里运行 Spark 程序,可以连接 Hive,需不是打好包后,放到集群上去运行。主要配置工作如下: 1. 把集群环境中的 hive-core.xml, hdfs-site.xml, core-site.xml 三个文件复制一份,放到 resource 目录下。网 阅读全文
posted @ 2019-05-07 14:15 一剑侵心 阅读(2568) 评论(0) 推荐(0) 编辑
摘要:HDP 上安装了 Hive3.1 和 Spark2, 提交 Spark 作业时,报找不到 Hive 中表的问题 但是查一了下 hive 表,明明是存在这个表的。查看日志,注意到如下的一段日志。 没修改值之前,我在 Spark-shell 里创建了一张 hive 表,发现其创建的位置是 spark.s 阅读全文
posted @ 2019-04-23 19:01 一剑侵心 阅读(3217) 评论(2) 推荐(0) 编辑
摘要:1. 使用 Tez 2. 使用 ORCFILE。当有多个表 join 时,使用 ORCFile 进行存储,会显著地提高速度。 3. 使用 VECTORIZATION。会提高 scans, aggregations, filters and joins 等操作的性能。它会把 1024条记录做为一批进行 阅读全文
posted @ 2019-02-25 13:05 一剑侵心 阅读(1495) 评论(0) 推荐(0) 编辑
摘要:Hive 的官方文档: https://cwiki.apache.org/confluence/display/Hive/Home#Home-HiveVersionsandBranchesHiveVersionsHiveVersionsandBranches 个人感觉官方文档比较乱,一般学习都是从 阅读全文
posted @ 2018-01-31 22:39 一剑侵心 阅读(331) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示