Hadoop - 随笔分类 - camash

kettle处理未发现hadoop插件问题

摘要：背景：将测试环境的中kettle转换传输到生产环境上出现hadoop插件无法获取的错误原因：迁到生产后，因为服务器带了主机名，所以在插件配置中使用主机名，而非ip地址。处理方式：将里面的主机名改成ip地址即可。若遇到hadoop插件未发现的问题，可以考虑使用此法。参考链接 : "1" 阅读全文

posted @ 2019-08-24 22:40 camash 阅读(2177) 评论(0) 推荐(0)

hive -e执行出现「cannot recognize input near '<EOF>' in select clause」问题

摘要：问题现象写了一个简单的shell脚本调用hive执行组装的sql，在执行时总是报错误，单独在hive提示符下却能正常执行。执行时打印的错误日志：解决方案修改为`hive e "${sql}"` 原因分析若没有使用双引号进行包括，则"hive e"会认为后面的sql内容解析为多个参数造阅读全文

posted @ 2019-04-24 11:58 camash 阅读(14821) 评论(0) 推荐(0)

hive从本地导入数据时出现「Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask」错误

摘要：现象通过load data local导入本地文件时报无法导入的错误相关操作第一次导入时时成功的，后来发现源文件行数有问题，重新复制了一个文本文件到本地导入目录，后续再导入时就出现了上述问题。解决办法查询hive日志获得更详细的信息，日志的常见位置为/tmp/${user}/hive.lo 阅读全文

posted @ 2019-02-19 11:02 camash 阅读(17217) 评论(0) 推荐(0)

kettle并行运行时出现「Unknown error in KarafBlueprintWatcher」

摘要：背景：在使用kettle 6进行大量数据并行抽取时，偶尔会出现「Unknown error in KarafBlueprintWatcher」的错误，详细的报错信息可以查看下面的代码块。查看kettle版本处理方式： 1 修改karaf配置具体原因参考 "官方论坛文章" 另有 "链接" 说明这阅读全文

posted @ 2019-01-16 11:03 camash 阅读(4697) 评论(0) 推荐(0)

sparksql错误报No such file or director

摘要：今天在非hadoop用户使用sparksql处理这个句型遇到以下的错误。修复方式：将操作系统上的/tmp/hadoop hadoop的可写权限赋给nonhadoop用户，安全的方法是将用户加到相应的组，测试环境可以直接使用权限配置。阅读全文

posted @ 2018-10-17 22:06 camash 阅读(937) 评论(0) 推荐(0)

kettle在本地执行向远程hdfs执行转换错误"Couldn't open file hdfs"

摘要：kettle在本地执行向远程hdfs执行转换时，会出现以下错误： ToHDFS.0 ERROR (version 7.1.0.0 12, build 1 from 2017 05 16 17.18.02 by buildguy) : Couldn't open file hdfs://hadoop: 阅读全文

posted @ 2018-07-16 13:52 camash 阅读(2062) 评论(0) 推荐(0)

《ProgrammingHive》阅读笔记-第二章

摘要：书本第二章的一些知识点，在cloudera quickstart vm 5.8.0 0上进行操作。配置文件配置在/etc/hive/conf/hive site.xml文件里面，采用mysql作为metastore。"hive.metastore.warehouse.dir"这个属性没有在文件中阅读全文

posted @ 2017-03-27 21:18 camash 阅读(245) 评论(0) 推荐(0)

Apache Hive处理数据示例

摘要：继上一篇 "文章" 介绍如何使用Pig处理HDFS上的数据，本文将介绍使用Apache Hive进行数据查询和处理。 Apache Hive简介首先Hive是一款数据仓库软件使用HiveQL来结构化和查询存放的数据执行环境：MapReduce, Tez, Spark 数据存放：HDFS, HB 阅读全文

posted @ 2017-02-22 23:36 camash 阅读(1126) 评论(1) 推荐(0)

Apache Pig处理数据示例

摘要：Apache Pig是一个高级过程语言，可以调用MapReduce查询大规模的半结构化数据集。样例执行的环境为cloudera的单节点虚拟机读取结构数据中的指定列在hdfs上放置一个文件启动Apache Pig 使用Pig Latin进行数据提取其中dump的作用是将内容转存到屏幕。将结阅读全文

posted @ 2017-02-22 14:11 camash 阅读(688) 评论(0) 推荐(0)

camash

随笔分类 - Hadoop