摘要:背景:将测试环境的中kettle转换传输到生产环境上出现hadoop插件无法获取的错误 原因 : 迁到生产后,因为服务器带了主机名,所以在插件配置中使用主机名,而非ip地址。 处理方式 : 将里面的主机名改成ip地址即可。若遇到hadoop插件未发现的问题,可以考虑使用此法。 参考链接 : "1"
阅读全文
摘要:问题现象 写了一个简单的shell脚本调用hive执行组装的sql,在执行时总是报 错误, 单独在hive提示符下却能正常执行。 执行时打印的错误日志: 解决方案 修改 为`hive e "${sql}"` 原因分析 若没有使用双引号进行包括,则"hive e"会认为后面的sql内容解析为多个参数造
阅读全文
摘要:现象 通过load data local导入本地文件时报无法导入的错误 相关操作 第一次导入时时成功的,后来发现源文件行数有问题,重新复制了一个文本文件到本地导入目录,后续再导入时就出现了上述问题。 解决办法 查询hive日志获得更详细的信息,日志的常见位置为/tmp/${user}/hive.lo
阅读全文
摘要:背景:在使用kettle 6进行大量数据并行抽取时,偶尔会出现「Unknown error in KarafBlueprintWatcher」的错误,详细的报错信息可以查看下面的代码块。 查看kettle版本 处理方式: 1 修改karaf配置 具体原因参考 "官方论坛文章" 另有 "链接" 说明这
阅读全文
摘要:今天在非hadoop用户使用sparksql处理 这个句型遇到以下的错误。 修复方式: 将 操作系统 上的/tmp/hadoop hadoop的可写权限赋给nonhadoop用户,安全的方法是将用户加到相应的组,测试环境可以直接使用 权限配置。
阅读全文
摘要:kettle在本地执行向远程hdfs执行转换时,会出现以下错误: ToHDFS.0 ERROR (version 7.1.0.0 12, build 1 from 2017 05 16 17.18.02 by buildguy) : Couldn't open file hdfs://hadoop:
阅读全文
摘要:书本第二章的一些知识点,在cloudera quickstart vm 5.8.0 0上进行操作。 配置文件 配置在/etc/hive/conf/hive site.xml文件里面,采用mysql作为metastore。"hive.metastore.warehouse.dir"这个属性没有在文件中
阅读全文
摘要:继上一篇 "文章" 介绍如何使用Pig处理HDFS上的数据,本文将介绍使用Apache Hive进行数据查询和处理。 Apache Hive简介 首先Hive是一款数据仓库软件 使用HiveQL来结构化和查询存放的数据 执行环境:MapReduce, Tez, Spark 数据存放:HDFS, HB
阅读全文
摘要:Apache Pig是一个高级过程语言,可以调用MapReduce查询大规模的半结构化数据集。 样例执行的环境为cloudera的单节点虚拟机 读取结构数据中的指定列 在hdfs上放置一个文件 启动Apache Pig 使用Pig Latin进行数据提取 其中dump的作用是将内容转存到屏幕。 将结
阅读全文