摘要: 文章目录 问题描述 原因分析 解决方法 文章目录 问题描述 原因分析 解决方法 问题描述 原因分析 解决方法 问题描述 原因分析 解决方法 问题描述 项目中需要利用Pig MongoLoader将MongoDB里面的数据每日增量备份到hive的外部分区表中,但是在检查hdfs文件发现分区文件夹下产生 阅读全文
posted @ 2019-02-16 22:08 LestatZ 阅读(243) 评论(0) 推荐(0) 编辑
摘要: 一开始使用yarn-client模式提交作业时一切正常,但换成cluster模式下 使用sparksql方法执行hive查询语句时,却出现了如下的OOM问题: 出现这个错误原主要原因是太多的类或者太大的类都被加载到永久代,导致存储器中永久代的内存耗尽。而我们这里主要是因为SparkSql在获取Hiv 阅读全文
posted @ 2019-02-16 21:03 LestatZ 阅读(1490) 评论(0) 推荐(0) 编辑
摘要: 在Mac上装了一个Cloudera的quickstart版本到virtualbox里面发现无法共享主机的VPN,简单搜索了一下,只需要做一些基本的配置就可以了。设置主机SS的HTTP 代理如图:设置虚拟机网络连接模式选择桥接模式,并选择WiFI(Airpor... 阅读全文
posted @ 2019-02-16 12:28 LestatZ 阅读(0) 评论(0) 推荐(0) 编辑
摘要: 简介Teradata数据库 (以下简称TD) 为存储和处理XML数据提供以下支持:XML数据类型,允许用户以紧密二进制形式存储XML内容,用来保留XML文档的信息集支持常见XML操作,如解析,验证,转换(XSLT)和查询(XPath和XQuery)等和方法用... 阅读全文
posted @ 2019-02-16 12:11 LestatZ 阅读(275) 评论(0) 推荐(0) 编辑
摘要: 文章目录问题概述主要思路NotesUse external python packageRPM packageUsing rpm2cpio (Recommended)Test python package using `export PYTHONPATH`B... 阅读全文
posted @ 2019-02-16 12:09 LestatZ 阅读(642) 评论(2) 推荐(0) 编辑
摘要: 工作上需要研究Teradata CLOB类型,因为去看了官方文档,自己做了点笔记如下:Teradata数据压缩概况本章描述了几种数据压缩选项,它能够帮助你减少磁盘空间的使用,在某种情况下,还可以提高I/O性能。多值压缩(MVC)算法压缩(ALC)行压缩行标题... 阅读全文
posted @ 2019-02-16 11:59 LestatZ 阅读(432) 评论(0) 推荐(0) 编辑
摘要: 因工作需要需要且身边没有windows系统的笔记本,无奈只好在mac上利用虚拟机安装一个win7系统作为临时过渡。我使用的虚拟机软件是Parallels Desktop(以下简称PD)PD提供三种不同网络模式供用户选择:共享网络(推荐)桥接网络Host-On... 阅读全文
posted @ 2019-02-16 11:39 LestatZ 阅读(855) 评论(0) 推荐(0) 编辑
摘要: Mac上如何用命令行修改proxy设置在Mac OS上,除了通过系统设置的UI界面修改网络设置外,我们还可以用 networksetup 这个命令修改需要的网络代理设置。以下是我利用该命令导出我ss的proxy 参数:networksetup -setweb... 阅读全文
posted @ 2019-02-16 10:56 LestatZ 阅读(1554) 评论(0) 推荐(0) 编辑
摘要: Mac 访问github慢访问 http://github.global.ssl.fastly.net.ipaddress.com/#ipinfo 获取github的IP地址在/etc/hosts中加入查询到的IP和域名 (需要root 权限)在终端在输以下... 阅读全文
posted @ 2019-02-16 10:43 LestatZ 阅读(707) 评论(0) 推荐(0) 编辑