08 2015 档案
-
Python HiveServer2
摘要:1. 安装pyhs2pyhs2依赖项如下:gcc-c++python-devel.x86_64cyrus-sasl-devel.x86_64因此pyhs2的安装命令如下:yuminstallgcc-c++python-devel.x86_64cyrus-sasl-devel.x86_64pipins... 阅读全文
-
Hadoop RCFile存储格式详解(源码分析、代码示例)
摘要:RCFileRCFile全称Record Columnar File,列式记录文件,是一种类似于SequenceFile的键值对(Key/Value Pairs)数据文件。关键词:Record、Columnar、Key、Value。RCFile的优势在哪里?适用于什么场景?为了让大家有一个感性的认识... 阅读全文
-
PySpark关于HDFS文件(目录)输入、数据格式的探讨
摘要:背景平台HDFS数据存储规则是按照“数据集/天目录/小时目录/若干文件”进行的,其中数据集是依据产品线或业务划分的。用户分析数据时,可能需要处理以下五个场景:(一)分析指定数据集、指定日期、指定小时、指定文件的数据;(二)分析指定数据集、指定日期、指定小时的数据;(三)分析指定数据集、指定日期的数据... 阅读全文
-
MySQL通用批量写入工具(Python)
摘要:背景平台目前的分析任务主要以Hive为主,分析后的结果存储在HDFS,用户通过REST API或者Rsync的方式获取分析结果,这样的方式带来以下几个问题:(1)任务执行结束时间未知,用户必须自行编写代码不断地通过REST API请求分析结果,直至获取到分析结果为止,其中还需要处理分析结果过大,转而... 阅读全文
-
Spark SQL JSON数据处理
摘要:背景这一篇可以说是“HiveJSON数据处理的一点探索”的兄弟篇。平台为了加速即席查询的分析效率,在我们的Hadoop集群上安装部署了Spark Server,并且与我们的Hive数据仓库共享元数据。也就是说,我们的用户即可以通过HiveServer2使用Hive SQL执行MapReduce分析数... 阅读全文
-
Hive JSON数据处理的一点探索
摘要:背景JSON是一种轻量级的数据格式,结构灵活,支持嵌套,非常易于人的阅读和编写,而且主流的编程语言都提供相应的框架或类库支持与JSON数据的交互,因此大量的系统使用JSON作为日志存储格式。使用Hive分析数据(均指文本)之前,首先需要为待分析的数据建立一张数据表,然后才可以使用Hive SQL分析... 阅读全文
-
由“Beeline连接HiveServer2后如何使用指定的队列(Yarn)运行Hive SQL语句”引发的一系列思考
摘要:背景我们使用的HiveServer2的版本为0.13.1-cdh5.3.2,目前的任务使用Hive SQL构建,分为两种类型:手动任务(临时分析需求)、调度任务(常规分析需求),两者均通过我们的Web系统进行提交。以前两种类型的任务都被提交至Yarn中一个名称为“hive”的队列,为了避免两种类型的... 阅读全文