统计

随笔 - 105
文章 - 0
评论 - 53
阅读 - 39万

08 2015 档案

Python HiveServer2
摘要：1. 安装pyhs2pyhs2依赖项如下：gcc-c++python-devel.x86_64cyrus-sasl-devel.x86_64因此pyhs2的安装命令如下：yuminstallgcc-c++python-devel.x86_64cyrus-sasl-devel.x86_64pipins... 阅读全文

posted @ 2015-08-24 14:06 非著名野生程序员阅读(1766) 评论(0) 推荐(0) 编辑
Hadoop RCFile存储格式详解（源码分析、代码示例）
摘要：RCFileRCFile全称Record Columnar File，列式记录文件，是一种类似于SequenceFile的键值对（Key/Value Pairs）数据文件。关键词：Record、Columnar、Key、Value。RCFile的优势在哪里？适用于什么场景？为了让大家有一个感性的认识... 阅读全文

posted @ 2015-08-20 17:55 非著名野生程序员阅读(4497) 评论(1) 推荐(2) 编辑
PySpark关于HDFS文件（目录）输入、数据格式的探讨
摘要：背景平台HDFS数据存储规则是按照“数据集/天目录/小时目录/若干文件”进行的，其中数据集是依据产品线或业务划分的。用户分析数据时，可能需要处理以下五个场景：（一）分析指定数据集、指定日期、指定小时、指定文件的数据；（二）分析指定数据集、指定日期、指定小时的数据；（三）分析指定数据集、指定日期的数据... 阅读全文

posted @ 2015-08-18 18:30 非著名野生程序员阅读(18705) 评论(0) 推荐(3) 编辑
MySQL通用批量写入工具（Python）
摘要：背景平台目前的分析任务主要以Hive为主，分析后的结果存储在HDFS，用户通过REST API或者Rsync的方式获取分析结果，这样的方式带来以下几个问题：（1）任务执行结束时间未知，用户必须自行编写代码不断地通过REST API请求分析结果，直至获取到分析结果为止，其中还需要处理分析结果过大，转而... 阅读全文

posted @ 2015-08-17 19:12 非著名野生程序员阅读(7944) 评论(3) 推荐(2) 编辑
Spark SQL JSON数据处理
摘要：背景这一篇可以说是“HiveJSON数据处理的一点探索”的兄弟篇。平台为了加速即席查询的分析效率，在我们的Hadoop集群上安装部署了Spark Server，并且与我们的Hive数据仓库共享元数据。也就是说，我们的用户即可以通过HiveServer2使用Hive SQL执行MapReduce分析数... 阅读全文

posted @ 2015-08-14 13:09 非著名野生程序员阅读(10461) 评论(0) 推荐(0) 编辑
Hive JSON数据处理的一点探索
摘要：背景JSON是一种轻量级的数据格式，结构灵活，支持嵌套，非常易于人的阅读和编写，而且主流的编程语言都提供相应的框架或类库支持与JSON数据的交互，因此大量的系统使用JSON作为日志存储格式。使用Hive分析数据（均指文本）之前，首先需要为待分析的数据建立一张数据表，然后才可以使用Hive SQL分析... 阅读全文

posted @ 2015-08-13 19:47 非著名野生程序员阅读(15600) 评论(2) 推荐(4) 编辑
由“Beeline连接HiveServer2后如何使用指定的队列（Yarn）运行Hive SQL语句”引发的一系列思考
摘要：背景我们使用的HiveServer2的版本为0.13.1-cdh5.3.2，目前的任务使用Hive SQL构建，分为两种类型：手动任务（临时分析需求）、调度任务（常规分析需求），两者均通过我们的Web系统进行提交。以前两种类型的任务都被提交至Yarn中一个名称为“hive”的队列，为了避免两种类型的... 阅读全文

posted @ 2015-08-12 16:47 非著名野生程序员阅读(13108) 评论(0) 推荐(2) 编辑

公告

昵称：非著名野生程序员
园龄： 14年11个月
粉丝： 79
关注： 0
+加关注

导航

统计

08 2015 档案

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论