上一页 1 ··· 4 5 6 7 8 9 10 11 下一页

2015年8月20日

摘要: RCFileRCFile全称Record Columnar File,列式记录文件,是一种类似于SequenceFile的键值对(Key/Value Pairs)数据文件。关键词:Record、Columnar、Key、Value。RCFile的优势在哪里?适用于什么场景?为了让大家有一个感性的认识... 阅读全文
posted @ 2015-08-20 17:55 非著名野生程序员 阅读(4482) 评论(1) 推荐(2) 编辑

2015年8月18日

摘要: 背景平台HDFS数据存储规则是按照“数据集/天目录/小时目录/若干文件”进行的,其中数据集是依据产品线或业务划分的。用户分析数据时,可能需要处理以下五个场景:(一)分析指定数据集、指定日期、指定小时、指定文件的数据;(二)分析指定数据集、指定日期、指定小时的数据;(三)分析指定数据集、指定日期的数据... 阅读全文
posted @ 2015-08-18 18:30 非著名野生程序员 阅读(18682) 评论(0) 推荐(3) 编辑

2015年8月17日

摘要: 背景平台目前的分析任务主要以Hive为主,分析后的结果存储在HDFS,用户通过REST API或者Rsync的方式获取分析结果,这样的方式带来以下几个问题:(1)任务执行结束时间未知,用户必须自行编写代码不断地通过REST API请求分析结果,直至获取到分析结果为止,其中还需要处理分析结果过大,转而... 阅读全文
posted @ 2015-08-17 19:12 非著名野生程序员 阅读(7937) 评论(3) 推荐(2) 编辑

2015年8月14日

摘要: 背景这一篇可以说是“HiveJSON数据处理的一点探索”的兄弟篇。平台为了加速即席查询的分析效率,在我们的Hadoop集群上安装部署了Spark Server,并且与我们的Hive数据仓库共享元数据。也就是说,我们的用户即可以通过HiveServer2使用Hive SQL执行MapReduce分析数... 阅读全文
posted @ 2015-08-14 13:09 非著名野生程序员 阅读(10452) 评论(0) 推荐(0) 编辑

2015年8月13日

摘要: 背景JSON是一种轻量级的数据格式,结构灵活,支持嵌套,非常易于人的阅读和编写,而且主流的编程语言都提供相应的框架或类库支持与JSON数据的交互,因此大量的系统使用JSON作为日志存储格式。使用Hive分析数据(均指文本)之前,首先需要为待分析的数据建立一张数据表,然后才可以使用Hive SQL分析... 阅读全文
posted @ 2015-08-13 19:47 非著名野生程序员 阅读(15592) 评论(2) 推荐(4) 编辑

2015年8月12日

摘要: 背景我们使用的HiveServer2的版本为0.13.1-cdh5.3.2,目前的任务使用Hive SQL构建,分为两种类型:手动任务(临时分析需求)、调度任务(常规分析需求),两者均通过我们的Web系统进行提交。以前两种类型的任务都被提交至Yarn中一个名称为“hive”的队列,为了避免两种类型的... 阅读全文
posted @ 2015-08-12 16:47 非著名野生程序员 阅读(13076) 评论(0) 推荐(2) 编辑

2015年7月29日

摘要: 前言Spark SQL允许我们在Spark环境中使用SQL或者Hive SQL执行关系型查询。它的核心是一个特殊类型的Spark RDD:SchemaRDD。SchemaRDD类似于传统关系型数据库的一张表,由两部分组成:Rows:数据行对象Schema:数据行模式:列名、列数据类型、列可否为空等S... 阅读全文
posted @ 2015-07-29 10:54 非著名野生程序员 阅读(18053) 评论(1) 推荐(0) 编辑

2015年7月28日

摘要: 前言Spark能够自动推断出Json数据集的“数据模式”(Schema),并将它加载为一个SchemaRDD实例。这种“自动”的行为是通过下述两种方法实现的:jsonFile:从一个文件目录中加载数据,这个目录中的文件的每一行均为一个JSON字符串(如果JSON字符串“跨行”,则可能导致解析错误);... 阅读全文
posted @ 2015-07-28 11:39 非著名野生程序员 阅读(20201) 评论(0) 推荐(2) 编辑

2015年5月25日

摘要: CompressionandInputSplits当我们使用压缩数据作为MapReduce的输入时,需要确认数据的压缩格式是否支持切片?假设HDFS中有一个未经压缩的大小为1GB的文本文件,如果HDFS Block大小为128MB,那么这个文件会被HDFS存储为8个Block。当MapReduce ... 阅读全文
posted @ 2015-05-25 17:57 非著名野生程序员 阅读(5534) 评论(2) 推荐(1) 编辑
摘要: 文件压缩主要有两方面的好处:一方面节省文件存储空间;另一方面加速网络数据传输或磁盘读写。当处理大规模的数据时这些效果提升更加明显,因此我们需要仔细斟酌压缩在Hadoop环境下的使用。目前已经存在很多压缩格式、工具和算法,各有特点,如下图:说明:a. DEFLATE是一种压缩算法,标准实现是zlib,... 阅读全文
posted @ 2015-05-25 14:45 非著名野生程序员 阅读(1531) 评论(0) 推荐(1) 编辑
上一页 1 ··· 4 5 6 7 8 9 10 11 下一页