摘要: 前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学 阅读全文
posted @ 2016-07-01 18:56 XGogo 阅读(1146) 评论(0) 推荐(1) 编辑
摘要: 背景 使用spark开发已有几个月。相比于python/hive,scala/spark学习门槛较高。尤其记得刚开时,举步维艰,进展十分缓慢。不过谢天谢地,这段苦涩(bi)的日子过去了。忆苦思甜,为了避免项目组的其他同学走弯路,决定总结和梳理spark的使用经验。 Spark基础 基石RDD spa 阅读全文
posted @ 2016-07-01 17:49 XGogo 阅读(506) 评论(0) 推荐(0) 编辑
摘要: 摘要 在学习使用Spark的过程中,总是想对内部运行过程作深入的了解,其中DEBUG和TRACE级别的日志可以为我们提供详细和有用的信息,那么如何进行合理设置呢,不复杂但也绝不是将一个INFO换为TRACE那么简单。 主要问题 调整Spark日志级别的配置文件是$SPARK_HOME/conf/lo 阅读全文
posted @ 2016-07-01 14:14 XGogo 阅读(3215) 评论(0) 推荐(0) 编辑
摘要: 原文地址:http://www.infoq.com/cn/articles/spark-sreaming-practice 本篇文章用Spark Streaming +Hbase为列,Spark Streaming专为流式数据处理,对Spark核心API进行了相应的扩展。 什么是Spark Stre 阅读全文
posted @ 2016-07-01 10:52 XGogo 阅读(699) 评论(0) 推荐(0) 编辑
摘要: 【题外话】 感觉自己很沮丧。我自己认为,我的内心很纯净。 废话说了那么多,我想总结一下最近我学习spark的经验。 最近使用spark做了一个数据分析的项目。 项目采用的基础环境是:spark 1.6.0 hbase 0.98.17 hadoop2.5.2 项目的构建工具是:maven 项目采用的语 阅读全文
posted @ 2016-07-01 10:25 XGogo 阅读(7311) 评论(0) 推荐(0) 编辑
摘要: 环境:Spark-1.5.0 HBase-1.0.0。 场景:HBase中按天分表存数据,要求将任意时间段的数据合并成一个RDD以做后续计算。 尝试1: 寻找一次读取多个表的API,找到最接近的是一个叫MultiTableInputFormat的东西,它在MapReduce中使用良好, 但没有找到用 阅读全文
posted @ 2016-07-01 10:01 XGogo 阅读(572) 评论(0) 推荐(0) 编辑
摘要: RowFilter用于过滤row key import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; impor 阅读全文
posted @ 2016-07-01 09:30 XGogo 阅读(16677) 评论(0) 推荐(0) 编辑
摘要: 本章将深入介绍由HBase的存储架构在设计上带来的影响。如何设计表、row key、column等等,尽可能地使用到HBase存储上的优势。 Key设计 HBase有两个基础的主键结构:row key和column key。它们分别用来表征存储的数据和数据的排序顺序。以下的几节将讨论如何通过key设 阅读全文
posted @ 2016-07-01 09:15 XGogo 阅读(1569) 评论(0) 推荐(0) 编辑