2016 年 7月 1 日随笔档案 - XGogo

2016年7月1日

摘要：前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学阅读全文

posted @ 2016-07-01 18:56 XGogo 阅读(1146) 评论(0) 推荐(1) 编辑

Spark使用总结与分享【转】

摘要：背景使用spark开发已有几个月。相比于python/hive，scala/spark学习门槛较高。尤其记得刚开时，举步维艰，进展十分缓慢。不过谢天谢地，这段苦涩（bi）的日子过去了。忆苦思甜，为了避免项目组的其他同学走弯路，决定总结和梳理spark的使用经验。 Spark基础基石RDD spa 阅读全文

posted @ 2016-07-01 17:49 XGogo 阅读(506) 评论(0) 推荐(0) 编辑

spark调整日志显示级别

摘要：摘要在学习使用Spark的过程中，总是想对内部运行过程作深入的了解，其中DEBUG和TRACE级别的日志可以为我们提供详细和有用的信息，那么如何进行合理设置呢，不复杂但也绝不是将一个INFO换为TRACE那么简单。主要问题调整Spark日志级别的配置文件是$SPARK_HOME/conf/lo 阅读全文

posted @ 2016-07-01 14:14 XGogo 阅读(3215) 评论(0) 推荐(0) 编辑

用实例讲解Spark Sreaming--转

摘要：原文地址：http://www.infoq.com/cn/articles/spark-sreaming-practice 本篇文章用Spark Streaming ＋Hbase为列，Spark Streaming专为流式数据处理，对Spark核心API进行了相应的扩展。什么是Spark Stre 阅读全文

posted @ 2016-07-01 10:52 XGogo 阅读(699) 评论(0) 推荐(0) 编辑

spark]使用spark进行hbase数据分析

摘要：【题外话】感觉自己很沮丧。我自己认为，我的内心很纯净。废话说了那么多，我想总结一下最近我学习spark的经验。最近使用spark做了一个数据分析的项目。项目采用的基础环境是：spark 1.6.0 hbase 0.98.17 hadoop2.5.2 项目的构建工具是：maven 项目采用的语阅读全文

posted @ 2016-07-01 10:25 XGogo 阅读(7311) 评论(0) 推荐(0) 编辑

Spark读HBase多表组成一个RDD

摘要：环境：Spark-1.5.0 HBase-1.0.0。场景：HBase中按天分表存数据，要求将任意时间段的数据合并成一个RDD以做后续计算。尝试1: 寻找一次读取多个表的API，找到最接近的是一个叫MultiTableInputFormat的东西，它在MapReduce中使用良好，但没有找到用阅读全文

posted @ 2016-07-01 10:01 XGogo 阅读(572) 评论(0) 推荐(0) 编辑

hbase RowFilter如何根据rowkey查询以及实例实现代码 habase模糊查询【转】

摘要： RowFilter用于过滤row key import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; impor 阅读全文

posted @ 2016-07-01 09:30 XGogo 阅读(16677) 评论(0) 推荐(0) 编辑

【HBase】Rowkey设计【转】

摘要：本章将深入介绍由HBase的存储架构在设计上带来的影响。如何设计表、row key、column等等，尽可能地使用到HBase存储上的优势。 Key设计 HBase有两个基础的主键结构：row key和column key。它们分别用来表征存储的数据和数据的排序顺序。以下的几节将讨论如何通过key设阅读全文

posted @ 2016-07-01 09:15 XGogo 阅读(1569) 评论(0) 推荐(0) 编辑

尧字节

明翼

公告