spark - 随笔分类 - XGogo

GC调优在Spark应用中的实践[转]

摘要：作者：仲浩出处：《程序员》电子刊5月B 摘要：Spark立足内存计算，常常需要在内存中存放大量数据，因此也更依赖JVM的垃圾回收机制。与此同时，它也兼容批处理和流式处理，对于程序吞吐量和延迟都有较高要求，因此GC参数的调优在Spark应用实践中显得尤为重要。 Spark是时下非常热门的大数据计算框阅读全文

posted @ 2017-07-10 22:34 XGogo 阅读(1249) 评论(0) 推荐(0)

spark读取hdfs数据本地性异常【转】

摘要：在分布式计算中，为了提高计算速度，数据本地性是其中重要的一环。不过有时候它同样也会带来一些问题。一.问题描述在分布式计算中，大多数情况下要做到移动计算而非移动数据，所以数据本地性尤其重要，因此我们往往也是将hdfs和spark部署在相同的节点上，有些人可能会发现即使他已经这么做了，在spark 阅读全文

posted @ 2017-06-01 17:40 XGogo 阅读(381) 评论(0) 推荐(0)

Spark SQL编程指南（Python）【转】

摘要：转自：http://www.cnblogs.com/yurunmiao/p/4685310.html 前言 Spark SQL允许我们在Spark环境中使用SQL或者Hive SQL执行关系型查询。它的核心是一个特殊类型的Spark RDD：SchemaRDD。 SchemaRDD类似于传统关系型数阅读全文

posted @ 2017-05-14 15:21 XGogo 阅读(542) 评论(0) 推荐(0)

Spark(Hive) SQL中UDF的使用（Python）【转】

摘要：相对于使用MapReduce或者Spark Application的方式进行数据分析，使用Hive SQL或Spark SQL能为我们省去不少的代码工作量，而Hive SQL或Spark SQL本身内置的各类UDF也为我们的数据处理提供了不少便利的工具，当这些内置的UDF不能满足于我们的需要时，Hi 阅读全文

posted @ 2017-05-14 15:15 XGogo 阅读(1660) 评论(0) 推荐(0)

Spark SQL inferSchema实现原理探微（Python）【转】

摘要：使用Spark SQL的基础是“注册”（Register）若干表，表的一个重要组成部分就是模式，Spark SQL提供两种选项供用户选择：（1）applySchema applySchema的方式需要用户编码显示指定模式，优点：数据类型明确，缺点：多表时有一定的代码工作量。（2）inferSch 阅读全文

posted @ 2017-05-14 15:14 XGogo 阅读(800) 评论(0) 推荐(0)

Spark SQL利器：cacheTable/uncacheTable【转】

摘要：转自：http://www.cnblogs.com/yurunmiao/p/4936583.html Spark相对于Hadoop MapReduce有一个很显著的特性就是“迭代计算”（作为一个MapReduce的忠实粉丝，能这样说，大家都懂了吧），这在我们的业务场景里真的是非常有用。假设我们有一阅读全文

posted @ 2017-05-14 15:12 XGogo 阅读(1172) 评论(0) 推荐(0)

Spark使用CombineTextInputFormat缓解小文件过多导致Task数目过多的问题【转】

摘要：转自：http://www.cnblogs.com/yurunmiao/p/5195754.html 目前平台使用Kafka + Flume的方式进行实时数据接入，Kafka中的数据由业务方负责写入，这些数据一部分由Spark Streaming进行流式计算；另一部分数据则经由Flume存储至HDF 阅读全文

posted @ 2017-05-14 15:08 XGogo 阅读(786) 评论(0) 推荐(0)

Effective Spark RDDs with Alluxio【转】

摘要：转自：http://kaimingwan.com/post/alluxio/effective-spark-rdds-with-alluxio 1. 介绍 2. 引言 3. Alluxio and Spark RDD Cache 4. 保存RDD 4.1 采用persist() 4.2 采用save 阅读全文

posted @ 2016-12-16 11:59 XGogo 阅读(521) 评论(0) 推荐(0)

Spark操作Hbase

摘要：Spark 下操作 HBase（1.0.0 新 API） HBase经过七年发展，终于在今年2月底，发布了 1.0.0 版本。这个版本提供了一些让人激动的功能，并且，在不牺牲稳定性的前提下，引入了新的API。虽然 1.0.0 兼容旧版本的 API，不过还是应该尽早地来熟悉下新版API。并且了解下如何阅读全文

posted @ 2016-09-08 22:03 XGogo 阅读(3121) 评论(0) 推荐(0)

spark结构化数据处理：Spark SQL、DataFrame和Dataset

摘要：本文讲解Spark的结构化数据处理，主要包括：Spark SQL、DataFrame、Dataset以及Spark SQL服务等相关内容。本文主要讲解Spark 1.6.x的结构化数据处理相关东东，但因Spark发展迅速(本文的写作时值Spark 1.6.2发布之际，并且Spark 2.0的预览版本阅读全文

posted @ 2016-09-01 22:58 XGogo 阅读(10580) 评论(1) 推荐(0)

Spark踩坑记——数据库（Hbase+Mysql）转

摘要：转自：http://www.cnblogs.com/xlturing/p/spark.html 前言在使用Spark Streaming的过程中对于计算产生结果的进行持久化时，我们往往需要操作数据库，去统计或者改变一些值。最近一个实时消费者处理任务，在使用spark streaming进行实时的数阅读全文

posted @ 2016-09-01 10:04 XGogo 阅读(3600) 评论(0) 推荐(0)

Spark RDD、DataFrame和DataSet的区别

posted @ 2016-08-24 18:20 XGogo 阅读(5905) 评论(0) 推荐(0)

尧字节

明翼

随笔分类 - spark

公告