04 2017 档案

摘要:hbase的快照功能常常被用来做数据的恢复的,但是由于项目的特殊需求需要改hbase表的表名。在官网上通过快照功能来修改hbase表名的用法: 下面展示用shell命令的和Java api两种方式: In versions 0.90.x of hbase and earlier, we had a 阅读全文
posted @ 2017-04-25 20:07 大葱拌豆腐 阅读(731) 评论(0) 推荐(0) 编辑
摘要:呼叫结果(call_result)与销售历史(sale_history)的join优化: CALL_RESULT: 32亿条/444G SALE_HISTORY:17亿条/439G 原逻辑 Map: 3255 Reduce: 950 Cumulative CPU: 238867.84 sec HDF 阅读全文
posted @ 2017-04-11 19:21 大葱拌豆腐 阅读(1391) 评论(0) 推荐(0) 编辑
摘要:简要介绍了SparkSQL与Hive on Spark的区别与联系 一、关于Spark 在Hadoop的整个生态系统中,Spark和MapReduce在同一个层级,即主要解决分布式计算框架的问题。 Spark的架构如下图所示,主要包含四大组件:Driver、Master、Worker和Executo 阅读全文
posted @ 2017-04-11 09:42 大葱拌豆腐 阅读(2373) 评论(0) 推荐(0) 编辑
摘要:转载自:http://www.tuicool.com/articles/7VNfyif 王联辉,曾在腾讯,Intel 等公司从事大数据相关的工作。2013 年 - 2016 年先后负责腾讯 Yarn 集群和 Spark 平台的运营与研发。曾负责 Intel Hadoop 发行版的 Hive 及 HB 阅读全文
posted @ 2017-04-10 13:49 大葱拌豆腐 阅读(1853) 评论(0) 推荐(0) 编辑
摘要:几个相关类与HBase数据模型之间的对应关系 一、HBaseConfiguration 关系:org.apache.hadoop.hbase.HBaseConfiguration 作用:对HBase进行配置 用法示例: HBaseConfiguration hconfig = new HBaseCo 阅读全文
posted @ 2017-04-09 19:15 大葱拌豆腐 阅读(335) 评论(0) 推荐(0) 编辑
摘要:内存计算平台Spark在今年6月份的时候正式发布了spark2.0,相比上一版本的spark1.6版本,在内存优化,数据组织,流计算等方面都做出了较大的改变,同时更加注重基于DataFrame数据组织的MLlib,更加注重机器学习整个过程的管道化。 当然,作为使用者,特别是需要运用到线上的系统,大部 阅读全文
posted @ 2017-04-07 10:22 大葱拌豆腐 阅读(3346) 评论(0) 推荐(0) 编辑
摘要:程序运行的过程中,报Failed to locate the winutils binary in the hadoop binary path Java.io.IOException: Could not locate executable\bin\winutils.exe in the Hado 阅读全文
posted @ 2017-04-06 19:53 大葱拌豆腐 阅读(493) 评论(0) 推荐(0) 编辑
摘要:用Maven创建了一个spark sql项目,在引入spark sql jar包时引入的是: 阅读全文
posted @ 2017-04-06 19:27 大葱拌豆腐 阅读(21431) 评论(0) 推荐(0) 编辑
摘要:在使用spark sql时一直运行报这个错误,最后仔细排查竟然是引入了两个scala library 。去除其中一个scala的编译器即可 Exception in thread "main" java.lang.NoClassDefFoundError: scala/Product$class a 阅读全文
posted @ 2017-04-06 19:07 大葱拌豆腐 阅读(7273) 评论(1) 推荐(0) 编辑
摘要:package com.hand.study; import scala.Tuple2; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.jav... 阅读全文
posted @ 2017-04-06 16:33 大葱拌豆腐 阅读(17071) 评论(1) 推荐(2) 编辑
摘要:总结: 1、RDD是一个Java对象的集合。RDD的优点是更面向对象,代码更容易理解。但在需要在集群中传输数据时需要为每个对象保留数据及结构信息,这会导致数据的冗余,同时这会导致大量的GC。 2、DataFrame是在1.3引入的,它包含数据与schema2部分信息,其中数据就是真正的数据,而不是一 阅读全文
posted @ 2017-04-06 15:33 大葱拌豆腐 阅读(584) 评论(0) 推荐(0) 编辑
摘要:以下的这些分析都是基于spark2.1进行的 (一)什么是RDD A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable, partitioned collectio 阅读全文
posted @ 2017-04-06 14:24 大葱拌豆腐 阅读(553) 评论(0) 推荐(0) 编辑
摘要:RDD是一个抽象类定义了所有RDD共有的一些属性和方法,下面介绍了主要的属性和方法。 RDD有5个主要的属性 (一)子类 (二)属性 1、SpackContext 在主构建函数中定义,表示RDD所在运行环境,可用于获取配置,清理环境等。 2、Seq[Dependency[_]] 定义了这个RDD对父 阅读全文
posted @ 2017-04-06 14:11 大葱拌豆腐 阅读(615) 评论(0) 推荐(0) 编辑
摘要:RDD根据对父RDD的依赖关系,可分为窄依赖与宽依赖2种。 主要的区分之处在于父RDD的分区被多少个子RDD分区所依赖,如果一个就为窄依赖,多个则为宽依赖。更好的定义应该是: 窄依赖的定义是子RDD的每一个分区都依赖于父RDD的一个或者少量几个分区(不依赖于全部分区) 与依赖相关的以下5个类: 它们 阅读全文
posted @ 2017-04-06 13:37 大葱拌豆腐 阅读(2985) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示