2017 年 4月随笔档案 - 大葱拌豆腐

利用HBase的快照功能来修改表名

摘要：hbase的快照功能常常被用来做数据的恢复的，但是由于项目的特殊需求需要改hbase表的表名。在官网上通过快照功能来修改hbase表名的用法：下面展示用shell命令的和Java api两种方式： In versions 0.90.x of hbase and earlier, we had a 阅读全文

posted @ 2017-04-25 20:07 大葱拌豆腐阅读(731) 评论(0) 推荐(0) 编辑

hive两大表关联优化试验

摘要：呼叫结果(call_result)与销售历史(sale_history)的join优化： CALL_RESULT: 32亿条/444G SALE_HISTORY:17亿条/439G 原逻辑 Map: 3255 Reduce: 950 Cumulative CPU: 238867.84 sec HDF 阅读全文

posted @ 2017-04-11 19:21 大葱拌豆腐阅读(1391) 评论(0) 推荐(0) 编辑

Spark SQL与Hive on Spark的比较

摘要：简要介绍了SparkSQL与Hive on Spark的区别与联系一、关于Spark 在Hadoop的整个生态系统中，Spark和MapReduce在同一个层级，即主要解决分布式计算框架的问题。 Spark的架构如下图所示，主要包含四大组件：Driver、Master、Worker和Executo 阅读全文

posted @ 2017-04-11 09:42 大葱拌豆腐阅读(2373) 评论(0) 推荐(0) 编辑

Spark的RDD原理以及2.0特性的介绍

摘要：转载自：http://www.tuicool.com/articles/7VNfyif 王联辉，曾在腾讯，Intel 等公司从事大数据相关的工作。2013 年 - 2016 年先后负责腾讯 Yarn 集群和 Spark 平台的运营与研发。曾负责 Intel Hadoop 发行版的 Hive 及 HB 阅读全文

posted @ 2017-04-10 13:49 大葱拌豆腐阅读(1853) 评论(0) 推荐(0) 编辑

hbase Java API 介绍及使用示例

摘要：几个相关类与HBase数据模型之间的对应关系一、HBaseConfiguration 关系：org.apache.hadoop.hbase.HBaseConfiguration 作用：对HBase进行配置用法示例： HBaseConfiguration hconfig = new HBaseCo 阅读全文

posted @ 2017-04-09 19:15 大葱拌豆腐阅读(335) 评论(0) 推荐(0) 编辑

初识Spark2.0之Spark SQL

摘要：内存计算平台Spark在今年6月份的时候正式发布了spark2.0，相比上一版本的spark1.6版本，在内存优化，数据组织，流计算等方面都做出了较大的改变，同时更加注重基于DataFrame数据组织的MLlib，更加注重机器学习整个过程的管道化。当然，作为使用者，特别是需要运用到线上的系统，大部阅读全文

posted @ 2017-04-07 10:22 大葱拌豆腐阅读(3346) 评论(0) 推荐(0) 编辑

Windows7系统运行hadoop报Failed to locate the winutils binary in the hadoop binary path错误

摘要：程序运行的过程中，报Failed to locate the winutils binary in the hadoop binary path Java.io.IOException: Could not locate executable\bin\winutils.exe in the Hado 阅读全文

posted @ 2017-04-06 19:53 大葱拌豆腐阅读(493) 评论(0) 推荐(0) 编辑

java.lang.NoSuchMethodError: scala.Predef$.refArrayOps([Ljava/lang/Object;)Lscala/collection/mutable/ArrayOps;

摘要：用Maven创建了一个spark sql项目，在引入spark sql jar包时引入的是：阅读全文

posted @ 2017-04-06 19:27 大葱拌豆腐阅读(21431) 评论(0) 推荐(0) 编辑

Exception in thread "main" java.lang.NoClassDefFoundError: scala/Product$class

摘要：在使用spark sql时一直运行报这个错误，最后仔细排查竟然是引入了两个scala library 。去除其中一个scala的编译器即可 Exception in thread "main" java.lang.NoClassDefFoundError: scala/Product$class a 阅读全文

posted @ 2017-04-06 19:07 大葱拌豆腐阅读(7273) 评论(1) 推荐(0) 编辑

Spark的Java API例子详解

摘要：package com.hand.study; import scala.Tuple2; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.jav... 阅读全文

posted @ 2017-04-06 16:33 大葱拌豆腐阅读(17071) 评论(1) 推荐(2) 编辑

RDD, DataFrame or Dataset

摘要：总结： 1、RDD是一个Java对象的集合。RDD的优点是更面向对象，代码更容易理解。但在需要在集群中传输数据时需要为每个对象保留数据及结构信息，这会导致数据的冗余，同时这会导致大量的GC。 2、DataFrame是在1.3引入的，它包含数据与schema2部分信息，其中数据就是真正的数据，而不是一阅读全文

posted @ 2017-04-06 15:33 大葱拌豆腐阅读(584) 评论(0) 推荐(0) 编辑

RDD的基础知识

摘要：以下的这些分析都是基于spark2.1进行的（一）什么是RDD A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable, partitioned collectio 阅读全文

posted @ 2017-04-06 14:24 大葱拌豆腐阅读(553) 评论(0) 推荐(0) 编辑

RDD的源码

摘要：RDD是一个抽象类定义了所有RDD共有的一些属性和方法，下面介绍了主要的属性和方法。 RDD有5个主要的属性（一）子类（二）属性 1、SpackContext 在主构建函数中定义，表示RDD所在运行环境，可用于获取配置，清理环境等。 2、Seq[Dependency[_]] 定义了这个RDD对父阅读全文

posted @ 2017-04-06 14:11 大葱拌豆腐阅读(615) 评论(0) 推荐(0) 编辑

窄依赖与宽依赖&stage的划分依据

摘要：RDD根据对父RDD的依赖关系，可分为窄依赖与宽依赖2种。主要的区分之处在于父RDD的分区被多少个子RDD分区所依赖，如果一个就为窄依赖，多个则为宽依赖。更好的定义应该是：窄依赖的定义是子RDD的每一个分区都依赖于父RDD的一个或者少量几个分区（不依赖于全部分区）与依赖相关的以下5个类：它们阅读全文

posted @ 2017-04-06 13:37 大葱拌豆腐阅读(2985) 评论(0) 推荐(0) 编辑

04 2017 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论