……

上一页 1 ··· 24 25 26 27 28 29 30 31 32 ··· 36 下一页
2020年6月4日
该文被密码保护。 阅读全文
posted @ 2020-06-04 18:01 大码王 阅读(0) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2020-06-04 18:00 大码王 阅读(0) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2020-06-04 17:57 大码王 阅读(0) 评论(0) 推荐(0) 编辑
摘要: 为什么Rowkey这么重要 RowKey 到底是什么 我们常说看一张 HBase 表设计的好不好,就看它的 RowKey 设计的好不好。可见 RowKey 在 HBase 中的地位。那么 RowKey 到底是什么?RowKey 的特点如下: 类似于 MySQL、Oracle中的主键,用于标示唯一的行 阅读全文
posted @ 2020-06-04 10:35 大码王 阅读(217) 评论(0) 推荐(0) 编辑
摘要: 我们介绍了避免数据斑点的三种比较常见方法: 加盐-盐腌 哈希-散列 反转-反转 其中在加盐(Salting)的方法里面是这么描述的:给Rowkey分配一个随机指针以使其和之前排序不同。但是在Rowkey前面加了随机重叠,那么我们怎么将这些数据替换来呢?我将分三篇文章来介绍如何读取加盐之后的表,其中每 阅读全文
posted @ 2020-06-04 10:33 大码王 阅读(588) 评论(0) 推荐(0) 编辑
摘要: 我们知道,HBase 为我们提供了 hbase-mapreduce 工程包含了读取 HBase 表的 InputFormat、OutputFormat 等类。这个工程的描述如下:This module contains implementations of InputFormat, OutputFo 阅读全文
posted @ 2020-06-04 10:31 大码王 阅读(551) 评论(0) 推荐(0) 编辑
摘要: Apache Spark 和 Apache HBase 是两个使用比较广泛的大数据组件。很多场景需要使用 Spark 分析/查询 HBase 中的数据,而目前 Spark 内置是支持很多数据源的,其中就包括了 HBase,但是内置的读取数据源还是使用了 TableInputFormat 来读取 HB 阅读全文
posted @ 2020-06-04 10:29 大码王 阅读(675) 评论(0) 推荐(0) 编辑
摘要: 本文将介绍如何在Spark上使用Scala编写快速导入数据到Hbase中的方法。这里将介绍两种方式:第一种使用Put普通的方法来倒数;第二种使用Bulk Load API。 使用org.apache.hadoop.hbase.client.Put来写数据 使用 org.apache.hadoop.h 阅读全文
posted @ 2020-06-04 10:26 大码王 阅读(595) 评论(0) 推荐(0) 编辑
摘要: 本文讲解的Hive和HBase整合意思是使用Hive读取Hbase中的数据。我们可以使用HQL语句在HBase表上进行查询、插入操作;甚至是进行Join和Union等复杂查询。此功能是从Hive 0.6.0开始引入的,详情可以参见HIVE-705。Hive与HBase整合的实现是利用两者本身对外的A 阅读全文
posted @ 2020-06-04 10:20 大码王 阅读(263) 评论(0) 推荐(0) 编辑
摘要: 大家可能都知道很熟悉Spark的两种常见的数据读取方式(存放到RDD中):(1)、调用parallelize函数直接从集合中获取数据,并存入RDD中;Java版本如下: JavaRDD<Integer> myRDD = sc.parallelize(Arrays.asList(1,2,3)); Sc 阅读全文
posted @ 2020-06-04 10:10 大码王 阅读(946) 评论(0) 推荐(0) 编辑
摘要: 这几天由于项目的需要,需要将Flume收集到的日志插入到Hbase中,有人说,这不很简单么?Flume里面自带了Hbase sink,可以直接调用啊,还用说么?是的,我在本博客的《Flume-1.4.0和Hbase-0.96.0整合》文章中就提到如何用Flume和Hbase整合,从文章中就看出整个过 阅读全文
posted @ 2020-06-04 10:08 大码王 阅读(297) 评论(0) 推荐(0) 编辑
摘要: 在使用Flume的时候,请确保你电脑里面已经搭建好Hadoop、Hbase、Zookeeper以及Flume。本文将以最新版的Hadoop-2.2.0、Hbase-0.96.0、Zookeeper-3.4.5以及Flume-1.4.0为例进行说明。如何安装分布式的Hadoop、Hbase、Zooke 阅读全文
posted @ 2020-06-04 10:02 大码王 阅读(205) 评论(0) 推荐(0) 编辑
摘要: 我们到Apache Cassandra的官方网站下载最新版本的Cassandra,在这里写作时最新版本的Cassandra为3.11.4。ApacheCassandra可以在Linux,Unix,Mac OS以及Windows上进行安装,为了可以起见,此处以CentOS为例进行介绍。 为什么会诞生 阅读全文
posted @ 2020-06-04 09:58 大码王 阅读(628) 评论(0) 推荐(0) 编辑
2020年6月3日
摘要: shuffle调优 调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发 阅读全文
posted @ 2020-06-03 17:58 大码王 阅读(635) 评论(0) 推荐(0) 编辑
摘要: 前言 继《Spark性能优化:开发调优篇》和《Spark性能优化:资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述 有的时候,我们可能 阅读全文
posted @ 2020-06-03 17:46 大码王 阅读(255) 评论(0) 推荐(0) 编辑
摘要: Spark作业基本运行原理 详细原理见上图。我们使用spark-submit提交一个Spark作业之后,这个作业就会启动一个对应的Driver进程。根据你使用的部署模式(deploy-mode)不同,Driver进程可能在本地启动,也可能在集群中某个工作节点上启动。Driver进程本身会根据我们设置 阅读全文
posted @ 2020-06-03 17:44 大码王 阅读(239) 评论(0) 推荐(0) 编辑
2020年6月2日
摘要: 开发调优 Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中,时时刻刻都应该注意以上原则,并将这些原则根据具体的业务 阅读全文
posted @ 2020-06-02 18:52 大码王 阅读(300) 评论(0) 推荐(0) 编辑
2020年6月1日
摘要: 一、Scala概述 1. Scala简介 Scala是一种针对JVM将函数和面向对象技术组合在一起的编程语言。所以Scala必须要有JVM才能运行,和Python一样,Scala也是可以面向对象和面向函数的。Scala编程语言近来抓住了很多开发者的眼球。它看起来像是一种纯粹的面向对象编程语言,而又无 阅读全文
posted @ 2020-06-01 18:22 大码王 阅读(261) 评论(0) 推荐(0) 编辑
摘要: 第一章、phoenix入门简介 1. Phoenix定义 Phoenix最早是saleforce的一个开源项目,后来成为Apache基金的顶级项目。 Phoenix是构建在HBase上的一个SQL层,能让我们用标准的JDBC APIs而不是HBase客户端APIs来创建表,插入数据和对HBase数据 阅读全文
posted @ 2020-06-01 17:56 大码王 阅读(794) 评论(0) 推荐(0) 编辑
摘要: 问题导读1.你认为Apache Phoenix与HBase的关系是什么?2.Phoenix安装需要哪些软件?3.如何部署Phoenix?Introduction Apache Phoenix is a relational database layer over HBase delivered as 阅读全文
posted @ 2020-06-01 17:27 大码王 阅读(693) 评论(0) 推荐(0) 编辑
上一页 1 ··· 24 25 26 27 28 29 30 31 32 ··· 36 下一页
复制代码