2020年6月4日

博客园美化之侧边栏（first version）

该文被密码保护。阅读全文

posted @ 2020-06-04 18:01 大码王阅读(0) 评论(0) 推荐(0) 编辑

博客园美化之CSS（first version）

该文被密码保护。阅读全文

posted @ 2020-06-04 18:00 大码王阅读(0) 评论(0) 推荐(0) 编辑

博客园美化（一）

该文被密码保护。阅读全文

posted @ 2020-06-04 17:57 大码王阅读(0) 评论(0) 推荐(0) 编辑

HBase Rowkey 设计指南

摘要：为什么Rowkey这么重要 RowKey 到底是什么我们常说看一张 HBase 表设计的好不好，就看它的 RowKey 设计的好不好。可见 RowKey 在 HBase 中的地位。那么 RowKey 到底是什么？RowKey 的特点如下：类似于 MySQL、Oracle中的主键，用于标示唯一的行阅读全文

posted @ 2020-06-04 10:35 大码王阅读(217) 评论(0) 推荐(0) 编辑

HBase中加盐（Salting）之后的表如何读取：协处理器文章

摘要：我们介绍了避免数据斑点的三种比较常见方法：加盐-盐腌哈希-散列反转-反转其中在加盐（Salting）的方法里面是这么描述的：给Rowkey分配一个随机指针以使其和之前排序不同。但是在Rowkey前面加了随机重叠，那么我们怎么将这些数据替换来呢？我将分三篇文章来介绍如何读取加盐之后的表，其中每阅读全文

posted @ 2020-06-04 10:33 大码王阅读(588) 评论(0) 推荐(0) 编辑

sparkcore入门到实战之（14）HBase 中加盐（Salting）之后的表如何读取

摘要：我们知道，HBase 为我们提供了 hbase-mapreduce 工程包含了读取 HBase 表的 InputFormat、OutputFormat 等类。这个工程的描述如下：This module contains implementations of InputFormat, OutputFo 阅读全文

posted @ 2020-06-04 10:31 大码王阅读(551) 评论(0) 推荐(0) 编辑

Spark SQL入门到实战之（5）使用 Spark SQL 高效地读写 HBase

摘要： Apache Spark 和 Apache HBase 是两个使用比较广泛的大数据组件。很多场景需要使用 Spark 分析/查询 HBase 中的数据，而目前 Spark 内置是支持很多数据源的，其中就包括了 HBase，但是内置的读取数据源还是使用了 TableInputFormat 来读取 HB 阅读全文

posted @ 2020-06-04 10:29 大码王阅读(675) 评论(0) 推荐(0) 编辑

sparkcore入门到实战之（13）在Spark上通过BulkLoad快速将海量数据导入到Hbase

摘要：本文将介绍如何在Spark上使用Scala编写快速导入数据到Hbase中的方法。这里将介绍两种方式：第一种使用Put普通的方法来倒数；第二种使用Bulk Load API。使用org.apache.hadoop.hbase.client.Put来写数据使用 org.apache.hadoop.h 阅读全文

posted @ 2020-06-04 10:26 大码王阅读(595) 评论(0) 推荐(0) 编辑

Hive和HBase整合用户指南

摘要：本文讲解的Hive和HBase整合意思是使用Hive读取Hbase中的数据。我们可以使用HQL语句在HBase表上进行查询、插入操作；甚至是进行Join和Union等复杂查询。此功能是从Hive 0.6.0开始引入的，详情可以参见HIVE-705。Hive与HBase整合的实现是利用两者本身对外的A 阅读全文

posted @ 2020-06-04 10:20 大码王阅读(263) 评论(0) 推荐(0) 编辑

sparkcore入门到实战之（12）Spark读取Hbase中的数据

摘要：大家可能都知道很熟悉Spark的两种常见的数据读取方式（存放到RDD中）：（1）、调用parallelize函数直接从集合中获取数据，并存入RDD中；Java版本如下： JavaRDD<Integer> myRDD = sc.parallelize(Arrays.asList(1,2,3)); Sc 阅读全文

posted @ 2020-06-04 10:10 大码王阅读(946) 评论(0) 推荐(0) 编辑

Flume-0.9.4和Hbase-0.96整合

摘要：这几天由于项目的需要，需要将Flume收集到的日志插入到Hbase中，有人说，这不很简单么？Flume里面自带了Hbase sink，可以直接调用啊，还用说么？是的，我在本博客的《Flume-1.4.0和Hbase-0.96.0整合》文章中就提到如何用Flume和Hbase整合，从文章中就看出整个过阅读全文

posted @ 2020-06-04 10:08 大码王阅读(297) 评论(0) 推荐(0) 编辑

Flume-1.4.0和Hbase-0.96.0整合

摘要：在使用Flume的时候，请确保你电脑里面已经搭建好Hadoop、Hbase、Zookeeper以及Flume。本文将以最新版的Hadoop-2.2.0、Hbase-0.96.0、Zookeeper-3.4.5以及Flume-1.4.0为例进行说明。如何安装分布式的Hadoop、Hbase、Zooke 阅读全文

posted @ 2020-06-04 10:02 大码王阅读(205) 评论(0) 推荐(0) 编辑

Cassandra入门到实战

摘要：我们到Apache Cassandra的官方网站下载最新版本的Cassandra，在这里写作时最新版本的Cassandra为3.11.4。ApacheCassandra可以在Linux，Unix，Mac OS以及Windows上进行安装，为了可以起见，此处以CentOS为例进行介绍。为什么会诞生阅读全文

posted @ 2020-06-04 09:58 大码王阅读(628) 评论(0) 推荐(0) 编辑

2020年6月3日

sparkcore入门到实战之（11）《Spark性能优化之shuffle调优篇》

摘要： shuffle调优调优概述大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此，如果要让作业的性能更上一层楼，就有必要对shuffle过程进行调优。但是也必须提醒大家的是，影响一个Spark作业性能的因素，主要还是代码开发阅读全文

posted @ 2020-06-03 17:58 大码王阅读(635) 评论(0) 推荐(0) 编辑

sparkcore入门到实战之（10）《Spark性能优化之数据倾斜调优篇》

摘要：前言继《Spark性能优化：开发调优篇》和《Spark性能优化：资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能阅读全文

posted @ 2020-06-03 17:46 大码王阅读(255) 评论(0) 推荐(0) 编辑

sparkcore入门到实战之（9）《Spark性能优化之资源调优篇》

摘要： Spark作业基本运行原理详细原理见上图。我们使用spark-submit提交一个Spark作业之后，这个作业就会启动一个对应的Driver进程。根据你使用的部署模式（deploy-mode）不同，Driver进程可能在本地启动，也可能在集群中某个工作节点上启动。Driver进程本身会根据我们设置阅读全文

posted @ 2020-06-03 17:44 大码王阅读(239) 评论(0) 推荐(0) 编辑

2020年6月2日

sparkcore入门到实战之（8）《Spark性能优化之开发调优篇》

摘要：开发调优 Spark性能优化的第一步，就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优，就是要让大家了解以下一些Spark基本开发原则，包括：RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中，时时刻刻都应该注意以上原则，并将这些原则根据具体的业务阅读全文

posted @ 2020-06-02 18:52 大码王阅读(300) 评论(0) 推荐(0) 编辑

2020年6月1日

scala入门到实战

摘要：一、Scala概述 1. Scala简介 Scala是一种针对JVM将函数和面向对象技术组合在一起的编程语言。所以Scala必须要有JVM才能运行，和Python一样，Scala也是可以面向对象和面向函数的。Scala编程语言近来抓住了很多开发者的眼球。它看起来像是一种纯粹的面向对象编程语言，而又无阅读全文

posted @ 2020-06-01 18:22 大码王阅读(261) 评论(0) 推荐(0) 编辑

phoenix从入门到精通

摘要：第一章、phoenix入门简介 1. Phoenix定义 Phoenix最早是saleforce的一个开源项目，后来成为Apache基金的顶级项目。 Phoenix是构建在HBase上的一个SQL层，能让我们用标准的JDBC APIs而不是HBase客户端APIs来创建表，插入数据和对HBase数据阅读全文

posted @ 2020-06-01 17:56 大码王阅读(794) 评论(0) 推荐(0) 编辑

Phoenix入门到实战（一）

摘要：问题导读1.你认为Apache Phoenix与HBase的关系是什么？2.Phoenix安装需要哪些软件？3.如何部署Phoenix？Introduction Apache Phoenix is a relational database layer over HBase delivered as 阅读全文

posted @ 2020-06-01 17:27 大码王阅读(693) 评论(0) 推荐(0) 编辑

公告