04 2018 档案

摘要:一、启动脚本分析 独立部署模式下,主要由master和slaves组成,master可以利用zk实现高可用性,其driver,work,app等信息可以持久化到zk上;slaves由一台至多台主机构成。Driver通过向Master申请资源获取运行环境。 启动master和slaves主要是执行/u 阅读全文
posted @ 2018-04-30 17:28 扎心了,老铁 阅读(5785) 评论(1) 推荐(2) 编辑
摘要:一、概述 垃圾收集 Garbage Collection 通常被称为“GC”,它诞生于1960年 MIT 的 Lisp 语言,经过半个多世纪,目前已经十分成熟了。 jvm 中,程序计数器、虚拟机栈、本地方法栈都是随线程而生随线程而灭,栈帧随着方法的进入和退出做入栈和出栈操作,实现了自动的内存清理,因 阅读全文
posted @ 2018-04-30 16:07 扎心了,老铁 阅读(6218) 评论(0) 推荐(0) 编辑
摘要:一、JVM的结构图 1.1 Java内存结构 JVM内存结构主要有三大块:堆内存、方法区和栈。 堆内存是JVM中最大的一块由年轻代和老年代组成,而年轻代内存又被分成三部分,Eden空间、From Survivor空间、To Survivor空间,默认情况下年轻代按照8:1:1的比例来分配; 方法区存 阅读全文
posted @ 2018-04-30 15:29 扎心了,老铁 阅读(6154) 评论(3) 推荐(4) 编辑
摘要:摘抄自:https://tech.meituan.com/spark-tuning-basic.html 一、概述 在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参 阅读全文
posted @ 2018-04-30 15:11 扎心了,老铁 阅读(6708) 评论(1) 推荐(6) 编辑
摘要:摘抄自:https://mp.weixin.qq.com/s?__biz=MzI2MjM2MDEzNQ==&mid=2247489072&idx=1&sn=2ac46ef358be4eef43f3de8670086746&chksm=ea4d0b18dd3a820ef82122648806c8516 阅读全文
posted @ 2018-04-27 09:07 扎心了,老铁 阅读(3834) 评论(0) 推荐(1) 编辑
摘要:摘抄自:https://www.ibm.com/developerworks/cn/analytics/library/ba-cn-apache-spark-memory-management/index.html 一、概述 Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮 阅读全文
posted @ 2018-04-26 21:33 扎心了,老铁 阅读(17385) 评论(1) 推荐(10) 编辑
摘要:摘抄自https://tech.meituan.com/spark-tuning-pro.html 一、概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行 阅读全文
posted @ 2018-04-26 19:23 扎心了,老铁 阅读(9758) 评论(0) 推荐(4) 编辑
摘要:摘抄自:https://tech.meituan.com/spark-tuning-pro.html 数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证 阅读全文
posted @ 2018-04-25 19:16 扎心了,老铁 阅读(10266) 评论(0) 推荐(9) 编辑
摘要:摘抄自:https://tech.meituan.com/spark-tuning-basic.html 前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计 阅读全文
posted @ 2018-04-25 19:07 扎心了,老铁 阅读(12528) 评论(1) 推荐(10) 编辑
摘要:一、Spark中的基本概念 (1)Application:表示你的应用程序 (2)Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等。程序执行完毕后关闭SparkContext (3) 阅读全文
posted @ 2018-04-25 18:53 扎心了,老铁 阅读(26713) 评论(5) 推荐(14) 编辑
摘要:Transformation算子 基本的初始化 java scala 一、map、flatMap、mapParations、mapPartitionsWithIndex 1.1 map (1) 使用Java7进行编写 map十分容易理解,他是将源JavaRDD的一个一个元素的传入call方法,并经过 阅读全文
posted @ 2018-04-25 15:00 扎心了,老铁 阅读(21178) 评论(8) 推荐(10) 编辑
摘要:一、JDK的安装 JDK使用root用户安装 1.1 上传安装包并解压 1.2 配置环境变量 1.3 验证Java版本 二、配置配置ssh localhost 使用hadoop用户安装 2.1 检测 正常情况下,本机通过ssh连接自己也是需要输入密码的 2.2 生成私钥和公钥秘钥对 2.3 将公钥添 阅读全文
posted @ 2018-04-22 12:10 扎心了,老铁 阅读(21747) 评论(2) 推荐(4) 编辑
摘要:一、概述 在spark程序中,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上,并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效的,但是,Spa 阅读全文
posted @ 2018-04-21 16:59 扎心了,老铁 阅读(28461) 评论(4) 推荐(9) 编辑
摘要:一、RDD的概述 1.1 什么是RDD? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执 阅读全文
posted @ 2018-04-21 11:28 扎心了,老铁 阅读(159640) 评论(12) 推荐(33) 编辑
摘要:一、下载Spark安装包 1、从官网下载 http://spark.apache.org/downloads.html 2、从微软的镜像站下载 http://mirrors.hust.edu.cn/apache/ 3、从清华的镜像站下载 https://mirrors.tuna.tsinghua.e 阅读全文
posted @ 2018-04-20 20:40 扎心了,老铁 阅读(55160) 评论(5) 推荐(6) 编辑
摘要:一、官网介绍 1、什么是Spark 官网地址:http://spark.apache.org/ Apache Spark™是用于大规模数据处理的统一分析引擎。 从右侧最后一条新闻看,Spark也用于AI人工智能 spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的 阅读全文
posted @ 2018-04-19 21:24 扎心了,老铁 阅读(202808) 评论(4) 推荐(22) 编辑
摘要:一、Scala中的并发编程 1、Java中的并发编程 ①Java中的并发编程基本上满足了事件之间相互独立,但是事件能够同时发生的场景的需要。 ②Java中的并发编程是基于共享数据和加锁的一种机制,即会有一个共享的数据,然后有若干个线程去访问这个共享的数据(主要是对这个共享的数据进行修改),同时Jav 阅读全文
posted @ 2018-04-19 20:51 扎心了,老铁 阅读(7992) 评论(0) 推荐(2) 编辑
摘要:一、泛型 1、泛型的介绍 泛型用于指定方法或类可以接受任意类型参数,参数在实际使用时才被确定,泛型可以有效地增强程序的适用性,使用泛型可以使得类或方法具有更强的通用性。泛型的典型应用场景是集合及集合中的方法参数,可以说同java一样,scala中泛型无处不在,具体可以查看scala的api。 2、泛 阅读全文
posted @ 2018-04-18 21:08 扎心了,老铁 阅读(3308) 评论(0) 推荐(1) 编辑
摘要:一、概念 Scala 2.10引入了一种叫做隐式类的新特性。隐式类指的是用implicit关键字修饰的类。在对应的作用域内,带有这个关键字的类的主构造函数可用于隐式转换。 隐式转换和隐式参数是Scala中两个非常强大的功能,利用隐式转换和隐式参数,你可以提供优雅的类库,对类库的使用者隐匿掉那些枯燥乏 阅读全文
posted @ 2018-04-18 21:03 扎心了,老铁 阅读(2900) 评论(1) 推荐(2) 编辑
摘要:一、概念 柯里化(currying, 以逻辑学家Haskell Brooks Curry的名字命名)指的是将原来接受两个参数的函数变成新的接受一个参数的函数的过程。新的函数返回一个以原有第二个参数作为参数的函数。 在Scala中方法和函数有细微的差别,通常编译器会自动完成方法到函数的转换。 二、Sc 阅读全文
posted @ 2018-04-18 20:59 扎心了,老铁 阅读(3095) 评论(0) 推荐(1) 编辑
摘要:一、类 1、类的定义 scala语言中没有static成员存在,但是scala允许以某种方式去使用static成员这个就是伴生机制,所谓伴生,就是在语言层面上,把static成员和非static成员用不同的表达方式,class和object,但双方具有相同的package和name,但是最终编译器会 阅读全文
posted @ 2018-04-18 20:56 扎心了,老铁 阅读(7813) 评论(0) 推荐(2) 编辑
摘要:Scala中使用关键字lazy来定义惰性变量,实现延迟加载(懒加载)。 惰性变量只能是不可变变量,并且只有在调用惰性变量时,才会去实例化这个变量。 在Java中,要实现延迟加载(懒加载),需要自己手动实现。一般的做法是这样的: 在Scala中对延迟加载这一特性提供了语法级别的支持: 使用lazy关键 阅读全文
posted @ 2018-04-17 20:18 扎心了,老铁 阅读(10837) 评论(0) 推荐(0) 编辑
摘要:一、数组 1、定长数组和变长数组 运行结果 2、遍历数组 (1)增强for循环 (2)好用的until会生成脚标,0 until 10 包含0不包含10 3、数组转换 yield关键字将原始的数组进行转换会产生一个新的数组,原始的数组不变 4、常用数组的算法 在Scala中,数组上的某些方法对数组进 阅读全文
posted @ 2018-04-17 20:18 扎心了,老铁 阅读(6044) 评论(2) 推荐(4) 编辑
摘要:一、Scala概述 scala是一门多范式编程语言,集成了面向对象编程和函数式编程等多种特性。scala运行在虚拟机上,并兼容现有的Java程序。Scala源代码被编译成java字节码,所以运行在JVM上,并可以调用现有的Java类库。 二、第一个Scala程序 Scala语句末尾的分号可写可不写 阅读全文
posted @ 2018-04-16 20:07 扎心了,老铁 阅读(9132) 评论(5) 推荐(1) 编辑
摘要:目前Scala的开发工具主要有两种:Eclipse和IDEA,这两个开发工具都有相应的Scala插件,如果使用Eclipse,直接到Scala官网下载即可http://scala-ide.org/download/sdk.html。 由于IDEA的Scala插件更优秀,大多数Scala程序员都选择I 阅读全文
posted @ 2018-04-16 13:02 扎心了,老铁 阅读(7616) 评论(1) 推荐(1) 编辑
摘要:1、Scala下载 版本选择,看spark官网 http://spark.apache.org/docs/latest/ spark2.3.0版本是用2.11版本的Scala进行开发的,所以此处下载Scala2.11的版本 Scala下载地址http://www.scala-lang.org/dow 阅读全文
posted @ 2018-04-16 10:45 扎心了,老铁 阅读(3914) 评论(0) 推荐(1) 编辑
摘要:界面介绍 首页有四个菜单 projects:最重要的部分,创建一个工程,所有flows将在工程中运行。 scheduling:显示定时任务 executing:显示当前运行的任务 history:显示历史运行任务 介绍projects部分 概念介绍 创建工程:创建之前我们先了解下之间的关系,一个工程 阅读全文
posted @ 2018-04-15 15:58 扎心了,老铁 阅读(29222) 评论(3) 推荐(8) 编辑
摘要:安装过程 1、软件介绍 Azkaban Web 服务器:azkaban-web-server-2.5.0.tar.gz Azkaban Excutor 执行服务器:azkaban-executor-server-2.5.0.tar.gz Azkaban 初始化脚本文件:azkaban-sql-scr 阅读全文
posted @ 2018-04-15 15:53 扎心了,老铁 阅读(7574) 评论(0) 推荐(1) 编辑
摘要:一、为什么需要工作流调度器 1、一个完整的数据分析系统通常都是由大量任务单元组成: shell 脚本程序,java 程序,mapreduce 程序、hive 脚本等 2、各任务单元之间存在时间先后及前后依赖关系 3、为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行 例如,我们可能 阅读全文
posted @ 2018-04-15 15:51 扎心了,老铁 阅读(11008) 评论(2) 推荐(3) 编辑
摘要:一、概述 sqoop 是 apache 旗下一款“Hadoop 和关系数据库服务器之间传送数据”的工具。 核心的功能有两个: 导入、迁入 导出、迁出 导入数据:MySQL,Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统 导出数据:从 Hadoop 的文件系 阅读全文
posted @ 2018-04-15 15:48 扎心了,老铁 阅读(82685) 评论(8) 推荐(17) 编辑
摘要:一、Hadoop 框架计算特性 1、数据量大不是问题,数据倾斜是个问题 2、jobs 数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次 汇总,产生十几个 jobs,耗时很长。原因是 map reduce 作业初始化的时间是比较长的 3、sum,count,max,min 等 阅读全文
posted @ 2018-04-15 15:46 扎心了,老铁 阅读(19860) 评论(3) 推荐(12) 编辑
摘要:一、Hive 执行过程概述 1、概述 (1) Hive 将 HQL 转换成一组操作符(Operator),比如 GroupByOperator, JoinOperator 等 (2)操作符 Operator 是 Hive 的最小处理单元 (3)每个操作符代表一个 HDFS 操作或者 MapReduc 阅读全文
posted @ 2018-04-15 15:44 扎心了,老铁 阅读(11548) 评论(2) 推荐(5) 编辑
摘要:1、什么是数据倾斜? 由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点 2、Hadoop 框架的特性 A、不怕数据大,怕数据倾斜 B、Jobs 数比较多的作业运行效率相对比较低,如子查询比较多 C、 sum,count,max,min 等聚集函数,通常不会有数据倾斜问题 3、主要表现 任务 阅读全文
posted @ 2018-04-15 15:41 扎心了,老铁 阅读(33398) 评论(2) 推荐(4) 编辑
摘要:一、Hive的命令行 1、Hive支持的一些命令 Command Description quit Use quit or exit to leave the interactive shell. set key=value Use this to set value of particular c 阅读全文
posted @ 2018-04-15 15:40 扎心了,老铁 阅读(15198) 评论(0) 推荐(0) 编辑
摘要:概述 GROUPING SETS,GROUPING__ID,CUBE,ROLLUP 这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时、天、月的UV数。 数据准备 数据格式 创建表 玩一玩GROUPING SETS和GROUPING__ID 说明 在一 阅读全文
posted @ 2018-04-15 15:37 扎心了,老铁 阅读(15285) 评论(1) 推荐(4) 编辑
摘要:数据准备 数据格式 cookie4.txt 创建表 玩一玩LAG 说明 LAG(col,n,DEFAULT) 用于统计窗口内往上第n行值 第一个参数为列名,第二个参数为往上第n行(可选,默认为1),第三个参数为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL) 查询语句 查询结果 阅读全文
posted @ 2018-04-15 15:33 扎心了,老铁 阅读(34028) 评论(1) 推荐(5) 编辑
摘要:这两个序列分析函数不是很常用,这里也练习一下。 数据准备 数据格式 cookie3.txt 创建表 玩一玩CUME_DIST 说明 –CUME_DIST :小于等于当前值的行数/分组内总行数 查询语句 比如,统计小于等于当前薪水的人数,所占总人数的比例 查询结果 结果说明 玩一玩PERCENT_RA 阅读全文
posted @ 2018-04-11 20:13 扎心了,老铁 阅读(10850) 评论(0) 推荐(0) 编辑
摘要:概述 本文中介绍前几个序列函数,NTILE,ROW_NUMBER,RANK,DENSE_RANK,下面会一一解释各自的用途。 注意: 序列函数不支持WINDOW子句。(ROWS BETWEEN) 数据准备 数据格式 创建表 玩一玩NTILE 说明 NTILE(n),用于将分组数据按照顺序切分成n片, 阅读全文
posted @ 2018-04-11 19:43 扎心了,老铁 阅读(11431) 评论(0) 推荐(1) 编辑
摘要:数据准备 数据格式 创建数据库及表 玩一玩SUM 查询语句 查询结果 说明 如果不指定ROWS BETWEEN,默认为从起点到当前行;如果不指定ORDER BY,则将分组内所有值累加;关键是理解ROWS BETWEEN含义,也叫做WINDOW子句:PRECEDING:往前FOLLOWING:往后CU 阅读全文
posted @ 2018-04-10 21:43 扎心了,老铁 阅读(26046) 评论(1) 推荐(1) 编辑
摘要:案例说明 现有如此三份数据:1、users.dat 数据格式为: 2::M::56::16::70072, 共有6040条数据对应字段为:UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String对应字段中文解释: 阅读全文
posted @ 2018-04-10 21:41 扎心了,老铁 阅读(23251) 评论(10) 推荐(6) 编辑
摘要:一、求单月访问次数和总访问次数 1、数据说明 数据字段说明 数据格式 2、数据准备 (1)创建表 (2)导入数据 (3)验证数据 3、结果需求 现要求出:每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数,结果数据格式如下 4、需求分析 此结果需要根据用户+月份进行分组 (1)先求出当 阅读全文
posted @ 2018-04-10 21:40 扎心了,老铁 阅读(49551) 评论(18) 推荐(11) 编辑
摘要:一、负责数据类型 1、array 现有数据如下: 1 huangbo guangzhou,xianggang,shenzhen a1:30,a2:20,a3:100 beijing,112233,13522334455,5002 xuzheng xianggang b2:50,b3:40 tianj 阅读全文
posted @ 2018-04-10 21:35 扎心了,老铁 阅读(23523) 评论(4) 推荐(9) 编辑
摘要:数学函数 Return Type Return Type Name (Signature) Name (Signature) Description Description DOUBLE round(DOUBLE a) Returns the rounded BIGINT value of a. 返 阅读全文
posted @ 2018-04-08 17:09 扎心了,老铁 阅读(25116) 评论(1) 推荐(5) 编辑
摘要:Hive注释中文乱码 创建表的时候,comment说明字段包含中文,表成功创建成功之后,中文说明显示乱码 这是因为在MySQL中的元数据出现乱码 针对元数据库metastore中的表,分区,视图的编码设置 因为我们知道 metastore 支持数据库级别,表级别的字符集是 latin1 那么我们只需 阅读全文
posted @ 2018-04-07 17:25 扎心了,老铁 阅读(37724) 评论(1) 推荐(7) 编辑
摘要:库操作 1、创建库 语法结构 CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] //关于数据块的描述 [LOCATION hdfs_path] //指定数据库在HDFS上的存储位置 [W 阅读全文
posted @ 2018-04-07 17:24 扎心了,老铁 阅读(30058) 评论(8) 推荐(11) 编辑
摘要:一、数据类型 1、基本数据类型 Hive 支持关系型数据中大多数基本数据类型 和其他的SQL语言一样,这些都是保留字。需要注意的是所有的这些数据类型都是对Java中接口的实现,因此这些类型的具体行为细节和Java中对应的类型是完全一致的。例如,string类型实现的是Java中的String,flo 阅读全文
posted @ 2018-04-07 17:22 扎心了,老铁 阅读(27117) 评论(2) 推荐(5) 编辑
摘要:一、安装DbVisualizer 下载地址http://www.dbvis.com/ 也可以从网上下载破解版程序,此处使用的版本是DbVisualizer 9.1.1 具体的安装步骤可以百度,或是修改安装目录之后默认安装就可以 二、配置DbVisualizer里的hive jdbc 1、在DbVis 阅读全文
posted @ 2018-04-05 14:44 扎心了,老铁 阅读(25253) 评论(6) 推荐(0) 编辑
摘要:一、CLI连接 进入到 bin 目录下,直接输入命令: [hadoop@hadoop3 ~]$ hiveSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/home/hadoop/ 阅读全文
posted @ 2018-04-04 13:01 扎心了,老铁 阅读(87279) 评论(5) 推荐(1) 编辑
摘要:概述 Hive 的元数据信息通常存储在关系型数据库中,常用MySQL数据库作为元数据库管理。上一篇hive的安装也是将元数据信息存放在MySQL数据库中。 Hive的元数据信息在MySQL数据中有57张表 一、存储Hive版本的元数据表(VERSION) VERSION -- 查询版本信息 该表比较 阅读全文
posted @ 2018-04-03 19:58 扎心了,老铁 阅读(55891) 评论(2) 推荐(8) 编辑
摘要:Hive的下载 下载地址http://mirrors.hust.edu.cn/apache/ 选择合适的Hive版本进行下载,进到stable-2文件夹可以看到稳定的2.x的版本是2.3.3 Hive的安装 1、本人使用MySQL做为Hive的元数据库,所以先安装MySQL。 MySql安装过程ht 阅读全文
posted @ 2018-04-03 19:50 扎心了,老铁 阅读(49491) 评论(8) 推荐(13) 编辑
摘要:Hive 简介 什么是Hive 1、Hive 由 Facebook 实现并开源 2、是基于 Hadoop 的一个数据仓库工具 3、可以将结构化的数据映射为一张数据库表 4、并提供 HQL(Hive SQL)查询功能 5、底层数据是存储在 HDFS 上 6、Hive的本质是将 SQL 语句转换为 Ma 阅读全文
posted @ 2018-04-03 19:49 扎心了,老铁 阅读(195038) 评论(12) 推荐(46) 编辑
摘要:协处理器—Coprocessor 1、 起源 Hbase 作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执 行求和、计数、排序等操作。比如,在旧版本的(<0.92)Hbase 中,统计数据表的总行数,需 要使用 Counter 方法,执行一次 MapReduce Job 才能 阅读全文
posted @ 2018-04-03 13:58 扎心了,老铁 阅读(6585) 评论(1) 推荐(4) 编辑
摘要:建表高级属性 下面几个 shell 命令在 hbase 操作中可以起到很大的作用,且主要体现在建表的过程中,看 下面几个 create 属性 1、 BLOOMFILTER 默认是 NONE 是否使用布隆过虑及使用何种方式,布隆过滤可以每列族单独启用 使用 HColumnDescriptor.setB 阅读全文
posted @ 2018-04-03 13:03 扎心了,老铁 阅读(11624) 评论(1) 推荐(4) 编辑
摘要:HBase phoenix的下载 下载地址http://mirror.bit.edu.cn/apache/phoenix/ 选择对应的hbase版本进行下载,测试使用的是hbase-1.2.6版本 阅读全文
posted @ 2018-04-03 12:56 扎心了,老铁 阅读(5523) 评论(0) 推荐(1) 编辑
摘要:主要是记录一下链接 http://hbasefly.com 阅读全文
posted @ 2018-04-02 20:55 扎心了,老铁 阅读(5643) 评论(0) 推荐(1) 编辑
摘要:系统架构 错误图解 这张图是有一个错误点:应该是每一个 RegionServer 就只有一个 HLog,而不是一个 Region 有一个 HLog。 正确图解 从HBase的架构图上可以看出,HBase中的组件包括Client、Zookeeper、HMaster、HRegionServer、HReg 阅读全文
posted @ 2018-04-02 20:14 扎心了,老铁 阅读(12773) 评论(0) 推荐(10) 编辑
摘要:过滤器(Filter) 基础API中的查询操作在面对大量数据的时候是非常苍白的,这里Hbase提供了高级的查询方法:Filter。Filter可以根据簇、列、版本等更多的条件来对数据进行过滤,基于Hbase本身提供的三维有序(主键有序、列有序、版本有序),这些Filter可以高效的完成查询过滤的任务 阅读全文
posted @ 2018-04-02 18:42 扎心了,老铁 阅读(15250) 评论(0) 推荐(3) 编辑
摘要:MapReduce从HDFS读取数据存储到HBase中 现有HDFS中有一个student.txt文件,格式如下 将HDFS上的这个文件里面的数据写入到HBase数据块中 MapReduce实现代码如下 MapReduce从HBase读取数据计算平均年龄并存储到HDFS中 阅读全文
posted @ 2018-04-02 12:28 扎心了,老铁 阅读(18009) 评论(3) 推荐(1) 编辑

点击右上角即可分享
微信分享提示