08 2018 档案

HBase-过滤器(各种过滤器及代码实现)
摘要:过滤器简介 HBase过滤器提供了非常强大的特性来帮助用户提高其处理表中数据的效率。 HBase中两种主要的数据读取函数是get和scan,它们都支持直接访问数据和通过指定起止行键访问数据的功能。可以再查询中添加更多的限制条件来减少查询得到的数据量,这些限制可以使指定列族、列、时间戳以及版本号。 所 阅读全文

posted @ 2018-08-31 10:05 嘣嘣嚓 阅读(2425) 评论(0) 推荐(1) 编辑

HBase-scan简介及优化(缓存与批量处理)
摘要:扫描(scan) 这种技术类似于数据库系统中的游标(cursor),并利用到了HBase提供的底层顺序存储的数据结构。 扫描操作的使用跟get方法非常类似。由于扫描操作的工作方式类似于迭代器,所以用户无需调用scan方法创建实例,只需要调用HTable的getScanner方法,此方法在返回真正的扫 阅读全文

posted @ 2018-08-28 17:47 嘣嘣嚓 阅读(2297) 评论(1) 推荐(1) 编辑

MapReduce-多个输出(使用MultipleOutput,不指定reduce任务个数)
摘要:多个输出 FileOutputFormat及其子类产生的文件放在输出目录下。每个reduce一个文件并且文件由分区号命名:part-r-00000,part-r-00001,等等。有时可能需要对输出的文件名进行控制或让每个reducer输出多个文件。MapReduce为此提供了MultipleOut 阅读全文

posted @ 2018-08-26 22:23 嘣嘣嚓 阅读(1139) 评论(0) 推荐(0) 编辑

MapReduce-多个Mapper
摘要:MapReduce的多输入、多mapper 虽然一个MapReduce作业的输入可能包含多个输入文件(由文件glob、过滤器和路径组成),但所有文件都由同一个InputFormat和同一个Mapper来解释。然而,数据格式往往会随时间而演变,所以必须写自己的mapper来处理应用中的遗留数据格式问题 阅读全文

posted @ 2018-08-25 16:52 嘣嘣嚓 阅读(824) 评论(0) 推荐(0) 编辑

MapReduce-二进制输入
摘要:Hadoop的MapReduce不只是可以处理文本信息,它还可以处理二进制格式的数据1. 关于SequenceFileInputFormat类Hadoop的顺序文件格式存储二进制的键/值对的序列。由于它们是可分割的(它们有同步点,所以reader可以从文件中的任意一点雨记录边界进行同步,例如分片的起 阅读全文

posted @ 2018-08-22 22:01 嘣嘣嚓 阅读(728) 评论(0) 推荐(0) 编辑

MapReduce-文本输入
摘要:1.TextInputFormat TextInputFormat是默认的InputFormat。每条记录是一行输入。键是LongWritable类型,存储该行在整个文件中的字节偏移量。值是这行的内容,不包括任何行终止符(换行符和回车符),它被打包成一个Text对象。一般情况下,很难取得行号,因为文 阅读全文

posted @ 2018-08-19 23:06 嘣嘣嚓 阅读(283) 评论(0) 推荐(0) 编辑

MapReduce-输入分片与记录
摘要:一个输入分片(split)就是一个由单个map操作来处理的输入块。每一个map操作只处理一个输入分片。每个分片被划分为若干个记录,每条记录就是一个键值对,map一个接一个地处理记录。输入分片和记录都是逻辑概念,不必将它们对应到文件,尽管其常见形式都是文件。在数据库的场景中,一个输入分片可以对应于一个 阅读全文

posted @ 2018-08-19 23:04 嘣嘣嚓 阅读(1072) 评论(0) 推荐(0) 编辑

Kafka+SparkStreaming+Zookeeper(ZK存储Offset,解决checkpoint问题)
摘要:创建一个topic 查看topic列表 producer 代码如下 Streaming代码如下 出现的问题 使用simpleConsumer时报错 再次尝试即可. 阅读全文

posted @ 2018-08-14 16:42 嘣嘣嚓 阅读(726) 评论(0) 推荐(0) 编辑

HDFS-查看文件属性+文件名称过滤
摘要:package com.zhen.hdfs; import java.io.IOException; import java.io.OutputStream; import java.net.URI; import java.net.URISyntaxException; import org.apache.hadoop.conf.Configuration; import org.apac... 阅读全文

posted @ 2018-08-12 22:03 嘣嘣嚓 阅读(2837) 评论(0) 推荐(0) 编辑

HDFS-文件写入API
摘要:package com.zhen.hdfs; import java.io.BufferedInputStream; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream; import java.net.URI; i... 阅读全文

posted @ 2018-08-12 22:02 嘣嘣嚓 阅读(874) 评论(0) 推荐(0) 编辑

HDFS-文件读取API
摘要:package com.zhen.hdfs; import java.io.IOException; import java.io.InputStream; import java.net.URI; import java.net.URISyntaxException; import org.apache.hadoop.conf.Configuration; import org.apach... 阅读全文

posted @ 2018-08-12 22:01 嘣嘣嚓 阅读(324) 评论(0) 推荐(0) 编辑

MapReduce-shuffle过程详解
摘要:Shuffle map端 map函数开始产生输出时,并不是简单地将它写到磁盘。这个过程很复杂,它利用缓冲的方式写到内存并出于效率的考虑进行预排序。每个map任务都有一个环形内存缓冲区用于存储任务输出。在默认情况下,缓冲区的大小为100MB,辞职可以通过io.sort.mb属性来调整。一旦缓冲内容达到 阅读全文

posted @ 2018-08-08 22:12 嘣嘣嚓 阅读(386) 评论(0) 推荐(0) 编辑

YARN中的失败分析
摘要:YARN中的失败分析 对于在YARN中运行的MapReduce程序,需要考虑以下几种实体的失败任务、application master、节点管理器、资源管理器 1. 任务运行失败 任务运行失败类似于MapReduce1的情况。JVM的运行时异常和突然退出被反馈给application master 阅读全文

posted @ 2018-08-07 21:56 嘣嘣嚓 阅读(1668) 评论(0) 推荐(0) 编辑

经典的MapReduce1中的失败
摘要:经典的MapReduce1中的失败在MapReduce1运行时,主要考虑三种失败的模式,运行任务失败、tasktracker失败以及jobtracker失败1. 任务运行失败首先考虑子任务失败的情况。最常见的情况是map任务或reduce任务中的用户代码抛出运行异常。如果发生这种情况,子任务JVM进 阅读全文

posted @ 2018-08-06 21:23 嘣嘣嚓 阅读(439) 评论(0) 推荐(0) 编辑

HBase协处理器的使用(添加Solr二级索引)
摘要:给HBase添加一二级索引,HBase协处理器结合solr 代码如下 Solr代码处理如下 协处理器使用步骤如下 1.代码打jar包,并上传至HDFS 2.创建HBase表并添加协处理器,如下 3.测试 此时,可通过HBase日志查看协处理器的处理情况。 没错误的情况下,Solr中应该已经也有数据了 阅读全文

posted @ 2018-08-06 16:49 嘣嘣嚓 阅读(954) 评论(0) 推荐(0) 编辑

Flume具体应用(多案例)
摘要:日志采集 对于flume的原理其实很容易理解,我们更应该掌握flume的具体使用方法,flume提供了大量内置的Source、Channel和Sink类型。而且不同类型的Source、Channel和Sink可以自由组合—–组合方式基于用户设置的配置文件,非常灵活。比如:Channel可以把事件暂存 阅读全文

posted @ 2018-08-06 15:06 嘣嘣嚓 阅读(541) 评论(0) 推荐(0) 编辑

Flume架构及运行机制
摘要:flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心 阅读全文

posted @ 2018-08-06 14:42 嘣嘣嚓 阅读(727) 评论(0) 推荐(0) 编辑

YARN作业提交流程剖析
摘要:YARN(MapReduce2) Yet Another Resource Negotiator / YARN Application Resource Negotiator对于节点数超出4000的大型集群,MapReduce1系统开始面临着扩展性瓶颈。所以有了YARN的出现。YARN将jobtra 阅读全文

posted @ 2018-08-05 22:47 嘣嘣嚓 阅读(875) 评论(0) 推荐(0) 编辑

经典的MapReduce1解析
摘要:MapReduce1任务图解 最顶层包含4个独立的实体客户端,提交MapReduce作业jobtracker,协调作业的运行。Jobtracker是一个Java应用程序,它的主类是JobTrackertasktracker,运行作业划分后的任务。tasktracker是Java应用程序,它的主类是T 阅读全文

posted @ 2018-08-04 23:17 嘣嘣嚓 阅读(256) 评论(0) 推荐(0) 编辑

Hadoop-序列化
摘要:序列化 序列化(serialization)是指将结构化对象转化为字节流以便在网络上传输或写到磁盘进行永久存储的过程。反序列化(deserialization)是指将字节流转回结构化对象的逆过程。序列化在分布式数据处理的两大领域经常出现:进程间通信和永久存储在Hadoop中,系统中多个节点上进程间的 阅读全文

posted @ 2018-08-02 22:28 嘣嘣嚓 阅读(193) 评论(0) 推荐(0) 编辑

HDFS数据完整性
摘要:数据完整性 Hadoop用户肯定都希望系统在存储和处理数据时不会丢失或损坏任何数据。尽管磁盘或网络上的每个I/O操作不太可能将错误引入自己正在读/写的数据中,但是如果系统中需要处理的数据量大到Hadoop的处理极限时,数据被损坏的概率还是很高的。检测数据是否损坏的常见措施是,在数据第一次引入系统时计 阅读全文

posted @ 2018-08-01 22:55 嘣嘣嚓 阅读(617) 评论(0) 推荐(0) 编辑

导航

< 2025年2月 >
26 27 28 29 30 31 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 1
2 3 4 5 6 7 8
点击右上角即可分享
微信分享提示