上一页 1 ··· 16 17 18 19 20 21 22 23 24 ··· 33 下一页

2018年9月3日

HBase-协处理器详解及实现

摘要: 协处理器(coprocessor) 把一部分计算移动到数据的存放端。 实例:HBase添加solr二级索引详细代码 简介 协处理器允许用户在region服务器上运行自己的代码,允许用户执行region级别的操作,并且可以使用与RDBMS中触发器(trigger)类似的功能。在客户端,用户不用关心操作 阅读全文

posted @ 2018-09-03 11:25 嘣嘣嚓 阅读(9296) 评论(0) 推荐(1) 编辑

2018年8月31日

HBase-过滤器(各种过滤器及代码实现)

摘要: 过滤器简介 HBase过滤器提供了非常强大的特性来帮助用户提高其处理表中数据的效率。 HBase中两种主要的数据读取函数是get和scan,它们都支持直接访问数据和通过指定起止行键访问数据的功能。可以再查询中添加更多的限制条件来减少查询得到的数据量,这些限制可以使指定列族、列、时间戳以及版本号。 所 阅读全文

posted @ 2018-08-31 10:05 嘣嘣嚓 阅读(2339) 评论(0) 推荐(1) 编辑

2018年8月28日

HBase-scan简介及优化(缓存与批量处理)

摘要: 扫描(scan) 这种技术类似于数据库系统中的游标(cursor),并利用到了HBase提供的底层顺序存储的数据结构。 扫描操作的使用跟get方法非常类似。由于扫描操作的工作方式类似于迭代器,所以用户无需调用scan方法创建实例,只需要调用HTable的getScanner方法,此方法在返回真正的扫 阅读全文

posted @ 2018-08-28 17:47 嘣嘣嚓 阅读(2199) 评论(1) 推荐(1) 编辑

2018年8月26日

MapReduce-多个输出(使用MultipleOutput,不指定reduce任务个数)

摘要: 多个输出 FileOutputFormat及其子类产生的文件放在输出目录下。每个reduce一个文件并且文件由分区号命名:part-r-00000,part-r-00001,等等。有时可能需要对输出的文件名进行控制或让每个reducer输出多个文件。MapReduce为此提供了MultipleOut 阅读全文

posted @ 2018-08-26 22:23 嘣嘣嚓 阅读(1083) 评论(0) 推荐(0) 编辑

2018年8月25日

MapReduce-多个Mapper

摘要: MapReduce的多输入、多mapper 虽然一个MapReduce作业的输入可能包含多个输入文件(由文件glob、过滤器和路径组成),但所有文件都由同一个InputFormat和同一个Mapper来解释。然而,数据格式往往会随时间而演变,所以必须写自己的mapper来处理应用中的遗留数据格式问题 阅读全文

posted @ 2018-08-25 16:52 嘣嘣嚓 阅读(816) 评论(0) 推荐(0) 编辑

2018年8月22日

MapReduce-二进制输入

摘要: Hadoop的MapReduce不只是可以处理文本信息,它还可以处理二进制格式的数据1. 关于SequenceFileInputFormat类Hadoop的顺序文件格式存储二进制的键/值对的序列。由于它们是可分割的(它们有同步点,所以reader可以从文件中的任意一点雨记录边界进行同步,例如分片的起 阅读全文

posted @ 2018-08-22 22:01 嘣嘣嚓 阅读(707) 评论(0) 推荐(0) 编辑

2018年8月19日

MapReduce-文本输入

摘要: 1.TextInputFormat TextInputFormat是默认的InputFormat。每条记录是一行输入。键是LongWritable类型,存储该行在整个文件中的字节偏移量。值是这行的内容,不包括任何行终止符(换行符和回车符),它被打包成一个Text对象。一般情况下,很难取得行号,因为文 阅读全文

posted @ 2018-08-19 23:06 嘣嘣嚓 阅读(273) 评论(0) 推荐(0) 编辑

MapReduce-输入分片与记录

摘要: 一个输入分片(split)就是一个由单个map操作来处理的输入块。每一个map操作只处理一个输入分片。每个分片被划分为若干个记录,每条记录就是一个键值对,map一个接一个地处理记录。输入分片和记录都是逻辑概念,不必将它们对应到文件,尽管其常见形式都是文件。在数据库的场景中,一个输入分片可以对应于一个 阅读全文

posted @ 2018-08-19 23:04 嘣嘣嚓 阅读(1049) 评论(0) 推荐(0) 编辑

2018年8月14日

Kafka+SparkStreaming+Zookeeper(ZK存储Offset,解决checkpoint问题)

摘要: 创建一个topic 查看topic列表 producer 代码如下 Streaming代码如下 出现的问题 使用simpleConsumer时报错 再次尝试即可. 阅读全文

posted @ 2018-08-14 16:42 嘣嘣嚓 阅读(714) 评论(0) 推荐(0) 编辑

2018年8月12日

HDFS-查看文件属性+文件名称过滤

摘要: package com.zhen.hdfs; import java.io.IOException; import java.io.OutputStream; import java.net.URI; import java.net.URISyntaxException; import org.apache.hadoop.conf.Configuration; import org.apac... 阅读全文

posted @ 2018-08-12 22:03 嘣嘣嚓 阅读(2807) 评论(0) 推荐(0) 编辑

上一页 1 ··· 16 17 18 19 20 21 22 23 24 ··· 33 下一页

导航