2016 年 1月随笔档案 - 五三中

HBase二级索引与Join

摘要：转自：http://www.oschina.net/question/12_32573 二级索引与索引Join是Online业务系统要求存储引擎提供的基本特性。RDBMS支持得比较好，NOSQL阵营也在摸索着符合自身特点的最佳解决方案。这篇文章会以HBase做为对象来探讨如何基于Hbase构建二级索阅读全文

posted @ 2016-01-29 16:18 五三中阅读(663) 评论(0) 推荐(0) 编辑

Hbase 学习（九）华为二级索引（原理）

摘要：转自：http://my.oschina.net/u/923508/blog/413129 这个是华为的二级索引方案，已经开放源代码了,下面是网上的一篇讲解原理的帖子，发出来和大家共享一下。经过本人认真阅读了一下代码，发现这个源码仅供参考，想要集成到原有的集群当中是有点儿难度的，它对hbase的源阅读全文

posted @ 2016-01-29 15:11 五三中阅读(4552) 评论(0) 推荐(0) 编辑

hbase 学习（十六）系统架构图

摘要：转自：http://www.cnblogs.com/cenyuhai/p/3708135.html HBase 系统架构图组成部件说明 Client：使用HBase RPC机制与HMaster和HRegionServer进行通信 Client与HMaster进行通信进行管理类操作 Client与阅读全文

posted @ 2016-01-28 22:29 五三中阅读(1124) 评论(0) 推荐(0) 编辑

大数据入门：各种大数据技术介绍

摘要：转自：http://www.aboutyun.com/thread-7569-1-1.html 大数据我们都知道hadoop，可是还会各种各样的技术进入我们的视野：Spark，Storm，impala，让我们都反映不过来。为了能够更好的架构大数据项目，这里整理一下，供技术人员，项目经理，架构师选择合阅读全文

posted @ 2016-01-27 21:43 五三中阅读(31957) 评论(1) 推荐(7) 编辑

How MapReduce Works

摘要：转自：http://blog.csdn.net/luyee2010/article/details/8624470 一、从Map到Reduce MapReduce其实是分治算法的一种实现，其处理过程亦和用管道命令来处理十分相似，一些简单的文本字符的处理甚至也可以使用Unix的管道命令来替代，从处理流阅读全文

posted @ 2016-01-27 20:32 五三中阅读(270) 评论(0) 推荐(0) 编辑

HBase -ROOT-和.META.表结构(region定位原理)

摘要：转自：http://blog.csdn.net/chlaws/article/details/16918913在HBase中，大部分的操作都是在RegionServer完成的，Client端想要插入，删除，查询数据都需要先找到相应的RegionServer。什么叫相应的RegionServer？就是... 阅读全文

posted @ 2016-01-25 22:47 五三中阅读(501) 评论(0) 推荐(0) 编辑

hive大数据倾斜总结

摘要：转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842860.html在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化... 阅读全文

posted @ 2016-01-25 17:04 五三中阅读(719) 评论(0) 推荐(0) 编辑

mapreduce编程（一）－二次排序

摘要：转自：http://blog.csdn.net/heyutao007/article/details/5890103mr自带的例子中的源码SecondarySort，我重新写了一下，基本没变。这个例子中定义的map和reduce如下，关键是它对输入输出类型的定义：（java泛型编程）public s... 阅读全文

posted @ 2016-01-25 16:47 五三中阅读(443) 评论(0) 推荐(0) 编辑

大数据学习文章

摘要：ZooKeeper: ZooKeeper浅析：http://www.cnblogs.com/sharpxiajun/archive/2013/06/02/3113923.html ZooKeeper原理及使用：http://www.wuzesheng.com/?p=2609#more-2609 Zo 阅读全文

posted @ 2016-01-24 11:32 五三中阅读(417) 评论(0) 推荐(0) 编辑

快速理解Docker - 容器级虚拟化解决方案

posted @ 2016-01-22 14:30 五三中阅读(505) 评论(0) 推荐(0) 编辑

Spark和Hadoop作业之间的区别

摘要：转自：http://www.iteblog.com/archives/1183Spark目前被越来越多的企业使用，和Hadoop一样，Spark也是以作业的形式向集群提交任务，那么在内部实现Spark和Hadoop作业模型都一样吗？答案是不对的。熟悉Hadoop的人应该都知道，用户先编写好一个程... 阅读全文

posted @ 2016-01-21 12:55 五三中阅读(1398) 评论(0) 推荐(0) 编辑

通过16道练习学习Linq和Lambda

摘要：转自：http://www.cnblogs.com/RuiLei/archive/2008/11/09/1329905.html最近学习spark，scala，感觉lambda，委托，匿名方法等对于scala的学习很有帮助，很多东西都感觉能融合，但好久没写lambda表达式了，生疏。1、查询Stud... 阅读全文

posted @ 2016-01-20 01:16 五三中阅读(258) 评论(0) 推荐(0) 编辑

论SparkStreaming的数据可靠性和一致性

摘要：转自： http://www.csdn.net/article/2015-06-21/2825011 摘要：眼下大数据领域最热门的词汇之一便是流计算了，而其中最耀眼的无疑是来自Spark社区的SparkStreaming项目。对于流计算而言，最核心的特点毫无疑问就是它对低时的需求，但这也带来了相关阅读全文

posted @ 2016-01-19 15:01 五三中阅读(1732) 评论(0) 推荐(0) 编辑

Spark 快速理解

摘要：转自：http://blog.csdn.net/colorant/article/details/8255958==是什么==目标Scope（解决什么问题）在大规模的特定数据集上的迭代运算或重复查询检索官方定义aMapReduce-like cluster computing framework d... 阅读全文

posted @ 2016-01-19 00:40 五三中阅读(772) 评论(0) 推荐(0) 编辑

AOP——引言

摘要：转自：http://wayfarer.cnblogs.com/articles/241012.html1、引言2、AOP技术基础3、Java平台AOP技术研究4、.Net平台AOP技术研究软件设计因为引入面向对象思想而逐渐变得丰富起来。“一切皆为对象”的精义，使得程序世界所要处理的逻辑简化，开发者可... 阅读全文

posted @ 2016-01-18 16:21 五三中阅读(203) 评论(0) 推荐(0) 编辑

科普Spark，Spark核心是什么，如何使用Spark（1）

摘要：科普Spark，Spark是什么，如何使用Spark（1）转自：http://www.aboutyun.com/thread-6849-1-1.html阅读本文章可以带着下面问题：1.Spark基于什么算法的分布式计算（很简单）2.Spark与MapReduce不同在什么地方3.Spark为什么比H... 阅读全文

posted @ 2016-01-18 11:48 五三中阅读(2174) 评论(0) 推荐(0) 编辑

从Storm和Spark 学习流式实时分布式计算的设计

摘要：转自：http://www.dataguru.cn/thread-341168-1-1.html 流式实时分布式计算系统在互联网公司占有举足轻重的地位，尤其在在线和近线的海量数据处理上。而处理这些海量数据的，就是实时流式计算系统。Spark是实时计算的系统，支持流式计算，批处理和实时查询。除了... 阅读全文

posted @ 2016-01-16 22:53 五三中阅读(3541) 评论(0) 推荐(0) 编辑

Twitter Storm如何保证消息不丢失

摘要：转自：http://xumingming.sinaapp.com/127/twitter-storm如何保证消息不丢失/ storm保证从spout发出的每个tuple都会被完全处理。这篇文章介绍storm是怎么做到这个保证的，以及我们使用者怎么做才能充分利用storm的可靠性特点。就如同蝴蝶阅读全文

posted @ 2016-01-16 19:58 五三中阅读(764) 评论(0) 推荐(0) 编辑

Flume1.5.0入门：安装、部署、及flume的案例

摘要：转自：http://www.aboutyun.com/thread-8917-1-1.html问题导读1.什么是flume2.flume的官方网站在哪里？3.flume有哪些术语？4.如何配置flume数据源码？一、什么是Flume? flume 作为 cloudera 开发的实时日志收集系统... 阅读全文

posted @ 2016-01-15 20:25 五三中阅读(517) 评论(0) 推荐(0) 编辑

基于Flume的美团日志收集系统(一)架构和设计

摘要：转自：http://www.aboutyun.com/thread-8317-1-1.html问题导读：1.Flume-NG与Scribe对比，Flume-NG的优势在什么地方？2.架构设计考虑需要考虑什么问题？3.Agent死机该如何解决？4.Collector死机是否会有影响？5.Flume-N... 阅读全文

posted @ 2016-01-15 20:22 五三中阅读(1042) 评论(0) 推荐(0) 编辑

海量数据框架变迁——阿里巴巴上市背后的技术力量

摘要：转自：http://blog.csdn.net/zhongwen7710/article/details/39835425阿里巴巴的上市，这不仅是商业和资本领域的一件大事，对于技术世界也是如此，在阿里巴巴的30位合伙人中，我们可以看到多位技术人员的影子，比如阿里巴巴集团CTO王坚，小微金融服务集团C... 阅读全文

posted @ 2016-01-15 01:35 五三中阅读(658) 评论(0) 推荐(0) 编辑

redis集群配置

摘要：（要让集群正常工作至少需要3个主节点，在这里我们要创建6个redis节点，其中三个为主节点，三个为从节点，对应的redis节点的ip和端口对应关系如下）192.168.1.160:7000192.168.1.160:7001192.168.1.160:7002192.168.1.160:700319... 阅读全文

posted @ 2016-01-15 00:17 五三中阅读(662) 评论(0) 推荐(0) 编辑

分布式与集群的区别

摘要：转自：http://sctrack.360doc1.net/track/click/eyJ1c2VyX2lkIjogMzkwMjIsICJ0YXNrX2lkIjogIiIsICJlbWFpbF9pZCI6ICIxNDUyNzgzODgwNDI4XzM5MDIyXzI5NTM3XzE0OTkuc2Mt... 阅读全文

posted @ 2016-01-14 23:09 五三中阅读(2367) 评论(0) 推荐(0) 编辑

每天进步一点点——五分钟理解一致性哈希算法(consistent hashing)

摘要：转自：http://blog.csdn.net/cywosp/article/details/23397179/转载请说明出处：http://blog.csdn.net/cywosp/article/details/23397179 一致性哈希算法在1997年由麻省理工学院提出的一种分布式哈希（D... 阅读全文

posted @ 2016-01-14 20:33 五三中阅读(873) 评论(0) 推荐(0) 编辑

NoSQL and Redis

摘要：转自：http://www.cnblogs.com/fxjwind/archive/2011/12/10/2283344.html首先谈谈为什么需要NoSQL?这儿看到一篇blog说的不错http://robbin.iteye.com/blog/524977, 摘录一下首先是面对Web2.0网站, ... 阅读全文

posted @ 2016-01-14 00:48 五三中阅读(662) 评论(0) 推荐(0) 编辑

ES学习2

摘要：1:es中的分页一般搜索引擎中的分页都不会提供很大的页面查询，因为查询的页码越大，查询效率越低。例子：我们就先预想一下我们在搜索一个拥有5个主分片的索引。当我们请求第一页搜索的时候，每个分片产生自己前十名，然后将它们返回给请求节点，然后这个节点会将50条 ... 阅读全文

posted @ 2016-01-13 22:53 五三中阅读(1351) 评论(0) 推荐(0) 编辑

修改ES分片规则

摘要：转自：http://my.oschina.net/crxy/blog/422287?p=1Es查询的时候默认是随机从一些分片中查询数据，可以通过配置让es从某些分片中查询数据1：_local指查询操作会优先在本地节点有的分片中查询，没有的话再在其它节点查询。2：_primary：指查询只在主分片中查... 阅读全文

posted @ 2016-01-13 22:42 五三中阅读(9221) 评论(0) 推荐(0) 编辑

ElasticSearch0910学习

摘要：1:es简介 es是一个分布式的搜索引擎，使用java开发，底层使用lucene。特点：天生支持分布式的、为大数据而生的。基于restful接口。 2：es和solr对比接口 solr：类似webservice的接口 es：REST风格的访问接口分布式存储 solrCloud solr... 阅读全文

posted @ 2016-01-13 15:52 五三中阅读(485) 评论(0) 推荐(0) 编辑

ElasticSearch使用代码

摘要：package elasticsearch01;import static org.junit.Assert.*;import java.util.HashMap;import java.util.List;import java.util.Map;import org.elasticsearch.... 阅读全文

posted @ 2016-01-13 15:51 五三中阅读(6888) 评论(0) 推荐(0) 编辑

Solr使用

摘要：import static org.junit.Assert.*;import java.util.Date;import java.util.Iterator;import java.util.List;import java.util.Set;import org.apache.solr.cli... 阅读全文

posted @ 2016-01-13 01:27 五三中阅读(962) 评论(0) 推荐(0) 编辑

maven pom.xml 详解（注释版）

摘要：转自：http://mrlee23.iteye.com/blog/1806412pom.xmlXml代码4.0.0asia.banseonbanseon-maven2jar1.0-SNAPSHOTbanseon-mavenhttp://www.baidu.com/banseonAmavenproje... 阅读全文

posted @ 2016-01-13 01:18 五三中阅读(4893) 评论(0) 推荐(2) 编辑

HBase二级索引方案总结

摘要：转自：http://blog.sina.com.cn/s/blog_4a1f59bf01018apd.html附hbase如何创建二级索引以及创建二级索引实例：http://www.aboutyun.com/thread-8857-1-1.html华为二级索引（原理）：http://my.oschi... 阅读全文

posted @ 2016-01-12 22:28 五三中阅读(15040) 评论(0) 推荐(0) 编辑

solr学习2

摘要：1：solr中的时间问题 solr中显示的时间默认会比我们本机时间少八个小时，因为时区不一样。在solr的web页面查看会发现时间少八个小时。但是使用java代码操作的时候是整成的的，所以在这只需要知道sorl有这个现象就可以了。可以给这个时间字段添加默认值。添加default字段即可 ... 阅读全文

posted @ 2016-01-12 21:29 五三中阅读(837) 评论(0) 推荐(0) 编辑

HBase参数配置及说明

摘要：转自：http://www.cnblogs.com/nexiyi/p/hbase_config_94.html目的是看下生产环境配置与默认配置情况。hbase.hregion.max.filesize:100Ghbase.regionserver.hlog.blocksize:512Mhbase.r... 阅读全文

posted @ 2016-01-12 20:57 五三中阅读(2112) 评论(0) 推荐(0) 编辑

Storm ack和fail机制再论

摘要：转自：http://www.cnblogs.com/fxjwind/p/3806404.html之前对这个的理解有些问题，今天用到有仔细梳理了一遍，记录一下首先开启storm tracker机制的前提是，1. 在spout emit tuple的时候，要加上第3个参数messageid2. 在配置中... 阅读全文

posted @ 2016-01-12 16:20 五三中阅读(1166) 评论(0) 推荐(0) 编辑

如何保障流式处理的数据一致性

摘要：转自：http://www.cnblogs.com/fxjwind/p/4689607.html背景相对于传统的Hadoop这样的batch分析平台，流式分析的优点就是实时性，即可以在秒级别延迟上得到分析结果。当然缺点是, 很难保证强一致性，即Exactly-Once语义（在海量数据的前提下，... 阅读全文

posted @ 2016-01-12 16:07 五三中阅读(1278) 评论(0) 推荐(0) 编辑

Kafka可靠性的思考

摘要：转自：http://www.cnblogs.com/fxjwind/p/3810740.html?utm_source=tuicool&utm_medium=referral附kafka consumer防止数据丢失：http://www.fwqtg.net/kafka-consumer%E9%98... 阅读全文

posted @ 2016-01-12 16:01 五三中阅读(2423) 评论(0) 推荐(0) 编辑

Zookeeper 快速理解

摘要：转自：http://blog.csdn.net/colorant/article/details/8444283==是什么==目标Scope（解决什么问题）为分布式系统提供高可靠性的协同工作机制官方定义ZooKeeper is acentralized service for maintaining... 阅读全文

posted @ 2016-01-12 15:58 五三中阅读(238) 评论(0) 推荐(0) 编辑

快速理解 Phoenix : SQL on HBASE

摘要：转自：http://blog.csdn.net/colorant/article/details/8645081==是什么==目标ScopeEasyStandard SQL access on top of HBase官方定义ASQL layer over HBase delivered as a ... 阅读全文

posted @ 2016-01-12 15:57 五三中阅读(2043) 评论(0) 推荐(0) 编辑

YARN : Architecture of Next Generation Apache Hadoop MapReduceFramework

摘要：转自：http://blog.csdn.net/colorant/article/details/9146201==目标问题==下一代的Hadoop框架，支持10,000+节点规模的Hadoop集群，支持更灵活的编程模型==核心思想==固定的编程模型，单点的资源调度和任务管理方式，使得Hadoop ... 阅读全文

posted @ 2016-01-12 15:55 五三中阅读(375) 评论(0) 推荐(0) 编辑

【采集层】Kafka 与 Flume 如何选择

摘要：转自：http://my.oschina.net/frankwu/blog/355298采集层主要可以使用Flume, Kafka两种技术。Flume：Flume是管道流方式，提供了很多的默认实现，让用户通过参数部署，及扩展API.Kafka：Kafka是一个可持久化的分布式的消息队列。Kafka是... 阅读全文

posted @ 2016-01-12 15:52 五三中阅读(627) 评论(0) 推荐(0) 编辑

Storm快速理解

摘要：转自：http://blog.csdn.net/colorant/article/details/8256039更多云计算相关项目快速理解文档http://blog.csdn.net/colorant/article/details/8255910==是什么==目标Scope（解决什么问题）分布式实... 阅读全文

posted @ 2016-01-12 15:51 五三中阅读(736) 评论(0) 推荐(0) 编辑

快速理解Kafka分布式消息队列框架

摘要：转自：http://blog.csdn.net/colorant/article/details/12081909==是什么==简单的说，Kafka是由Linkedin开发的一个分布式的消息队列系统(Message Queue)目标Scope（解决什么问题）kafka开发的主要初衷目标是构建一个用来... 阅读全文

posted @ 2016-01-12 15:47 五三中阅读(2101) 评论(0) 推荐(0) 编辑

Kafka 之入门

摘要：转自：http://my.oschina.net/frankwu/blog/303745Kafka 之中级：http://my.oschina.net/frankwu/blog/305010摘要最近研究采集层，对Kafka做了一个研究。分为入门，中级，高级步步进阶。本篇主要介绍基本概念，适用场景。... 阅读全文

posted @ 2016-01-12 15:41 五三中阅读(457) 评论(0) 推荐(0) 编辑

Kafka深度解析

摘要：转自：http://blog.csdn.net/qqqq724/article/details/43228863背景介绍Kafka简介 Kafka是一种分布式的，基于发布/订阅的消息系统。主要设计目标如下：以时间复杂度为O(1)的方式提供消息持久化能力，即使对TB级以上数据也能保证常数时间的访问性... 阅读全文

posted @ 2016-01-12 15:31 五三中阅读(4447) 评论(0) 推荐(0) 编辑

Hadoop集群作业调度算法

摘要：转自：http://blog.csdn.net/chen_jp/article/details/7983076Hadoop集群中有三种作业调度算法，分别为FIFO，公平调度算法和计算能力调度算法先来先服务（FIFO）FIFO比较简单，hadoop中只有一个作业队列，被提交的作业按照先后顺序在作业队列... 阅读全文

posted @ 2016-01-12 15:16 五三中阅读(945) 评论(0) 推荐(0) 编辑

关于HFile的存储结构梳理以及快速定位rowkey

摘要：转自：http://blog.csdn.net/yangbutao/article/details/8394149了解了布隆过滤器作用于HFile之上以及对HFile有了更深层次了解。另有：http://my.oschina.net/zhengyang841117/blog/188723一、HFil... 阅读全文

posted @ 2016-01-11 23:38 五三中阅读(2112) 评论(0) 推荐(0) 编辑

MapReduce生成HFile入库到HBase

摘要：转自：http://www.cnblogs.com/shitouer/archive/2013/02/20/hbase-hfile-bulk-load.html一、这种方式有很多的优点：1. 如果我们一次性入库hbase巨量数据，处理速度慢不说，还特别占用Region资源，一个比较高效便捷的方法就... 阅读全文

posted @ 2016-01-11 15:21 五三中阅读(1021) 评论(0) 推荐(0) 编辑

深入理解HBase Memstore

摘要：转自：http://www.cnblogs.com/shitouer/archive/2013/02/05/configuring-hbase-memstore-what-you-should-know.htmlMemStore是HBase非常重要的组成部分，深入理解MemStore的运行机制、工作... 阅读全文

posted @ 2016-01-11 15:19 五三中阅读(4611) 评论(0) 推荐(0) 编辑

hbase权威指南阅读随手笔记二之过滤器

摘要：转自：http://blog.csdn.net/saint1126/article/details/8257941base过滤器的比较操作符：LESS GREATER_OR_EQUAL >=GREATER >NO_OPno operation比较器：BinaryComparator 按字节索引顺序比... 阅读全文

posted @ 2016-01-11 13:43 五三中阅读(365) 评论(0) 推荐(0) 编辑

MapReduce初探

摘要：转自：http://blog.itpub.net/28912557/viewspace-1127423/Map-Reduce处理过程（分析气象数据的map-reduce过程）1，调用标准的input类（默认TextInputFormat），将输入数据转化成标准的样式，成为map的输入。2，map过... 阅读全文

posted @ 2016-01-11 02:26 五三中阅读(278) 评论(0) 推荐(0) 编辑

Hbase和Oracle的对比

摘要：转自：http://blog.csdn.net/lucky_greenegg/article/details/47070565由于项目需要，将原来的系统升级需要用到Hbase技术，使用了之后发现，确实很不错。那么问题来了，为什么在这里要用Hbase，而不是以前的关系型数据库Oracle，他们各自有什... 阅读全文

posted @ 2016-01-11 02:21 五三中阅读(5254) 评论(0) 推荐(0) 编辑

Hbase建模

摘要：转自：http://blog.itpub.net/28912557/viewspace-1119865/什么情况下使用Hbase？1，成熟的数据分析主题，查询模式已经确定并且不易轻易改变。（主要还是查询模式要确定，否则，还是选用关系型数据库吧）2，传统关系型数据库已经无法承受负荷，告诉插入，大量读取... 阅读全文

posted @ 2016-01-11 02:20 五三中阅读(878) 评论(0) 推荐(0) 编辑

HBase系统入门--整体介绍

摘要：转自：http://www.aboutyun.com/thread-8957-1-2.html问题导读:1.HBase查询与写入哪个更好一些？2.HBase面对复杂操作能否实现？3.Region服务器由哪2部分构成？扩展：4.HBase能否实现join操作？5.二级索引的作用是什么？前言如今在软件开... 阅读全文

posted @ 2016-01-10 21:38 五三中阅读(993) 评论(0) 推荐(0) 编辑

flume-kafka-storm日志处理经验

摘要：转自：http://www.aboutyun.com/thread-9216-1-1.html使用Storm处理事务型实时计算需求时的几处难点：http://blog.sina.com.cn/s/blog_6ff05a2c0101ficp.html最近搞日志处理，注意是日志处理，如果用流计算处理一些... 阅读全文

posted @ 2016-01-10 21:25 五三中阅读(2117) 评论(0) 推荐(0) 编辑

Hbase写数据，存数据，读数据的详细过程

摘要：转自：http://www.aboutyun.com/thread-10886-1-1.html附HBase 0.94之后Split策略：http://www.aboutyun.com/thread-11211-1-1.html1.Client写入需要哪些过程？2.Hbase是如何读取数据的？Cli... 阅读全文

posted @ 2016-01-10 15:28 五三中阅读(8147) 评论(0) 推荐(0) 编辑

HBase在搜狐内容推荐引擎系统中的应用

摘要：转自：http://www.aboutyun.com/thread-7297-1-1.htmlFacebook放弃Cassandra之后，对HBase 0.89版本进行了大量稳定性优化，使它真正成为一个工业级可靠的结构化数据存储检索系统。Facebook的Puma、Titan、ODS时间序列监控系统... 阅读全文

posted @ 2016-01-10 15:24 五三中阅读(1163) 评论(0) 推荐(0) 编辑

HBase 常用Shell命令

摘要：转自：http://www.cnblogs.com/nexiyi/p/hbase_shell.html两个月前使用过hbase，现在最基本的命令都淡忘了，留一个备查~进入hbase shell console$HBASE_HOME/bin/hbase shell如果有kerberos认证，需要事先使... 阅读全文

posted @ 2016-01-10 15:21 五三中阅读(235) 评论(0) 推荐(0) 编辑

LSM树由来、设计思想以及应用到HBase的索引

摘要：转自：http://www.cnblogs.com/yanghuahui/p/3483754.html讲LSM树之前，需要提下三种基本的存储引擎，这样才能清楚LSM树的由来：哈希存储引擎是哈希表的持久化实现，支持增、删、改以及随机读取操作，但不支持顺序扫描，对应的存储系统为key-value存储系... 阅读全文

posted @ 2016-01-10 15:16 五三中阅读(767) 评论(0) 推荐(0) 编辑

HBase的rowkey设计（含实例）

摘要：转自：http://www.aboutyun.com/thread-7119-1-1.html对于任何系统的数据设计，我们都想提高性能，达到资源最大化利用，那么对于hbase我们产生如下问题：1.hbase rowkey设计如何才能提高性能？2.hbase rowkey如何设计才能散列到不同的节点上... 阅读全文

posted @ 2016-01-10 14:49 五三中阅读(26016) 评论(1) 推荐(1) 编辑

hive基本操作

摘要：转自：http://www.aboutyun.com/thread-6867-1-1.html阅读本文章可以带着下面问题：1.与传统数据库对比，找出他们的区别2.熟练写出增删改查（面试必备）创建表：hive> CREATE TABLE pokes (foo INT, bar STRING); Cr... 阅读全文

posted @ 2016-01-09 20:50 五三中阅读(347) 评论(0) 推荐(0) 编辑

HIVE Group by、join、distinct等实现原理

摘要：转自：Hive – Distinct 的实现：http://ju.outofmemory.cn/entry/784Hive – Group By 的实现：http://ju.outofmemory.cn/entry/785Hive – JOIN实现过程：http://ju.outofmemory.c... 阅读全文

posted @ 2016-01-09 13:26 五三中阅读(15127) 评论(0) 推荐(0) 编辑

深入浅出数据仓库中SQL性能优化之Hive篇

摘要：转自：http://www.csdn.net/article/2015-01-13/2823530摘要：Hive查询生成多个map reduce job，一个map reduce job又有map，reduce，spill，shuffle，sort等多个阶段，所以针对hive查询的优化可以大致分为针... 阅读全文

posted @ 2016-01-09 01:24 五三中阅读(2736) 评论(0) 推荐(0) 编辑

大数据时代的技术hive：hive介绍

摘要：转自：http://www.cnblogs.com/sharpxiajun/archive/2013/06/02/3114180.html我最近研究了hive的相关技术，有点心得，这里和大家分享下。首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性： 1.hive是... 阅读全文

posted @ 2016-01-08 01:45 五三中阅读(1252) 评论(0) 推荐(0) 编辑

hive优化之------控制hive任务中的map数和reduce数

摘要：转自http://superlxw1234.iteye.com/blog/1582880一、控制hive任务中的map数:1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M,... 阅读全文

posted @ 2016-01-08 01:43 五三中阅读(338) 评论(0) 推荐(0) 编辑

hive组件和执行过程

摘要：转自http://blog.csdn.net/lifuxiangcaohui/article/details/40262021对Hive的基本组成进行了总结：1、组件：元存储（Metastore ）－存储“系统目录以及关于表、列、分区等的元数据”的组件。驱动（Driver ）－控制 HiveQL ... 阅读全文

posted @ 2016-01-08 01:39 五三中阅读(663) 评论(0) 推荐(0) 编辑

Hbase rowkey设计一

摘要：转自http://blog.csdn.net/lifuxiangcaohui/article/details/40621067hbase所谓的三维有序存储的三维是指：rowkey（行主键），column key(columnFamily+qualifier)，timestamp(时间戳)三部分组成的... 阅读全文

posted @ 2016-01-08 01:32 五三中阅读(645) 评论(0) 推荐(0) 编辑

Hive学习

摘要：转自：http://blog.csdn.net/lifuxiangcaohui/article/details/40615843 阅读全文

posted @ 2016-01-08 01:31 五三中阅读(173) 评论(0) 推荐(0) 编辑

机器学习与数据挖掘网上资源搜罗——良心推荐

摘要：转自：http://blog.csdn.net/baimafujinji/article/details/50467970前面我曾经发帖推荐过网上的一些做“图像处理和计算机视觉的”有料博客资源，原帖地址图像处理与机器视觉网络资源收罗——倾心大放送http://blog.csdn.net/baimaf... 阅读全文

posted @ 2016-01-08 00:42 五三中阅读(337) 评论(0) 推荐(0) 编辑

Hadoop源码解析之: TextInputFormat如何处理跨split的行

摘要：转自：http://blog.csdn.net/bluishglc/article/details/9380087我们知道hadoop将数据给到map进行处理前会使用InputFormat对数据进行两方面的预处理：对输入数据进行切分，生成一组split，一个split会分发给一个mapper进行处理... 阅读全文

posted @ 2016-01-08 00:27 五三中阅读(745) 评论(0) 推荐(0) 编辑

zookeeper技术浅析

摘要：转自：http://www.cnblogs.com/sharpxiajun/archive/2013/06/02/3113923.htmlZookeeper是hadoop的一个子项目，虽然源自hadoop，但是我发现zookeeper脱离hadoop的范畴开发分布式框架的运用越来越多。今天我想谈谈z... 阅读全文

posted @ 2016-01-07 23:15 五三中阅读(666) 评论(0) 推荐(0) 编辑

HDFS Federation客户端(viewfs)配置攻略

摘要：转自：http://dongxicheng.org/hadoop-hdfs/hdfs-federation-viewfs/1.HDFS Federation产生背景在Hadoop 1.0中，HDFS的单NameNode设计带来诸多问题，包括单点故障、内存受限制约集群扩展性和缺乏隔离机制（不同业务使用... 阅读全文

posted @ 2016-01-07 15:25 五三中阅读(2557) 评论(1) 推荐(0) 编辑

MapReduce 中的两表 join 几种方案简介

摘要：转自：http://my.oschina.net/leejun2005/blog/95186MapSideJoin例子：http://my.oschina.net/leejun2005/blog/1119631. 概述在传统数据库（如：MYSQL）中，JOIN操作是非常常见且非常耗时的。而在HADO... 阅读全文

posted @ 2016-01-07 01:46 五三中阅读(515) 评论(0) 推荐(0) 编辑

How MapReduce Works

摘要：转自：http://www.cnblogs.com/ggjucheng/archive/2012/04/23/2465820.html一、从Map到ReduceMapReduce其实是分治算法的一种实现，其处理过程亦和用管道命令来处理十分相似，一些简单的文本字符的处理甚至也可以使用Unix的管道命令... 阅读全文

posted @ 2016-01-06 01:05 五三中阅读(168) 评论(0) 推荐(0) 编辑

SpringMVC介绍之约定优于配置

摘要：转自：http://haohaoxuexi.iteye.com/blog/1774603所谓的约定优于配置就是指在程序开发过程中我们约定好一些规则可以使我们更少的进行配置和代码编写。就这么简单的一句话可能你还不是很懂什么是约定优于配置，没关系，看完后面对SpringMVC的约定优于配置的介绍之后你就... 阅读全文

posted @ 2016-01-06 00:27 五三中阅读(555) 评论(0) 推荐(0) 编辑

HDFS中JAVA API的使用

摘要：转自：http://www.cnblogs.com/liuling/p/2013-6-17-01.html相关源代码：http://www.cnblogs.com/ggjucheng/archive/2013/02/19/2917020.htmlHDFS是一个分布式文件系统，既然是文件系统，就可以对... 阅读全文

posted @ 2016-01-05 23:28 五三中阅读(504) 评论(0) 推荐(0) 编辑

MapReduce程序的工作过程

摘要：转自：http://www.aboutyun.com/thread-15494-1-2.html问题导读1、HDFS框架组成是什么？2、HDFS文件的读写过程是什么？3、MapReduce框架组成是什么？4、MapReduce工作原理是什么？5、什么是Shuffle阶段和Sort阶段？还记得2.5年... 阅读全文

posted @ 2016-01-05 22:39 五三中阅读(5307) 评论(0) 推荐(0) 编辑

Hadoop 学习总结之一：HDFS简介

摘要：转自：http://www.cnblogs.com/forfuture1978/archive/2010/03/14/1685351.html一、HDFS的基本概念1.1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据... 阅读全文

posted @ 2016-01-05 21:27 五三中阅读(429) 评论(0) 推荐(0) 编辑

海量数据的二度人脉挖掘算法（Hadoop 实现）

摘要：转自：http://my.oschina.net/BreathL/blog/75112?fromerr=pQGH9u7v原创博客，转载请注明：http://my.oschina.net/BreathL/blog/75112 最近做了一个项目，要求找出二度人脉的一些关系，就好似新浪微博的“你可能感... 阅读全文

posted @ 2016-01-05 21:25 五三中阅读(712) 评论(0) 推荐(0) 编辑

MapReduce源码分析总结

摘要：转自：http://www.cnblogs.com/forfuture1978/archive/2010/11/19/1882279.html转者注：本来想在Hadoop学习总结系列详细解析HDFS以及Map-Reduce的，然而查找资料的时候，发现了这篇文章，并且发现caibinbupt已经对Ha... 阅读全文

posted @ 2016-01-05 21:24 五三中阅读(1296) 评论(0) 推荐(0) 编辑

mapreduce实现"浏览该商品的人大多数还浏览了"经典应用

摘要：转自：http://blog.csdn.net/u011750989/article/details/12004065输入:日期 ...cookie id. ...商品id..xx xx xx输出:商品id 商品id列表(按优先级排序,用逗号分隔)xx xx比如:id1 id3,id0,id4,id... 阅读全文

posted @ 2016-01-05 21:14 五三中阅读(216) 评论(0) 推荐(0) 编辑

Yarn概述

摘要：转自：http://liujiacai.net/blog/2014/09/07/yarn-intro/Yarn是随着hadoop发展而催生的新框架，全称是Yet Another Resource Negotiator，可以翻译为“另一个资源管理器”。yarn取代了以前hadoop中jobtracke... 阅读全文

posted @ 2016-01-05 17:14 五三中阅读(2007) 评论(0) 推荐(0) 编辑

hadoop杂记-为什么会有Map-reduce v2 (Yarn)

摘要：转自：http://www.cnblogs.com/LeftNotEasy/archive/2012/02/18/why-yarn.html前言：有一段时间没有写博客了(发现这是我博客最常见的开头，不过这次间隔真的好长），前段时间事情比较多，所以耽搁得也很多。现在准备计划写一个新的专题，叫做《had... 阅读全文

posted @ 2016-01-05 11:17 五三中阅读(397) 评论(0) 推荐(0) 编辑

Hadoop中HDFS工作原理

摘要：转自：http://blog.csdn.net/sdlyjzh/article/details/28876385Hadoop其实并不是一个产品，而是一些独立模块的组合。主要有分布式文件系统HDFS和大型分布式数据处理库MapReduce。由于目前主要用到HDFS，所以这里看一下它的工作原理，以及相应... 阅读全文

posted @ 2016-01-04 17:55 五三中阅读(644) 评论(0) 推荐(0) 编辑

mapreduce工作原理

摘要：转自：http://www.cnblogs.com/z1987/p/5055565.html MapReduce模型主要包含Mapper类和Reducer类两个抽象类。Mapper类主要负责对数据的分析处理，最终转化为key-value数据对；Reducer类主要获取key-value数据对，然后... 阅读全文

posted @ 2016-01-03 23:10 五三中阅读(400) 评论(0) 推荐(0) 编辑

mapreduce程序调用各个类的功能

摘要：转自：http://www.cnblogs.com/z1987/p/5052409.html1、map类 map类继承了库类中的Mapper，即Mapper。通常map类中会重写map方法，map每次只接受一个key-value，然后对其进行预处理，再分发出处理后的数据。其map方法为：prote... 阅读全文

posted @ 2016-01-03 23:07 五三中阅读(893) 评论(0) 推荐(0) 编辑

使用Storm实现实时大数据分析

摘要：转自：http://qq85609655.iteye.com/blog/2035717摘要：随着数据体积的越来越大，实时处理成为了许多机构需要面对的首要挑战。Shruthi Kumar和Siddharth Patankar在Dr.Dobb’s上结合了汽车超速监视，为我们演示了使用Storm进行实时大... 阅读全文

posted @ 2016-01-01 23:25 五三中阅读(289) 评论(0) 推荐(0) 编辑

cxzdy

01 2016 档案

公告

搜索

随笔分类

随笔档案

文章分类

阅读排行榜

推荐排行榜

最新评论