随笔分类 - 大数据系列
摘要:转自:http://my.oschina.net/leejun2005/blog/276891?utm_source=tuicool&utm_medium=referral 1、计数器 简介 在许多情况下,一个用户需要了解待分析的数据,尽管这并非所要执行的分析任务 的核心内容。以统计数据集中无效记录
阅读全文
摘要:转自:http://blog.csdn.net/recommender_system/article/details/42031893 一、高性能计算 目前自己知道的高性能计算工具,如下所示: Hadoop:Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了
阅读全文
摘要:转自:http://www.cnblogs.com/colorfulkoala/p/4333103.html?utm_source=tuicool&utm_medium=referral 视频地址:http://v.youku.com/v_show/id_XOTMzNDc2Nzg0.html 上古十
阅读全文
摘要:转自:http://www.cnblogs.com/cenyuhai/p/3708135.html HBase 系统架构图 组成部件说明 Client: 使用HBase RPC机制与HMaster和HRegionServer进行通信 Client与HMaster进行通信进行管理类操作 Client与
阅读全文
摘要:转自:http://blog.csdn.net/luyee2010/article/details/8624470 一、从Map到Reduce MapReduce其实是分治算法的一种实现,其处理过程亦和用管道命令来处理十分相似,一些简单的文本字符的处理甚至也可以使用Unix的管道命令来替代,从处理流
阅读全文
摘要:转自:http://blog.csdn.net/chlaws/article/details/16918913在HBase中,大部分的操作都是在RegionServer完成的,Client端想要插入,删除,查询数据都需要先找到相应的RegionServer。什么叫相应的RegionServer?就是...
阅读全文
摘要:转自:http://blog.csdn.net/colorant/article/details/20608157版权声明:本文为博主原创文章,未经博主允许不得转载。作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.csd...
阅读全文
摘要:转自:http://www.iteblog.com/archives/1183Spark目前被越来越多的企业使用,和Hadoop一样,Spark也是以作业的形式向集群提交任务,那么在内部实现Spark和Hadoop作业模型都一样吗?答案是不对的。 熟悉Hadoop的人应该都知道,用户先编写好一个程...
阅读全文
摘要:转自: http://www.csdn.net/article/2015-06-21/2825011 摘要:眼下大数据领域最热门的词汇之一便是流计算了,而其中最耀眼的无疑是来自Spark社区的SparkStreaming项目。 对于流计算而言,最核心的特点毫无疑问就是它对低时的需求,但这也带来了相关
阅读全文
摘要:科普Spark,Spark是什么,如何使用Spark(1)转自:http://www.aboutyun.com/thread-6849-1-1.html阅读本文章可以带着下面问题:1.Spark基于什么算法的分布式计算(很简单)2.Spark与MapReduce不同在什么地方3.Spark为什么比H...
阅读全文
摘要:转自:http://xumingming.sinaapp.com/127/twitter-storm如何保证消息不丢失/ storm保证从spout发出的每个tuple都会被完全处理。这篇文章介绍storm是怎么做到这个保证的,以及我们使用者怎么做才能充分利用storm的可靠性特点。 就如同蝴蝶
阅读全文
摘要:转自:http://sctrack.360doc1.net/track/click/eyJ1c2VyX2lkIjogMzkwMjIsICJ0YXNrX2lkIjogIiIsICJlbWFpbF9pZCI6ICIxNDUyNzgzODgwNDI4XzM5MDIyXzI5NTM3XzE0OTkuc2Mt...
阅读全文
摘要:转自:http://www.cnblogs.com/fxjwind/archive/2011/12/10/2283344.html首先谈谈为什么需要NoSQL?这儿看到一篇blog说的不错http://robbin.iteye.com/blog/524977, 摘录一下首先是面对Web2.0网站, ...
阅读全文
摘要:1:es中的分页 一般搜索引擎中的分页都不会提供很大的页面查询,因为查询的页码越大,查询效率越低。 例子: 我们就先预想一下我们在搜索一个拥有5个主分片的索引。当我们请求第一页搜索的时 候,每个分片产生自己前十名,然后将它们返回给请求节点,然后这个节点会将50条 ...
阅读全文
摘要:转自:http://my.oschina.net/crxy/blog/422287?p=1Es查询的时候默认是随机从一些分片中查询数据,可以通过配置让es从某些分片中查询数据1:_local指查询操作会优先在本地节点有的分片中查询,没有的话再在其它节点查询。2:_primary:指查询只在主分片中查...
阅读全文
摘要:转自:http://www.cnblogs.com/fxjwind/p/3806404.html之前对这个的理解有些问题,今天用到有仔细梳理了一遍,记录一下首先开启storm tracker机制的前提是,1. 在spout emit tuple的时候,要加上第3个参数messageid2. 在配置中...
阅读全文
摘要:转自:http://www.cnblogs.com/fxjwind/p/4689607.html背景相对于传统的Hadoop这样的batch分析平台,流式分析的优点就是实时性, 即可以在秒级别延迟上得到分析结果 。当然缺点是, 很难保证强一致性,即Exactly-Once语义 (在海量数据的前提下,...
阅读全文
摘要:转自:http://blog.csdn.net/colorant/article/details/8444283==是什么==目标Scope(解决什么问题)为分布式系统提供高可靠性的协同工作机制官方定义ZooKeeper is acentralized service for maintaining...
阅读全文
摘要:转自:http://blog.csdn.net/colorant/article/details/9146201==目标问题==下一代的Hadoop框架,支持10,000+节点规模的Hadoop集群,支持更灵活的编程模型==核心思想==固定的编程模型,单点的资源调度和任务管理方式,使得Hadoop ...
阅读全文
摘要:转自:http://blog.csdn.net/colorant/article/details/8256039更多云计算相关项目快速理解文档http://blog.csdn.net/colorant/article/details/8255910==是什么==目标Scope(解决什么问题)分布式实...
阅读全文