大数据系列 - 随笔分类 - 五三中

MapReduce 计数器简介

摘要：转自：http://my.oschina.net/leejun2005/blog/276891?utm_source=tuicool&utm_medium=referral 1、计数器简介在许多情况下，一个用户需要了解待分析的数据，尽管这并非所要执行的分析任务的核心内容。以统计数据集中无效记录阅读全文

posted @ 2016-07-08 10:55 五三中阅读(1103) 评论(0) 推荐(0) 编辑

分布式存储与分布式计算

摘要：转自：http://blog.csdn.net/recommender_system/article/details/42031893 一、高性能计算目前自己知道的高性能计算工具，如下所示： Hadoop：Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了阅读全文

posted @ 2016-03-30 19:50 五三中阅读(3075) 评论(0) 推荐(1) 编辑

天机镜—优土大数据平台应用级别监控神器

摘要：转自：http://www.cnblogs.com/colorfulkoala/p/4333103.html?utm_source=tuicool&utm_medium=referral 视频地址：http://v.youku.com/v_show/id_XOTMzNDc2Nzg0.html 上古十阅读全文

posted @ 2016-03-09 18:46 五三中阅读(958) 评论(0) 推荐(0) 编辑

hbase 学习（十六）系统架构图

摘要：转自：http://www.cnblogs.com/cenyuhai/p/3708135.html HBase 系统架构图组成部件说明 Client：使用HBase RPC机制与HMaster和HRegionServer进行通信 Client与HMaster进行通信进行管理类操作 Client与阅读全文

posted @ 2016-01-28 22:29 五三中阅读(1124) 评论(0) 推荐(0) 编辑

How MapReduce Works

摘要：转自：http://blog.csdn.net/luyee2010/article/details/8624470 一、从Map到Reduce MapReduce其实是分治算法的一种实现，其处理过程亦和用管道命令来处理十分相似，一些简单的文本字符的处理甚至也可以使用Unix的管道命令来替代，从处理流阅读全文

posted @ 2016-01-27 20:32 五三中阅读(270) 评论(0) 推荐(0) 编辑

HBase -ROOT-和.META.表结构(region定位原理)

摘要：转自：http://blog.csdn.net/chlaws/article/details/16918913在HBase中，大部分的操作都是在RegionServer完成的，Client端想要插入，删除，查询数据都需要先找到相应的RegionServer。什么叫相应的RegionServer？就是... 阅读全文

posted @ 2016-01-25 22:47 五三中阅读(501) 评论(0) 推荐(0) 编辑

快速理解Docker - 容器级虚拟化解决方案

posted @ 2016-01-22 14:30 五三中阅读(505) 评论(0) 推荐(0) 编辑

Spark和Hadoop作业之间的区别

摘要：转自：http://www.iteblog.com/archives/1183Spark目前被越来越多的企业使用，和Hadoop一样，Spark也是以作业的形式向集群提交任务，那么在内部实现Spark和Hadoop作业模型都一样吗？答案是不对的。熟悉Hadoop的人应该都知道，用户先编写好一个程... 阅读全文

posted @ 2016-01-21 12:55 五三中阅读(1398) 评论(0) 推荐(0) 编辑

论SparkStreaming的数据可靠性和一致性

摘要：转自： http://www.csdn.net/article/2015-06-21/2825011 摘要：眼下大数据领域最热门的词汇之一便是流计算了，而其中最耀眼的无疑是来自Spark社区的SparkStreaming项目。对于流计算而言，最核心的特点毫无疑问就是它对低时的需求，但这也带来了相关阅读全文

posted @ 2016-01-19 15:01 五三中阅读(1732) 评论(0) 推荐(0) 编辑

科普Spark，Spark核心是什么，如何使用Spark（1）

摘要：科普Spark，Spark是什么，如何使用Spark（1）转自：http://www.aboutyun.com/thread-6849-1-1.html阅读本文章可以带着下面问题：1.Spark基于什么算法的分布式计算（很简单）2.Spark与MapReduce不同在什么地方3.Spark为什么比H... 阅读全文

posted @ 2016-01-18 11:48 五三中阅读(2174) 评论(0) 推荐(0) 编辑

Twitter Storm如何保证消息不丢失

摘要：转自：http://xumingming.sinaapp.com/127/twitter-storm如何保证消息不丢失/ storm保证从spout发出的每个tuple都会被完全处理。这篇文章介绍storm是怎么做到这个保证的，以及我们使用者怎么做才能充分利用storm的可靠性特点。就如同蝴蝶阅读全文

posted @ 2016-01-16 19:58 五三中阅读(764) 评论(0) 推荐(0) 编辑

分布式与集群的区别

摘要：转自：http://sctrack.360doc1.net/track/click/eyJ1c2VyX2lkIjogMzkwMjIsICJ0YXNrX2lkIjogIiIsICJlbWFpbF9pZCI6ICIxNDUyNzgzODgwNDI4XzM5MDIyXzI5NTM3XzE0OTkuc2Mt... 阅读全文

posted @ 2016-01-14 23:09 五三中阅读(2367) 评论(0) 推荐(0) 编辑

NoSQL and Redis

摘要：转自：http://www.cnblogs.com/fxjwind/archive/2011/12/10/2283344.html首先谈谈为什么需要NoSQL?这儿看到一篇blog说的不错http://robbin.iteye.com/blog/524977, 摘录一下首先是面对Web2.0网站, ... 阅读全文

posted @ 2016-01-14 00:48 五三中阅读(662) 评论(0) 推荐(0) 编辑

ES学习2

摘要：1:es中的分页一般搜索引擎中的分页都不会提供很大的页面查询，因为查询的页码越大，查询效率越低。例子：我们就先预想一下我们在搜索一个拥有5个主分片的索引。当我们请求第一页搜索的时候，每个分片产生自己前十名，然后将它们返回给请求节点，然后这个节点会将50条 ... 阅读全文

posted @ 2016-01-13 22:53 五三中阅读(1351) 评论(0) 推荐(0) 编辑

修改ES分片规则

摘要：转自：http://my.oschina.net/crxy/blog/422287?p=1Es查询的时候默认是随机从一些分片中查询数据，可以通过配置让es从某些分片中查询数据1：_local指查询操作会优先在本地节点有的分片中查询，没有的话再在其它节点查询。2：_primary：指查询只在主分片中查... 阅读全文

posted @ 2016-01-13 22:42 五三中阅读(9221) 评论(0) 推荐(0) 编辑

Storm ack和fail机制再论

摘要：转自：http://www.cnblogs.com/fxjwind/p/3806404.html之前对这个的理解有些问题，今天用到有仔细梳理了一遍，记录一下首先开启storm tracker机制的前提是，1. 在spout emit tuple的时候，要加上第3个参数messageid2. 在配置中... 阅读全文

posted @ 2016-01-12 16:20 五三中阅读(1166) 评论(0) 推荐(0) 编辑

如何保障流式处理的数据一致性

摘要：转自：http://www.cnblogs.com/fxjwind/p/4689607.html背景相对于传统的Hadoop这样的batch分析平台，流式分析的优点就是实时性，即可以在秒级别延迟上得到分析结果。当然缺点是, 很难保证强一致性，即Exactly-Once语义（在海量数据的前提下，... 阅读全文

posted @ 2016-01-12 16:07 五三中阅读(1278) 评论(0) 推荐(0) 编辑

Zookeeper 快速理解

摘要：转自：http://blog.csdn.net/colorant/article/details/8444283==是什么==目标Scope（解决什么问题）为分布式系统提供高可靠性的协同工作机制官方定义ZooKeeper is acentralized service for maintaining... 阅读全文

posted @ 2016-01-12 15:58 五三中阅读(238) 评论(0) 推荐(0) 编辑

YARN : Architecture of Next Generation Apache Hadoop MapReduceFramework

摘要：转自：http://blog.csdn.net/colorant/article/details/9146201==目标问题==下一代的Hadoop框架，支持10,000+节点规模的Hadoop集群，支持更灵活的编程模型==核心思想==固定的编程模型，单点的资源调度和任务管理方式，使得Hadoop ... 阅读全文

posted @ 2016-01-12 15:55 五三中阅读(375) 评论(0) 推荐(0) 编辑

Storm快速理解

摘要：转自：http://blog.csdn.net/colorant/article/details/8256039更多云计算相关项目快速理解文档http://blog.csdn.net/colorant/article/details/8255910==是什么==目标Scope（解决什么问题）分布式实... 阅读全文

posted @ 2016-01-12 15:51 五三中阅读(736) 评论(0) 推荐(0) 编辑

cxzdy

随笔分类 - 大数据系列

公告

搜索

随笔分类

随笔档案

文章分类

阅读排行榜

推荐排行榜

最新评论