大数据面试准备 - 随笔分类 - 五三中

摘要：HBase修改压缩格式及Snappy压缩实测分享阅读全文

posted @ 2016-06-14 11:18 五三中阅读(1024) 评论(0) 推荐(0)

摘要：转自：http://www.cnblogs.com/foreach-break/p/what-is-real-time-computing-and-how.html?utm_source=tuicool&utm_medium=referral 本文目录 [-点此收起] 实时计算是什么？最热的微博话阅读全文

posted @ 2016-05-25 00:31 五三中阅读(1845) 评论(0) 推荐(0)

Hive之分区（Partitions）和桶（Buckets）

摘要：转自：http://www.aahyhaa.com/archives/316 hive引入partition和bucket的概念，中文翻译分别为分区和桶（我觉的不是很合适，但是网上基本都是这么翻译，暂时用这个吧），这两个概念都是把数据划分成块，分区是粗粒度的划分桶是细粒度的划分，这样做为了可以让查询阅读全文

posted @ 2016-05-24 18:45 五三中阅读(4234) 评论(0) 推荐(0)

Zookeeper 快速理解

摘要：转自：http://blog.csdn.net/colorant/article/details/8444283 == 是什么 == 目标Scope（解决什么问题）为分布式系统提供高可靠性的协同工作机制官方定义 ZooKeeper is acentralized service for main 阅读全文

posted @ 2016-05-20 21:35 五三中阅读(1607) 评论(0) 推荐(0)

Apache Storm内部原理分析

摘要：转自：http://shiyanjun.cn/archives/1472.html 本文算是个人对Storm应用和学习的一个总结，由于不太懂Clojure语言，所以无法更多地从源码分析，但是参考了官网、好多朋友的文章，以及《Storm Applied: Strategies for real-tim 阅读全文

posted @ 2016-05-20 20:09 五三中阅读(2121) 评论(0) 推荐(0)

初步掌握Yarn的架构及原理

摘要：转自：http://www.cnblogs.com/codeOfLife/p/5492740.html 1、YARN 是什么？从业界使用分布式系统的变化趋势和 hadoop 框架的长远发展来看，MapReduce的 JobTracker/TaskTracker 机制需要大规模的调整来修复它在可扩展阅读全文

posted @ 2016-05-15 11:42 五三中阅读(21866) 评论(0) 推荐(0)

函数式编程——C#理解

摘要：转自：http://www.cnblogs.com/xiaozhi_5638/p/4762846.html 目录一个问题函数式编程中的函数数学与函数式编程混合式编程风格一个问题假设现在我们需要开发一个绘制数学函数平面图像（一元）的工具库，可以提供绘制各种函数图形的功能，比如直线f(x)= 阅读全文

posted @ 2016-04-20 20:06 五三中阅读(606) 评论(0) 推荐(0)

大数据系列文章汇总 - 更新到15篇

摘要：转自：http://blog.csdn.net/matthewei6/article/details/50615816 大数据(一) - hadoop生态系统及版本演化大数据(二) - HDFS 大数据(三) - YARN 大数据(四) - MapReduce 大数据(五) - HBase 大数据阅读全文

posted @ 2016-04-11 18:31 五三中阅读(554) 评论(0) 推荐(0)

Namenode HA原理详解（脑裂）

摘要：转自：http://blog.csdn.net/tantexian/article/details/40109331 Namenode HA原理详解社区hadoop2.2.0 release版本开始支持NameNode的HA，本文将详细描述NameNode HA内部的设计与实现。为什么要Name 阅读全文

posted @ 2016-04-07 14:30 五三中阅读(2610) 评论(0) 推荐(0)

分布式存储与分布式计算

摘要：转自：http://blog.csdn.net/recommender_system/article/details/42031893 一、高性能计算目前自己知道的高性能计算工具，如下所示： Hadoop：Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了阅读全文

posted @ 2016-03-30 19:50 五三中阅读(3120) 评论(0) 推荐(1)

Apche Kafka 的生与死 – failover 机制详解

摘要：转自：http://www.cnblogs.com/fxjwind/p/4972244.html Kafka 作为 high throughput 的消息中间件，以其性能，简单和稳定性，成为当前实时流处理框架中的主流的基础组件。当然在使用 Kafka 中也碰到不少问题，尤其是 failover 的阅读全文

posted @ 2016-03-18 16:37 五三中阅读(1471) 评论(0) 推荐(0)

Kafka设计解析（三）- Kafka High Availability （下）

摘要：本文转发自Jason’s Blog，原文链接　http://www.jasongj.com/2015/06/08/KafkaColumn3 本文在上篇文章基础上，更加深入讲解了Kafka的HA机制，主要阐述了HA相关各种场景，如Broker failover，Controller failover，阅读全文

posted @ 2016-03-17 20:11 五三中阅读(609) 评论(0) 推荐(0)

Kafka设计解析（二）：Kafka High Availability （上）

摘要：转自：http://www.infoq.com/cn/articles/kafka-analysis-part-2/ Kafka在0.8以前的版本中，并不提供High Availablity机制，一旦一个或多个Broker宕机，则宕机期间其上所有Partition都无法继续提供服务。若该Broker 阅读全文

posted @ 2016-03-17 19:58 五三中阅读(313) 评论(0) 推荐(0)

使用Storm实现实时大数据分析

摘要：转自：http://blog.csdn.net/hguisu/article/details/8454368 简单和明了，Storm让大数据分析变得轻松加愉快。当今世界，公司的日常运营经常会生成TB级别的数据。数据来源囊括了互联网装置可以捕获的任何类型数据，网站、社交媒体、交易型商业数据以及其它商阅读全文

posted @ 2016-03-09 20:00 五三中阅读(1530) 评论(0) 推荐(0)

Kafka文件存储机制那些事

摘要：转自：http://tech.meituan.com/kafka-fs-design-theory.html Kafka是什么 Kafka是最初由Linkedin公司开发，是一个分布式、分区的、多副本的、多订阅者，基于zookeeper协调的分布式日志系统(也可以当做MQ系统)，常见可以用于web/ 阅读全文

posted @ 2016-03-09 17:41 五三中阅读(337) 评论(0) 推荐(0)

hbase 学习（十六）系统架构图

摘要：转自：http://www.cnblogs.com/cenyuhai/p/3708135.html HBase 系统架构图组成部件说明 Client：使用HBase RPC机制与HMaster和HRegionServer进行通信 Client与HMaster进行通信进行管理类操作 Client与阅读全文

posted @ 2016-01-28 22:29 五三中阅读(1161) 评论(0) 推荐(0)

大数据入门：各种大数据技术介绍

摘要：转自：http://www.aboutyun.com/thread-7569-1-1.html 大数据我们都知道hadoop，可是还会各种各样的技术进入我们的视野：Spark，Storm，impala，让我们都反映不过来。为了能够更好的架构大数据项目，这里整理一下，供技术人员，项目经理，架构师选择合阅读全文

posted @ 2016-01-27 21:43 五三中阅读(32325) 评论(1) 推荐(7)

How MapReduce Works

摘要：转自：http://blog.csdn.net/luyee2010/article/details/8624470 一、从Map到Reduce MapReduce其实是分治算法的一种实现，其处理过程亦和用管道命令来处理十分相似，一些简单的文本字符的处理甚至也可以使用Unix的管道命令来替代，从处理流阅读全文

posted @ 2016-01-27 20:32 五三中阅读(288) 评论(0) 推荐(0)

hive大数据倾斜总结

摘要：转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842860.html在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化... 阅读全文

posted @ 2016-01-25 17:04 五三中阅读(730) 评论(0) 推荐(0)

快速理解Docker - 容器级虚拟化解决方案

posted @ 2016-01-22 14:30 五三中阅读(526) 评论(0) 推荐(0)

cxzdy

随笔分类 - 大数据面试准备

公告