大数据（Hadoop、HBase、Redis、Hive等） - 文章分类 - 小西红柿

Kafka介绍

摘要：https://www.cnblogs.com/yepei/p/6197236.html Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发，之后成为Apache项目的一部分。Kafka是一个分布式的，可划分的，冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。在大数据阅读全文

posted @ 2018-09-11 14:14 小西红柿阅读(280) 评论(0) 推荐(0)

Kafka常用命令行总结

摘要：https://www.jianshu.com/p/cfedb7122e38 以下是kafka常用命令行总结： 1.查看topic的详细信息 ./kafka-topics.sh -zookeeper127.0.0.1:2181-describe -topic testKJ1 2、为topic增加副本阅读全文

posted @ 2018-03-27 11:57 小西红柿阅读(137) 评论(0) 推荐(0)

【消息队列MQ】各类MQ比较

摘要：http://blog.csdn.net/sunxinhere/article/details/7968886 目前业界有很多MQ产品，我们作如下对比： RabbitMQ 是使用Erlang编写的一个开源的消息队列，本身支持很多的协议：AMQP，XMPP, SMTP, STOMP，也正是如此，使的它阅读全文

posted @ 2017-11-28 17:33 小西红柿阅读(255) 评论(0) 推荐(0)

hadoop基本操作

摘要：http://blog.csdn.net/lifuxiangcaohui/article/details/22413903 在这篇文章中，我们默认认为Hadoop环境已经由运维人员配置好直接可以使用。假设hadoop的安装目录HADOOP_HOME为/home/admin/hadoop。启动与关阅读全文

posted @ 2017-09-04 23:14 小西红柿阅读(249) 评论(0) 推荐(0)

用通俗易懂的大白话讲解Map/Reduce原理

摘要：http://blog.csdn.net/lifuxiangcaohui/article/details/22675437 Hadoop简介Hadoop就是一个实现了Google云计算系统的开源系统，包括并行计算模型Map/Reduce，分布式文件系统HDFS，以及分布式数据库Hbase，同时Had 阅读全文

posted @ 2017-09-02 23:02 小西红柿阅读(177) 评论(0) 推荐(0)

如何将Mapreduce程序转换成Spark程序

摘要：https://www.iteblog.com/archives/1111.html 本文详细地介绍了如何将Hadoop上的Mapreduce程序转换成Spark的应用程序。有兴趣的可以参考一下：The key to getting the most out of Spark is to under 阅读全文

posted @ 2017-08-02 20:48 小西红柿阅读(298) 评论(0) 推荐(0)

MapReduce：详细介绍Shuffle的执行过程

摘要：https://www.iteblog.com/archives/1119.html Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方。要想理解MapReduce， Shuffle是必须要了解的。我看过很多相关的资料，但每次看完都云里雾里的绕着，很难理清大致的逻辑，反而越搅越混。阅读全文

posted @ 2017-08-02 20:47 小西红柿阅读(177) 评论(0) 推荐(0)

hadoop学习笔记：hadoop文件系统浅析

摘要：http://www.cnblogs.com/sharpxiajun/archive/2013/06/15/3137765.html 1.什么是分布式文件系统？管理网络中跨多台计算机存储的文件系统称为分布式文件系统。 2.为什么需要分布式文件系统了？原因很简单，当数据集的大小超过一台独立物理计算阅读全文

posted @ 2017-08-02 20:37 小西红柿阅读(179) 评论(0) 推荐(0)

Hadoop集群（第8期）_HDFS初探之旅

摘要：http://www.cnblogs.com/xia520pi/archive/2012/05/28/2520813.html 1、HDFS简介 HDFS（Hadoop Distributed File System）是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，是基于流数据模式阅读全文

posted @ 2017-08-02 17:28 小西红柿阅读(106) 评论(0) 推荐(0)

Hadoop集群（第6期）_WordCount运行详解

摘要：http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html 1、MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同阅读全文

posted @ 2017-08-02 17:27 小西红柿阅读(119) 评论(0) 推荐(0)

hadoop 学习笔记：mapreduce框架详解

摘要：http://www.cnblogs.com/sharpxiajun/p/3151395.html 开始聊mapreduce，mapreduce是hadoop的计算框架，我学hadoop是从hive开始入手，再到hdfs，当我学习hdfs时候，就感觉到hdfs和mapreduce关系的紧密。这个可能阅读全文

posted @ 2017-08-02 16:50 小西红柿阅读(157) 评论(0) 推荐(0)

Hadoop 1.0 和 2.0 中的数据处理框架 - MapReduce

摘要：http://www.cnblogs.com/sammyliu/p/4396142.html 1. MapReduce - 映射、化简编程模型 1.1 MapReduce 的概念 1.1.1 map 和 reduce 1.1.2 shufftle 和排序 MapReduce 保证每个 reduce 阅读全文

posted @ 2017-08-02 16:21 小西红柿阅读(304) 评论(0) 推荐(0)

Spark性能优化指南——基础篇

摘要：https://tech.meituan.com/spark-tuning-basic.html 前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，阅读全文

posted @ 2017-08-01 20:58 小西红柿阅读(137) 评论(0) 推荐(0)

MapReduce的Shuffle和Spark的Shuffle机制对比

摘要：http://rocketeer.leanote.com/post/MapReduce%E7%9A%84Shuffle%E5%92%8CSpark%E7%9A%84Shuffle%E6%9C%BA%E5%88%B6%E5%AF%B9%E6%AF%94 1：MapReduce的Shuffle机制：在阅读全文

posted @ 2017-08-01 20:57 小西红柿阅读(618) 评论(0) 推荐(0)

SPARK 学习: SPARK 原理简述与 SHUFFLE 过程介绍

摘要：http://www.debugrun.com/a/9IFKepu.html SPARK学习: 简述总结 Spark 是使用 scala 实现的基于内存计算的大数据开源集群计算环境.提供了 java,scala, python,R 等语言的调用接口. Spark学习简述总结引言 1 Hadoop 阅读全文

posted @ 2017-08-01 20:31 小西红柿阅读(964) 评论(0) 推荐(0)

Hive 中的复合数据结构简介以及一些函数的用法说明

摘要：https://my.oschina.net/leejun2005/blog/120463#comment-list 目前 hive 支持的复合数据类型有以下几种： map (key1, value1, key2, value2, ...) Creates a map with the given 阅读全文

posted @ 2017-07-14 09:17 小西红柿阅读(256) 评论(0) 推荐(0)

从hadoop发展角度彻底明白hadoop1.x与hadoop2.x的区别

摘要：http://www.aboutyun.com/thread-19771-1-1.html 问题导读1.hadoop1.x改造如果是两个jobtraker，你认为解决了什么问题？2.hadoop1.x改造如果是两个jobtraker，你认为未解决了什么问题？3.你如何看待hadoop2.x的yarn 阅读全文

posted @ 2017-07-09 21:29 小西红柿阅读(191) 评论(0) 推荐(0)

Hadoop学习笔记：MapReduce框架详解

摘要：http://blog.jobbole.com/84089/ 开始聊mapreduce，mapreduce是hadoop的计算框架，我学hadoop是从hive开始入手，再到hdfs，当我学习hdfs时候，就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关，我开始学习某阅读全文

posted @ 2017-07-09 21:22 小西红柿阅读(159) 评论(0) 推荐(0)

1、MapReduce理论简介

摘要：http://www.cnblogs.com/gaopeng527/p/5436820.html 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。简单地说，阅读全文

posted @ 2017-07-09 18:56 小西红柿阅读(299) 评论(0) 推荐(0)

HDFS详解

摘要：https://my.oschina.net/crxy/blog/348868 摘要: HDFS体系结构中有两类节点，一类是NameNode，又叫"元数据节点"；另一类是DataNode，又叫"数据节点"。这两类节点分别承担Master和Worker具体任务的执行节点。 HDFS体系结构中有两类节点阅读全文

posted @ 2017-07-08 20:40 小西红柿阅读(446) 评论(0) 推荐(0)

文章分类 - 大数据（Hadoop、HBase、Redis、Hive等）