文章分类 -  大数据(Hadoop、HBase、Redis、Hive等)

Kafka介绍
摘要:https://www.cnblogs.com/yepei/p/6197236.html Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一个分布式的,可划分的,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。 在大数据 阅读全文

posted @ 2018-09-11 14:14 小西红柿 阅读(271) 评论(0) 推荐(0) 编辑

Kafka常用命令行总结
摘要:https://www.jianshu.com/p/cfedb7122e38 以下是kafka常用命令行总结: 1.查看topic的详细信息 ./kafka-topics.sh -zookeeper127.0.0.1:2181-describe -topic testKJ1 2、为topic增加副本 阅读全文

posted @ 2018-03-27 11:57 小西红柿 阅读(128) 评论(0) 推荐(0) 编辑

【消息队列MQ】各类MQ比较
摘要:http://blog.csdn.net/sunxinhere/article/details/7968886 目前业界有很多MQ产品,我们作如下对比: RabbitMQ 是使用Erlang编写的一个开源的消息队列,本身支持很多的协议:AMQP,XMPP, SMTP, STOMP,也正是如此,使的它 阅读全文

posted @ 2017-11-28 17:33 小西红柿 阅读(246) 评论(0) 推荐(0) 编辑

hadoop基本操作
摘要:http://blog.csdn.net/lifuxiangcaohui/article/details/22413903 在这篇文章中,我们默认认为Hadoop环境已经由运维人员配置好直接可以使用。 假设hadoop的安装目录HADOOP_HOME为/home/admin/hadoop。 启动与关 阅读全文

posted @ 2017-09-04 23:14 小西红柿 阅读(226) 评论(0) 推荐(0) 编辑

用通俗易懂的大白话讲解Map/Reduce原理
摘要:http://blog.csdn.net/lifuxiangcaohui/article/details/22675437 Hadoop简介Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Had 阅读全文

posted @ 2017-09-02 23:02 小西红柿 阅读(167) 评论(0) 推荐(0) 编辑

如何将Mapreduce程序转换成Spark程序
摘要:https://www.iteblog.com/archives/1111.html 本文详细地介绍了如何将Hadoop上的Mapreduce程序转换成Spark的应用程序。有兴趣的可以参考一下:The key to getting the most out of Spark is to under 阅读全文

posted @ 2017-08-02 20:48 小西红柿 阅读(276) 评论(0) 推荐(0) 编辑

MapReduce:详细介绍Shuffle的执行过程
摘要:https://www.iteblog.com/archives/1119.html Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。 阅读全文

posted @ 2017-08-02 20:47 小西红柿 阅读(162) 评论(0) 推荐(0) 编辑

hadoop学习笔记:hadoop文件系统浅析
摘要:http://www.cnblogs.com/sharpxiajun/archive/2013/06/15/3137765.html 1.什么是分布式文件系统? 管理网络中跨多台计算机存储的文件系统称为分布式文件系统。 2.为什么需要分布式文件系统了? 原因很简单,当数据集的大小超过一台独立物理计算 阅读全文

posted @ 2017-08-02 20:37 小西红柿 阅读(166) 评论(0) 推荐(0) 编辑

Hadoop集群(第8期)_HDFS初探之旅
摘要:http://www.cnblogs.com/xia520pi/archive/2012/05/28/2520813.html 1、HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式 阅读全文

posted @ 2017-08-02 17:28 小西红柿 阅读(100) 评论(0) 推荐(0) 编辑

Hadoop集群(第6期)_WordCount运行详解
摘要:http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html 1、MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同 阅读全文

posted @ 2017-08-02 17:27 小西红柿 阅读(95) 评论(0) 推荐(0) 编辑

hadoop 学习笔记:mapreduce框架详解
摘要:http://www.cnblogs.com/sharpxiajun/p/3151395.html 开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能 阅读全文

posted @ 2017-08-02 16:50 小西红柿 阅读(147) 评论(0) 推荐(0) 编辑

Hadoop 1.0 和 2.0 中的数据处理框架 - MapReduce
摘要:http://www.cnblogs.com/sammyliu/p/4396142.html 1. MapReduce - 映射、化简编程模型 1.1 MapReduce 的概念 1.1.1 map 和 reduce 1.1.2 shufftle 和 排序 MapReduce 保证每个 reduce 阅读全文

posted @ 2017-08-02 16:21 小西红柿 阅读(296) 评论(0) 推荐(0) 编辑

Spark性能优化指南——基础篇
摘要:https://tech.meituan.com/spark-tuning-basic.html 前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作, 阅读全文

posted @ 2017-08-01 20:58 小西红柿 阅读(115) 评论(0) 推荐(0) 编辑

MapReduce的Shuffle和Spark的Shuffle机制对比
摘要:http://rocketeer.leanote.com/post/MapReduce%E7%9A%84Shuffle%E5%92%8CSpark%E7%9A%84Shuffle%E6%9C%BA%E5%88%B6%E5%AF%B9%E6%AF%94 1:MapReduce的Shuffle机制: 在 阅读全文

posted @ 2017-08-01 20:57 小西红柿 阅读(577) 评论(0) 推荐(0) 编辑

SPARK 学习: SPARK 原理简述与 SHUFFLE 过程介绍
摘要:http://www.debugrun.com/a/9IFKepu.html SPARK学习: 简述总结 Spark 是使用 scala 实现的基于内存计算的大数据开源集群计算环境.提供了 java,scala, python,R 等语言的调用接口. Spark学习 简述总结 引言 1 Hadoop 阅读全文

posted @ 2017-08-01 20:31 小西红柿 阅读(947) 评论(0) 推荐(0) 编辑

Hive 中的复合数据结构简介以及一些函数的用法说明
摘要:https://my.oschina.net/leejun2005/blog/120463#comment-list 目前 hive 支持的复合数据类型有以下几种: map (key1, value1, key2, value2, ...) Creates a map with the given 阅读全文

posted @ 2017-07-14 09:17 小西红柿 阅读(237) 评论(0) 推荐(0) 编辑

从hadoop发展角度彻底明白hadoop1.x与hadoop2.x的区别
摘要:http://www.aboutyun.com/thread-19771-1-1.html 问题导读1.hadoop1.x改造如果是两个jobtraker,你认为解决了什么问题?2.hadoop1.x改造如果是两个jobtraker,你认为未解决了什么问题?3.你如何看待hadoop2.x的yarn 阅读全文

posted @ 2017-07-09 21:29 小西红柿 阅读(152) 评论(0) 推荐(0) 编辑

Hadoop学习笔记:MapReduce框架详解
摘要:http://blog.jobbole.com/84089/ 开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某 阅读全文

posted @ 2017-07-09 21:22 小西红柿 阅读(148) 评论(0) 推荐(0) 编辑

1、MapReduce理论简介
摘要:http://www.cnblogs.com/gaopeng527/p/5436820.html 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说, 阅读全文

posted @ 2017-07-09 18:56 小西红柿 阅读(276) 评论(0) 推荐(0) 编辑

HDFS详解
摘要:https://my.oschina.net/crxy/blog/348868 摘要: HDFS体系结构中有两类节点,一类是NameNode,又叫"元数据节点";另一类是DataNode,又叫"数据节点"。这两类节点分别承担Master和Worker具体任务的执行节点。 HDFS体系结构中有两类节点 阅读全文

posted @ 2017-07-08 20:40 小西红柿 阅读(393) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示