摘要: 一、hadoop2.0安装部署流程 1、自动安装部署:Ambari、Minos(小米)、Cloudera Manager(收费) 2、使用RPM包安装部署:Apache hadoop不支持、HDP与CDH提供 3、使用jar包安装部署:各版本均提供。(初期为了理解hadoop,建议使用这种方式) 部署流程: ... 阅读全文
posted @ 2015-11-15 22:12 于辰 阅读(798) 评论(0) 推荐(0) 编辑
摘要: 一、HDFS概述 优点:高容错性、适合批处理、适合大数据处理、流式文件访问:一次写入,多次读取。 缺点:不适合低延迟数据访问、不适合小文件存取(受限于NameNode)、不适合并发写入。 二、HDFS基本架构和原理 考虑一个问题:如何实现一个分布式文件系统? 业务场景:目前有几个T级别的大文件,有数个大容量存储主机。 ... 阅读全文
posted @ 2015-11-15 20:25 于辰 阅读(2101) 评论(0) 推荐(0) 编辑
摘要: 原文地址:http://www.ttlsa.com/log-system/scribe-chukwa-kafka-flume-log-system-contrast/ 1. 背景介绍许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:(1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;(2... 阅读全文
posted @ 2015-11-15 19:09 于辰 阅读(246) 评论(0) 推荐(0) 编辑
摘要: 一、hadoop生态系统特点 开源、社区活跃、涉及分布式存储和计算的整个生态系统、已得到企业界验证。 hadoop1.0与2.0版本的比较: 1.0包含HDFS+MapReduce。 2.0包括HDFS+YARN+MapReduce+Others 主要区别在于引入了YARN层。集群资源管理层。二、h... 阅读全文
posted @ 2015-11-15 18:48 于辰 阅读(358) 评论(0) 推荐(0) 编辑
摘要: 一、Linux命令: 1、fdisk -l; //查看所有的分区 2、fdisk /dev/sdb; // 对某个分区进行操作 3、mkfs;//磁盘格式化,例如: mkfs -t ext4 /dev/sdb3 4、dumpe2fs /dev/sdb2;//观察文件系统:显示superblock、block数量、空闲block、group等信息 5、free -m; 查看内存和swap信... 阅读全文
posted @ 2015-11-15 14:01 于辰 阅读(320) 评论(0) 推荐(0) 编辑