Hadoop - 随笔分类 - yfb

HDFS详解

摘要：******HDFS基本概念篇****** 1. HDFS前言 l 设计思想分而治之：将大文件、大批量文件，分布式存放在大量服务器上，以便于采取分而治之的方式对海量数据进行运算分析； l 在大数据系统中作用：为各类分布式运算框架（如：mapreduce，spark，tez，……）提供数据存储服务阅读全文

posted @ 2017-06-23 19:07 yfb 阅读(528) 评论(0) 推荐(0)

操作Hadoop集群

摘要：操作Hadoop集群所有必要的配置完成后，将文件分发到所有机器上的HADOOP_CONF_DIR目录。这应该是所有机器上相同的目录。一般来说，建议HDFS和YARN作为单独的用户运行。在大多数安装中，HDFS进程作为“hdfs”执行。YARN通常使用“纱线”帐户。 Hadoop启动要启动Had 阅读全文

posted @ 2017-06-20 21:11 yfb 阅读(194) 评论(0) 推荐(0)

hadoop 3.0.0 alpha3 安装、配置

摘要：1. 官网下载 wget http://mirror.bit.edu.cn/apache/hadoop/common /hadoop-3.0.0-alpha3/hadoop-3.0.0-alpha3.tar.gz ..注意下载二进制（省时间） 1解压 tar -zxvf hadoop-3.0.0-a 阅读全文

posted @ 2017-06-18 01:43 yfb 阅读(1082) 评论(0) 推荐(0)

集群使用初步

摘要：5 集群使用初步 5.1 HDFS使用 1、查看集群状态命令： hdfs dfsadmin –report 可以看出，集群共有3个datanode可用也可打开web控制台查看HDFS集群信息，在浏览器打开http://hdp-node-01:50070/ 2、上传文件到HDFS ² 查看HDFS 阅读全文

posted @ 2017-06-17 14:09 yfb 阅读(285) 评论(0) 推荐(0)

集群搭建

摘要：4. 集群搭建 4.1 HADOOP集群搭建 4.1.1集群简介 HADOOP集群具体来说包含两个集群：HDFS集群和YARN集群，两者逻辑上分离，但物理上常在一起 HDFS集群：负责海量数据的存储，集群中的角色主要有 NameNode / DataNode YARN集群：负责海量数据运算时的资阅读全文

posted @ 2017-06-17 14:06 yfb 阅读(319) 评论(0) 推荐(0)

离线数据分析流程介绍

摘要：3. 离线数据分析流程介绍注：本环节主要感受数据分析系统的宏观概念及处理流程，初步理解hadoop等框架在其中的应用环节，不用过于关注代码细节一个应用广泛的数据分析系统：“web日志数据挖掘” 3.1 需求分析 3.1.1 案例名称 “网站或APP点击流日志数据挖掘系统”。 3.1.2 案例需求阅读全文

posted @ 2017-06-17 14:01 yfb 阅读(2505) 评论(0) 推荐(0)

分布式系统概述

摘要：2 分布式系统概述注：由于大数据技术领域的各类技术框架基本上都是分布式系统，因此，理解hadoop、storm、spark等技术框架，都需要具备基本的分布式系统概念 2.1 分布式软件系统(Distributed Software Systems) ² 该软件系统会划分成多个子系统或模块，各自运行阅读全文

posted @ 2017-06-17 13:56 yfb 阅读(316) 评论(0) 推荐(0)

HADOOP背景介绍

摘要：1. HADOOP背景介绍 1.1 什么是HADOOP 1. HADOOP是apache旗下的一套开源软件平台 2. HADOOP提供的功能：利用服务器集群，根据用户的自定义业务逻辑，对海量数据进行分布式处理 3. HADOOP的核心组件有 A. HDFS（分布式文件系统） B. YARN（运算资源阅读全文

posted @ 2017-06-17 13:55 yfb 阅读(2851) 评论(0) 推荐(0)

随笔分类 - Hadoop