2017年6月17日
摘要: 5 集群使用初步 5.1 HDFS使用 1、查看集群状态 命令: hdfs dfsadmin –report 可以看出,集群共有3个datanode可用 也可打开web控制台查看HDFS集群信息,在浏览器打开http://hdp-node-01:50070/ 2、上传文件到HDFS ² 查看HDFS 阅读全文
posted @ 2017-06-17 14:09 yfb 阅读(247) 评论(0) 推荐(0) 编辑
摘要: 4. 集群搭建 4.1 HADOOP集群搭建 4.1.1集群简介 HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起 HDFS集群: 负责海量数据的存储,集群中的角色主要有 NameNode / DataNode YARN集群: 负责海量数据运算时的资 阅读全文
posted @ 2017-06-17 14:06 yfb 阅读(297) 评论(0) 推荐(0) 编辑
摘要: 3. 离线数据分析流程介绍 注:本环节主要感受数据分析系统的宏观概念及处理流程,初步理解hadoop等框架在其中的应用环节,不用过于关注代码细节 一个应用广泛的数据分析系统:“web日志数据挖掘” 3.1 需求分析 3.1.1 案例名称 “网站或APP点击流日志数据挖掘系统”。 3.1.2 案例需求 阅读全文
posted @ 2017-06-17 14:01 yfb 阅读(2435) 评论(0) 推荐(0) 编辑
摘要: 2 分布式系统概述 注:由于大数据技术领域的各类技术框架基本上都是分布式系统,因此,理解hadoop、storm、spark等技术框架,都需要具备基本的分布式系统概念 2.1 分布式软件系统(Distributed Software Systems) ² 该软件系统会划分成多个子系统或模块,各自运行 阅读全文
posted @ 2017-06-17 13:56 yfb 阅读(295) 评论(0) 推荐(0) 编辑
摘要: 1. HADOOP背景介绍 1.1 什么是HADOOP 1. HADOOP是apache旗下的一套开源软件平台 2. HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理 3. HADOOP的核心组件有 A. HDFS(分布式文件系统) B. YARN(运算资源 阅读全文
posted @ 2017-06-17 13:55 yfb 阅读(2789) 评论(0) 推荐(0) 编辑