摘要: 3.3.1 HDFS文件上传 3.3.2 HDFS文件下载 3.3.3 定位文件读取 4.1 HDFS写数据流程 (1)客户端通过Distributed FileSystem模块向NamNode节点请求上传文件,NameNode检查目标文件是否存在,父目录是否存在 (2)NamNode返回是否可以上 阅读全文
posted @ 2020-03-13 20:15 拔丝小红薯 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-03-10 10:57 拔丝小红薯 阅读(118) 评论(0) 推荐(0) 编辑
摘要: 一:MapReduce定义 MapReduce是一个分布式运算程序的编程框架,是用户开发"基于Hadoop的数据分析应用"的核心框架。 它的核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并运行在Hadoop集群上。 二:MapReduce优缺点 1:优点 (1)它易 阅读全文
posted @ 2020-03-10 10:42 拔丝小红薯 阅读(379) 评论(0) 推荐(0) 编辑
摘要: YARN负责管理调度各个节点上的内存。 阅读全文
posted @ 2020-03-10 10:31 拔丝小红薯 阅读(75) 评论(0) 推荐(0) 编辑
摘要: HDFS负责将数据存储到各个节点,以及管理它们。 阅读全文
posted @ 2020-03-10 10:22 拔丝小红薯 阅读(95) 评论(0) 推荐(0) 编辑
摘要: 一:什么是Hadoop? (1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构 (2)主要解决海量数据的存储和计算问题 (3)广义来讲,Hadoop指的是Hadoop生态圈 二:Hadoop三大发行版本 (1)Apache:最基础原始的版本,适合入门学习 (2)Cloudera:在 阅读全文
posted @ 2020-03-10 09:57 拔丝小红薯 阅读(224) 评论(0) 推荐(0) 编辑
摘要: 一:hadoop1.x和hadoop2.x区别 答:Hadoop1.x由MapReduce(数据计算和资源调度)、HDFS(数据存储)、Common(辅助工具组成) Hadoop2.x中将MapReduce中的资源调度功能提取出来形成了一个新的模块,也就是Yarn。 这样可以降低耦合度,MapRed 阅读全文
posted @ 2020-03-09 21:50 拔丝小红薯 阅读(124) 评论(0) 推荐(0) 编辑
摘要: 一:什么是大数据 大数据本身指的是海量的数据 数据存储单位:bit Byte KB MB GB TB PB EB ZB YB BB NB DB 工作所说的大数据是解决海量数据的存储和海量数据的分析计算的一种处理模式 二:大数据特点 1:Volume(大量) 当前,典型个人计算机硬盘的容量为TB级别, 阅读全文
posted @ 2020-03-09 15:49 拔丝小红薯 阅读(2791) 评论(0) 推荐(0) 编辑
摘要: 一:Shell脚本文件的创建和使用 1:创建 命令:touch 脚本名字,sh 例子:touch jb.sh 注意点:(1)Shell脚本的后缀是sh (2)脚本内第一行要加上一行代码:#!/bin/bash 意思是指定解析器 2:2种使用方法 (1)bash [脚本路径] 参数1 参数2... ( 阅读全文
posted @ 2020-03-08 10:56 拔丝小红薯 阅读(138) 评论(0) 推荐(0) 编辑
摘要: 一:nosql和sql的比较 优点: 1)成本:nosql数据库简单易部署,基本都是开源软件,不需要像使用oracle那样花费大量成本购买使用,相比关系型数据库价格便宜。 2)查询速度:nosql数据库将数据存储于缓存(内存)之中,关系型数据库将数据存储在硬盘中,自然查询速度远不及nosql数据库。 阅读全文
posted @ 2020-03-05 18:45 拔丝小红薯 阅读(115) 评论(0) 推荐(0) 编辑