大数据技术与应用 - 随笔分类 - 几人著眼到青衫

MapReduce原理——Shuffle机制

摘要：在Map方法之后，Reduce方法之前的数据处理过程称之为Shuffle. Map方法输出的数据会获得对应的分区，进入环形缓冲区（缓冲区一半写索引，另一半写数据）。数据达到缓冲区的80%会发生溢写。在溢写之前会对key索引进行快排（按照数据字典），最后对分区进行归并排序。在归并后还可进行对数据的压缩阅读全文

posted @ 2023-02-22 20:16 几人著眼到青衫阅读(80) 评论(0) 推荐(0) 编辑

MapReduce原理——切片代码分析

摘要：（1）程序先找到数据存储的目录（2）遍历目录对每个文件进行切片（3）遍历一个文件：获取文件大小计算切片大小默认情况下，切片大小等于blocksize 每次切片时都要判断剩下部分师否大于块的1.1倍，小于1.1划分为1个切片讲切片信息写到一个切片规划文件中整个切片的核心过程在getSpl 阅读全文

posted @ 2023-02-22 09:19 几人著眼到青衫阅读(51) 评论(0) 推荐(0) 编辑

MapReduce框架原理

摘要：原理一：切片与MapTask并行度决定机制 MapTask之前了解到了，他是在分布式程序在map阶段的一个进程，管理之一个map任务类似于一个master。那么什么是切片？说起切片，很明显就是对数据的切分。在之前了解到数据是以block（数据块）的形式传输到集群上的，block是对数据的物理切分。阅读全文

posted @ 2023-02-21 23:44 几人著眼到青衫阅读(85) 评论(0) 推荐(0) 编辑

Hadoop序列化

摘要：序列化定义把内存中的数据持久化（把内存中的对象转换为字节码文件存储带磁盘上）和网络传输。反序列化定义反序列化就是把接收到的字节序列（或其它协议传输的数据）或持久化的磁盘数据转换为内存对象。为什么进行序列化操作？一般内存对象断电时就会消失，而且只能由本地进程去使用，序列化就可以存储内存对象并阅读全文

posted @ 2023-02-19 11:10 几人著眼到青衫阅读(34) 评论(0) 推荐(0) 编辑

MapReduce概述

摘要：MapReduce是一种分布式运算程序的编程框架，是用户开发“基于hadoop数据分析应用”的核心框架。核心功能是用户编写的业务逻辑代码和系统自带的组件组合在一起，构成一个分布式运算程序，并发运行在Hadoop集群上。 MapReduce优缺点 MapReduce易于编程，简单实现它的接口，就可以阅读全文

posted @ 2023-02-18 23:12 几人著眼到青衫阅读(155) 评论(0) 推荐(0) 编辑

HDFS读写数据流程

摘要：文件写入（1）HDFSClient上传文件到集群，HDFSClient会创建本地的分布式文件系统（Distributed FileSystem），向集群NameNode请求上传文件（2）NameNode检查目录树是否允许创建文件，检查权限，检查目录结构。然后给客户端做出响应。（3）若响应可以上阅读全文

posted @ 2023-02-17 12:42 几人著眼到青衫阅读(42) 评论(0) 推荐(0) 编辑

HDFS文件块

摘要：知识点补充 HDFS优缺点：优点（1）高容错性。节点存放的副本比较多。（2）适合处理大数据。 GB、TB、PB级别的数据都可以处理。（3）可以构建在廉价的机器上，通过多副本机制来提高可靠性。缺点（1）不是低延时数据的处理，如毫秒级的数据操作（mysql）（2）无法高效地对大量小文件进行阅读全文

posted @ 2023-02-17 12:14 几人著眼到青衫阅读(102) 评论(0) 推荐(0) 编辑

hdfs操作——hdfs的shell命令和hdfs的JavaAPI操作

摘要：hdfs解决hadoop海量数据的存储。 shell 命令（所有hadoop fs 可由 hdfs dfs代替） (1) 在hdfs上创建目录 hadoop fs -mkdir 目录名 (2) 本地文件的上传 hadoop fs -copyFromLocal 本地文件路径目标目录路径（复制） h 阅读全文

posted @ 2023-02-16 23:53 几人著眼到青衫阅读(236) 评论(0) 推荐(0) 编辑

hadoop集群配置

摘要：进入 hadoop的etc目录下找到配置文件 cd /opt/module/hadoop-3.1.3/etc/hadoop 配置core-site.xml 指定NameNode的地址指定hadoop数据的存储目录 <configuration>  <pr 阅读全文

posted @ 2023-02-15 19:41 几人著眼到青衫阅读(43) 评论(0) 推荐(0) 编辑

配置ssh免密登录

摘要：ssh-keygen -t rsa ssh-copy-id hadoop102 建议三台虚拟机都配置免密登录。注意root用户仍需配置。阅读全文

posted @ 2023-02-15 15:15 几人著眼到青衫阅读(12) 评论(0) 推荐(0) 编辑

hadoop克隆三台虚拟机安装JDK和hadoop并配置环境变量

摘要：首先将模板虚拟机关机，进行对模板虚拟机的克隆。选择完整克隆克隆三台虚拟机。注意虚拟机的移除与删除打开hadoop102，修改ip地址与hostname 切换至root用户，或以root用户登录 vim /etc/sysconfig/network-scripts/ifcfg-ens33 vi 阅读全文

posted @ 2023-02-15 14:58 几人著眼到青衫阅读(144) 评论(0) 推荐(0) 编辑

hadoop模板虚拟机配置

摘要：在安装好虚拟机软件后，进行IP配置配置windows系统的ip 配置Vmware的ip 配置虚拟机的ip 首先输入su root切换至root身份。然后配置ip和网关 vim /etc/sysconfig/network-scripts/ifcfg-ens33 更改主机名 vim /etc/h 阅读全文

posted @ 2023-02-14 23:49 几人著眼到青衫阅读(23) 评论(0) 推荐(0) 编辑

软件工程

随笔分类 - 大数据技术与应用

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

文章分类

阅读排行榜