随笔分类 -  大数据技术与应用

摘要:在Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle. Map方法输出的数据会获得对应的分区,进入环形缓冲区(缓冲区一半写索引,另一半写数据)。数据达到缓冲区的80%会发生溢写。在溢写之前会对key索引进行快排(按照数据字典),最后对分区进行归并排序。在归并后还可进行对数据的压缩 阅读全文
posted @ 2023-02-22 20:16 几人著眼到青衫 阅读(80) 评论(0) 推荐(0) 编辑
摘要:(1)程序先找到数据存储的目录 (2)遍历目录对每个文件进行切片 (3)遍历一个文件: 获取文件大小 计算切片大小 默认情况下,切片大小等于blocksize 每次切片时都要判断剩下部分师否大于块的1.1倍,小于1.1划分为1个切片 讲切片信息写到一个切片规划文件中 整个切片的核心过程在getSpl 阅读全文
posted @ 2023-02-22 09:19 几人著眼到青衫 阅读(51) 评论(0) 推荐(0) 编辑
摘要:原理一:切片与MapTask并行度决定机制 MapTask之前了解到了,他是在分布式程序在map阶段的一个进程,管理之一个map任务类似于一个master。那么什么是切片? 说起切片,很明显就是对数据的切分。在之前了解到数据是以block(数据块)的形式传输到集群上的,block是对数据的物理切分。 阅读全文
posted @ 2023-02-21 23:44 几人著眼到青衫 阅读(85) 评论(0) 推荐(0) 编辑
摘要:序列化定义 把内存中的数据持久化(把内存中的对象转换为字节码文件存储带磁盘上)和网络传输。 反序列化定义 反序列化就是把接收到的字节序列(或其它协议传输的数据)或持久化的磁盘数据转换为内存对象。 为什么进行序列化操作? 一般内存对象断电时就会消失,而且只能由本地进程去使用,序列化就可以存储内存对象并 阅读全文
posted @ 2023-02-19 11:10 几人著眼到青衫 阅读(34) 评论(0) 推荐(0) 编辑
摘要:MapReduce是一种分布式运算程序的编程框架,是用户开发“基于hadoop数据分析应用”的核心框架。 核心功能是用户编写的业务逻辑代码和系统自带的组件组合在一起,构成一个分布式运算程序,并发运行在Hadoop集群上。 MapReduce优缺点 MapReduce易于编程,简单实现它的接口,就可以 阅读全文
posted @ 2023-02-18 23:12 几人著眼到青衫 阅读(155) 评论(0) 推荐(0) 编辑
摘要:文件写入 (1)HDFSClient上传文件到集群,HDFSClient会创建本地的分布式文件系统(Distributed FileSystem),向集群NameNode请求上传文件 (2)NameNode检查目录树是否允许创建文件,检查权限,检查目录结构。然后给客户端做出响应。 (3)若响应可以上 阅读全文
posted @ 2023-02-17 12:42 几人著眼到青衫 阅读(42) 评论(0) 推荐(0) 编辑
摘要:知识点补充 HDFS优缺点: 优点 (1)高容错性。节点存放的副本比较多。 (2)适合处理大数据。 GB、TB、PB级别的数据都可以处理。 (3)可以构建在廉价的机器上,通过多副本机制来提高可靠性。 缺点 (1)不是低延时数据的处理,如毫秒级的数据操作(mysql) (2)无法高效地对大量小文件进行 阅读全文
posted @ 2023-02-17 12:14 几人著眼到青衫 阅读(102) 评论(0) 推荐(0) 编辑
摘要:hdfs解决hadoop海量数据的存储。 shell 命令(所有hadoop fs 可由 hdfs dfs代替) (1) 在hdfs上创建目录 hadoop fs -mkdir 目录名 (2) 本地文件的上传 hadoop fs -copyFromLocal 本地文件路径 目标目录路径 (复制) h 阅读全文
posted @ 2023-02-16 23:53 几人著眼到青衫 阅读(236) 评论(0) 推荐(0) 编辑
摘要:进入 hadoop的etc目录下找到配置文件 cd /opt/module/hadoop-3.1.3/etc/hadoop 配置core-site.xml 指定NameNode的地址 指定hadoop数据的存储目录 <configuration> <!-- 指定NameNode的地址 --> <pr 阅读全文
posted @ 2023-02-15 19:41 几人著眼到青衫 阅读(43) 评论(0) 推荐(0) 编辑
摘要:ssh-keygen -t rsa ssh-copy-id hadoop102 建议三台虚拟机都配置免密登录。 注意root用户仍需配置。 阅读全文
posted @ 2023-02-15 15:15 几人著眼到青衫 阅读(12) 评论(0) 推荐(0) 编辑
摘要:首先将模板虚拟机关机,进行对模板虚拟机的克隆。 选择完整克隆 克隆三台虚拟机。 注意虚拟机的移除与删除 打开hadoop102,修改ip地址与hostname 切换至root用户,或以root用户登录 vim /etc/sysconfig/network-scripts/ifcfg-ens33 vi 阅读全文
posted @ 2023-02-15 14:58 几人著眼到青衫 阅读(144) 评论(0) 推荐(0) 编辑
摘要:在安装好虚拟机软件后,进行IP配置 配置windows系统的ip 配置Vmware的ip 配置虚拟机的ip 首先 输入su root切换至root身份。 然后配置ip和网关 vim /etc/sysconfig/network-scripts/ifcfg-ens33 更改主机名 vim /etc/h 阅读全文
posted @ 2023-02-14 23:49 几人著眼到青衫 阅读(23) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示