02 2023 档案
摘要:题目 给定一个字符串 s ,请你找出其中不含有重复字符的 最长子串 的长度。 今天做题时间有点晚,之前学习算法与数据结构,解决方法好像是用kmp算法来着,今天想发一下暴力解决该问题的思路。 就是双重循环,首先定义一个HashSet,HashSet的数据结构是适合解决这题的。 HashSet的特点,H
阅读全文
摘要:先看题目: 给你两个 非空 的链表,表示两个非负的整数。它们每位数字都是按照 逆序 的方式存储的,并且每个节点只能存储 一位 数字。 请你将两个数相加,并以相同形式返回一个表示和的链表。 你可以假设除了数字 0 之外,这两个数都不会以 0 开头。 示例 1: 输入:l1 = [2,4,3], l2
阅读全文
摘要:题目一: 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数,并返回它们的数组下标。 你可以假设每种输入只会对应一个答案。但是,数组中同一个元素在答案里不能重复出现。 你可以按任意顺序返回答案。 提示: 2 <= nums.le
阅读全文
摘要:在Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle. Map方法输出的数据会获得对应的分区,进入环形缓冲区(缓冲区一半写索引,另一半写数据)。数据达到缓冲区的80%会发生溢写。在溢写之前会对key索引进行快排(按照数据字典),最后对分区进行归并排序。在归并后还可进行对数据的压缩
阅读全文
摘要:(1)程序先找到数据存储的目录 (2)遍历目录对每个文件进行切片 (3)遍历一个文件: 获取文件大小 计算切片大小 默认情况下,切片大小等于blocksize 每次切片时都要判断剩下部分师否大于块的1.1倍,小于1.1划分为1个切片 讲切片信息写到一个切片规划文件中 整个切片的核心过程在getSpl
阅读全文
摘要:原理一:切片与MapTask并行度决定机制 MapTask之前了解到了,他是在分布式程序在map阶段的一个进程,管理之一个map任务类似于一个master。那么什么是切片? 说起切片,很明显就是对数据的切分。在之前了解到数据是以block(数据块)的形式传输到集群上的,block是对数据的物理切分。
阅读全文
摘要:上周读完资深架构师王概凯的9篇“架构漫谈”文章,我深有所感。也逐渐有了对软件架构的初步了解。再结合本学期软件体系结构这门课程在此发表一下我对架构的认识和理解,如有什么不对之处也欢迎大家前来指正,我也诚心接受大家的批评和建议。 首先对于“架构”的概念,我想先了解他是如何产生,也就是为什么会有架构会更容
阅读全文
摘要:序列化定义 把内存中的数据持久化(把内存中的对象转换为字节码文件存储带磁盘上)和网络传输。 反序列化定义 反序列化就是把接收到的字节序列(或其它协议传输的数据)或持久化的磁盘数据转换为内存对象。 为什么进行序列化操作? 一般内存对象断电时就会消失,而且只能由本地进程去使用,序列化就可以存储内存对象并
阅读全文
摘要:MapReduce是一种分布式运算程序的编程框架,是用户开发“基于hadoop数据分析应用”的核心框架。 核心功能是用户编写的业务逻辑代码和系统自带的组件组合在一起,构成一个分布式运算程序,并发运行在Hadoop集群上。 MapReduce优缺点 MapReduce易于编程,简单实现它的接口,就可以
阅读全文
摘要:文件写入 (1)HDFSClient上传文件到集群,HDFSClient会创建本地的分布式文件系统(Distributed FileSystem),向集群NameNode请求上传文件 (2)NameNode检查目录树是否允许创建文件,检查权限,检查目录结构。然后给客户端做出响应。 (3)若响应可以上
阅读全文
摘要:知识点补充 HDFS优缺点: 优点 (1)高容错性。节点存放的副本比较多。 (2)适合处理大数据。 GB、TB、PB级别的数据都可以处理。 (3)可以构建在廉价的机器上,通过多副本机制来提高可靠性。 缺点 (1)不是低延时数据的处理,如毫秒级的数据操作(mysql) (2)无法高效地对大量小文件进行
阅读全文
摘要:hdfs解决hadoop海量数据的存储。 shell 命令(所有hadoop fs 可由 hdfs dfs代替) (1) 在hdfs上创建目录 hadoop fs -mkdir 目录名 (2) 本地文件的上传 hadoop fs -copyFromLocal 本地文件路径 目标目录路径 (复制) h
阅读全文
摘要:进入 hadoop的etc目录下找到配置文件 cd /opt/module/hadoop-3.1.3/etc/hadoop 配置core-site.xml 指定NameNode的地址 指定hadoop数据的存储目录 <configuration> <!-- 指定NameNode的地址 --> <pr
阅读全文
摘要:ssh-keygen -t rsa ssh-copy-id hadoop102 建议三台虚拟机都配置免密登录。 注意root用户仍需配置。
阅读全文
摘要:首先将模板虚拟机关机,进行对模板虚拟机的克隆。 选择完整克隆 克隆三台虚拟机。 注意虚拟机的移除与删除 打开hadoop102,修改ip地址与hostname 切换至root用户,或以root用户登录 vim /etc/sysconfig/network-scripts/ifcfg-ens33 vi
阅读全文
摘要:在安装好虚拟机软件后,进行IP配置 配置windows系统的ip 配置Vmware的ip 配置虚拟机的ip 首先 输入su root切换至root身份。 然后配置ip和网关 vim /etc/sysconfig/network-scripts/ifcfg-ens33 更改主机名 vim /etc/h
阅读全文