随笔分类 - 大数据
摘要:今天在完成作业的时候,运用Sqoop将大数据导出到Mysql里面,执行命令以后运行到runninf job就卡住了,就去查日志,折腾好长时间,还发现一个有趣的现象,虽然卡住,但是过一会刷新mysql能显示有数据,重复了好多次,发现都是这样的,百度去查问题的解决办法,一部分人说改文件配置,还有一部分人
阅读全文
摘要:Xshell使用的时候,使用右侧数字键盘时数字的时候,数字变成英文字母了。 解决方法:解决办法:点击文件-属性(快捷键alt+P)然后在VT模式中的数字键盘模式修改为【设置为普通】,(注意不是【普通】,第三个而不是第一个!)
阅读全文
摘要:MapReduce 定义:MapReduce是一个分布式运算程序的编程框架,是由用户开发"基于Hadoop的数据分析应用"的核心框架。 功能:核心功能是将用户编写的业务逻辑代码和自带默认组件整和成一个完整的分布式运算程序,并发布运行在一个Hadoop集群上。 MapReduce:自己处理相关业务代码
阅读全文
摘要:文件的更名和移动: 获取文件详细信息 遇到的问题:不能直接在web上上传文件。 权限问题:修改后即可正常创建 参考:https://blog.csdn.net/weixin_44575660/article/details/118687993
阅读全文
摘要:参数优先级: 拿副本数举例子,优先级: hdfs-default.xml => hadfs.xml => 在项目资源目录下的优先级高 => 代码里的配置优先级高 文件下载: 结果: 删除操作:
阅读全文
摘要:客户端代码格式: 1、获取一个客户端对象 2、执行相关的操作命令 3、关闭资源 简单的创建文件目录操作 代码可以进行封装,封装完成后: 运行结果: 遇到的问题: 解决办法: 将pom文件中 junit的引用设置scope为compile
阅读全文
摘要:HDFS API操作 在Windows上操作hadoop,需要添加hadoop依赖,我的hadoop是3.3.1版本的,我用的依赖是3.2.0的,需要配置环境变量 PATH添加如下路径: 然后双击依赖中的 一闪而过就是成功的。 在maven项目中添加如下依赖 <dependencies> <!--
阅读全文
摘要:HDFS文件块 HDFS的文件在物理上是分块存储 块的大小可以通过配置参数来规定,一般是2^n,2.x/3.x是128M,1.x中是64M。 块设置的太大,会增大处理时间。 块设置的太小,会增加寻址时间。 HDFS块大小设置主要取决于磁盘传输速率。 HDFS的SHell操作 命令首先启动Hadoop
阅读全文
摘要:集群时间同步 为了使三台服务器的时间一致,而且服务器没有连接外网的话,需要进行集群时间同步。一般虚拟机的时间是同步的,所以这个过程我们不需要配置。 下面开始学习Hadoop_HDFS hdfs解决海量问题的存储问题,是一个文件系统。用来存储文件,通过目录树来定位文件,分布式的,适合一次写入,多次读出
阅读全文
摘要:一些命令 各个模块分开启动/停止(配置SSH是前提) 整体启动/停止HDFS start-dfs.sh/stop-dfs.sh 2.整体启动/停止YARN start-yarn.sh/stop-yarn.sh 各个服务组件逐一启动/停止 分别启动/停止HDFS组件 hdfs --daemon sta
阅读全文
摘要:配置日志的聚集(图片是错误的,导致找了好长时间的错误) yarn-site.xml文件 <!--开启日志聚合--><property> <name>yarn.log-aggregation-enable</name> <value>true</value></property> <!--设置日志聚集
阅读全文
摘要:配置历史服务器 配置mapred-site.xml文件 <!--历史服务器地址--><property> <name>mapreduce.jobhistory.address</name> <value>hadoop102:10020</value></property> <!--指定历史服务器we
阅读全文
摘要:测试: 创建空目录: 创建成功: 上传小文件: 上传成功 上传大文件: 文件的存储位置: 当遇到故障时候,先停掉集群,再删除每个集群的data和logs,最后再格式化。 再次启动集群就可以了 发现的问题:上传文件成功后没有提示
阅读全文
摘要:配置workers 进入hadoop/etc/hadoop 编辑workers文件 然后分发给另外两个服务器 准备启动集群 第一次需要初始化. 初始化完成后增加了data文件 , 进入上面那个路径,就能看到当前服务器的版本号 启动HDFS 启动完毕 102 103 104 在配置了ResourseM
阅读全文
摘要:集群配置 NameNode 和SecondaryNameNode不要安装在同一台服务器上 ResourceManager也很耗内存,不要和NameNode、SecondaryNameNode放在一台服务器上 配置文件 Hadoop配置文件分为默认配置文件和自定义配置文件 自定义配置文件: 核心全局配
阅读全文
摘要:实现SSH免密登陆 1、在A服务器上创建密钥对(公钥和私钥) 输入这个命令后,四次回车 2、将公钥拷贝给B服务器,授权key 3、ssh访问B服务器 4、B服务器接收数据后,去授权key中查找A服务器的公钥,并解密数据 5、采用A公钥加密的数据返回给A 6、接收数据后,用A的私钥解密数据 配置102
阅读全文
摘要:rsync 远程同步工具 rsync -av $pdir/$fname $user@$host:$pdir/$fname 参数 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称 选项 功能 -a 归档拷贝 -v 显示复制过程 每次输入命令太过复杂,可以完成一个集群分发脚本。 1、rsync
阅读全文
摘要:今天学习Hadoop运行模式:Local Mode、Pseudo-Distributed Mode、Fully-Distributed Mode Local Mode:数据存储在linux本地 执行命令时,输出路径不能存在。 一开始出现了错误,显示的两个文档都是空的,原因是创建输入文档的时候,在ha
阅读全文