HADOOP - 随笔分类 - 欣欣姐

摘要：1.查看mysql服务是否在运行 2.在登陆时一直报错如下解决方案：需要指定ip，因为mysql安装在docker环境中（虚拟化技术，容器化，例如在一个虚拟机可以隔离出一个环境安装一个东西）阅读全文

posted @ 2022-01-06 16:31 欣欣姐

摘要：1、Hdfs的block和spark的partition有什么区别吗？在hdfs中的block是分布式存储的最小单元，等分，并且可以设置冗余，这样设计会出现一部分磁盘空间的浪费，但是整齐的block大小，便于快速找到，读取对应的内容，例如快手利用hdfs来进行存储视频。 Spark中的pariti 阅读全文

posted @ 2021-07-06 18:19 欣欣姐阅读(282) 评论(0) 推荐(0)

linux本地日志文件定时上传至HDFS

摘要：背景项目中需要定时将本地文件上传至HDFS系统，按时间进行分目录存放，即每月1号生成一个月的目录，然后将这个月每天的数据存放在此目录下实现逻辑：通过判断当天日期，如果为本月一号，即先生成一个月的文件，然后再将数据存放在此目录下，如果不是当月1号，则直接把数据put到该目录下 export PA 阅读全文

posted @ 2021-05-25 18:17 欣欣姐阅读(272) 评论(0) 推荐(0)

解决shell脚本使用hadoop 命令报错 command not found

摘要：背景需要定时将本地文件上传到HDFS 中，为了方便操作，写了SHELL脚本定时上传，其代码如下，文件名为mkdir_file.sh export PATH =/opt/soft/hadoop-2.7.7/bin DAY=`date +%d` if [ $DAY -eq 1 ] then hdfs 阅读全文

posted @ 2021-05-25 18:06 欣欣姐阅读(1208) 评论(0) 推荐(0)

Python中的MapReduce以及在Hadoop环境下运行之词频统计

摘要：一、在Linux中运行首先在Linux中新建下面的目录，里面什么也不要放，然后进入到目录 /opt/data/mapreduce_test/ 1. 然后在里面创建一个test.txt文件,并往里面添加一些需要统计的单词， 2. 接着编辑mapper.py文件，vim mapper.py #!/us 阅读全文

posted @ 2021-05-10 17:50 欣欣姐阅读(897) 评论(0) 推荐(0)

Hadoop常用操作

摘要：一.HDFS文件授权 hadoop fs -chmod -R 777 /tmp 二.HDFS创建文件 hdfs dfs -mkdir /aaa 三.查看HDFS的文件 hdfs dfs -ls / #查询根目录文件夹 dfs -ls /flume/data #查看某个目录下的文件四.本地文件上传至阅读全文

posted @ 2021-05-10 11:46 欣欣姐阅读(52) 评论(0) 推荐(0)

MapReduce的工作原理

摘要：在MapReduce整个过程可以概括为以下过程： input --> map --> shuffle --> reduce -->输出输入文件会被切分成多个块，每一块都有一个map task map阶段的输出结果会先写到内存缓冲区，然后由缓冲区写到磁盘上。默认的缓冲区大小是100M，溢出的百分比是阅读全文

posted @ 2021-05-07 17:58 欣欣姐阅读(570) 评论(0) 推荐(0)

欣欣姐

随笔分类 - HADOOP

公告