随笔分类 - HADOOP
摘要:1.查看mysql服务是否在运行 2.在登陆时一直报错如下 解决方案: 需要指定ip,因为mysql安装在docker环境中(虚拟化技术,容器化,例如在一个虚拟机可以隔离出一个环境安装一个东西)
阅读全文
摘要:1、Hdfs的block和spark的partition有什么区别吗? 在hdfs中的block是分布式存储的最小单元,等分,并且可以设置冗余,这样设计会出现一部分磁盘空间的浪费,但是整齐的block大小,便于快速找到,读取对应的内容,例如快手利用hdfs来进行存储视频。 Spark中的pariti
阅读全文
摘要:背景 项目中需要定时将本地文件上传至HDFS系统,按时间进行分目录存放,即每月1号生成一个月的目录,然后将这个月每天的数据存放在此目录下 实现逻辑: 通过判断当天日期,如果为本月一号,即先生成一个月的文件,然后再将数据存放在此目录下,如果不是当月1号,则直接把数据put到该目录下 export PA
阅读全文
摘要:背景 需要定时将本地文件上传到HDFS 中,为了方便操作,写了SHELL脚本定时上传,其代码如下,文件名为mkdir_file.sh export PATH =/opt/soft/hadoop-2.7.7/bin DAY=`date +%d` if [ $DAY -eq 1 ] then hdfs
阅读全文
摘要:一、在Linux中运行 首先在Linux中新建下面的目录,里面什么也不要放,然后进入到目录 /opt/data/mapreduce_test/ 1. 然后在里面创建一个test.txt文件,并往里面添加一些需要统计的单词, 2. 接着编辑mapper.py文件,vim mapper.py #!/us
阅读全文
摘要:一.HDFS文件授权 hadoop fs -chmod -R 777 /tmp 二.HDFS创建文件 hdfs dfs -mkdir /aaa 三.查看HDFS的文件 hdfs dfs -ls / #查询根目录文件夹 dfs -ls /flume/data #查看某个目录下的文件 四.本地文件上传至
阅读全文
摘要:在MapReduce整个过程可以概括为以下过程: input --> map --> shuffle --> reduce -->输出 输入文件会被切分成多个块,每一块都有一个map task map阶段的输出结果会先写到内存缓冲区,然后由缓冲区写到磁盘上。默认的缓冲区大小是100M,溢出的百分比是
阅读全文