05 2021 档案
摘要:1.Hive新建分区表 create external table bmal.wall_log_url ( log_time string, log_key string, url_detail string, url_briefly string, url_action string, time_
阅读全文
摘要:过程: 此代码在shell中进行编辑,并采用crontab进行定时运行 1.先将每天的数据导导到一张临时表mal.wall_log_url_tmp表中,此表可为内部表 2.然后再将临时表的数据导入到目标表中 mal.wall_log_url #!/bin/sh # upload logs to hd
阅读全文
摘要:背景 项目中需要定时将本地文件上传至HDFS系统,按时间进行分目录存放,即每月1号生成一个月的目录,然后将这个月每天的数据存放在此目录下 实现逻辑: 通过判断当天日期,如果为本月一号,即先生成一个月的文件,然后再将数据存放在此目录下,如果不是当月1号,则直接把数据put到该目录下 export PA
阅读全文
摘要:背景 需要定时将本地文件上传到HDFS 中,为了方便操作,写了SHELL脚本定时上传,其代码如下,文件名为mkdir_file.sh export PATH =/opt/soft/hadoop-2.7.7/bin DAY=`date +%d` if [ $DAY -eq 1 ] then hdfs
阅读全文
摘要:使用`date +%y%m%d`例如: mkdir `log_date +%Y%m%d` tar cfvz /tmp/bak.`date +%y%m%d`.tar.gz /etccp /opt/data/wfbmall/16/wfbmall.log /opt/data/wfmall/16/histo
阅读全文
摘要:背景:虽然linux有自带python2.7 但是很多时候需要用到python3,故需要在linux上重新安装python3,由于python3的版本太高,由于出现一些问题,故尽量安装python3.6版 以下详细介绍以下python3.6.1的安装过程。 1.下载安装包,可以直接wget http
阅读全文
摘要:1.hive创建外部分区表,并将hdfs上的文件导入hive create external table db_hive_edu.wall_log_url ( log_time string, log_key string, url_detail string, url_briefly string
阅读全文
摘要:1. flume将本地日志按时间读取上传到hdfs上,编辑配置文件 file_wfbmall_log_hdfs.conf,其内容如下 a1.sources = r1 a1.sinks = k1 a1.channels = c1 a1.sources.r1.type = TAILDIR // posi
阅读全文
摘要:操作如下: 在运行文件的首行输入#! python解释器所在的绝对路径,记住是首行,上面不要有空行例如:#! /usr/local/bin/python3 注意:绝对路径在终端窗口中使用which python3命令来查找
阅读全文
摘要:Linux more 命令类似 cat ,不过会以一页一页的形式显示,更方便使用者逐页阅读,而最基本的指令就是按空白键(space)就往下一页显示,按 b 键就会往回(back)一页显示,而且还有搜寻字串的功能(与 vi 相似),使用中的说明文件,请按 h 。 1.查看文件 more file_na
阅读全文
摘要:1.直接用 cat test.txt | python test.py直接把解析结果输出到屏幕中,或者用more input.log | python test.py (more 可以将多行空行只显示为一行) 也可以输入到指定的文件中:cattest.txt | python test.py > o
阅读全文
摘要:一、在Linux中运行 首先在Linux中新建下面的目录,里面什么也不要放,然后进入到目录 /opt/data/mapreduce_test/ 1. 然后在里面创建一个test.txt文件,并往里面添加一些需要统计的单词, 2. 接着编辑mapper.py文件,vim mapper.py #!/us
阅读全文
摘要:一.HDFS文件授权 hadoop fs -chmod -R 777 /tmp 二.HDFS创建文件 hdfs dfs -mkdir /aaa 三.查看HDFS的文件 hdfs dfs -ls / #查询根目录文件夹 dfs -ls /flume/data #查看某个目录下的文件 四.本地文件上传至
阅读全文
摘要:在MapReduce整个过程可以概括为以下过程: input --> map --> shuffle --> reduce -->输出 输入文件会被切分成多个块,每一块都有一个map task map阶段的输出结果会先写到内存缓冲区,然后由缓冲区写到磁盘上。默认的缓冲区大小是100M,溢出的百分比是
阅读全文