随笔档案「2021年5月」 - 欣欣姐

Hive常见操作

摘要：1.Hive新建分区表 create external table bmal.wall_log_url ( log_time string, log_key string, url_detail string, url_briefly string, url_action string, time_ 阅读全文

posted @ 2021-05-27 14:21 欣欣姐阅读(65) 评论(0) 推荐(0)

HDFS定时导入Hive的分区表

摘要：过程：此代码在shell中进行编辑，并采用crontab进行定时运行 1.先将每天的数据导导到一张临时表mal.wall_log_url_tmp表中，此表可为内部表 2.然后再将临时表的数据导入到目标表中 mal.wall_log_url #!/bin/sh # upload logs to hd 阅读全文

posted @ 2021-05-27 11:48 欣欣姐阅读(230) 评论(0) 推荐(0)

linux本地日志文件定时上传至HDFS

摘要：背景项目中需要定时将本地文件上传至HDFS系统，按时间进行分目录存放，即每月1号生成一个月的目录，然后将这个月每天的数据存放在此目录下实现逻辑：通过判断当天日期，如果为本月一号，即先生成一个月的文件，然后再将数据存放在此目录下，如果不是当月1号，则直接把数据put到该目录下 export PA 阅读全文

posted @ 2021-05-25 18:17 欣欣姐阅读(273) 评论(0) 推荐(0)

解决shell脚本使用hadoop 命令报错 command not found

摘要：背景需要定时将本地文件上传到HDFS 中，为了方便操作，写了SHELL脚本定时上传，其代码如下，文件名为mkdir_file.sh export PATH =/opt/soft/hadoop-2.7.7/bin DAY=`date +%d` if [ $DAY -eq 1 ] then hdfs 阅读全文

posted @ 2021-05-25 18:06 欣欣姐阅读(1209) 评论(0) 推荐(0)

Linux中复制文件时追加时间后缀

摘要：使用`date +%y%m%d`例如: mkdir `log_date +%Y%m%d` tar cfvz /tmp/bak.`date +%y%m%d`.tar.gz /etccp /opt/data/wfbmall/16/wfbmall.log /opt/data/wfmall/16/histo 阅读全文

posted @ 2021-05-24 14:50 欣欣姐阅读(1316) 评论(0) 推荐(0)

Linux系统安装Python3环境（详解）

摘要：背景：虽然linux有自带python2.7 但是很多时候需要用到python3，故需要在linux上重新安装python3，由于python3的版本太高，由于出现一些问题，故尽量安装python3.6版以下详细介绍以下python3.6.1的安装过程。 1.下载安装包，可以直接wget http 阅读全文

posted @ 2021-05-19 17:25 欣欣姐阅读(2342) 评论(0) 推荐(0)

Hive 建分区表并导入HDFS数据文件

摘要：1.hive创建外部分区表，并将hdfs上的文件导入hive create external table db_hive_edu.wall_log_url ( log_time string, log_key string, url_detail string, url_briefly string 阅读全文

posted @ 2021-05-19 10:06 欣欣姐阅读(1526) 评论(0) 推荐(0)

flume监控本地文件并上传至HDFS

摘要：1. flume将本地日志按时间读取上传到hdfs上，编辑配置文件 file_wfbmall_log_hdfs.conf，其内容如下 a1.sources = r1 a1.sinks = k1 a1.channels = c1 a1.sources.r1.type = TAILDIR // posi 阅读全文

posted @ 2021-05-18 14:17 欣欣姐阅读(700) 评论(0) 推荐(0)

Linux命令行运行.py脚本报错 import: 未找到命令

摘要：操作如下：在运行文件的首行输入#！ python解释器所在的绝对路径，记住是首行，上面不要有空行例如：#! /usr/local/bin/python3 注意：绝对路径在终端窗口中使用which python3命令来查找阅读全文

posted @ 2021-05-14 14:39 欣欣姐阅读(3446) 评论(0) 推荐(0)

Linux下more命令用法

摘要：Linux more 命令类似 cat ，不过会以一页一页的形式显示，更方便使用者逐页阅读，而最基本的指令就是按空白键（space）就往下一页显示，按 b 键就会往回（back）一页显示，而且还有搜寻字串的功能（与 vi 相似），使用中的说明文件，请按 h 。 1.查看文件 more file_na 阅读全文

posted @ 2021-05-11 14:18 欣欣姐阅读(498) 评论(0) 推荐(0)

python for line in sys.stdin解析文件调用方法

摘要：1.直接用 cat test.txt | python test.py直接把解析结果输出到屏幕中，或者用more input.log | python test.py （more 可以将多行空行只显示为一行）也可以输入到指定的文件中：cattest.txt | python test.py > o 阅读全文

posted @ 2021-05-11 11:52 欣欣姐阅读(2798) 评论(0) 推荐(0)

Python中的MapReduce以及在Hadoop环境下运行之词频统计

摘要：一、在Linux中运行首先在Linux中新建下面的目录，里面什么也不要放，然后进入到目录 /opt/data/mapreduce_test/ 1. 然后在里面创建一个test.txt文件,并往里面添加一些需要统计的单词， 2. 接着编辑mapper.py文件，vim mapper.py #!/us 阅读全文

posted @ 2021-05-10 17:50 欣欣姐阅读(897) 评论(0) 推荐(0)

Hadoop常用操作

摘要：一.HDFS文件授权 hadoop fs -chmod -R 777 /tmp 二.HDFS创建文件 hdfs dfs -mkdir /aaa 三.查看HDFS的文件 hdfs dfs -ls / #查询根目录文件夹 dfs -ls /flume/data #查看某个目录下的文件四.本地文件上传至阅读全文

posted @ 2021-05-10 11:46 欣欣姐阅读(52) 评论(0) 推荐(0)

MapReduce的工作原理

摘要：在MapReduce整个过程可以概括为以下过程： input --> map --> shuffle --> reduce -->输出输入文件会被切分成多个块，每一块都有一个map task map阶段的输出结果会先写到内存缓冲区，然后由缓冲区写到磁盘上。默认的缓冲区大小是100M，溢出的百分比是阅读全文

posted @ 2021-05-07 17:58 欣欣姐阅读(570) 评论(0) 推荐(0)

欣欣姐

05 2021 档案

公告