12 2019 档案

摘要:ETL是什么ETL是Extract Transform Load三个英文单词的缩写 中文意思就是抽取、转换、加载。说到ETL就必须提到数据仓库。 那么怎么把数据弄到数据仓库里去呢,其中用到的一个技术就是ETL。 下面给下ETL的详细解释定义:ETL(Extract-Transform-Load的缩写 阅读全文
posted @ 2019-12-26 15:23 一只竹节虫 阅读(412) 评论(0) 推荐(0) 编辑
摘要:1、什么是数据倾斜? 由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点 回到顶部 2、Hadoop 框架的特性 A、不怕数据大,怕数据倾斜 B、Jobs 数比较多的作业运行效率相对比较低,如子查询比较多 C、 sum,count,max,min 等聚集函数,通常不会有数据倾斜问题 回到顶部 阅读全文
posted @ 2019-12-25 17:38 一只竹节虫 阅读(163) 评论(0) 推荐(0) 编辑
摘要:LAG(col,n,DEFAULT) 用于统计窗口内往上第n行值 第一个参数为列名,第二个参数为往上第n行(可选,默认为1),第三个参数为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL) 与LAG相反 LEAD(col,n,DEFAULT) 用于统计窗口内往下第n行值 第一个参 阅读全文
posted @ 2019-12-25 17:06 一只竹节虫 阅读(221) 评论(0) 推荐(0) 编辑
摘要:1、Hive支持的一些命令 退出使用quit或exit离开交互式外壳。 set key = value使用它来设置特定配置变量的值。 这里要注意的一件事是,如果您对变量名拼写错误,cli将不会显示错误。 set这将打印由用户或配置单元覆盖的配置变量列表。 set -v这将打印所有hadoop和hiv 阅读全文
posted @ 2019-12-24 20:53 一只竹节虫 阅读(1131) 评论(0) 推荐(0) 编辑
摘要:SUM--sum(汇总字段) over (partition by 分组字段 order by 排序字段) 如果不指定ROWS BETWEEN,默认为从起点到当前行;如果不指定ORDER BY,则将分组内所有值累加;关键是理解ROWS BETWEEN含义,也叫做WINDOW子句:PRECEDING: 阅读全文
posted @ 2019-12-24 20:13 一只竹节虫 阅读(1451) 评论(0) 推荐(0) 编辑
摘要:版本控制器的作用: 1. 可以协同代码管理,让多人开发代码得以实现。 2. 回归到以前的任何一个时间点的代码处(好比:开始写了很多代码,后面有修改了一些,突然IDE崩溃,但是发现还是以前的代码更好,这个时候无法回去,这个时候没有后悔药吃,但是可以使用版本备份,但是即花费空间和花费时间)。 3. 由于 阅读全文
posted @ 2019-12-24 17:28 一只竹节虫 阅读(612) 评论(0) 推荐(0) 编辑
摘要:-- 1、hive取得当前日期时间: -- 1.1) 取得当前日期: select current_date(); -- 1.2) 取得当前日期时间: select current_timestamp(); -- 1.3) hive取得当前时间戳: select unix_timestamp(); 阅读全文
posted @ 2019-12-19 19:25 一只竹节虫 阅读(2319) 评论(0) 推荐(0) 编辑
摘要:https://blog.csdn.net/skywalker_only/article/details/38752003 条件函数 下表为Hive支持的一些条件函数。 返回类型 函数名 描述 T if(boolean testCondition, T valueTrue, T valueFalse 阅读全文
posted @ 2019-12-19 19:17 一只竹节虫 阅读(323) 评论(0) 推荐(0) 编辑
摘要:读时模式:HIVE加载数据时不校验,查询数据时才校验,与数据库相反 阅读全文
posted @ 2019-12-19 17:20 一只竹节虫 阅读(189) 评论(0) 推荐(0) 编辑
摘要:sed 是一种在线编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有 改变,除非你使用重定向存储输出。 阅读全文
posted @ 2019-12-19 17:19 一只竹节虫 阅读(294) 评论(0) 推荐(0) 编辑
摘要:变量及赋值 设置变量 A=‘china’ 取消变量 unset A 加上 export 关键字 代表全局变量 a=$(ls -l /root/bin) ##运行里面的命令,并把结果返回给变量 a 特殊变量\ $$ 表示当前进程编号 $0 表示当前脚本名称 $n 表示 n 位置的输入参数( n 代表数 阅读全文
posted @ 2019-12-19 15:16 一只竹节虫 阅读(230) 评论(0) 推荐(0) 编辑
摘要:二、视图 1、Hive 的视图和关系型数据库的视图区别 和关系型数据库一样,Hive 也提供了视图的功能,不过请注意,Hive 的视图和关系型数据库的数据还是有很大的区别: (1)只有逻辑视图,没有物化视图; (2)视图只能查询,不能 Load/Insert/Update/Delete 数据; (3 阅读全文
posted @ 2019-12-17 17:37 一只竹节虫 阅读(323) 评论(0) 推荐(0) 编辑
摘要:一、防火墙 防火墙根据配置文件/etc/sysconfig/iptables 来控制本机的“出、入”网络访问行为 其对行为的配置策略有四个策 1、 基础必备技能 查看防火墙状态 service iptables status 开启防火墙 service iptables start 关闭防火墙 se 阅读全文
posted @ 2019-12-10 15:31 一只竹节虫 阅读(629) 评论(0) 推荐(0) 编辑
摘要:一、cut (cut 命令可以从一个文本文件或者文本流中提取文本列 ) 1、cut语法 cut -d '分隔字符' -f fields 用于有特定分隔字符 cut -c 字符区间 用于排列整齐的信息 选项与参数: -d:后面接分隔字符。与 -f 一起使用 -f:依据 -d 的分隔字符将一段信息分割成 阅读全文
posted @ 2019-12-10 11:43 一只竹节虫 阅读(220) 评论(0) 推荐(0) 编辑
摘要:一、常用命令归纳分类 课外网站 http://man.linuxde.net/ http://www.jb51.net/linux/ https://jaywcjlove.github.io/linux-command/ 如果想查看命令的使用手册可以使用 man, 例如man clear 二、常用命 阅读全文
posted @ 2019-12-10 11:18 一只竹节虫 阅读(310) 评论(0) 推荐(0) 编辑
摘要:HIVE建内部表语句 create table dll102.sougou (id string,pwd string,name string,count int,seqno int,address string) row format delimited fields terminated by 阅读全文
posted @ 2019-12-09 17:08 一只竹节虫 阅读(4410) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-12-07 10:37 一只竹节虫 阅读(138) 评论(0) 推荐(0) 编辑
摘要:一.root 用户 解压安装包 二 chown -R hadoop:hadoop apache-hive-1.2.2-bin/ chmod -R 755 apache-hive-1.2.2-bin/ 三.切换 hadoop用户 启动hadoop集群 四.打开hive目录,运行./bin/hive H 阅读全文
posted @ 2019-12-06 15:57 一只竹节虫 阅读(452) 评论(0) 推荐(0) 编辑
摘要:步骤:input从HDFS读取内容, split()切割分片内容,key/value, map()方法对输入的key/value进行计算处理,先写到内存,在内存中进行分区、排序,之后将Key/value写入磁盘对应分区 combiner方法(本地计算,不是所有都适用,目的是减少网络传输) shuff 阅读全文
posted @ 2019-12-05 11:19 一只竹节虫 阅读(989) 评论(0) 推荐(0) 编辑
摘要:什么是数据倾斜? 数据不可避免的出现离群值,并导致数据倾斜,数据倾斜会显著的拖慢MR的执行速度 常见数据倾斜有以下几类 1.数据频率倾斜 某一个区域的数据量要远远大于其他区域 2.数据大小倾斜 一部分记录的大小远远大于平均值 解决数据倾斜的常用方法 阅读全文
posted @ 2019-12-05 11:12 一只竹节虫 阅读(291) 评论(0) 推荐(0) 编辑
摘要:先放结论:Hbase和Hive在大数据架构中处在不同位置,Hbase主要解决实时数据查询问题,Hive主要解决数据处理和计算问题,一般是配合使用。一、区别:Hbase: Hadoop database 的简称,也就是基于Hadoop数据库,是一种NoSQL数据库,主要适用于海量明细数据(十亿、百亿) 阅读全文
posted @ 2019-12-04 10:10 一只竹节虫 阅读(249) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示