2019 年 12月随笔档案 - 一只竹节虫

ETL技术入门之ETL初认识

摘要：ETL是什么ETL是Extract Transform Load三个英文单词的缩写中文意思就是抽取、转换、加载。说到ETL就必须提到数据仓库。那么怎么把数据弄到数据仓库里去呢，其中用到的一个技术就是ETL。下面给下ETL的详细解释定义：ETL(Extract-Transform-Load的缩写阅读全文

posted @ 2019-12-26 15:23 一只竹节虫阅读(412) 评论(0) 推荐(0) 编辑

HIVE的数据倾斜

摘要：1、什么是数据倾斜？由于数据分布不均匀，造成数据大量的集中到一点，造成数据热点回到顶部 2、Hadoop 框架的特性 A、不怕数据大，怕数据倾斜 B、Jobs 数比较多的作业运行效率相对比较低，如子查询比较多 C、 sum,count,max,min 等聚集函数，通常不会有数据倾斜问题回到顶部阅读全文

posted @ 2019-12-25 17:38 一只竹节虫阅读(163) 评论(0) 推荐(0) 编辑

HIVE(2) 之常用函数

摘要：LAG(col,n,DEFAULT) 用于统计窗口内往上第n行值第一个参数为列名，第二个参数为往上第n行（可选，默认为1），第三个参数为默认值（当往上第n行为NULL时候，取默认值，如不指定，则为NULL）与LAG相反 LEAD(col,n,DEFAULT) 用于统计窗口内往下第n行值第一个参阅读全文

posted @ 2019-12-25 17:06 一只竹节虫阅读(221) 评论(0) 推荐(0) 编辑

HIVE的Shell操作

摘要：1、Hive支持的一些命令退出使用quit或exit离开交互式外壳。 set key = value使用它来设置特定配置变量的值。这里要注意的一件事是，如果您对变量名拼写错误，cli将不会显示错误。 set这将打印由用户或配置单元覆盖的配置变量列表。 set -v这将打印所有hadoop和hiv 阅读全文

posted @ 2019-12-24 20:53 一只竹节虫阅读(1131) 评论(0) 推荐(0) 编辑

HIVE常用函数(1)聚合函数和序列函数

摘要：SUM--sum（汇总字段） over （partition by 分组字段 order by 排序字段）如果不指定ROWS BETWEEN,默认为从起点到当前行;如果不指定ORDER BY，则将分组内所有值累加;关键是理解ROWS BETWEEN含义,也叫做WINDOW子句：PRECEDING：阅读全文

posted @ 2019-12-24 20:13 一只竹节虫阅读(1451) 评论(0) 推荐(0) 编辑

版本控制系统之SVN和GIT的区别

摘要：版本控制器的作用： 1. 可以协同代码管理，让多人开发代码得以实现。 2. 回归到以前的任何一个时间点的代码处（好比：开始写了很多代码，后面有修改了一些，突然IDE崩溃，但是发现还是以前的代码更好，这个时候无法回去，这个时候没有后悔药吃，但是可以使用版本备份，但是即花费空间和花费时间）。 3. 由于阅读全文

posted @ 2019-12-24 17:28 一只竹节虫阅读(612) 评论(0) 推荐(0) 编辑

Hive日期函数

摘要：-- 1、hive取得当前日期时间： -- 1.1) 取得当前日期： select current_date(); -- 1.2) 取得当前日期时间： select current_timestamp(); -- 1.3) hive取得当前时间戳： select unix_timestamp(); 阅读全文

posted @ 2019-12-19 19:25 一只竹节虫阅读(2319) 评论(0) 推荐(0) 编辑

Hive学内置条件和字符串函数

摘要：https://blog.csdn.net/skywalker_only/article/details/38752003 条件函数下表为Hive支持的一些条件函数。返回类型函数名描述 T if(boolean testCondition, T valueTrue, T valueFalse 阅读全文

posted @ 2019-12-19 19:17 一只竹节虫阅读(323) 评论(0) 推荐(0) 编辑

HIVE基本原理和基础

摘要：读时模式：HIVE加载数据时不校验，查询数据时才校验，与数据库相反阅读全文

posted @ 2019-12-19 17:20 一只竹节虫阅读(189) 评论(0) 推荐(0) 编辑

Linux之sed命令详解

摘要：sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾。文件内容并没有改变，除非你使用重定向存储输出。阅读全文

posted @ 2019-12-19 17:19 一只竹节虫阅读(294) 评论(0) 推荐(0) 编辑

shell编程基础干货

摘要：变量及赋值设置变量 A=‘china’ 取消变量 unset A 加上 export 关键字代表全局变量 a=$(ls -l /root/bin) ##运行里面的命令，并把结果返回给变量 a 特殊变量\ $$ 表示当前进程编号 $0 表示当前脚本名称 $n 表示 n 位置的输入参数（ n 代表数阅读全文

posted @ 2019-12-19 15:16 一只竹节虫阅读(230) 评论(0) 推荐(0) 编辑

HIVE的高级操作

摘要：二、视图 1、Hive 的视图和关系型数据库的视图区别和关系型数据库一样，Hive 也提供了视图的功能，不过请注意，Hive 的视图和关系型数据库的数据还是有很大的区别：（1）只有逻辑视图，没有物化视图；（2）视图只能查询，不能 Load/Insert/Update/Delete 数据；（3 阅读全文

posted @ 2019-12-17 17:37 一只竹节虫阅读(323) 评论(0) 推荐(0) 编辑

Linux service，挂载，定时任务等常用服务

摘要：一、防火墙防火墙根据配置文件/etc/sysconfig/iptables 来控制本机的“出、入”网络访问行为其对行为的配置策略有四个策 1、基础必备技能查看防火墙状态 service iptables status 开启防火墙 service iptables start 关闭防火墙 se 阅读全文

posted @ 2019-12-10 15:31 一只竹节虫阅读(629) 评论(0) 推荐(0) 编辑

Linux（二）高级文本处理

摘要：一、cut （cut 命令可以从一个文本文件或者文本流中提取文本列） 1、cut语法 cut -d '分隔字符' -f fields 用于有特定分隔字符 cut -c 字符区间用于排列整齐的信息选项与参数： -d：后面接分隔字符。与 -f 一起使用 -f：依据 -d 的分隔字符将一段信息分割成阅读全文

posted @ 2019-12-10 11:43 一只竹节虫阅读(220) 评论(0) 推荐(0) 编辑

Linux基本使用命令

摘要：一、常用命令归纳分类课外网站 http://man.linuxde.net/ http://www.jb51.net/linux/ https://jaywcjlove.github.io/linux-command/ 如果想查看命令的使用手册可以使用 man, 例如man clear 二、常用命阅读全文

posted @ 2019-12-10 11:18 一只竹节虫阅读(310) 评论(0) 推荐(0) 编辑

HIVE常用SQL语句及语法

摘要：HIVE建内部表语句 create table dll102.sougou (id string,pwd string,name string,count int,seqno int,address string) row format delimited fields terminated by 阅读全文

posted @ 2019-12-09 17:08 一只竹节虫阅读(4410) 评论(0) 推荐(0) 编辑

HIVE的数据类型

摘要：阅读全文

posted @ 2019-12-07 10:37 一只竹节虫阅读(138) 评论(0) 推荐(0) 编辑

HIVE的安装步骤及遇到的问题及解决方法

摘要：一.root 用户解压安装包二 chown -R hadoop:hadoop apache-hive-1.2.2-bin/ chmod -R 755 apache-hive-1.2.2-bin/ 三.切换 hadoop用户启动hadoop集群四.打开hive目录，运行./bin/hive H 阅读全文

posted @ 2019-12-06 15:57 一只竹节虫阅读(452) 评论(0) 推荐(0) 编辑

MapReduce计算原理及步骤

摘要：步骤：input从HDFS读取内容， split（）切割分片内容，key/value， map（）方法对输入的key/value进行计算处理，先写到内存，在内存中进行分区、排序，之后将Key/value写入磁盘对应分区 combiner方法（本地计算，不是所有都适用，目的是减少网络传输） shuff 阅读全文

posted @ 2019-12-05 11:19 一只竹节虫阅读(989) 评论(0) 推荐(0) 编辑

MapReduce分区数据倾斜

摘要：什么是数据倾斜？数据不可避免的出现离群值，并导致数据倾斜，数据倾斜会显著的拖慢MR的执行速度常见数据倾斜有以下几类 1.数据频率倾斜某一个区域的数据量要远远大于其他区域 2.数据大小倾斜一部分记录的大小远远大于平均值解决数据倾斜的常用方法阅读全文

posted @ 2019-12-05 11:12 一只竹节虫阅读(291) 评论(0) 推荐(0) 编辑

Hbase和Hive在大数据架构中处在不同位置

摘要：先放结论：Hbase和Hive在大数据架构中处在不同位置，Hbase主要解决实时数据查询问题，Hive主要解决数据处理和计算问题，一般是配合使用。一、区别：Hbase： Hadoop database 的简称，也就是基于Hadoop数据库，是一种NoSQL数据库，主要适用于海量明细数据（十亿、百亿）阅读全文

posted @ 2019-12-04 10:10 一只竹节虫阅读(249) 评论(0) 推荐(0) 编辑

一只竹节虫

12 2019 档案

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论