2020 年 6月随笔档案 - 来自遥远的水星

Hive(十)【窗口函数】

摘要：一.定义官网介绍：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+WindowingAndAnalytics 窗口函数属于sql中比较高级的函数，mysql从8.0版本才支持窗口函数，mysql5.6,5.7都有窗口函阅读全文

posted @ 2020-06-30 21:04 来自遥远的水星阅读(426) 评论(0) 推荐(0) 编辑

Hive(九)【自定义函数】

摘要：###自定义函数 Hive 自带了一些函数，比如：max/min等，但是数量有限，自己可以通过自定义UDF来方便的扩展。当Hive提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数（UDF：user-defined function）。用户自定义函数类别分为以下三种 UDF 阅读全文

posted @ 2020-06-30 19:01 来自遥远的水星阅读(1608) 评论(1) 推荐(0) 编辑

Hive(八)【行转列、列转行】

摘要：一.行转列相关函数 concat CONCAT(string A/col, string B/col…)：对字符串按次序进行拼接返回类 concat_ws concat_ws(string SEP, string A, string B...):与concat()类似，但使用指定的分隔符喜进行分阅读全文

posted @ 2020-06-30 00:24 来自遥远的水星阅读(2218) 评论(0) 推荐(0) 编辑

Hive(七)【内置函数】

摘要：一.系统内置函数 1.查看系统自带内置函数 show functions; 2.查看函数的具体用法如查看upper函数 desc function extended upper; 二.常用内置函数 1.数学函数 round round(DOUBLE a)：返回对a四舍五入的BIGINT值 roun 阅读全文

posted @ 2020-06-29 21:25 来自遥远的水星阅读(233) 评论(0) 推荐(0) 编辑

Hive(六)【分区表、分桶表】

摘要：一.分区表 1.本质 hive存在问题：hive里面没有索引机制，每次查询的时候，hive会暴力扫描整张表；而分区表的本质就是分目录，按照业务需求，把数据分成多个目录存储，然后查询的时候就可以通过where条件指定对应的分区； 2.创建分区表 create table dept_partition( 阅读全文

posted @ 2020-06-29 19:33 来自遥远的水星阅读(353) 评论(0) 推荐(0) 编辑

Hive(五)【DQL数据查询】

摘要：一. 基本查询 1.1 算数运算符运算符描述 A+B A和B 相加 A-B A减去B A*B A和B 相乘 A/B A除以B A%B A对B取余 A&B A和B按位取与 A|B A和B按位取或 A^B A和B按位取异或 ~A A按位取反案例查询所有员工的薪水然后加1 select sal+1 阅读全文

posted @ 2020-06-28 19:47 来自遥远的水星阅读(211) 评论(0) 推荐(0) 编辑

Hive(四)【DML 数据导入导出】

摘要：一.数据导入 1.1 【load】--向数据中装载数据 load data [local] inpath '数据的路径' [overwrite] into table 表名 [partition('属性'='值'，...)]; --load data:表示加载数据 --local:从本地加载数据到h 阅读全文

posted @ 2020-06-28 18:03 来自遥远的水星阅读(272) 评论(0) 推荐(0) 编辑

Hive(三)【DDL 数据定义】

摘要：一.DDL数据定义 1.库的DDL 1.1创建数据库 CREATE DATABASE [IF NOT EXISTS] database_name --指定数据库名称 [COMMENT database_comment] --指定数据库描述 [LOCATION hdfs_path] --指定创建的数据阅读全文

posted @ 2020-06-27 15:54 来自遥远的水星阅读(195) 评论(0) 推荐(0) 编辑

Hive(二)【数据类型、类型转换】

摘要：一.基本数据类型 HIVE MySQL JAVA 长度例子 TINYINT TINYINT byte 1byte有符号整数 2 SMALINT SMALINT short 2byte有符号整数 20 INT INT int 4byte有符号整数 20 BIGINT BIGINT long 8byt 阅读全文

posted @ 2020-06-26 11:19 来自遥远的水星阅读(6229) 评论(0) 推荐(0) 编辑

DBeaver客户端工具连接Hive

摘要：介绍在hive命令行beeline中写一些很长的查询语句不是很方便，急需一个hive的客户端界面工具 DBeaver 是一个通用的数据库管理工具和 SQL 客户端，支持 MySQL, Hive,PostgreSQL, Oracle, DB2, MSSQL, Sybase, Mimer, HSQLD 阅读全文

posted @ 2020-06-25 00:07 来自遥远的水星阅读(1022) 评论(0) 推荐(0) 编辑

Hive(一)【基本概念、安装】

摘要：一. Hive基本概念 1.1 Hive是什么 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。 Hive本质 : Hive其实就是将用户写的HQL，给翻译成对应的mr模板，然后执行这些mr程序,hive底层执行引擎其实就是MapReduc 阅读全文

posted @ 2020-06-23 23:08 来自遥远的水星阅读(681) 评论(0) 推荐(0) 编辑

Hadoop【Hadoop-HA搭建(HDFS、YARN)】

摘要：0.HDFS-HA的工作机制问题：因为hdfs的中心就是namenode，而我们的集群只有一台服务器安装了nn，如果这台服务器挂掉，整个集群瘫痪，这个就是典型的单点故障，搭建HA其实就是为了解决单点故障问题解决办法：安装多台nn 此方案有如下问题需要解决？ a）多个nn内部元数据的数据一致性的问阅读全文

posted @ 2020-06-23 22:56 来自遥远的水星阅读(455) 评论(0) 推荐(0) 编辑

Notepad++【远程操作linux文件】

摘要：目的通过Notepad++远程登录linux主机，修改配置文件预期效果在Notepad++上登录linux主机hadoop102，修改配置文件，保存即可操作步骤 1.打开插件查看是否已经安装NppFTP插件若已安装则跳到第3步；若未安装打开插件管理安装NppFTP 2.安装NppFTP 阅读全文

posted @ 2020-06-23 19:41 来自遥远的水星阅读(457) 评论(0) 推荐(0) 编辑

Zookeeper【概述、安装、原理、使用】

摘要：第1章 Zookeeper入门 1.1 概述 Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。 1.2 特点 1.3 数据结构 1.4应用场景统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡等第2章 Zookeep安装 2.1 下载地阅读全文

posted @ 2020-06-22 21:10 来自遥远的水星阅读(392) 评论(0) 推荐(0) 编辑

Hadoop【MR的分区、排序、分组】

摘要：一.分区问题：按照条件将结果输出到不同文件中自定义分区步骤 1.自定义继承Partitioner类，重写getPartition()方法 2.在job驱动Driver中设置自定义的Partitioner 3.在Driver中根据分区数设置reducetask数分区数和reducetask关系阅读全文

posted @ 2020-06-21 10:27 来自遥远的水星阅读(519) 评论(0) 推荐(0) 编辑

Hadoop【MR开发规范、序列化】

摘要：Hadoop【MR开发规范、序列化】一、MapReduce编程规范用户编写的程序分成三个部分：Mapper、Reducer和Driver 1.Mapper阶段（1）用户自定义Mapper要继承Mapper父类（2）Mapper的输入时K-V对的形式（K-V可自定义）（3）Mapper的业务阅读全文

posted @ 2020-06-17 00:06 来自遥远的水星阅读(226) 评论(0) 推荐(0) 编辑

HDFS【Namenode、SecondaryNamenode、Datanode】

摘要：一. NameNode和SecondaryNameNode 1.NN和2NN 工作机制思考：NameNode中的元数据是存储在哪里的？首先，我们做个假设，如果存储在NameNode节点的磁盘中，因为经常需要进行随机访问，还有响应客户请求，必然是效率过低。因此，元数据需要存放在内存中。但如果只存在阅读全文

posted @ 2020-06-15 23:03 来自遥远的水星阅读(403) 评论(0) 推荐(0) 编辑

HDFS【概述、数据流】

摘要：概述定义 HDFS是一个分布式文件管理系统优缺点优点（1）高容错多副本提高容错、某个副本丢失可以自动恢复（2）适合处理大数据能处理PB级别数据、能处理百万的文件数据量（3）可构建在廉价机器上缺点（1）不适合低时延数据访问（2）无法高效存储小文件（3）不支持并发写入和文件修阅读全文

posted @ 2020-06-14 18:52 来自遥远的水星阅读(178) 评论(0) 推荐(0) 编辑

HDFS【hadoop3.1.3 windows开发环境搭建】

摘要：一、配置hadoop3.1.3 windows环境依赖将 \资料\01_jar包\03_Windows依赖\hadoop-3.0.0放到任意一个目录配置环境变量 %HADOOP_HOME%：D:\SoftWare\hadoop-3.1.0 添加到path路径 %HADOOP_HOME%\bin 阅读全文

posted @ 2020-06-14 18:17 来自遥远的水星阅读(2481) 评论(0) 推荐(0) 编辑

HDFS【shell操作hdfs命令】

摘要：HDFS【shell操作hdfs命令】上传 -help：输出这个命令参数 hadoop fs -help rm -moveFromLocal：从本地剪切粘贴到HDFS hadoop fs -moveFromLocal ./kongming.txt /sanguo/shuguo -copyFromL 阅读全文

posted @ 2020-06-14 17:29 来自遥远的水星阅读(362) 评论(0) 推荐(0) 编辑

【MarkDown】--使用教程

摘要：MarkDown使用教程一. 常用设置 1.1 目录 +回车 1.2 标题一共6级标题根据需求自己设置 # 1级标题或者 <h1>一级标题</h1> ## 2级标题或者 <h2>二级标题</h2> 1.3 文本样式（1）引用 > + 空格 + 引用文本、代码注释引用文本、代码注释（2）阅读全文

posted @ 2020-06-14 12:15 来自遥远的水星阅读(212) 评论(0) 推荐(0) 编辑

HDFS【Java API操作】

摘要：通过java的api对hdfs的资源进行操作代码：上传、下载、删除、移动/修改、文件详情、判断目录or文件、IO流操作上传/下载 package com.atguigu.hdfsdemo; import org.apache.hadoop.conf.Configuration; import or 阅读全文

posted @ 2020-06-13 22:34 来自遥远的水星阅读(267) 评论(0) 推荐(0) 编辑

Linux 【复习巩固】

摘要：一.网络和服务 1.查看ip ifconfig 2.查看主机名配置 hostname 3.临时服务 1）基本语法（CentOS 6） service 服务名 start （功能描述：开启服务） service 服务名 stop （功能描述：关闭服务） service 服务名 restart （功能阅读全文

posted @ 2020-06-06 18:06 来自遥远的水星阅读(124) 评论(0) 推荐(0) 编辑

来自遥远的水星

06 2020 档案

积分与排名

随笔分类

随笔档案

阅读排行榜