06 2020 档案

摘要:一.定义 官网介绍:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+WindowingAndAnalytics 窗口函数属于sql中比较高级的函数,mysql从8.0版本才支持窗口函数,mysql5.6,5.7都有窗口函 阅读全文
posted @ 2020-06-30 21:04 来自遥远的水星 阅读(426) 评论(0) 推荐(0) 编辑
摘要:###自定义函数 Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。 用户自定义函数类别分为以下三种 UDF 阅读全文
posted @ 2020-06-30 19:01 来自遥远的水星 阅读(1608) 评论(1) 推荐(0) 编辑
摘要:一.行转列 相关函数 concat CONCAT(string A/col, string B/col…):对字符串按次序进行拼接 返回类 concat_ws concat_ws(string SEP, string A, string B...):与concat()类似,但使用指定的分隔符喜进行分 阅读全文
posted @ 2020-06-30 00:24 来自遥远的水星 阅读(2218) 评论(0) 推荐(0) 编辑
摘要:一.系统内置函数 1.查看系统自带内置函数 show functions; 2.查看函数的具体用法 如查看upper函数 desc function extended upper; 二.常用内置函数 1.数学函数 round round(DOUBLE a):返回对a四舍五入的BIGINT值 roun 阅读全文
posted @ 2020-06-29 21:25 来自遥远的水星 阅读(233) 评论(0) 推荐(0) 编辑
摘要:一.分区表 1.本质 hive存在问题:hive里面没有索引机制,每次查询的时候,hive会暴力扫描整张表;而分区表的本质就是分目录,按照业务需求,把数据分成多个目录存储,然后查询的时候就可以通过where条件指定对应的分区; 2.创建分区表 create table dept_partition( 阅读全文
posted @ 2020-06-29 19:33 来自遥远的水星 阅读(353) 评论(0) 推荐(0) 编辑
摘要:一. 基本查询 1.1 算数运算符 运算符 描述 A+B A和B 相加 A-B A减去B A*B A和B 相乘 A/B A除以B A%B A对B取余 A&B A和B按位取与 A|B A和B按位取或 A^B A和B按位取异或 ~A A按位取反 案例 查询所有员工的薪水然后加1 select sal+1 阅读全文
posted @ 2020-06-28 19:47 来自遥远的水星 阅读(211) 评论(0) 推荐(0) 编辑
摘要:一.数据导入 1.1 【load】--向数据中装载数据 load data [local] inpath '数据的路径' [overwrite] into table 表名 [partition('属性'='值',...)]; --load data:表示加载数据 --local:从本地加载数据到h 阅读全文
posted @ 2020-06-28 18:03 来自遥远的水星 阅读(272) 评论(0) 推荐(0) 编辑
摘要:一.DDL数据定义 1.库的DDL 1.1创建数据库 CREATE DATABASE [IF NOT EXISTS] database_name --指定数据库名称 [COMMENT database_comment] --指定数据库描述 [LOCATION hdfs_path] --指定创建的数据 阅读全文
posted @ 2020-06-27 15:54 来自遥远的水星 阅读(195) 评论(0) 推荐(0) 编辑
摘要:一.基本数据类型 HIVE MySQL JAVA 长度 例子 TINYINT TINYINT byte 1byte有符号整数 2 SMALINT SMALINT short 2byte有符号整数 20 INT INT int 4byte有符号整数 20 BIGINT BIGINT long 8byt 阅读全文
posted @ 2020-06-26 11:19 来自遥远的水星 阅读(6229) 评论(0) 推荐(0) 编辑
摘要:介绍 在hive命令行beeline中写一些很长的查询语句不是很方便,急需一个hive的客户端界面工具 DBeaver 是一个通用的数据库管理工具和 SQL 客户端,支持 MySQL, Hive,PostgreSQL, Oracle, DB2, MSSQL, Sybase, Mimer, HSQLD 阅读全文
posted @ 2020-06-25 00:07 来自遥远的水星 阅读(1022) 评论(0) 推荐(0) 编辑
摘要:一. Hive基本概念 1.1 Hive是什么 Hive是基于Hadoop的一个数据仓库工具 ,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 Hive本质 : Hive其实就是将用户写的HQL,给翻译成对应的mr模板,然后执行这些mr程序,hive底层执行引擎其实就是MapReduc 阅读全文
posted @ 2020-06-23 23:08 来自遥远的水星 阅读(681) 评论(0) 推荐(0) 编辑
摘要:0.HDFS-HA的工作机制 问题:因为hdfs的中心就是namenode,而我们的集群只有一台服务器安装了nn,如果这台服务器挂掉,整个集群瘫痪,这个就是典型的单点故障,搭建HA其实就是为了解决单点故障问题 解决办法:安装多台nn 此方案有如下问题需要解决? a)多个nn内部元数据的数据一致性的问 阅读全文
posted @ 2020-06-23 22:56 来自遥远的水星 阅读(455) 评论(0) 推荐(0) 编辑
摘要:目的 通过Notepad++远程登录linux主机,修改配置文件 预期效果 在Notepad++上登录linux主机hadoop102,修改配置文件,保存即可 操作步骤 1.打开插件 查看是否已经安装NppFTP插件 若已安装则跳到第3步;若未安装打开插件管理安装NppFTP 2.安装NppFTP 阅读全文
posted @ 2020-06-23 19:41 来自遥远的水星 阅读(457) 评论(0) 推荐(0) 编辑
摘要:第1章 Zookeeper入门 1.1 概述 Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。 1.2 特点 1.3 数据结构 1.4应用场景 统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡等 第2章 Zookeep安装 2.1 下载地 阅读全文
posted @ 2020-06-22 21:10 来自遥远的水星 阅读(392) 评论(0) 推荐(0) 编辑
摘要:一.分区 问题:按照条件将结果输出到不同文件中 自定义分区步骤 1.自定义继承Partitioner类,重写getPartition()方法 2.在job驱动Driver中设置自定义的Partitioner 3.在Driver中根据分区数设置reducetask数 分区数和reducetask关系 阅读全文
posted @ 2020-06-21 10:27 来自遥远的水星 阅读(519) 评论(0) 推荐(0) 编辑
摘要:Hadoop【MR开发规范、序列化】 一、MapReduce编程规范 用户编写的程序分成三个部分:Mapper、Reducer和Driver 1.Mapper阶段 (1)用户自定义Mapper要继承Mapper父类 (2)Mapper的输入时K-V对的形式(K-V可自定义) (3)Mapper的业务 阅读全文
posted @ 2020-06-17 00:06 来自遥远的水星 阅读(226) 评论(0) 推荐(0) 编辑
摘要:一. NameNode和SecondaryNameNode 1.NN和2NN 工作机制 思考:NameNode中的元数据是存储在哪里的? 首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在 阅读全文
posted @ 2020-06-15 23:03 来自遥远的水星 阅读(403) 评论(0) 推荐(0) 编辑
摘要:概述 定义 HDFS是一个分布式文件管理系统 优缺点 优点 (1)高容错 多副本提高容错、某个副本丢失可以自动恢复 (2)适合处理大数据 ​ 能处理PB级别数据、能处理百万的文件数据量 (3)可构建在廉价机器上 缺点 (1)不适合低时延数据访问 (2)无法高效存储小文件 (3)不支持并发写入和文件修 阅读全文
posted @ 2020-06-14 18:52 来自遥远的水星 阅读(178) 评论(0) 推荐(0) 编辑
摘要:一、配置hadoop3.1.3 windows环境依赖 将 \资料\01_jar包\03_Windows依赖\hadoop-3.0.0放到任意一个目录 配置环境变量 %HADOOP_HOME%:D:\SoftWare\hadoop-3.1.0 添加到path路径 %HADOOP_HOME%\bin 阅读全文
posted @ 2020-06-14 18:17 来自遥远的水星 阅读(2481) 评论(0) 推荐(0) 编辑
摘要:HDFS【shell操作hdfs命令】 上传 -help:输出这个命令参数 hadoop fs -help rm -moveFromLocal:从本地剪切粘贴到HDFS hadoop fs -moveFromLocal ./kongming.txt /sanguo/shuguo -copyFromL 阅读全文
posted @ 2020-06-14 17:29 来自遥远的水星 阅读(362) 评论(0) 推荐(0) 编辑
摘要:MarkDown使用教程 一. 常用设置 1.1 目录 +回车 1.2 标题 一共6级标题根据需求自己设置 # 1级标题 或者 <h1>一级标题</h1> ## 2级标题 或者 <h2>二级标题</h2> 1.3 文本样式 (1)引用 > + 空格 + 引用文本、代码注释 引用文本、代码注释 (2) 阅读全文
posted @ 2020-06-14 12:15 来自遥远的水星 阅读(212) 评论(0) 推荐(0) 编辑
摘要:通过java的api对hdfs的资源进行操作 代码:上传、下载、删除、移动/修改、文件详情、判断目录or文件、IO流操作上传/下载 package com.atguigu.hdfsdemo; import org.apache.hadoop.conf.Configuration; import or 阅读全文
posted @ 2020-06-13 22:34 来自遥远的水星 阅读(267) 评论(0) 推荐(0) 编辑
摘要:一.网络和服务 1.查看ip ifconfig 2.查看主机名 配置 hostname 3.临时服务 1)基本语法(CentOS 6) service 服务名 start (功能描述:开启服务) service 服务名 stop (功能描述:关闭服务) service 服务名 restart (功能 阅读全文
posted @ 2020-06-06 18:06 来自遥远的水星 阅读(124) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示