摘要: 查询语法 翻译版 原文:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select 选择语法 [WITH CommonTableExpression (, CommonTableExpression)*] (Note: 阅读全文
posted @ 2020-08-04 17:24 shaoyayu 阅读(810) 评论(0) 推荐(0) 编辑
摘要: Hive DDL 中文文档 总览 HiveQL DDL语句在此处记录,包括: 创建数据库/架构,表,视图,函数,索引 删除数据库/架构,表,视图,索引 截断表 ALTER DATABASE / SCHEMA,表格,视图 MSCK维修表(或更改表恢复分区) 显示数据库/架构,表,TBL属性,视图,分区 阅读全文
posted @ 2020-08-04 17:23 shaoyayu 阅读(407) 评论(0) 推荐(0) 编辑
摘要: HIVE DML 中文文档 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML 将文件加载到表中 Hive在将数据加载到表中时不会进行任何转换。加载操作当前是纯复制/移动操作,可将数据文件移动到与Hive表相对应的位 阅读全文
posted @ 2020-08-04 17:21 shaoyayu 阅读(225) 评论(0) 推荐(0) 编辑
摘要: Hive 其他 Hive Lateral View hive Lateral View Lateral View用于和UDTF函数(explode、 split) 结合来使用。 首先通过UDTF函数拆分成多行,再将多行结果组合成一个支持别名的虚拟表。 主要解决在select使用UDTF做查询过程中, 阅读全文
posted @ 2020-08-04 17:05 shaoyayu 阅读(169) 评论(0) 推荐(0) 编辑
摘要: Hive 运行方式、GUI接口和权限管理 Hive 运行方式 1、 命令行方式CLI :控制台方式 ​ 不光是可以执行HSQL命令,还可以执行DFS命令, 也可以执行本地系统命令,如 hive > ! ls / 2、脚本运行方式 (生产环境中应用很多) []$ hive -e "select * f 阅读全文
posted @ 2020-08-04 17:03 shaoyayu 阅读(547) 评论(0) 推荐(0) 编辑
摘要: Hive 分桶 1、hive分桶 分桶表是对列值取哈希值的方式,将不同数据放到不同文件中存储。 对于hive中每一 个表分区都可以进一 步进行分桶。 由列的哈希值除以桶的个数来决定每条数据划分在哪个桶中。 适用场景: 数据抽样(sampling ) 2、开启支持分桶 开启分桶 set hive.en 阅读全文
posted @ 2020-08-04 17:01 shaoyayu 阅读(270) 评论(0) 推荐(0) 编辑
摘要: Hive 动态分区 Hive 参数 hive 参数、变量 hive当中的参数、变量,都是以命名空间开头 命名空间 读写权限 含义 hiveconf 可读写 hive-site.xml当中的各配置变量 例:hive --hiveconf hive.cli.print.header=true syste 阅读全文
posted @ 2020-08-04 17:00 shaoyayu 阅读(1770) 评论(1) 推荐(1) 编辑
摘要: Hive 函数 开发文档 1.内置运算符 1.1关系运算符 运算符 类型 说明 A = B 所有原始类型 如果A与B相等,返回TRUE,否则返回FALSE A == B 无 失败,因为无效的语法。 SQL使用”=”,不使用”==”。 A <> B 所有原始类型 如果A不等于B返回TRUE,否则返回F 阅读全文
posted @ 2020-08-04 16:54 shaoyayu 阅读(164) 评论(0) 推荐(0) 编辑
摘要: Hive DML 删除表中的数据: truncate table table_name 删除表的数据 从查询将数据插入Hive表 可以使用insert子句将查询结果插入表中。 Hive extension (multiple inserts): FROM from_statement INSERT 阅读全文
posted @ 2020-08-04 16:51 shaoyayu 阅读(102) 评论(0) 推荐(0) 编辑
摘要: HIVE分区 简单分区 hive> CREATE TABLE psn_2( > id int, > name string, > likes array<string>, > address map<string,string> > ) > PARTITIONED BY (age int) > RO 阅读全文
posted @ 2020-08-04 16:46 shaoyayu 阅读(363) 评论(0) 推荐(0) 编辑
摘要: HIVE的入门 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL 创建/删除/更改/使用数据库 创建数据库 CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_nam 阅读全文
posted @ 2020-08-04 16:44 shaoyayu 阅读(239) 评论(0) 推荐(0) 编辑
摘要: Hive的搭建环境 自己必须搭建好hdfs集群和mysql环境 MYSQL的安装配置 yum安装Mysql 如果你的yum数据源里面没有找到mysql-server 请下载安装MYSQL的数据源 $ wget http://repo.mysql.com/mysql-community-release 阅读全文
posted @ 2020-08-04 16:43 shaoyayu 阅读(397) 评论(0) 推荐(0) 编辑
摘要: Hive基础 看了好多文章,还是觉得这个up写的我个人好理解点 转载地址:https://www.cnblogs.com/qingyunzong/p/8707885.html Hive 简介 什么是Hive 1、Hive 由 Facebook 实现并开源 2、是基于 Hadoop 的一个数据仓库工具 阅读全文
posted @ 2020-08-04 16:32 shaoyayu 阅读(238) 评论(0) 推荐(0) 编辑
摘要: TFIDF 案列 概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。 TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 字词的重要性随着它在文件中出现的次 阅读全文
posted @ 2020-08-04 16:28 shaoyayu 阅读(170) 评论(0) 推荐(0) 编辑
摘要: PageRank案列 什么是pagerank PageRank是Google提出的算法,用于衡量特定网页相对于搜索引擎索弓中的其他网页而言的重要程度。 是Google创始人拉里佩奇和谢尔盖布林于1997年创造的 PageRank实现了将链接价值概念作为排名因素。 计算环境 Hadoop-2.5.2 阅读全文
posted @ 2020-08-04 16:26 shaoyayu 阅读(224) 评论(0) 推荐(0) 编辑
摘要: MapReduce好友推荐案例 好友序列 tom hello hadoop cat world hadoop hello hive cat tom hive mr hive hello hive cat hadoop world hello mr hadoop tom hive world hell 阅读全文
posted @ 2020-08-04 16:23 shaoyayu 阅读(250) 评论(0) 推荐(0) 编辑
摘要: MapReduce天气查询实列 天气统计案例 2000-01-01 16 29 2000-01-02 14 40 2000-01-03 23 35 2000-01-04 18 25 2000-01-05 14 33 2000-01-06 14 -4 ...... 2000-01-18 23 26 2 阅读全文
posted @ 2020-08-04 16:21 shaoyayu 阅读(238) 评论(0) 推荐(0) 编辑
摘要: MapReduce源码分析 Job waitForCompletion方法 public boolean waitForCompletion(boolean verbose ) throws IOException, InterruptedException, ClassNotFoundExcept 阅读全文
posted @ 2020-08-04 16:18 shaoyayu 阅读(232) 评论(0) 推荐(0) 编辑
摘要: MapReduce api实战 配置pmx <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLS 阅读全文
posted @ 2020-08-04 16:16 shaoyayu 阅读(281) 评论(0) 推荐(0) 编辑
摘要: 配置YARN高可用 官方文档:https://hadoop.apache.org/docs/r2.7.5/ 1、Configure parameters as follows:etc/hadoop/mapred-site.xml: <configuration> <property> <name>m 阅读全文
posted @ 2020-08-04 16:14 shaoyayu 阅读(1171) 评论(0) 推荐(0) 编辑