上一页 1 2 3 4 5 6 7 8 ··· 10 下一页
摘要: 语法:ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN) 1.row_number() over()排序功能 分组排序: 已有表 执行 A 16B 10C 10D 12E 12 现要求每个次数仅展示一名用户 B 10 D 12A 16 阅读全文
posted @ 2018-08-01 16:34 王毅2016 阅读(990) 评论(0) 推荐(0) 编辑
摘要: http:--hive.apache.org/ Hive 是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL查询功能。 *使用HQL作为查询接口; *使用HDFS存储; *使用MapReduce计算。 hiveql要结合mapReduce来读,会有很多想法 灵活 阅读全文
posted @ 2018-08-01 10:53 王毅2016 阅读(1535) 评论(0) 推荐(0) 编辑
摘要: 小文件如何产生 1.动态分区插入数据,产生大量小文件,导致map数剧增 2.Reduce数越多,小文件越多 3.数据直接导入小文件 小文件的影响 从hive的角度看,小文件会开很多map,一个map开一个jvm去执行,所以这些任务的初始化,启动,执行浪费大量资源,严重影响集群性能 在HDFS中,每个 阅读全文
posted @ 2018-07-31 19:25 王毅2016 阅读(1349) 评论(0) 推荐(0) 编辑
摘要: Cube hive (hdata)> select * from test; test.f1 test.f2 test.f3 test.cnt A A B 1 B B A 1 A A A 2 hive (hdata)> SELECT f1, > f2, > f3, > sum(cnt) > FROM 阅读全文
posted @ 2018-07-25 09:22 王毅2016 阅读(2179) 评论(0) 推荐(0) 编辑
摘要: 在hadoop安装目录下:/hadoop2/hadoop-2.7.3 1.创建目录 bin/hdfs dfs -mkdir /user bin/hdfs dfs -mkdir /user/<username> 在HDFS中创建一个名为path的目录,如果它的上级目录不存在,也会被创建,如同linux 阅读全文
posted @ 2018-07-23 15:47 王毅2016 阅读(807) 评论(0) 推荐(0) 编辑
摘要: 执行 #!/bin/bash #声明使用的解释器 echo "Hello World !" #输出语句 chmod +x ./test.sh #赋予可执行权限 ./test.sh #执行脚本 bin/sh test.sh #也可以解释器运行 shell 变量 可以用语句赋值 for file in 阅读全文
posted @ 2018-07-23 15:45 王毅2016 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 1. 阅读全文
posted @ 2018-07-23 15:44 王毅2016 阅读(110) 评论(0) 推荐(0) 编辑
摘要: DDL表和库的管理 #1. 创建表dept1 NAME NULL? TYPE id INT(7) NAME VARCHAR(25) USE test; CREATE TABLE dept1( id INT(7), NAME VARCHAR(25) ); #2. 将表departments中的数据插入 阅读全文
posted @ 2018-05-05 18:42 王毅2016 阅读(202) 评论(0) 推荐(0) 编辑
摘要: DML语言 数据操作语言: 插入:insert 修改:update 删除:delete #一、插入语句 #方式一:经典的插入 /* 语法: insert into 表名(列名,...) values(值1,...); */ SELECT * FROM beauty; #1.插入的值的类型要与列的类型 阅读全文
posted @ 2018-05-05 18:41 王毅2016 阅读(473) 评论(0) 推荐(0) 编辑
摘要: 下面是自动计算某个范围的第K小商 阅读全文
posted @ 2018-04-16 19:12 王毅2016 阅读(955) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 10 下一页