王毅2016 - 博客园

2018年8月1日

摘要：语法：ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN) 1.row_number() over()排序功能分组排序：已有表执行 A 16B 10C 10D 12E 12 现要求每个次数仅展示一名用户 B 10 D 12A 16 阅读全文

posted @ 2018-08-01 16:34 王毅2016 阅读(990) 评论(0) 推荐(0) 编辑

HIVE基础学习

摘要： http:--hive.apache.org/ Hive 是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类SQL查询功能。 *使用HQL作为查询接口; *使用HDFS存储; *使用MapReduce计算。 hiveql要结合mapReduce来读，会有很多想法灵活阅读全文

posted @ 2018-08-01 10:53 王毅2016 阅读(1535) 评论(0) 推荐(0) 编辑

2018年7月31日

Hive之小文件问题及其解决方案

摘要：小文件如何产生 1.动态分区插入数据，产生大量小文件，导致map数剧增 2.Reduce数越多，小文件越多 3.数据直接导入小文件小文件的影响从hive的角度看，小文件会开很多map，一个map开一个jvm去执行，所以这些任务的初始化，启动，执行浪费大量资源，严重影响集群性能在HDFS中，每个阅读全文

posted @ 2018-07-31 19:25 王毅2016 阅读(1349) 评论(0) 推荐(0) 编辑

2018年7月25日

Hive之cube和roolup

摘要： Cube hive (hdata)> select * from test; test.f1 test.f2 test.f3 test.cnt A A B 1 B B A 1 A A A 2 hive (hdata)> SELECT f1, > f2, > f3, > sum(cnt) > FROM 阅读全文

posted @ 2018-07-25 09:22 王毅2016 阅读(2179) 评论(0) 推荐(0) 编辑

2018年7月23日

分布式文件系统hdfs——dfs命令

摘要：在hadoop安装目录下：/hadoop2/hadoop-2.7.3 1.创建目录 bin/hdfs dfs -mkdir /user bin/hdfs dfs -mkdir /user/<username> 在HDFS中创建一个名为path的目录，如果它的上级目录不存在，也会被创建，如同linux 阅读全文

posted @ 2018-07-23 15:47 王毅2016 阅读(807) 评论(0) 推荐(0) 编辑

shell脚本编程

摘要：执行 #!/bin/bash #声明使用的解释器 echo "Hello World !" #输出语句 chmod +x ./test.sh #赋予可执行权限 ./test.sh #执行脚本 bin/sh test.sh #也可以解释器运行 shell 变量可以用语句赋值 for file in 阅读全文

posted @ 2018-07-23 15:45 王毅2016 阅读(169) 评论(0) 推荐(0) 编辑

分布式数据Hive——HQL

摘要： 1. 阅读全文

posted @ 2018-07-23 15:44 王毅2016 阅读(110) 评论(0) 推荐(0) 编辑

2018年5月5日

DDL表和库管理语言

摘要： DDL表和库的管理 #1. 创建表dept1 NAME NULL? TYPE id INT(7) NAME VARCHAR(25) USE test; CREATE TABLE dept1( id INT(7), NAME VARCHAR(25) ); #2. 将表departments中的数据插入阅读全文

posted @ 2018-05-05 18:42 王毅2016 阅读(202) 评论(0) 推荐(0) 编辑

DML数据库操作语言

摘要： DML语言数据操作语言：插入：insert 修改：update 删除：delete #一、插入语句 #方式一：经典的插入 /* 语法： insert into 表名(列名,...) values(值1,...); */ SELECT * FROM beauty; #1.插入的值的类型要与列的类型阅读全文

posted @ 2018-05-05 18:41 王毅2016 阅读(473) 评论(0) 推荐(0) 编辑

2018年4月16日

python实现求第K小

摘要：下面是自动计算某个范围的第K小商阅读全文

posted @ 2018-04-16 19:12 王毅2016 阅读(955) 评论(0) 推荐(0) 编辑

Time Is Song

公告