摘要:
注:Hive面试题:累积报表 数据文件: 有如下访客访问次数统计表 t_access_times 需要输出报表:t_access_times_accumulate 实现步骤: 创建表,并将数据加载到表中: 1、第一步,先求每个用户的月总金额 2、第二步,将月总金额表 自己连接自己 3、第三步,从上一 阅读全文
摘要:
1.需求:将Json格式的数据处理后插入新表中 数据文件如下:rating.json,文件格式:{"movie":"2858","rate":"5","timeStamp":"978159467","uid":"17"} 实现步骤: 1.使用Hive创建原始表rate_json,并将rating.j 阅读全文
摘要:
Hive官方的UDF手册地址是:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1.使用内置函数的快捷方法: 创建一个表dual,load数据到dual表,然后尝试内置函数 1.Hive自定义函数: 当Hive提 阅读全文
摘要:
1.用户行为分析 用户行为分析,是指在获得网站访问量基本数据的情况下,对有关数据进行统计、分析,从中发现用户访问网站的规律, 并将这些规律与网络营销策略等相结合,从而发现目前网络营销活动中可能存在的问题,并为进一步修正或重新制定网络营 销策略提供依据。这是狭义的只指网络上的用户行为分析 意义:通过对 阅读全文
摘要:
1.关于hive中的各种join Hive中有许多的Join操作,例如:LEFT、RIGHT和FULL OUTER JOIN,INNER JOIN,LEFT SEMI JOIN等; 1.1.准备两组数据: 1.2.在Hive中建表: 1.3.在Hive表中导入数据: 1.4.inner join内连 阅读全文
摘要:
1.将查询结果插入Hive表语法结构: 1.1.基本模式插入: INSERT OVERWRITE TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...)] select_statement1 FROM from_statement 阅读全文
摘要:
1.Clustered By 对于每一个表(table)或者分区, Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。 Hive也是针对某一列进行桶的组织。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在 哪个桶当中。 把表(或者分区)组织成桶(Bucket)有两 阅读全文
摘要:
2.1.创建分区表并将本地文件的数据加载到分区表: 使用下面的命令来创建一个带分区的表 通过partitioned by(country string)关键字声明该表是分区表,且分区字段不能为create table时存在的字段。此 时只能说指定了这个表会分区,但是具体数据有哪些分区则会在导入数据时 阅读全文
摘要:
1.Hive基本操作: 1.1.Hive的建表语句: 参数说明: CREATE TABLE:创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EXISTS 选项来忽略这个异常 EXTERNAL:关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径 阅读全文
摘要:
之前使用的Shell方式只是Hive交互方式中的一种,还有一种就是将Hive启动为服务运行在一个节点上,那么剩下的节点 就可以使用客户端来连接它,从而也可以使用Hive的数据分析服务 1.Hive的交互方式: (1) Hive交互shell:/usr/local/src/hive-1.2.1/bin 阅读全文