10 2021 档案

摘要:行转列函数:explode(col_name) 案例 array 行转列 create table `users`.`t_view`(pageid string,adid_list array<int>)row format delimitedfields terminated by '\t'col 阅读全文
posted @ 2021-10-15 16:48 碧水斜茶 阅读(41) 评论(0) 推荐(0) 编辑
摘要:举个栗子帮助理解 ▌场景:小星与阿呆即时聊天中 阿呆:小星,今天来我家玩,来的路上,有一家披萨店,很好吃,顺便带一点哈。 小星:哦,要不你来我家玩吧,你顺便带上披萨。 阿呆:小星,你竟然都这么说了,看来只能抛硬币解决了。 小星:丫的,这个怎么抛,我怎么知道你有没有搞鬼。 阿呆:嗯,那到也是,要不这样 阅读全文
posted @ 2021-10-13 16:25 碧水斜茶 阅读(120) 评论(0) 推荐(0) 编辑
摘要:1.1 什么是大数据 主要解决:海量数据的存储和海量数据的分析计算问题 大数据中的存储单位:bit,byte,KB,MB,GB,TB,PB,EB,ZB 1byte = 8bit 1KB = 1024byte 1MB = 1024KB 1GB = 1024MB 1TB = 1024GB ...... 阅读全文
posted @ 2021-10-13 10:08 碧水斜茶 阅读(436) 评论(0) 推荐(0) 编辑
摘要:Flume介绍 Flume是Cloudera 开发的框架,它是用来进行数据和日志的收集工具,它采用的是实时的收集数据(比如:一号店,美团等都用Flume)。组合的架构一般有Kafka/flume + storm / spark streaming Flume的分布式概念 我可以收集很多服务器上的日志 阅读全文
posted @ 2021-10-11 16:47 碧水斜茶 阅读(239) 评论(0) 推荐(0) 编辑
摘要:第1题 表结构:uid,subject_id,score 求:找出所有科目成绩都大于某一学科平均成绩的学生 数据集如下 1001 01 901001 02 901001 03 901002 01 851002 02 851002 03 701003 01 701003 02 701003 03 85 阅读全文
posted @ 2021-10-08 16:22 碧水斜茶 阅读(120) 评论(0) 推荐(0) 编辑