每日日报 20210930

一、 数据说明:

样表(sales_sample_20170310)字段说明:

day_id 日期编号;

sale_nbr 卖出方代码;

buy_nbr 买入方代码;

cnt 数量

round 金额

卖出方和买入方又分为 3 种类型:

以'C'开头的表示类型为 C,代表“航空公司”,只可以卖出,不可以买入;

以'O'开头的表示类型为 O,代表“代理人”,既可以卖出,也可以买入,并且允许自

己卖给自己(简单来讲:每个“代理人”代码可能对应多个售票点,售票点之前有交换票的

情况,所以体现为自己卖给了自己);

'PAX'表示类型为 PAX,代表“旅客”,只可以买入,不可以卖出。

举例

day_id,sale_nbr,buy_nbr,cnt,round

1,C1,O1001,1,360

卖出方为 C1,类型为 C;买入方为 O1001,类型为 O

day_id,sale_nbr,buy_nbr,cnt,round

1,O100,O100,4,2000

卖出方为 O100,类型为 O;买入方为 O100,类型为 O(即自己卖给自己是允许的)

day_id,sale_nbr,buy_nbr,cnt,round

1,O100,PAX,4,2000

卖出方为 O100,类型为 O;买入方为 PAX,类型为 PAX

二、 测试题目:

1、数据导入:

 要求将样表文件中的(sales_sample_20170310)数据导入 HIVE 数据仓库中。

2、数据清洗:

 要求将 day_id 一列中的数值清洗为真实的日期格式,可用字符串表示。

 数据 1 对应日期 2021-09-01,依次类推,15 对应日期 2021-09-15

3、数据分析处理:

 (1)统计每天各个机场的销售数量和销售金额。

要求的输出字段

day_id,sale_nbr,,cnt,round

日期编号,卖出方代码,数量,金额

 (2)统计每天各个代理商的销售数量和销售金额。

要求的输出字段

day_id,sale_nbr,,cnt,round

日期编号,卖出方代码,数量,金额

(3)统计每天各个代理商的销售活跃度。

要求的输出字段

day_id,sale_nbr, sale_number

日期编号,卖出方代码,交易次数(买入或者卖出均算交易次数)

(4)汇总统计 9 月 1 日到 9 月 15 日之间各个代理商的销售利润。

编号,卖出方代码,买入数量,买入金额,卖出数量,卖出金额,销售利润(卖出

金额-买入金额)

 (5)设计分析代理商的市场地位根据市场交易次数、交易对象个数、销售机票数量、

销售利润等。(选做题)

4、处理结果入库:

 将上述统计分析的结果数据保存到 mySQL 数据库中。

5、数据可视化展示:

 利用 Echarts 将上述统计结果以图形化展示的方式展现出来:饼图、柱状图、地图、折

线图等。

 

 

 


create table shuju1(
day_id string,
sale_nbr string,
buy_nbr string,
cnt string,
round string
)row format delimited fields terminated by ',';

 

insert overwrite table shujuji1 select date_add('2021-09-00',cast(day_id as int)) as day_id,sale_nbr as sale_nbr,buy_nbr as buy_nbr,cnt as cnt,round as round from shujuji;

 

 

posted @ 2021-09-30 11:51  涛浪浪i  阅读(91)  评论(0)    收藏  举报