样表sales_sample_20170310字段说明:

day_id     日期编号

sale_nbr    卖出方代码

buy_nbr    买入方代码

cnt        数量

round      金额

卖出方和买入方又分为3种类型:

'C'开头的表示类型为C,代表航空公司,只可以卖出,不可以买入;

'O'开头的表示类型为O,代表代理人,既可以卖出,也可以买入,并且允许自己卖给自己(简单来讲:每个代理人代码可能对应多个售票点,售票点之前有交换票的情况,所以体现为自己卖给了自己);

'PAX'表示类型为PAX,代表旅客,只可以买入,不可以卖出。

举例

day_id,sale_nbr,buy_nbr,cnt,round

1,C1,O1001,1,360

卖出方为C1,类型为C;买入方为O1001,类型为O

 

day_id,sale_nbr,buy_nbr,cnt,round

1,O100,O100,4,2000

卖出方为O100,类型为O;买入方为O100,类型为O(即自己卖给自己是允许的)

 

day_id,sale_nbr,buy_nbr,cnt,round

1,O100,PAX,4,2000

卖出方为O100,类型为O;买入方为PAX,类型为PAX

 

一、 测试题目:

1、数据导入:

要求将样表文件中的sales_sample_20170310数据导入HIVE数据仓库中。

2、数据清洗:

要求将day_id一列中的数值清洗为真实的日期格式,可用字符串表示。

数据1对应日期2022-10-01,依次类推15对应日期2022-10-15

3数据分析处理:

1)统计每天各个机场的销售数量和销售金额。

要求的输出字段

day_id,sale_nbr,,cnt,round

日期编号,卖出方代码,数量,金额

2)统计每天各个代理商的销售数量和销售金额

要求的输出字段

day_id,sale_nbr,,cnt,round

日期编号,卖出方代码,数量,金额

3)统计每天各个代理商的销售活跃度。

要求的输出字段

day_id,sale_nbr, sale_number

日期编号,卖出方代码,交易次数买入或者卖出均算交易次数)

4)汇总统计10月1日10月15日之间各个代理商的销售利润。

编号,卖出方代码,买入数量,买入金额卖出数量,卖出金额,销售利润(卖出金额-买入金额)

5)设计分析代理商的市场地位根据市场交易次数、交易对象个数销售机票数量、销售利润等。(选做题

4处理结果入库

上述统计分析的结果数据保存到mySQL数据库中。

5、数据可视化展示:

   利用Echarts上述统计结果以图形化展示的方式展现出来:饼图、柱状图、地图、折线图等

posted on 2023-01-03 20:07  Bot_noob  阅读(41)  评论(0编辑  收藏  举报