摘要: 数据抓取之 hive分析 一.今日任务 根据本题给定的数据文件dat0204.log编写Hive命令建立数据表,并将dat0204.log导入所建立的数据表,然后编写Hive查询语句获取2014全年上映电影的数据记录,并将查询结果导入Hadoop平台的result目录。本题赛前抽取参数是dat020 阅读全文
posted @ 2020-07-29 16:58 晚暮听灯 阅读(110) 评论(0) 推荐(0) 编辑
摘要: Mapreduce程序分析 一.今日任务 向Hadoop平台提交日志文件dat0203.log,并使用streaming和MapReduce机制编制程序,统计日志文件dat0203.log的数据中一共包含多少部电影?本题的赛前抽取参数是dat0203.log文件,请参赛学生用hdfs命令查看输出的结 阅读全文
posted @ 2020-07-29 15:08 晚暮听灯 阅读(249) 评论(0) 推荐(0) 编辑