大数据应用期末总评

作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

1.将爬虫大作业产生的csv文件上传到HDFS

  • 启动hadoop服务
  • 在HDFS中创建/bigdatacase/dataset 文件夹 ,将文件上传到HDFS,用于存放成绩表 chengji.txt

2.对CSV文件进行预处理生成无标题文本文件

  • 查看score.csv数据文件
  • 生成pre_deal.sh1文件,为每行记录增加一个id字段(让记录具有唯一性)
  • 对文件进行预处理,并查看处理结果

 

3.把hdfs中的文本文件最终导入到数据仓库Hive中

  • 启动mysql服务
  • 启动hive ,创建数据库bd_s
  • 创建数据库表(id,时间,学期,编号,课程名,课程属性,绩点,成绩分数,所属学院)
  •  查询表中前十条数据,验证数据库是否有数据

 

4.在Hive中查看并分析数据

  1)依学年时间,统计有多少(成绩)数据,大三下学期数据不在内

  • 依照课程属性进行区分,并统计
  •  
  • 依照课程属性,查询某一年的课程总数

    结果分析:学院较注重学生专业素质的培训,与基础知识课程,公共课程全方面发展的学习规划,从大一(2016-2017学年)可看出,高等数学英语等文化课程较多,而专业实践课较少,随着时间推移,学院的重心在于学生的实践培养,几乎没有基础选修的课程,目的在于学生面向社会的发展和技能的提升。

     2)依学年时间,统计有多少(成绩)数据,大三下学期数据不在内

  • 依成绩进行降序显示其课程名与分数
  • 查询成绩挂科现象,即成绩小于60,显示结果为0
  • 统计2018-2019年的平均绩点
  • 分组统计全学年度的平均绩点

     结果分析:从数据可见,每学年度的绩点有小幅度增长的,从大一,到大三第一学期,从2.60到3.12,每次增长幅度为0.25-0.3,稳定发展。总的来说,专业成绩明显优势,体育活动亦有较好的发展,基本课程则明显弱势,由于学生的普遍认为,只要注重专业成绩,平时的基本文化课程没什么用处,受到这个观念的影响下,才会有了这样的发展。

 

posted @ 2019-06-20 16:06  代码搬运小生  阅读(199)  评论(0编辑  收藏  举报