大数据应用期末总评
作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363
1.将爬虫大作业产生的csv文件上传到HDFS
- 启动hadoop服务
- 在HDFS中创建/bigdatacase/dataset 文件夹 ,将文件上传到HDFS,用于存放成绩表 chengji.txt
2.对CSV文件进行预处理生成无标题文本文件
- 查看score.csv数据文件
- 生成pre_deal.sh1文件,为每行记录增加一个id字段(让记录具有唯一性)
- 对文件进行预处理,并查看处理结果
3.把hdfs中的文本文件最终导入到数据仓库Hive中
- 启动mysql服务
- 启动hive ,创建数据库bd_s
- 创建数据库表(id,时间,学期,编号,课程名,课程属性,绩点,成绩分数,所属学院)
- 查询表中前十条数据,验证数据库是否有数据
4.在Hive中查看并分析数据
1)依学年时间,统计有多少(成绩)数据,大三下学期数据不在内
- 依照课程属性进行区分,并统计
- 依照课程属性,查询某一年的课程总数
结果分析:学院较注重学生专业素质的培训,与基础知识课程,公共课程全方面发展的学习规划,从大一(2016-2017学年)可看出,高等数学英语等文化课程较多,而专业实践课较少,随着时间推移,学院的重心在于学生的实践培养,几乎没有基础选修的课程,目的在于学生面向社会的发展和技能的提升。
2)依学年时间,统计有多少(成绩)数据,大三下学期数据不在内
- 依成绩进行降序显示其课程名与分数
- 查询成绩挂科现象,即成绩小于60,显示结果为0
- 统计2018-2019年的平均绩点
- 分组统计全学年度的平均绩点
结果分析:从数据可见,每学年度的绩点有小幅度增长的,从大一,到大三第一学期,从2.60到3.12,每次增长幅度为0.25-0.3,稳定发展。总的来说,专业成绩明显优势,体育活动亦有较好的发展,基本课程则明显弱势,由于学生的普遍认为,只要注重专业成绩,平时的基本文化课程没什么用处,受到这个观念的影响下,才会有了这样的发展。