大数据分析决策平台问题总结

1 |大数据分析决策平台(南阳市IT大赛二等奖作品)
2 Ø开发时间:2017/102017/12
3 Ø主要算法:SVM算法 + 皮尔森相关系数 + 支持向量机分类算法 + 迭代学习
4 Ø项目描述:该系统借助学生的校园生活大数据,分析学生是否在校、成绩是否合格、心理是否孤单、在经济上是否需要资助。模块主要划分为:位置判断、成绩预测、心理分析、奖学金预测。采用SVM算法,利用皮尔森相关系数进行相关性大小判断,使用支持向量机分类算法构建模型,训练数据,利用迭代学习方法来简化支持向量机的决策函数,求出最优的分割线的解,使用模型进行预测。
View Code

 

数据集:

数据数据分为两组,分别是训练集和测试集,每一组都包含大约1万名学生的信息纪录:    

   图书借阅数据borrow_train.txt和borrow_test.txt、

   一卡通数据card_train.txt和card_test.txt、    

  寝室门禁数据dorm_train.txt和dorm_test.txt、  

  图书馆门禁数据library_train.txt和library_test.txt、

  学生成绩数据score_train.txt和score_test.txt     

  助学金获奖数据subsidy_train.txt和subsidy_test.txt   

 训练集和测试集中的学生id无交集,详细信息如下。

注:数据中所有的记录均为“原始数据记录”直接经过脱敏而来,会存在一些重复的或者是异常的记录,我们通过去重,排序,筛选等方法对数据进行。

4.2 数据分析:

 

功能一:判断学生是否在校。

  通过寝室门禁和图书馆门禁之间的联系判断出学生是否在校。即通过查看某天某个学生的id,显示出这一天内该学生进出宿舍的具体情况,查找出10点前后(规定寝室10点30锁门)刷卡的状态是进还是出,若是进,则表示该学生在宿舍,若是出,通过辅助数据图书馆门禁,查看学生id在10点前后的图书馆门禁显示为出的时候,则表示学生在校,其他情况均不在学校。

 

功能二:判断是否需要对学生进行学习方面的帮助。

  首先判断数据中对学生成绩的影响的因素,从图书馆进出次数和在宿舍时间长短两个方面分析对成绩的影响,有如下两方面:

  1、处理图书馆门禁数据,剔除异常信息的数据,然后对数据ID分组求和,可视化分析出图书馆进出次数的折线图。关联成绩数据,看去图书馆次数多的学生的成绩是否优秀。

   2、处理宿舍门禁时间,通过具体的时间段内学生进出寝室的间隔计算出该学生待在宿舍的总时间,即time=进寝室的时间-出寝室的时间。把学生待在宿舍总的时间长短进行分类,把总时间均划分为五个区间,每个区间十分制,找出待在宿舍时间最长的那个区间,即为在学习方面需要帮助的学生。

 

功能三:判断学生是否心理孤独。

根据一卡通消费记录,查找同一消费款项下任意两人至多人相近消费时间点内打卡记录次数,次数越多越不孤独。

 

功能四:对获取助学金的预测。

首先对学生成绩的数据做成绩降序排列,找出学生成绩排名前30的学生。然后在对一卡通数据进行升序排列,找出消费最少的30个学生。然后查找这30名中id值相同的学生,在把相同的学生按照成绩降序排列,从而得到获取助学金学学生的名额。

 

posted @ 2018-04-19 17:49  H+  阅读(1556)  评论(0编辑  收藏  举报