Fork me on GitHub

【论文笔记】MOOCCube: A Large-scale Data Repository for NLP Applications in MOOCs

  MOOCCube是一个服务于MOOC相关研究的开源大规模数据仓库。和已有类似的教育资源数据库相比它的规模庞大,数据丰富且多样。其中的学生行为记录包括学习时长、学习次数、学习视频的区间等非常完善的学生行为。包含近20万名学生的、总计将近500万人次的视频观看学习的记录。这部分数据其实可以拿来做包括用户的行为分析建模甚至是相关推荐等等;对于课程视频资源,选取了706门课程和将近4万个视频并做以相应的数据处理;最后以知识概念为核心,将学生行为和课程的内容通过与知识建立联系、来完成实体之间的相互关联,构成MOOCCube。

  • MOOCs研究目的
    • 对NLP和AI在在线教育中的应用研究
    • 包含三个维度的MOOCs大型数据库(学生行为、课程、知识概念)
    • 应用目标为帮助学生更好的掌握更多的知识同时帮助提升教学资源

    • 建立以知识为核心的在线课程资源体系 

    • 以学生的需求及知识状态为前提构建智能可交互的应用 

  • 数据采集
    • MOOCCube概述

MOOCCube是从学堂在线中获取课程、概念和学生的实体并根据实体间的丰富关系将数据组织成知识库的形式,以便查询和存储。MOOCCube是从学堂在线中获取课程、概念和学生的实体并根据实体间的丰富关系将数据组织成知识库的形式,以便查询和存储。其次,在构建应用时,也应该充分考虑mooc这些性质,并考虑到学生不同的需求和知识状态,来构建合理的、智能的、可交互的应用,达到利用AI来自动化辅助学习的目的。  

    • 课程抽取

将MOOC视频作为实体并从中抓取大纲、视频列表以及教师和组织,并作为这门课的属性。并且在获取视频字幕的同时保存视频的顺序以便进一步的知识发现

 

    • 概念以及概念图

从课程视频中抽取十个最具有代表性的课程概念并从wiki中记录概念描述,同时从外部资源中搜索十个相关性最高的论文作为资源参考。

作者研究发现由于许多NLP类型的研究都是挖掘了概念之间的语义关系,所以进一步构建了一个新的概念分类法,将先决条件链作为概念图(其中先决条件链。先决关系的定义是:如果概念A有助于理解概念B,那么从A到B存在先决关系)

在构造的过程中作者参考了以往的分类方法。作者发现对于课程分类以往的分类方法有以下不足:2004ConceptNet、2007Wiki分类法不能直接应用于课程概念因为课程概念大多是学术术语,而非学术类别极大地干扰了分类法的质量。

我们从cnctst4中选择了一个跨语言的术语分类法作为基础,并引导手动注释来为MOOCCube构建一个可用的课程概念分类法

    • 学生行为

学生行为就是记录的学生行为数据。行为数据包括注册记录以及视频观看日志,同时考虑到数据的质量和隐私性,删除视频观看记录少于两条的用户,然后将用户名匿名化为用户名。

    • 数据处理
      • 将课程视频字幕化
      • 将相关论文保存为json格式
      • 课程/视频依赖性注释
      • 概念分类以及前置关系的标注

其中需要标注的三个关系有课程依赖链、概念分类链以及概念前提链

      • 其中课程依赖链推荐了课程学习的顺序(专家标注)
      • 概念分类分为两个过程概念前提链选择在同一过程中出现的概念来抽样候选概念对。与先前的工作一样,如果概念A有助于理解B,则标注者会标注标签。同时采用已有的良好数据集作为标准,如果标注与其不符,则由另外的专家进行评估
        • 使用预训练词嵌入来计算最可能的类别。然后要求相应字段中的三个注释者标记该概念是否属于此类别。
        • 对于标记为“不属于”的概念类别对,选择前一个类别的兄弟类别作为新候选者,然后将刷新后的配对再次放入注释池。这样的过程有效地减少了无效注释的数量。
      • 概念前提链选择在同一过程中出现的概念来抽样候选概念对。与先前的工作一样,如果概念A有助于理解B,则标注者会标注标签。同时采用已有的良好数据集作为标准,如果标注与其不符,则由另外的专家进行评估
  • 应用

以上介绍了MOOCCube的数据构成以及相处理。接下来文章便是介绍了MOOCCube的相关应用,利用MOOCCube中不同类型的数据挖掘先决条件关系。但文章中只是提到了方法和图表对比,并没有详细说明。MOOCCube融合了MOOC现有的研究任务所需的数据集,一类是关注课程内容的课程概念提取、前置关系发现以及课程概念扩展;另一类便是关注学生学习行为的辍学预测、课程建议等。在未来的研究中也将利用MOOCCube中的丰富多样的数据集来促进已有主题;研究使用更加高级的模型;以及在在线教育任务中应用于更具有创新性的NLP任务

 

posted @ 2020-06-23 20:30  鲍鲍tql  阅读(1945)  评论(0编辑  收藏  举报