本文共 3440 字,大约阅读时间需要 11 分钟。
计算机研究与发展 中文核心期刊
看看之前写的课程综述,在看看别人的工作,距离还是很远啊,拆解拆解他们工作做的不错
基于深度学习的知识追踪(deep learning based knowledge tracing,DLKT)
本文常用符号定义
符号 | 定义 |
知识成分KC | |
题目 | |
DKT以循环神经网络(recurrent neuralnetwork,RNN)为基础结构.RNN 是一种具有记忆性
的序列模型,序列结构使其符合学习中的近因效应并保留了学习轨迹信息[17].这种特性使RNN(包括长短期记忆网络[18](long short term memory,LSTM)和门控循环网络[19](gated recurrent unit,GRU)等变体)成为了DLKT 领域使用最广泛的模型.DKT 以学生的学习交互记录为输入,通过one-hot 编码或压缩感知[20](compress sensing), 被转化为向量输入模型.在DKT 中,RNN 的隐藏状态 被解释为学生的知识状态, 被进一步通过一个Sigmoid 激活的线性层得到预测结果.的长度等于题目数量,其每个元素代表学生正确回答对应问题的预测概率.具体的计算过程如下所示:
相对于以BKT 为代表的传统机器学习模型,DKT 不需要人工标注的数据就有更好的表现(AUC
提高了20%[21]),且能够捕捉并利用更深层次的学生知识表征[22-23],这使其非常适合以学习为中心的教学评估系统可解释性差、长期依赖问题和学习特征少是DKT模型最显著的3 个问题,许多研究许多研究者致力于对其进行扩展和改进,以解决这些问题.我们将各种改进方法梳理为下图
下表总结了各种模型所属的改进方向类别和其主要的改进方式
数据集 | 简述 | 下载链接 |
Synthetic | DKT 模型使用的模拟数据集,它模拟了 2000 名虚拟学生,他们回答了来自 5 个虚拟知识点的 50 个问题.仅在此数据集中,所有学生回答问题的顺序相同 | https://github.com/chrispiech/ DeepKnowledgeTracing/tree/ master/data/synthetic |
Static2011 | 来自一个大学级的工程静力学课程,具有 333 个学生在 1223 个问题上的 189927 个交互 | https://pslcdatashop.web.cmu.edu /DatasetInfo?datasetId=507 |
KDDCup2010 | 2010 年 KDD 杯比赛开发数据集,具有 574 个学生 在 436 个问题上的 607026 个交互 | https://pslcdatashop.web.cmu.edu /KDDCup/downloads.jsp |
EdNet | 由 Santa (一个人工智能导学系统)收集的大规模 分层的学生活动数据集,包含 784309 名学生131317236 个交互信息,是迄今为止发布的最大的 公共交互教育系统数据集 | https://github.com/riiid/ednet |
Junyi | 来自 Junyi Academy (一个在线教育网站),除 EdNet 外数据量最多的开源数据集 | https://pslcdatashop.web.cmu.edu/ DatasetInfo?datase tId=1198 |
ASSIST2009 | 来自 ASSISTMENTS 在线辅导系统,去掉重复记 录之后,包含4151 个学生在 110 个问题上的 325673 个交互 | https://sites.google.com/site/ assistmentsdata/home/assistment-2009-2010data/skill-builder-data-2009-2010 |
ASSIST2012 | 包含 27066 个学生在 45716 个问题上的 2541201 个交互 | https://sites.google.com/site/assistmentsdata/ home/2012-13-school-data-with-affect |
ASSIST2015 | 包含 19840 个学生在 100 个问题上的 683801 个交互 | https://sites.google.com/site/assistmentsdata/ home/2015-assistments-skill-builderdata |
ASSIST2017 | 包含 686 个学生在 102 个问题上的 942816 个交互 | https://sites.google.com/view/assistments datamining/dataset?authuser=0 |
表4 总结了使用公开数据集的DLKT 模型的性能表现(以大多数论文都采用了的
AUC 指标为基准),表中的数据皆来自于模型初始论文,取最大值.需要指出的是,深度学习模型受参数设置影响较大,且同一个模型在不同论文中的表现也存在较大其他的内容可以看文章本身。写的很不错,向其学习
转载地址:http://iihdi.baihongyu.com/