DropoutPrediction

#NeuralNetwork #AdaptiveLearning #EducationalDataMining #LearningAnalytics
Issue Date: 2022-04-14 Deep Attentive Study Session Dropout Prediction in Mobile Learning Environment, Riiid AI Research, Lee+, CSEDU'20 Comment従来のdropout研究では、学校のドロップアウトやコースのドロップアウト、MOOCsなどでのドロップアウトが扱われてきたが、モバイル学習環境を考慮した研究はあまり行われてこなかった。モバイル学習環境では着信やソーシャルアプリなど、多くの外敵要因が存在するため、学習セッションのドロップアウトが頻繁に発生する。



学習セッションを、隣接するアクティビティと1時間のインターバルが空いていないアクティビティのsequenceと定義

Transformerを利用したモデルを提案。

image



利用したFeatureは以下の通り

image



AUCでの評価の結果、LSTM,GRUを用いたモデルをoutperform

image



また、Transformerに入力するinput sequenceのsizeで予測性能がどれだけ変化するかを確認したところ、sequence sizeが5の場合に予測性能が最大となった。

image



これは、session dropoutの予測には、生徒の最新のinteractionの情報と相関があることを示している。だが、sequence sizeが2のときに予測性能は低かったため、ある程度のcontext情報が必要なことも示唆している。



また、inputに利用するfeatureとしては、問題を解く際のelapsed_timeと、session内でのposition、またdropoutしたか否かのラベルが予測性能の向上に大きく寄与した。



Q. AUCの評価はどうやって評価しているのか。dropoutしたラベルの部分のみを評価しているのか否かがわからない。

Q. dropoutラベルをinputのfeatureに利用するのは実用上問題があるのでは?次の1問を解いたときにdropoutするか否かしか予測できなくなってしまうのでは。まあでもそれはelapsed_timeとかも一緒か。

#AdaptiveLearning #EducationalDataMining #LearningAnalytics #EMNLP
Issue Date: 2021-10-29 Predicting MOOC Dropout over Weeks Using Machine Learning Methods, EMNLP'14 Workshop, Marius Kloft CommentEMNLP'14のWorkshop論文。引用数が120件とかなり多め。MOOCsのclickstreamデータから、numericalなfeatureを作成。SVMに食わせて学習し、Dropout Predictionを行なっている。



psychologyのMOOCコースからデータ収集。12週に渡って講義が行われる。統計量は以下:

初週のユーザ数:11,607

最後の週まで残ったユーザ数:3,861

参加した全体のユーザ数:20,828

DropOut率:81.4%

コース自体は19週間受講可能なので、その間のデータがある。



dropoutか否かのラベルは、翌週にターゲットユーザのIDと紐づいたアクティビティがあるかどうかで判断。ユーザuの各週Wiに対して、i=1, ..., 19の +1 / -1 ラベルが付与される。

+1 がDropout, -1がNo Dropout。特徴量:

image

image



最初の1 -・9週の間は、あまりDropoutが予測できないが、それ以後はhistory featureが効いて予測ができるようになる。