Education
Issue Date: 2025-10-18 [Paper Note] AutoCode: LLMs as Problem Setters for Competitive Programming, Shang Zhou+, arXiv'25, 2025.09 GPT Summary- AutoCodeは、競技プログラミングの問題文とテストケースを生成するシステムであり、信頼性の高い問題作成を実現します。複数回の検証を通じて、生成された問題は公式の判断と99%の一貫性を持ち、従来の手法に比べて大幅な改善を示します。また、ランダムなシード問題から新しいバリアントを作成し、不正な問題をフィルタリングする機能も備えています。最終的に、AutoCodeはグランドマスター級の競技プログラマーによってコンテスト品質と評価される問題を生成します。 Comment
blog: https://livecodebenchpro.com/projects/autocode/overview
LLMで自動的に高品質な競技プログラミング問題とそのテストケースを生成するパイプラインを提案。
信頼性のあるテストケースを作成するために、Validator-Generator-Checkerフレームワーク。提案。Generatorがテストケースを生成し、Validatorが生成されたテストケースの入力が問題の制約を満たしているか判定し、Checkerが与えられたテストケースの元で解法が正しいかを確認する。
続いて、人手を介さずとも生成される問題が正しいことを担保するためにdual-verificationを採用。具体的には、LLMに新規の問題文と効率的な解法を生成させ、加えてブルートフォースでの解法を別途生成する。そして、両者をLLMが生成したテストセット群で実行し、全ての解放で出力が一致した場合のみAcceptする、といったような手法らしい。
(手法の概要としてはそうなのだろうが、細かい実装に高品質さの肝があると思うのでしっかり読んだ方が良さげ。特にTest Generationの詳細をしっかりできていない)
takeawayで興味深かったのは、
- LLMは自身では解けないが、解法が存在する(solvable)問題を生成できること
- 人間の専門家とLLM(o3)の間で、問題の品質の新規性の判定の相関がわずか0.007, 0.11しかなかったこと。そして品質に関しては専門家のグループ間では0.71, o3とgpt4oの間では0.72と高い相関を示しており、LLMと人間の専門家の間で著しく問題の品質の判断基準が異なること
- seed問題と生成された問題の難易度のgainが、問題の品質に関して、LLM自身のself-evaluationよりもより良い指標となっていること
#Pocket #ACL
Issue Date: 2025-01-06 BIPED: Pedagogically Informed Tutoring System for ESL Education, Kwon+, ACL'24, 2024.08 GPT Summary- 大規模言語モデル(LLMs)を用いた会話型インテリジェントチュータリングシステム(CITS)は、英語の第二言語(L2)学習者に対して効果的な教育手段となる可能性があるが、既存のシステムは教育的深さに欠ける。これを改善するために、バイリンガル教育的情報を持つチュータリングデータセット(BIPED)を構築し、対話行為の語彙を考案した。GPT-4とSOLAR-KOを用いて二段階のフレームワークでCITSモデルを実装し、実験により人間の教師のスタイルを再現し、多様な教育的戦略を採用できることを示した。 #Pocket #NLP #LanguageModel #EducationalDataMining
Issue Date: 2024-12-31 LearnLM: Improving Gemini for Learning, LearnLM Team+, arXiv'24 GPT Summary- 生成AIシステムは従来の情報提示に偏っているため、教育的行動を注入する「教育的指示の遵守」を提案。これにより、モデルの振る舞いを柔軟に指定でき、教育データを追加することでGeminiモデルの学習を向上。LearnLMモデルは、さまざまな学習シナリオで専門家から高く評価され、GPT-4oやClaude 3.5に対しても優れた性能を示した。
Knowledge Tracingで推定された習熟度に基づいて、エクササイズを自動生成する研究。KTとNLGが組み合わさっており、非常におもしろい。
#LanguageModel Issue Date: 2023-07-11 Generative AI for Programming Education: Benchmarking ChatGPT, GPT-4, and Human Tutors, Tung Phung+, N_A, arXiv'23 GPT Summary- 生成AIと大規模言語モデルは、プログラミング教育の向上に大きな可能性を持っています。しかし、これまでの研究は限定的であり、包括的なプログラミング教育シナリオのための最先端モデルのベンチマークが不足しています。本研究では、ChatGPTとGPT-4の2つのモデルを評価し、人間のチューターとのパフォーマンスを比較しました。結果は、GPT-4がChatGPTを大幅に上回り、一部のシナリオでは人間のチューターに近づいていることを示しています。また、GPT-4の改善のための興味深い方向性も提案されています。 Comment
GPT4とGPT3.5をプログラミング教育の文脈で評価したところ、GPT4AGPT3.5をoutperformし、人間のチューターに肉薄した。
#Survey #Pocket #ChatGPT Issue Date: 2023-05-04 A Review of ChatGPT Applications in Education, Marketing, Software Engineering, and Healthcare: Benefits, Drawbacks, and Research Directions, Mohammad Fraiwan+, N_A, arXiv'23 GPT Summary- - ChatGPTは、深層学習アルゴリズムを使用して人間らしい応答を生成する人工知能言語モデルである。- 最新のChatGPTバージョンが導入され、他の言語モデルも登場している。- これらのモデルは、教育、ソフトウェアエンジニアリング、医療、マーケティングなどの分野で応用可能性がある。- 本論文では、これらのモデルの可能な応用、制限、欠点、および研究方向について議論する。 #Pocket #NLP #LanguageModel #AES(AutomatedEssayScoring) #ChatGPT Issue Date: 2023-04-28 [Paper Note] AI, write an essay for me: A large-scale comparison of human-written versus ChatGPT-generated essays, Steffen Herbold+, arXiv'23 GPT Summary- ChatGPTが生成したエッセイは、人間が書いたものよりも質が高いと評価されることが大規模な研究で示された。生成されたエッセイは独自の言語的特徴を持ち、教育者はこの技術を活用する新たな教育コンセプトを開発する必要がある。 Comment
ChatGPTは人間が書いたエッセイよりも高品質なエッセイが書けることを示した。
また、AIモデルの文体は、人間が書いたエッセイとは異なる言語的特徴を示している。たとえば、談話や認識マーカーが少ないが、名詞化が多く、語彙の多様性が高いという特徴がある、とのこと。
#Pocket #AdaptiveLearning #EducationalDataMining Issue Date: 2022-12-27 Reinforcement Learning for the Adaptive Scheduling of Educational Activities, Bassen+, Stanford University, CHI'20 #Assessment #IRT Issue Date: 2022-11-25 Machine Learning–Driven Language Assessment, LaFlair+, TACL'20 #NeuralNetwork #GraphConvolutionalNetwork #EducationalDataMining #KnowledgeTracing #WI Issue Date: 2021-07-08 GRAPH-BASED KNOWLEDGE TRACING: MODELING STUDENT PROFICIENCY USING GRAPH NEURAL NETWORK, Nakagawa+, Tokyo University, WI'19 Comment
graph neural networkでKnoelwdge Tracingした論文。各conceptのproficiencyの可視化までしっかりやってそう。
#RecommenderSystems #Survey Issue Date: 2018-03-30 [Paper Note] A SURVEY OF ARTIFICIAL INTELLIGENCE TECHNIQUES EMPLOYED FOR ADAPTIVE EDUCATIONAL SYSTEMS WITHIN E-LEARNING PLATFORMS, Almohammadi+, JAISCR'17 #RecommenderSystems #Survey #Pocket #TechnologyEnhancedLearning Issue Date: 2018-03-30 [Paper Note] A Survey on Artificial Intelligence and Data Mining for MOOCs, Simon Fauvel+, arXiv'16 GPT Summary- MOOCsは人気を集めており、AIとデータマイニングがその発展に寄与している。データを活用することで、MOOCの理解を深め、学習者の体験を向上させることが可能。論文では、AIとDMの最新研究をレビューし、学生のエンゲージメントや学習成果を向上させる技術を強調。さらに、MOOCsの潜在能力を引き出すための重要な研究課題とトレンドを示す。 #Pocket #PersonalizedGeneration #IJCAI Issue Date: 2019-10-11 Personalized Mathematical Word Problem Generation, Polozov+, IJCAI'15 #Survey Issue Date: 2018-03-31 [Paper Note] Adaptive Educational HypermediaSystems in Technology Enhanced Learning: A Literature Review, Mulwa+, SIGITE'10 Comment
よさげ
#Article #NLP #Dataset #AIAgents #Evaluation #Financial #Legal Issue Date: 2025-11-26 veAgentBench, ByteDance, 2025.11 Comment
元ポスト:
#Article #LanguageModel Issue Date: 2025-08-31 LLMは教育をどう変えるか:主要3社の「学習モード」比較考察, Kawamoto, 2025.08 Comment
元ポスト:
#Article #PersonalizedDocumentSummarization #NLP #Personalization Issue Date: 2023-05-05 Towards personalized summaries in spanish based on learning styles theory, Uriel+, Res. Comput. Sci. 148.5, 1 #Article #PersonalizedDocumentSummarization #Pocket #NLP #Personalization Issue Date: 2023-05-05 Personalized Text Content Summarizer for Mobile Learning: An Automatic Text Summarization System with Relevance Based Language Model, Guangbing+, IEEE Fourth International Conference on Technology for Education, 2012, 22 #Article #NLP #LanguageModel #AES(AutomatedEssayScoring) Issue Date: 2023-04-01 Exploring the Potential of Using an AI Language Model for Automated Essay Scoring, Mizumoto+, Research Methods in Applied Linguistics‘23 Comment
著者によるポスト:
著者によるブログ:
https://mizumot.com/lablog/archives/1805
#Article #Dataset #AdaptiveLearning #EducationalDataMining #ScorePrediction Issue Date: 2022-08-23 Score Prediction dataset #Article #RecommenderSystems #Survey #TechnologyEnhancedLearning Issue Date: 2018-03-30 Recommender Systems in Technology Enhanced Learning, Manouselis+, Recommender Systems Handbook: A Complete Guide for Research Scientists and Practitioners, 2011 #Article #RecommenderSystems #Survey #TechnologyEnhancedLearning Issue Date: 2018-03-30 [Paper Note] Context-Aware Recommender Systems for Learning: A Survey and Future Challenges, Verbert+, IEEE TRANSACTIONS ON LEARNING TECHNOLOGIES, VOL. 5, NO. 4, OCTOBER-DECEMBER 2012