Education


Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AIAgents #Evaluation #Coding #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-18 GPT Summary- AutoCodeは、競技プログラミングの問題文とテストケースを生成するシステムであり、信頼性の高い問題作成を実現します。複数回の検証を通じて、生成された問題は公式の判断と99%の一貫性を持ち、従来の手法に比べて大幅な改善を示します。また、ランダムなシード問題から新しいバリアントを作成し、不正な問題をフィルタリングする機能も備えています。最終的に、AutoCodeはグランドマスター級の競技プログラマーによってコンテスト品質と評価される問題を生成します。 Comment

blog: https://livecodebenchpro.com/projects/autocode/overview

LLMで自動的に高品質な競技プログラミング問題とそのテストケースを生成するパイプラインを提案。

信頼性のあるテストケースを作成するために、Validator-Generator-Checkerフレームワーク。提案。Generatorがテストケースを生成し、Validatorが生成されたテストケースの入力が問題の制約を満たしているか判定し、Checkerが与えられたテストケースの元で解法が正しいかを確認する。

続いて、人手を介さずとも生成される問題が正しいことを担保するためにdual-verificationを採用。具体的には、LLMに新規の問題文と効率的な解法を生成させ、加えてブルートフォースでの解法を別途生成する。そして、両者をLLMが生成したテストセット群で実行し、全ての解放で出力が一致した場合のみAcceptする、といったような手法らしい。

(手法の概要としてはそうなのだろうが、細かい実装に高品質さの肝があると思うのでしっかり読んだ方が良さげ。特にTest Generationの詳細をしっかりできていない)

image

takeawayで興味深かったのは、

- LLMは自身では解けないが、解法が存在する(solvable)問題を生成できること
- 人間の専門家とLLM(o3)の間で、問題の品質の新規性の判定の相関がわずか0.007, 0.11しかなかったこと。そして品質に関しては専門家のグループ間では0.71, o3とgpt4oの間では0.72と高い相関を示しており、LLMと人間の専門家の間で著しく問題の品質の判断基準が異なること
- seed問題と生成された問題の難易度のgainが、問題の品質に関して、LLM自身のself-evaluationよりもより良い指標となっていること




Paper/Blog Link My Issue
#Pocket #ACL Issue Date: 2025-01-06 GPT Summary- 大規模言語モデル(LLMs)を用いた会話型インテリジェントチュータリングシステム(CITS)は、英語の第二言語(L2)学習者に対して効果的な教育手段となる可能性があるが、既存のシステムは教育的深さに欠ける。これを改善するために、バイリンガル教育的情報を持つチュータリングデータセット(BIPED)を構築し、対話行為の語彙を考案した。GPT-4とSOLAR-KOを用いて二段階のフレームワークでCITSモデルを実装し、実験により人間の教師のスタイルを再現し、多様な教育的戦略を採用できることを示した。

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #EducationalDataMining Issue Date: 2024-12-31 GPT Summary- 生成AIシステムは従来の情報提示に偏っているため、教育的行動を注入する「教育的指示の遵守」を提案。これにより、モデルの振る舞いを柔軟に指定でき、教育データを追加することでGeminiモデルの学習を向上。LearnLMモデルは、さまざまな学習シナリオで専門家から高く評価され、GPT-4oやClaude 3.5に対しても優れた性能を示した。

Paper/Blog Link My Issue
#NLP #EducationalDataMining #QuestionGeneration Issue Date: 2023-07-15 GPT Summary- 本研究では、教育的な対話における情報のギャップに焦点を当て、自動的に質問を生成する問題に取り組んでいます。良い質問の要素を明確にし、それを満たすモデルを提案します。また、人間のアノテーターによる評価を行い、生成された質問の競争力を示します。

Paper/Blog Link My Issue
#NaturalLanguageGeneration #NLP #AdaptiveLearning #KnowledgeTracing #Personalization #QuestionGeneration Issue Date: 2023-07-14 GPT Summary- 本研究では、オンライン言語学習のための適応的な演習生成の新しいタスクを研究しました。学習履歴から学生の知識状態を推定し、その状態に基づいて個別化された演習文を生成するモデルを提案しました。実データを用いた実験結果から、学生の状態に応じた演習を生成できることを示しました。さらに、教育アプリケーションでの利用方法についても議論し、学習の効率化を促進できる可能性を示しました。 Comment

Knowledge Tracingで推定された習熟度に基づいて、エクササイズを自動生成する研究。KTとNLGが組み合わさっており、非常におもしろい。

image




Paper/Blog Link My Issue
#LanguageModel Issue Date: 2023-07-11 GPT Summary- 生成AIと大規模言語モデルは、プログラミング教育の向上に大きな可能性を持っています。しかし、これまでの研究は限定的であり、包括的なプログラミング教育シナリオのための最先端モデルのベンチマークが不足しています。本研究では、ChatGPTとGPT-4の2つのモデルを評価し、人間のチューターとのパフォーマンスを比較しました。結果は、GPT-4がChatGPTを大幅に上回り、一部のシナリオでは人間のチューターに近づいていることを示しています。また、GPT-4の改善のための興味深い方向性も提案されています。 Comment

GPT4とGPT3.5をプログラミング教育の文脈で評価したところ、GPT4AGPT3.5をoutperformし、人間のチューターに肉薄した。




Paper/Blog Link My Issue
#Survey #Pocket #ChatGPT Issue Date: 2023-05-04 GPT Summary- - ChatGPTは、深層学習アルゴリズムを使用して人間らしい応答を生成する人工知能言語モデルである。- 最新のChatGPTバージョンが導入され、他の言語モデルも登場している。- これらのモデルは、教育、ソフトウェアエンジニアリング、医療、マーケティングなどの分野で応用可能性がある。- 本論文では、これらのモデルの可能な応用、制限、欠点、および研究方向について議論する。

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AES(AutomatedEssayScoring) #ChatGPT Issue Date: 2023-04-28 GPT Summary- ChatGPTが生成したエッセイは、人間が書いたものよりも質が高いと評価されることが大規模な研究で示された。生成されたエッセイは独自の言語的特徴を持ち、教育者はこの技術を活用する新たな教育コンセプトを開発する必要がある。 Comment

ChatGPTは人間が書いたエッセイよりも高品質なエッセイが書けることを示した。

また、AIモデルの文体は、人間が書いたエッセイとは異なる言語的特徴を示している。たとえば、談話や認識マーカーが少ないが、名詞化が多く、語彙の多様性が高いという特徴がある、とのこと。



image




Paper/Blog Link My Issue
#NeuralNetwork #NaturalLanguageGeneration #Controllable #Pocket #NLP #EMNLP #Encoder-Decoder #IndustryTrack Issue Date: 2026-01-16 GPT Summary- 自然言語生成を活用し、英語学習アプリ向けに迅速に教材を生成。深層事前学習モデルを用いて、熟達度に応じた多様な文や文法テストの引数構造を制御する新手法を開発。人間評価では高い文法スコアを得て、上級モデルは基準を超える長さと複雑さを実現。多様で特注のコンテンツを提供し、強力なパフォーマンスを示す。

Paper/Blog Link My Issue
#RecommenderSystems #Survey #Pocket #TechnologyEnhancedLearning Issue Date: 2018-03-30 GPT Summary- MOOCsは人気を集めており、AIとデータマイニングがその発展に寄与している。データを活用することで、MOOCの理解を深め、学習者の体験を向上させることが可能。論文では、AIとDMの最新研究をレビューし、学生のエンゲージメントや学習成果を向上させる技術を強調。さらに、MOOCsの潜在能力を引き出すための重要な研究課題とトレンドを示す。

Paper/Blog Link My Issue
#Survey Issue Date: 2018-03-31 Comment

よさげ




Paper/Blog Link My Issue
#Article #LanguageModel #AIAgents #Blog #read-later #Initial Impression Notes #Testing Issue Date: 2026-01-22 Comment

元ポスト:

Loading…

Anthropicの採用における持ち帰り課題の変遷に関する記事。昔の持ち帰り課題では、応募者の大半よりもClaudeが上回るようになり採用におけるシグナルが拾いづらくなったのでリデザインが必要になった、そしてそれをどう変化させたか、といった話のようである。これは採用の話だがtestingという広い文脈で捉えるとかなり参考になる話に見える。