InstructionFollowingCapability
#Pocket
#NLP
#LanguageModel
#ReinforcementLearning
#InstructionTuning
#Evaluation
#NeurIPS
#RLVR
Issue Date: 2025-09-21 [Paper Note] Generalizing Verifiable Instruction Following, Valentina Pyatkin+, NeurIPS'25, 2025.07 GPT Summary- 人間とAIの相互作用において、言語モデルが指示に従う能力が重要であるが、現在のモデルは出力制約を満たすのに苦労している。多くのモデルは既存のベンチマークに過剰適合しており、未見の制約に対して一般化できない。これを解決するために、新しいベンチマークIFBenchを導入し、指示遵守の一般化を評価する。さらに、制約検証モジュールと強化学習(RLVR)を用いて指示遵守を改善する方法を示し、関連するデータや訓練プロンプトを公開する。 Comment
#Pocket #NLP #LanguageModel #Evaluation #Reasoning #read-later #Selected Papers/Blogs
Issue Date: 2025-09-05 [Paper Note] Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?, Qinyan Zhang+, arXiv'25 GPT Summary- 大規模言語モデル(LLMs)は、標準化されたパターンに従うことに苦労することがある。これを評価するために、Inverse IFEvalというベンチマークを提案し、モデルが対立する指示に従う能力を測定する。8種類の課題を含むデータセットを構築し、既存のLLMに対する実験を行った結果、非従来の文脈での適応性も考慮すべきであることが示された。Inverse IFEvalは、LLMの指示遵守の信頼性向上に寄与することが期待される。 Comment
#Pocket #NLP #Dataset #LanguageModel #Evaluation #Composition #ACL #CommonsenseReasoning
Issue Date: 2025-07-31 [Paper Note] Revisiting Compositional Generalization Capability of Large Language Models Considering Instruction Following Ability, Yusuke Sakai+, ACL'25 GPT Summary- Ordered CommonGenを提案し、LLMsの指示に従う能力と構成的一般化能力を評価するベンチマークを構築。36のLLMsを分析した結果、指示の意図は理解しているが、概念の順序に対するバイアスが低多様性の出力を引き起こすことが判明。最も指示に従うLLMでも約75%の順序付きカバレッジしか達成できず、両能力の改善が必要であることを示唆。 Comment
Issue Date: 2025-09-21 [Paper Note] Generalizing Verifiable Instruction Following, Valentina Pyatkin+, NeurIPS'25, 2025.07 GPT Summary- 人間とAIの相互作用において、言語モデルが指示に従う能力が重要であるが、現在のモデルは出力制約を満たすのに苦労している。多くのモデルは既存のベンチマークに過剰適合しており、未見の制約に対して一般化できない。これを解決するために、新しいベンチマークIFBenchを導入し、指示遵守の一般化を評価する。さらに、制約検証モジュールと強化学習(RLVR)を用いて指示遵守を改善する方法を示し、関連するデータや訓練プロンプトを公開する。 Comment
元ポスト:
Instruction Followingのための新たなベンチマークIFBench(多様(58種類の制約)で精緻、かつ複数の出力に関する制約を持つ。Appendix Aを参照のこと)を導入し、RLVRによってInstruction tuningする方法を提案している模様。複数のIFの制約を同時に学習した方がOODに対してロバストになることや、制約ごとのinstance数に対する性能の変化、またSFT, DPOによってInstrtction Tuningを実施したモデルに対して、制約を満たしたか否かのVerifiableなデータから生成した嗜好データを用いて追加のDPOを実施した場合と、RLVRに基づくGRPOを実施した場合のどちらの性能が良いかなども実験されている(一貫してGRPOが良い)。
#Pocket #NLP #LanguageModel #Evaluation #Reasoning #read-later #Selected Papers/Blogs
Issue Date: 2025-09-05 [Paper Note] Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?, Qinyan Zhang+, arXiv'25 GPT Summary- 大規模言語モデル(LLMs)は、標準化されたパターンに従うことに苦労することがある。これを評価するために、Inverse IFEvalというベンチマークを提案し、モデルが対立する指示に従う能力を測定する。8種類の課題を含むデータセットを構築し、既存のLLMに対する実験を行った結果、非従来の文脈での適応性も考慮すべきであることが示された。Inverse IFEvalは、LLMの指示遵守の信頼性向上に寄与することが期待される。 Comment
元ポスト:
興味深い
#Pocket #NLP #Dataset #LanguageModel #Evaluation #Composition #ACL #CommonsenseReasoning
Issue Date: 2025-07-31 [Paper Note] Revisiting Compositional Generalization Capability of Large Language Models Considering Instruction Following Ability, Yusuke Sakai+, ACL'25 GPT Summary- Ordered CommonGenを提案し、LLMsの指示に従う能力と構成的一般化能力を評価するベンチマークを構築。36のLLMsを分析した結果、指示の意図は理解しているが、概念の順序に対するバイアスが低多様性の出力を引き起こすことが判明。最も指示に従うLLMでも約75%の順序付きカバレッジしか達成できず、両能力の改善が必要であることを示唆。 Comment
LLMの意味の構成性と指示追従能力を同時に発揮する能力を測定可能なOrderedCommonGenを提案
#Analysis
#Pocket
#NLP
#Dataset
#LanguageModel
#Supervised-FineTuning (SFT)
#ReinforcementLearning
#Evaluation
#Mathematics
Issue Date: 2025-05-24
Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models, Tingchen Fu+, arXiv'25
GPT Summary- 指示に従う能力はLLMにとって重要であり、MathIFという数学的推論タスク用のベンチマークを提案。推論能力の向上と指示遵守の間には緊張関係があり、特に長い思考の連鎖を持つモデルは指示に従いにくい。介入により部分的な従順さを回復できるが、推論性能が低下することも示された。これらの結果は、指示に敏感な推論モデルの必要性を示唆している。
Comment
#Pocket #NLP #Dataset #LanguageModel #InstructionTuning #Evaluation #Selected Papers/Blogs Issue Date: 2023-11-15 Instruction-Following Evaluation for Large Language Models, Jeffrey Zhou+, N_A, arXiv'23 GPT Summary- 大規模言語モデル(LLMs)の能力を評価するために、Instruction-Following Eval(IFEval)という評価ベンチマークが導入されました。IFEvalは、検証可能な指示に焦点を当てた直感的で再現性のある評価方法です。具体的には、25種類の検証可能な指示を特定し、それぞれの指示を含む約500のプロンプトを作成しました。この評価ベンチマークの結果は、GitHubで公開されています。 Comment
#Article #NLP #Dataset #LanguageModel #Evaluation Issue Date: 2025-09-10 AlpacaEval, tatsu-lab, 2023.06
元ポスト:
#Pocket #NLP #Dataset #LanguageModel #InstructionTuning #Evaluation #Selected Papers/Blogs Issue Date: 2023-11-15 Instruction-Following Evaluation for Large Language Models, Jeffrey Zhou+, N_A, arXiv'23 GPT Summary- 大規模言語モデル(LLMs)の能力を評価するために、Instruction-Following Eval(IFEval)という評価ベンチマークが導入されました。IFEvalは、検証可能な指示に焦点を当てた直感的で再現性のある評価方法です。具体的には、25種類の検証可能な指示を特定し、それぞれの指示を含む約500のプロンプトを作成しました。この評価ベンチマークの結果は、GitHubで公開されています。 Comment
LLMがinstructionにどれだけ従うかを評価するために、検証可能なプロンプト(400字以上で書きなさいなど)を考案し評価する枠組みを提案。人間が評価すると時間とお金がかかり、LLMを利用した自動評価だと評価を実施するLLMのバイアスがかかるのだ、それら両方のlimitationを克服できるとのこと。
#Article #NLP #Dataset #LanguageModel #Evaluation Issue Date: 2025-09-10 AlpacaEval, tatsu-lab, 2023.06