InstructionFollowingCapabilityに関する論文・技術記事メモの一覧

InstructionFollowingCapability

[Paper Note] Generalizing Verifiable Instruction Following, Valentina Pyatkin+, NeurIPS'25, 2025.07

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #InstructionTuning #Evaluation #NeurIPS #RLVR #Selected Papers/Blogs Issue Date: 2025-09-21 GPT Summary- 人間とAIの相互作用において、言語モデルが指示に従う能力が重要であるが、現在のモデルは出力制約を満たすのに苦労している。多くのモデルは既存のベンチマークに過剰適合しており、未見の制約に対して一般化できない。これを解決するために、新しいベンチマークIFBenchを導入し、指示遵守の一般化を評価する。さらに、制約検証モジュールと強化学習（RLVR）を用いて指示遵守を改善する方法を示し、関連するデータや訓練プロンプトを公開する。 Comment

元ポスト:

Loading…

Instruction Followingのための新たなベンチマークIFBench（多様（58種類の制約）で精緻、かつ複数の出力に関する制約を持つ。Appendix Aを参照のこと)を導入し、RLVRによってInstruction tuningする方法を提案している模様。複数のIFの制約を同時に学習した方がOODに対してロバストになることや、制約ごとのinstance数に対する性能の変化、またSFT, DPOによってInstrtction Tuningを実施したモデルに対して、制約を満たしたか否かのVerifiableなデータから生成した嗜好データを用いて追加のDPOを実施した場合と、RLVRに基づくGRPOを実施した場合のどちらの性能が良いかなども実験されている（一貫してGRPOが良い）。

解説:

Loading…

[Paper Note] Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?, Qinyan Zhang+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Evaluation #Reasoning #read-later #Selected Papers/Blogs Issue Date: 2025-09-05 GPT Summary- 大規模言語モデル（LLMs）は、標準化されたパターンに従うことに苦労することがある。これを評価するために、Inverse IFEvalというベンチマークを提案し、モデルが対立する指示に従う能力を測定する。8種類の課題を含むデータセットを構築し、既存のLLMに対する実験を行った結果、非従来の文脈での適応性も考慮すべきであることが示された。Inverse IFEvalは、LLMの指示遵守の信頼性向上に寄与することが期待される。 Comment

元ポスト:

Loading…

興味深い

[Paper Note] AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders, Zhengxuan Wu+, ICLR'25 Spotlight

Paper/Blog Link My Issue
#Controllable #Pocket #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #Prompting #Evaluation #ICLR #read-later #ActivationSteering/ITI #Selected Papers/Blogs #Steering Issue Date: 2025-08-02 GPT Summary- 言語モデルの出力制御は安全性と信頼性に重要であり、プロンプトやファインチューニングが一般的に用いられるが、さまざまな表現ベースの技術も提案されている。これらの手法を比較するためのベンチマークAxBenchを導入し、Gemma-2-2Bおよび9Bに関する実験を行った。結果、プロンプトが最も効果的で、次いでファインチューニングが続いた。概念検出では表現ベースの手法が優れており、SAEは競争力がなかった。新たに提案した弱教師あり表現手法ReFT-r1は、競争力を持ちながら解釈可能性を提供する。AxBenchとともに、ReFT-r1およびDiffMeanのための特徴辞書を公開した。 Comment

openreview: https://openreview.net/forum?id=K2CckZjNy0

[Paper Note] Revisiting Compositional Generalization Capability of Large Language Models Considering Instruction Following Ability, Yusuke Sakai+, ACL'25

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Evaluation #Composition #ACL #CommonsenseReasoning Issue Date: 2025-07-31 GPT Summary- Ordered CommonGenを提案し、LLMsの指示に従う能力と構成的一般化能力を評価するベンチマークを構築。36のLLMsを分析した結果、指示の意図は理解しているが、概念の順序に対するバイアスが低多様性の出力を引き起こすことが判明。最も指示に従うLLMでも約75%の順序付きカバレッジしか達成できず、両能力の改善が必要であることを示唆。 Comment

LLMの意味の構成性と指示追従能力を同時に発揮する能力を測定可能なOrderedCommonGenを提案

Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models, Tingchen Fu+, arXiv'25

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #Mathematics Issue Date: 2025-05-24 GPT Summary- 指示に従う能力はLLMにとって重要であり、MathIFという数学的推論タスク用のベンチマークを提案。推論能力の向上と指示遵守の間には緊張関係があり、特に長い思考の連鎖を持つモデルは指示に従いにくい。介入により部分的な従順さを回復できるが、推論性能が低下することも示された。これらの結果は、指示に敏感な推論モデルの必要性を示唆している。 Comment

元ポスト:

Loading…

Instruction-Following Evaluation for Large Language Models, Jeffrey Zhou+, N_A, arXiv'23

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #InstructionTuning #Evaluation #Selected Papers/Blogs Issue Date: 2023-11-15 GPT Summary- 大規模言語モデル（LLMs）の能力を評価するために、Instruction-Following Eval（IFEval）という評価ベンチマークが導入されました。IFEvalは、検証可能な指示に焦点を当てた直感的で再現性のある評価方法です。具体的には、25種類の検証可能な指示を特定し、それぞれの指示を含む約500のプロンプトを作成しました。この評価ベンチマークの結果は、GitHubで公開されています。 Comment

LLMがinstructionにどれだけ従うかを評価するために、検証可能なプロンプト（400字以上で書きなさいなど）を考案し評価する枠組みを提案。人間が評価すると時間とお金がかかり、LLMを利用した自動評価だと評価を実施するLLMのバイアスがかかるのだ、それら両方のlimitationを克服できるとのこと。

AlpacaEval, tatsu-lab, 2023.06

Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #Evaluation Issue Date: 2025-09-10