Open-endedTasks


Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Reasoning #ICLR #PostTraining #Off-Policy #KeyPoint Notes #ConfidenceBased Issue Date: 2026-02-13 GPT Summary- NRT(ネイティブ推論トレーニング)は、教師ありファインチューニングと強化学習の依存を克服し、標準的な質問-回答ペアのみでモデルが自ら推論を生成します。推論を潜在変数として扱い、統一訓練目標に基づいて最適化問題としてモデル化することで、自己強化フィードバックループを構築。LlamaおよびMistralモデルにおいて、NRTが最先端の性能を達成し、従来の手法を大幅に上回ることを実証しました。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=abAMONjBwb

verifier freeでreasoning能力を向上させるRL手法で
- SFTにおいてexpertsのtrajectoryが必要な課題
- RLVRにおいてverifiableなドメインでしか学習できない課題

の両方に対処する。

具体的にはQAデータが与えられたときに、Questionに対してモデルにreasoning trace zを生成させ、zを生成した後にanswerを生成させる。zに対するTrace Rewardとanswerトークンに対するモデルのconfidenceを報酬として用いてRLする。

SFTやverifier freeな先行研究よりも9種類のreasoningベンチマークで高い性能を達成している。また、answer tokenのconfidenceに対する3種類の集約方法(平均, 1/pによって加重平均をすることで難しいトークンの重みを強める, 対数尤度を用いる)も提案手法も提案され比較されている。
image

論文中ではオフポリシーRLとして最適化する旨記述されているが、appendix記載の通りreasoning trace zを生成しているので、オンポリシーRLな性質も備えていると思われる。




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Hallucination #Probing #One-Line Notes Issue Date: 2026-02-12 GPT Summary- 特徴をスケーラブルな監視として用いる新アプローチ「RLFR」を提案。幻覚を減少させるため、強化学習パイプラインを設計し、モデルが出力の事実性に不確かさがある場合に介入・修正を学習。実験により、元のモデルより58%幻覚の可能性が低い結果を達成しながら、パフォーマンスを維持。解釈可能性の新しいパラダイムを示す。 Comment

元ポスト:

Loading…

(以下論文をちゃんと理解できているか少し自信ないです)

activation steeringやLLMの内部表現の分析に利用されるprobing手法をRLの報酬に活用する研究で、学習させたい特徴をprobingによって予測できるモデルを用意し(今回はhallucination)、報酬として活用できるパイプラインを用意して(少しこのパイプラインがややこしい)RLするという話に見える。probingするモデルを学習するデータの合成に際はstrong modelが用いられる(今回はGemini 2.5 Pro)。要は、テスト時にsteeringできるのであれば、学習時にモデルが内部的に保持している特徴を活用してRLしちゃえばいいじゃん、という発想に見える。

流れとしては、input textが与えられた時にprobingを実施して、どこのspanにhallucinationがあるかを検出し、現在のポリシーにその情報を用いて新たなcontextを生成しself verificationさせる(情報を維持、撤回させるのか、修正のいずれの操作のうちどれを実施すべきかを出力)ことでロールアウトを実施。続いて、ロールアウトされたテキストに対して、**ベースモデルを用いてprobingを実施し**、その結果をrewardとしてポリシーをアップデートする。ベースモデルを使う部分の気持ちがどこに書かれているかがわからないのだが、おそらく、現在のポリシーのロールアウトをベースモデルを用いてprobingすることでreward hackingを防止している。test timeにも同様のprobingを実施し、Best-of-Nで応答を生成する(Figure2)。




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #PostTraining #Rubric-based Issue Date: 2026-02-11 GPT Summary- Rubric-ARMフレームワークは、スカラー得点を超えて創造的応答の多面的な質を捉えることを目的としている。報酬フィードバックからの強化学習を用い、rubric生成器と判定者を共同最適化し、既存手法の静的な制約を克服。交互最適化戦略を導入し、その効果を理論的に分析。実験により、Rubric-ARMが複数のベンチマークで最先端の性能を発揮し、強化学習環境でのポリシー整合性を大幅に改善することを示した。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation Issue Date: 2026-02-03 GPT Summary- エージェントの能力には、自律的に目標を設定し探求する「探求知能」が求められ、単なるタスク完了の「実行知能」とは異なる。データサイエンスは生データから始まるため、自然なテストベッドを提供するが、関連するベンチマークは少ない。これに対処するため、「Deep Data Research(DDR)」を提案し、LLMがデータベースから洞察を抽出するオープンエンドタスクと、評価を可能にするDDR-Benchを導入。最前線のモデルは新たなエージェンシーを示すが、長期的な探求は依然困難であり、探求知能はモデルの戦略に依存している。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #PostTraining #RewardModel #GenerativeVerifier #Rubric-based Issue Date: 2026-01-20 GPT Summary- 強化学習における検証可能な報酬(RLVR)は、論理的思考が求められるが、評価の欠如が生成の最適化を難しくしている。ルーブリック評価は構造的手段を提供するが、既存手法はスケーラビリティや粗い基準に課題がある。これに対処するため、自動評価基準の生成フレームワークを提案し、微妙なニュアンスを捉える高識別力基準を作成。約11万件のデータセット「RubricHub」を紹介し、二段階ポストトレーニングでその有用性を検証。結果、Qwen3-14BがHealthBenchで69.3の最先端結果を達成し、他のモデルを上回った。 Comment

pj page: https://huggingface.co/datasets/sojuL/RubricHub_v1

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #RLVR Issue Date: 2025-09-25 GPT Summary- 強化学習における検証可能な報酬(RLVR)は、特定のドメインでの推論を改善するが、オープンエンドのタスクには限界がある。本研究では、RLVRの枠組みを超えた一般的なチャット機能のためのRLとモデル報酬思考(RLMT)を提案。RLMTは、長い連鎖的思考を生成し、嗜好ベースの報酬モデルで最適化する。実験により、RLMTは標準的なRLHFパイプラインを上回り、特にチャットや創造的執筆での性能向上を示した。最良のモデルはGPT-4oを超え、少ないデータでのトレーニングでも高い性能を発揮。結果は、ポストトレーニングパイプラインの再考と今後の研究の必要性を示唆している。 Comment

元ポスト:

Loading…

解説:

Loading…

openreview: https://openreview.net/forum?id=trBEiQFkxw