ConfidenceBased
[Paper Note] Native Reasoning Models: Training Language Models to Reason on Unverifiable Data, Yuanfu Wang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Reasoning #ICLR #PostTraining #Off-Policy #KeyPoint Notes #Open-endedTasks Issue Date: 2026-02-13 GPT Summary- NRT(ネイティブ推論トレーニング)は、教師ありファインチューニングと強化学習の依存を克服し、標準的な質問-回答ペアのみでモデルが自ら推論を生成します。推論を潜在変数として扱い、統一訓練目標に基づいて最適化問題としてモデル化することで、自己強化フィードバックループを構築。LlamaおよびMistralモデルにおいて、NRTが最先端の性能を達成し、従来の手法を大幅に上回ることを実証しました。 Comment
元ポスト:
openreview: https://openreview.net/forum?id=abAMONjBwb
verifier freeでreasoning能力を向上させるRL手法で
- SFTにおいてexpertsのtrajectoryが必要な課題
- RLVRにおいてverifiableなドメインでしか学習できない課題
の両方に対処する。
具体的にはQAデータが与えられたときに、Questionに対してモデルにreasoning trace zを生成させ、zを生成した後にanswerを生成させる。zに対するTrace Rewardとanswerトークンに対するモデルのconfidenceを報酬として用いてRLする。
SFTやverifier freeな先行研究よりも9種類のreasoningベンチマークで高い性能を達成している。また、answer tokenのconfidenceに対する3種類の集約方法(平均, 1/pによって加重平均をすることで難しいトークンの重みを強める, 対数尤度を用いる)も提案手法も提案され比較されている。
論文中ではオフポリシーRLとして最適化する旨記述されているが、appendix記載の通りreasoning trace zを生成しているので、オンポリシーRLな性質も備えていると思われる。
