Critic
[Paper Note] A Rubric-Supervised Critic from Sparse Real-World Outcomes, Xingyao Wang+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#ReinforcementLearning #AIAgents #Coding #SoftwareEngineering #Selected Papers/Blogs #Verification #RewardModel #One-Line Notes #Rubric-based Issue Date: 2026-03-06 GPT Summary- コードエージェントの評価は通常、ユニットテストの成功を基にしているが、実際の環境では成功信号が遅延し、ノイズが多い。本研究では、疎でノイズの多い相互作用データを用いてクリティックモデルを学習する方法を提案し、これをRLベースの報酬モデルとして利用する。具体的には、エージェントの行動特徴を含むクリティック・ルーブリックを導入し、半教師付き目的関数で人間のフィードバックと共に予測する。実験により、このアプローチが SWe-bench におけるリランキングを改善し、試行回数を83%減少させながら成果を向上させることを示した。 Comment
元ポスト:
AI Agentによる実装は安価になったが、今度は(人間による)verificationがボトルネックなので、Agentのtrajectoryからcritiqueを実施するモデルをRubric-basedに学習しReward Modelとして活用できるようにした、という話に見える。これによりAgentの進捗をリアルタイムでvibe checkすることができるとのこと。
著者ポスト:
[Paper Note] RLAC: Reinforcement Learning with Adversarial Critic for Free-Form Generation Tasks, Mian Wu+, ICLR'26, 2025.11
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #ICLR #Verification #Rubric-based Issue Date: 2025-11-05 GPT Summary- 「対抗批評家による強化学習(RLAC)」を提案し、動的基準検証を通じて生成タスクの評価課題に対処。LLMを批評家として利用し、失敗モードを特定して検証することで、生成器と批評家を共同最適化。実験により、RLACがテキスト生成とコード生成の正確性を向上させ、従来の手法を上回ることを示した。動的批評家の効果も確認し、RLACのスケーリング可能性を示唆。 Comment
pj page: https://mianwu01.github.io/RLAC_website/
元ポスト:
関連:
著者ポスト:
openreview: https://openreview.net/forum?id=dBmjnRR1bC
[Paper Note] LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model, Xiyao Wang+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #ReinforcementLearning #Reasoning #OpenWeight #SelfCorrection #VisionLanguageModel Issue Date: 2025-09-04 GPT Summary- 本研究では、視覚と言語のモデリングにおいて、批評モデルを強化学習を用いて再編成し、生成モデルに直接適用する新しいアプローチを提案します。これにより、マルチモーダル批評モデルLLaVA-Critic-R1を生成し、視覚的推論ベンチマークで高い性能を示しました。さらに、自己批評を用いることで、追加の訓練なしに推論タスクでの性能を向上させることができることを示しました。この結果は、評価と生成の両方に優れた統一モデルを実現する可能性を示唆しています。 Comment
元ポスト:
HF: https://huggingface.co/collections/lmms-lab/llava-critic-r1-68922484e5822b89fab4aca1
