Critic

#ComputerVision #Pocket #NLP #LanguageModel #ReinforcementLearning #Reasoning #OpenWeight #SelfCorrection #VisionLanguageModel
Issue Date: 2025-09-04 [Paper Note] LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model, Xiyao Wang+, arXiv'25 GPT Summary- 本研究では、視覚と言語のモデリングにおいて、批評モデルを強化学習を用いて再編成し、生成モデルに直接適用する新しいアプローチを提案します。これにより、マルチモーダル批評モデルLLaVA-Critic-R1を生成し、視覚的推論ベンチマークで高い性能を示しました。さらに、自己批評を用いることで、追加の訓練なしに推論タスクでの性能を向上させることができることを示しました。この結果は、評価と生成の両方に優れた統一モデルを実現する可能性を示唆しています。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/collections/lmms-lab/llava-critic-r1-68922484e5822b89fab4aca1