Inpainting

#MachineLearning #Pocket #NLP #LanguageModel #ReinforcementLearning #DiffusionModel #On-Policy
Issue Date: 2025-09-19 [Paper Note] Inpainting-Guided Policy Optimization for Diffusion Large Language Models, Siyan Zhao+, arXiv'25 GPT Summary- dLLMsはインペインティング能力を活用し、強化学習の探索課題を解決するIGPOフレームワークを提案。部分的な真実の推論トレースを挿入し、探索を有望な軌道に導く。これによりサンプル効率が向上し、GSM8K、Math500、AMCの数学ベンチマークで新たな最先端結果を達成。 Comment

元ポスト:

Loading…

部分的にtraceの正解を与えると、正解の方向にバイアスがかかるので多様性が犠牲になる気もするが、その辺はどうなんだろうか。