Subjective
GRPO Judge Experiments: Findings & Empirical Observations, kalomaze's kalomazing blog, 2025.03
Paper/Blog Link My Issue
#Article #MachineLearning #NLP #LanguageModel #ReinforcementLearning #Blog #GRPO #One-Line Notes Issue Date: 2025-03-05 Comment
一意に解が決まる問題ではなく、ある程度の主観的な判断が必要なタスクについてのGRPOの分析。
2つのテキストを比較するタスクで、一方のタスクはLLMによって摂動を与えている(おそらく意図的にcorruptさせている)。
GRPOではlinearやcosineスケジューラはうまく機能せず、warmupフェーズ有りの小さめの定数が有効らしい。また、max_grad_normを0.2にしまgradient clippingが有効とのこと。
他にもrewardの与え方をx^4にすることや、length, xmlフォーマットの場合にボーナスのrewardを与えるなどの工夫を考察している。
