<h2 id=Aggregation-aware> Aggregation-aware</h2><div class="visible-content"> #Pocket #NLP #LanguageModel #ReinforcementLearning #read-later
Issue Date: 2025-09-09 [Paper Note] The Majority is not always right: RL training for solution aggregation, Wenting Zhao+, arXiv’25 GPT Summary- 本研究では、複数の解を生成し、それを集約することでLLMsの推論能力を向上させる新しいアプローチを提案する。従来の方法に代わり、集約を明示的な推論スキルとして学習し、強化学習を用いて正しい答えを調整・合成する。簡単な例と難しい例のバランスを取ることで、モデルは少数派の正しい答えを回復する能力を獲得。提案手法AggLMは、複数のベンチマークで従来の手法を上回り、少ないトークンで効果的に一般化することが示された。 Comment<p>元ポスト:
</p><p>解説:
</p><p>著者ポスト:
</p><p>ポイント解説:
</p></span>
#Article
#Pocket
#NLP
#LanguageModel
#ReinforcementLearning
#Test-Time Scaling
#Selected Papers/Blogs
#KeyPoint Notes
Issue Date: 2025-09-27
RECURSIVE SELF-AGGREGATION UNLOCKS DEEP THINKING IN LARGE LANGUAGE MODELS, Venkatraman+, preprint, 2025.09
Comment<p>N個の応答を生成し、各応答K個組み合わせてpromptingで集約し新たな応答を生成することで洗練させる、といったことをT回繰り返すtest-time scaling手法で、RLによってモデルの集約能力を強化するとより良いスケーリングを発揮する。RLでは通常の目的関数(prompt x, answer y; xから単一のreasoning traceを生成しyを回答する設定)に加えて、aggregation promptを用いた目的関数(aggregation promptを用いて K個のsolution集合 S_0を生成し、目的関数をaggregation prompt x, S_0の双方で条件づけたもの)を定義し、同時に最適化をしている(同時に最適化することは5.4節に記述されている)。つまり、これまでのRLはxがgivenな時に頑張って単一の良い感じのreasoning traceを生成しyを生成するように学習していたが(すなわち、モデルが複数のsolutionを集約することは明示的に学習されていない)、それに加えてモデルのaggregationの能力も同時に強化する、という気持ちになっている。学習のアルゴリズムはPPO, GRPOなど様々なon-poloicyな手法を用いることができる。今回はRLOOと呼ばれる手法を用いている。
<img width=”1005” height=”456” alt=”Image” src=”
<a href=”https://github.com/user-attachments/assets/e83406ae-91a0-414b-a49c-892a4d1f23fd”” target=”_blank” rel=”noopener noreferrer”>https://github.com/user-attachments/assets/e83406ae-91a0-414b-a49c-892a4d1f23fd”</a>
/>
様々なsequential scaling, parallel scaling手法と比較して、RSAがより大きなgainを得ていることが分かる。ただし、Knowledge RecallというタスクにおいてはSelf-Consistency (Majority Voting)よりもgainが小さい。
<img width=”1017” height=”427” alt=”Image” src=”
<a href=”https://github.com/user-attachments/assets/8251f25b-472d-48d4-b7df-a6946cfbbcd9”” target=”_blank” rel=”noopener noreferrer”>https://github.com/user-attachments/assets/8251f25b-472d-48d4-b7df-a6946cfbbcd9”</a>
/>
以下がaggregation-awareなRLを実施した場合と、通常のRL, promptingのみによる場合の性能の表している。全体を通じてaggregation-awareなRLを実施することでより高い性能を発揮しているように見える。ただし、AIMEに関してだけは通常のpromptingによるRSAの性能が良い。なぜだろうか?考察まで深く読めていないので論文中に考察があるかもしれない。
<img width=”1026” height=”547” alt=”Image” src=”
<a href=”https://github.com/user-attachments/assets/146ab6a3-58c2-4a7f-aa84-978a5180c8f3”” target=”_blank” rel=”noopener noreferrer”>https://github.com/user-attachments/assets/146ab6a3-58c2-4a7f-aa84-978a5180c8f3”</a>
/></p><p>RLOO:
- [Paper Note] Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs, Arash Ahmadian+, ACL’24, 2024.02
</p><p>元ポスト:
</p><p>concurrent work:
- [Paper Note] The Majority is not always right: RL training for solution aggregation, Wenting Zhao+, arXiv’25
</p><p>あわせて読みたい:
- [Paper Note] Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory, Yexiang Liu+, ACL’25 Outstanding Paper
</p></span>
</div>
if ('IntersectionObserver' in window) {
const observer = new IntersectionObserver((entries, obs) => {
entries.forEach(entry => {
if (entry.isIntersecting) {
const el = entry.target;
const html = el.getAttribute('data-embed');
if (html) {
const placeholder = el.querySelector('.tweet-placeholder');
if (placeholder) placeholder.remove();
el.innerHTML = html.trim();
if (window.twttr?.widgets?.load) {
window.twttr.widgets.load(el);
}
}
obs.unobserve(el); // 処理済みは監視解除
}
});
}, {
rootMargin: '500px 0px', // 画面手前200pxで読み込み開始
threshold: 0
});
tweets.forEach(tweet => observer.observe(tweet));
} else {
// IntersectionObserver未対応ブラウザ用のフォールバック
function lazyLoadFallback() {
tweets.forEach(el => {
if (el.getAttribute('data-embed') && el.getBoundingClientRect().top < window.innerHeight) {
const html = el.getAttribute('data-embed');
const loadingImg = el.querySelector('.tweet-loading');
if (loadingImg) loadingImg.remove();
el.innerHTML = html.trim();
el.removeAttribute('data-embed');
if (window.twttr?.widgets?.load) {
window.twttr.widgets.load(el);
}
}
});
}
window.addEventListener('scroll', lazyLoadFallback);
lazyLoadFallback();
} }); </script>