Routing

#Multi #Pocket #LanguageModel #ReinforcementLearning #NeurIPS
Issue Date: 2025-10-07 [Paper Note] Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning, Haozhen Zhang+, NeurIPS'25, 2025.06 GPT Summary- Router-R1は、複数の大規模言語モデル(LLMs)を効果的にルーティングし集約するための強化学習に基づくフレームワークを提案。内部の熟慮と動的なモデル呼び出しを交互に行い、パフォーマンスとコストのトレードオフを最適化。実験では、一般的なQAベンチマークで強力なベースラインを上回る性能を示し、優れた一般化とコスト管理を実現。 Comment

元ポスト:

Loading…


#Pocket #NLP #LanguageModel #MoE(Mixture-of-Experts) #NeurIPS
Issue Date: 2025-09-04 [Paper Note] Multi-Head Mixture-of-Experts, Xun Wu+, NeurIPS'24 GPT Summary- MH-MoEは、マルチヘッドメカニズムを用いてトークンを複数のサブトークンに分割し、専門家の活性化を向上させる新しい手法です。これにより、文脈理解が深まり、過学習が軽減されます。MH-MoEは実装が簡単で、他のSMoEモデルと統合可能であり、広範な実験でその有効性が示されています。 Comment

openreview: https://openreview.net/forum?id=dyZ8GJZjtX&referrer=%5Bthe%20profile%20of%20Shaohan%20Huang%5D(%2Fprofile%3Fid%3D~Shaohan_Huang1)

SNLP'24での解説スライド: https://speakerdeck.com/takase/snlp2024-multiheadmoe

MoEのRouting Collapseに対して、Expertsの表現力を落とすことで特定のExpertsにルーティングが偏らないようにする、というコンセプトな模様。具体的には、inputを複数headに分割してhead単位でExpertsを選択し、出力をconcatする、といったアーキテクチャらしい。