Routing
Issue Date: 2025-11-25 [Paper Note] xRouter: Training Cost-Aware LLMs Orchestration System via Reinforcement Learning, Cheng Qian+, arXiv'25, 2025.10 GPT Summary- xRouterは、コストとパフォーマンスのトレードオフを考慮したルーティングシステムで、学習されたルーターが直接回答するか外部モデルを呼び出す。強化学習により訓練され、手動ルールの必要がない。多様なベンチマークでコスト削減とタスク完了率の向上を実現し、LLMオーケストレーションの進展に寄与することを目指す。 Comment
元ポスト:
#Pocket #NLP #LanguageModel #MoE(Mixture-of-Experts) #PostTraining #Generalization
Issue Date: 2025-11-12 [Paper Note] Routing Manifold Alignment Improves Generalization of Mixture-of-Experts LLMs, Zhongyang Li+, arXiv'25, 2025.11 GPT Summary- Sparse Mixture-of-Experts (MoE)は、推論コストを増やさずにモデル能力を拡張するが、既存のMoE LLMではルーターの最適性が欠けており、性能に10-20%のギャップが生じている。本研究では、ルーティング重みの多様体をタスク埋め込みの多様体と整合させる「Routing Manifold Alignment (RoMA)」手法を提案し、MoE LLMの一般化性能を向上させる。RoMAは、ルーターのファインチューニングを通じて、類似タスク間で専門家の選択を共有し、タスク理解と解決策生成を統一する。実験により、RoMAを用いたファインチューニングが多様なベンチマークで大幅な性能改善をもたらすことが示された。 Comment
元ポスト:
#Pocket #NLP #LanguageModel
Issue Date: 2025-10-23 [Paper Note] Lookahead Routing for Large Language Models, Canbin Huang+, arXiv'25, 2025.10 GPT Summary- Lookaheadフレームワークを提案し、クエリに対して最適なモデルを選択するために潜在的な出力を予測することで、情報に基づいたルーティングを実現。これにより、複雑なクエリに対するルーティング精度が向上し、既存の手法より平均7.7%の性能向上を達成。 Comment
元ポスト:
先行研究:
- [Paper Note] RouterDC: Query-Based Router by Dual Contrastive Learning for Assembling Large Language Models, Shuhao Chen+, NeurIPS'24, 2024.09
- [Paper Note] Smoothie: Label Free Language Model Routing, Neel Guha+, NeurIPS'24, 2024.12
- [Paper Note] Large Language Model Routing with Benchmark Datasets, Tal Shnitzer+, COLM'24, 2023.09
元ポスト:
pj page: https://policyconsensus.github.io
#EfficiencyImprovement #Pocket #NLP #LanguageModel #DynamicNetworks #One-Line Notes Issue Date: 2025-10-17 [Paper Note] Dr.LLM: Dynamic Layer Routing in LLMs, Ahmed Heakl+, arXiv'25, 2025.10 GPT Summary- Dr.LLMは、LLMsに動的な層ルーティングを導入し、計算効率を向上させるフレームワーク。モンテカルロ木探索を用いて高品質な層構成を導出し、ARCやDARTで精度を最大+3.4%向上させ、平均5層を節約。ドメイン外タスクでもわずか0.85%の精度低下で従来手法を上回る。明示的な監視下でのルーターがLLMsを効率的に活用できることを示す。 Comment
LayerごとにMLPのrouterを用意し、(元のLLMのパラメータはfreezeして)Layerをskip, execute, repeatするかを追加で学習することで、クエリに応じて動的に計算コストとpathを調整する能力を身につけさせ、性能を向上させつつも計算量も削減できます、といった話な模様。routerが学習されているのでinference時にsearchは不要。
#Multi #Pocket #LanguageModel #ReinforcementLearning #NeurIPS Issue Date: 2025-10-07 [Paper Note] Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning, Haozhen Zhang+, NeurIPS'25, 2025.06 GPT Summary- Router-R1は、複数の大規模言語モデル(LLMs)を効果的にルーティングし集約するための強化学習に基づくフレームワークを提案。内部の熟慮と動的なモデル呼び出しを交互に行い、パフォーマンスとコストのトレードオフを最適化。実験では、一般的なQAベンチマークで強力なベースラインを上回る性能を示し、優れた一般化とコスト管理を実現。 Comment
元ポスト:
ポイント解説:
#Pocket #NLP #LanguageModel #COLM Issue Date: 2025-10-24 [Paper Note] Large Language Model Routing with Benchmark Datasets, Tal Shnitzer+, COLM'24, 2023.09 GPT Summary- 複数のLLMから最適なモデルを選択するための「ルーター」モデルを学習する新しいアプローチを提案。ベンチマークデータセットを再利用し、二項分類タスクに還元可能であることを示し、単一モデル使用時よりも一貫して性能が向上することを実証。 Comment
#Pocket #NLP #LanguageModel #NeurIPS Issue Date: 2025-10-24 [Paper Note] Smoothie: Label Free Language Model Routing, Neel Guha+, NeurIPS'24, 2024.12 GPT Summary- 本研究では、教師なしルーティング手法「Smoothie」を提案し、異なる大規模言語モデル(LLMs)の出力を基にサンプルに最適なLLMを選択する方法を探求します。Smoothieは、LLM出力の埋め込み表現と潜在変数グラフィカルモデルを用いて各LLMの品質スコアを推定し、最も高いスコアのLLMにサンプルをルーティングします。実験により、Smoothieがルーティングのベースラインを最大10ポイント上回る精度を示し、9つのタスクで最適なモデルを正しく特定できることが確認されました。 Comment
#Pocket #NLP #LanguageModel #ContrastiveLearning #NeurIPS Issue Date: 2025-10-24 [Paper Note] RouterDC: Query-Based Router by Dual Contrastive Learning for Assembling Large Language Models, Shuhao Chen+, NeurIPS'24, 2024.09 GPT Summary- 複数のLLMを組み合わせるためのルーティング手法「RouterDC」を提案。RouterDCはエンコーダとLLM埋め込みから成り、2つの対照的学習損失を用いて訓練。実験により、RouterDCは既存の手法を大きく上回り、分布内タスクで+2.76%、分布外タスクで+1.90%の性能向上を示した。ソースコードは公開されている。 Comment
openreview: https://openreview.net/forum?id=7RQvjayHrM¬eId=YrqLVNAOot
#Pocket #NLP #LanguageModel #MoE(Mixture-of-Experts) #NeurIPS Issue Date: 2025-09-04 [Paper Note] Multi-Head Mixture-of-Experts, Xun Wu+, NeurIPS'24 GPT Summary- MH-MoEは、マルチヘッドメカニズムを用いてトークンを複数のサブトークンに分割し、専門家の活性化を向上させる新しい手法です。これにより、文脈理解が深まり、過学習が軽減されます。MH-MoEは実装が簡単で、他のSMoEモデルと統合可能であり、広範な実験でその有効性が示されています。 Comment
SNLP'24での解説スライド: https://speakerdeck.com/takase/snlp2024-multiheadmoe
MoEのRouting Collapseに対して、Expertsの表現力を落とすことで特定のExpertsにルーティングが偏らないようにする、というコンセプトな模様。具体的には、inputを複数headに分割してhead単位でExpertsを選択し、出力をconcatする、といったアーキテクチャらしい。
#Article #NLP #LanguageModel #ChatGPT #Blog #Reasoning #ProprietaryLLM #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-11-13 GPT-5.1: A smarter, more conversational ChatGPT, OpenAI, 2025.11 Comment
元ポスト:
instantモデルはよりあたたかい応答でより指示追従能力を高め、thinkingモデルは入力に応じてより適応的に思考トークン数を調整する。autoモデルは入力に応じてinstant, thinkingに適切にルーティングをする。
所見:
Artificial Analysisによるベンチマーキング:
GPT-5.1-Codex-maxの50% time horizon:
#Article #ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #TTS #UMM #Omni #Sparse #ImageSynthesis Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment
元ポスト:
過去一番多くのタグを付与した気がするが、果たして大規模、Omniモデルかつ、UMMにしたことによる恩恵(=様々なモダリティを統一された空間上に学習させる恩恵)はどの程度あるのだろうか?
アーキテクチャを見ると、モダリティごとに(モダリティ単位でのバイアスがかかった)Routerが用意されexpertにルーティングされるような構造になっている。
#Article #Embeddings #NLP #Blog #Encoder Issue Date: 2025-10-27 From Monolithic to Modular: Scaling Semantic Routing with Extensible LoRA, vLLM blog, 2025.10 Comment
元ポスト: