Routing
[Paper Note] SLA2: Sparse-Linear Attention with Learnable Routing and QAT, Jintao Zhang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Transformer #Attention #DiffusionModel #VideoGeneration/Understandings #4D (Video) #One-Line Notes #SparseAttention #LinearAttention Issue Date: 2026-02-20 GPT Summary- SLA2は、スパース注意とリニア注意を動的に選択する学習可能なルータを導入し、パフォーマンスを向上させる。さらに、アテンションブランチを組み合わせるための比率や量子化を意識した設計を採用。実験により、動画生成モデルで97%のスパース性を達成し、18.6倍の速度向上を実現した。 Comment
元ポスト:
ポイント解説:
Sparse AttentionとLinear Attentionを動的に選択するルータを学習して効率を向上させる
[Paper Note] MoEEdit: Efficient and Routing-Stable Knowledge Editing for Mixture-of-Experts LLMs, Yupu Gu+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #MoE(Mixture-of-Experts) #KnowledgeEditing #Stability #One-Line Notes Issue Date: 2026-02-12 GPT Summary- MoEモデルに対する知識編集のための新たなルーティング安定フレームワークMoEEditを提案。エキスパート更新を再パラメータ化し、ルーター入力を不変に保つことで、計算およびメモリ効率を向上させつつ、高い特異性とルーティングの安定性を実現。実験により、最新の効果と一般化を達成したことが示された。 Comment
元ポスト:
MoEにKnowledge Editingを単純に適用するとexpertsへのroutingがシフトして不安定になったり、expertの数に応じて計算量が増大するだけでなく、expert間でcouplingされて知識が活用される場合に独立性がないといったMoE特有の課題があり、それらに対処するような手法を提案している模様。
[Paper Note] Multi-Head LatentMoE and Head Parallel: Communication-Efficient and Deterministic MoE Parallelism, Chenwei Cui+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Architecture #MoE(Mixture-of-Experts) Issue Date: 2026-02-11 GPT Summary- 大規模言語モデルのトレーニングコストに対処するために、新しいアーキテクチャ「マルチヘッドラテントMoE」と「ヘッドパラレル(HP)」を提案。通信コストを$O(1)$に抑え、負荷バランスと決定論的な通信を実現。EPと比較して、最大$1.61\times$のトレーニング速度向上を達成しつつ、性能は維持される。本手法により、数十億パラメータの基盤モデル研究がよりアクセスしやすくなる。 Comment
元ポスト:
[Paper Note] DIRMOE: DIRICHLET-ROUTED MIXTURE OF EXPERTS, ICLR'26
Paper/Blog Link My Issue
#NLP #LanguageModel #MoE(Mixture-of-Experts) #ICLR #Stability #One-Line Notes Issue Date: 2026-02-08 GPT Summary- Dirichlet-Routed MoE(DirMoE)は、MoEモデルの性能を向上させる新しい微分可能ルーティングメカニズムです。エキスパートの選択とその貢献の配分を明確に分け、Gumbel-Sigmoid緩和とDirichlet再パラメータ化により訓練過程を完全に微分可能にします。さらに、スパースペナルティを通じてアクティブなエキスパート数を管理し、専門性を高めつつ、他の手法と同等以上の成果を達成しています。 Comment
openreview: https://openreview.net/forum?id=a15cDnzr6r
元ポスト:
MoEのルーティングの選択と配分をモデル化して、微分可能にした上で最適化する
[Paper Note] $V_0$: A Generalist Value Model for Any Policy at State Zero, Yi-Kai Zhang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #In-ContextLearning #PostTraining #Stability #Scheduler #Initial Impression Notes #BudgetAllocation Issue Date: 2026-02-05 GPT Summary- GRPOを用いた訓練において、$V_0$という新たなバリューモデルを提案。これはパラメータ更新を必要とせず、モデルの期待パフォーマンスを推定し、能力の変化を捉える。$V_0$は成功率を予測し、効率的なサンプリングを実現。結果、LLMルーティングタスクにおいて、コストとパフォーマンスのバランスで優れた結果を示した。 Comment
元ポスト:
ポイント解説:
Actor-Critiqueの枠組みにおいてValueモデル(のポリシーに追従するための逐次的な更新が)重すぎる問題をGRPOはValueモデルを無くすことで回避したが今度はロールアウトのサンプリングコストがでかすぎる問題があるので、学習無しで汎用的に利用可能なValueモデル(パラメータ更新ではなくICLとして定義する)を用いて、ロールアウト前から成功率を予測し無駄なロールアウトを削減したり、クエリをどのモデルに投げるかといったルーティングをするなどの計算機リソースの配分を決めるといったことをやるらしい。
[Paper Note] Token-Level LLM Collaboration via FusionRoute, Nuoya Xiong+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Decoding #One-Line Notes Issue Date: 2026-01-10 GPT Summary- FusionRouteは、軽量なルーターを用いて、各デコーディングステップで最適な専門家を選択し、その専門家の出力を補完するトークンレベルのマルチLLMコラボレーションフレームワークを提案。これにより、ドメイン特化型モデルの効率性を保ちながら、一般化能力を向上させる。実験では、Llama-3やGemma-2といったモデルで、数学的推論やコード生成などのタスクにおいて優れた性能を示した。 Comment
元ポスト:
トークンレベルでモデルを選択して生成する
[Paper Note] xRouter: Training Cost-Aware LLMs Orchestration System via Reinforcement Learning, Cheng Qian+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #ReinforcementLearning #Reasoning Issue Date: 2025-11-25 GPT Summary- xRouterは、コストとパフォーマンスのトレードオフを考慮したルーティングシステムで、学習されたルーターが直接回答するか外部モデルを呼び出す。強化学習により訓練され、手動ルールの必要がない。多様なベンチマークでコスト削減とタスク完了率の向上を実現し、LLMオーケストレーションの進展に寄与することを目指す。 Comment
元ポスト:
[Paper Note] Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data, Yunxin Li+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #LanguageModel #MultiModal #SpeechProcessing #DiffusionModel #PositionalEncoding #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #DataMixture #2D (Image) #UMM #4D (Video) #Omni #KeyPoint Notes #audio #text Issue Date: 2025-11-18 GPT Summary- Uni-MoE 2.0は、Lycheeファミリーから発表されたオープンソースのオムニモーダル大規模モデルで、言語中心のマルチモーダル理解と生成を大幅に向上させる。動的容量のMixture-of-Experts設計や進行的トレーニング戦略を採用し、画像、テキスト、音声の生成が可能。約75Bトークンのデータでトレーニングされ、85のベンチマークで競争力のある性能を示し、特にビデオ理解やオムニモーダリティ理解で優れた結果を達成。 Comment
pj page: https://idealistxy.github.io/Uni-MoE-v2.github.io/
元ポスト:
pj pageをみた感じ、アーキテクチャは下記で、モダリティごとのエンコーダを用意しトークン化し同じ空間上で各モダリティを学習するUnified Multi Modalモデルとなっている。MoEアーキテクチャを採用しモダリティごとのexpertと共有のexpert、null expert(パラメータも必要とせず何も処理しないexpertでアーキテクチャをMoEから変えずに不要な計算を排除して効率を向上可能)を用意しルータで制御する。また、speechやvideoなどの時系列性に対処するためにRoPEを3次元に拡張したPEを用いて、各モダリティがシームレスにalignmentをとれるようにしている。
事前学習ではまずテキストを中心としたクロスモーダルな学習をする。たとえば、image/audio/video-textタスクで学習をする。このフェーズで各モダリティをテキストのsemantic spaceに写像する能力を鍛える(Figure5 left)。
その後SFTで各モダリティに特化したexpertを学習する。ここでは段階的にSFTを実施し、まずまずAudio, Visualのexpertを同時にwarmupし、その後Textのexpertsを追加して次のアニーリングフェーズを学習しているように見える。
続いてアニーリングフェーズとして、様々なモダリティのデータをバランスさせてDataMixtureし、徐々に学習率を下げながら特定のタスクやモダリティに特化せず、全体の性能が向上するように学習する。その後、long sequenceのreasoningの能力を向上させるためにGSPO-DPOをiterativeに適用する。DPOの嗜好データはLLM as a Judgeでロールアウトに基づいて構成する、
という感じらしい。
Table2にDataMixtureの比率がかかれているし、各種データの概要も3.2節にかかれているように見える。素晴らしい。
[Paper Note] Routing Manifold Alignment Improves Generalization of Mixture-of-Experts LLMs, Zhongyang Li+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#NLP #LanguageModel #MoE(Mixture-of-Experts) #PostTraining #Generalization Issue Date: 2025-11-12 GPT Summary- Sparse Mixture-of-Experts (MoE)は、推論コストを増やさずにモデル能力を拡張するが、既存のMoE LLMではルーターの最適性が欠けており、性能に10-20%のギャップが生じている。本研究では、ルーティング重みの多様体をタスク埋め込みの多様体と整合させる「Routing Manifold Alignment (RoMA)」手法を提案し、MoE LLMの一般化性能を向上させる。RoMAは、ルーターのファインチューニングを通じて、類似タスク間で専門家の選択を共有し、タスク理解と解決策生成を統一する。実験により、RoMAを用いたファインチューニングが多様なベンチマークで大幅な性能改善をもたらすことが示された。 Comment
元ポスト:
[Paper Note] Lookahead Routing for Large Language Models, Canbin Huang+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #LanguageModel Issue Date: 2025-10-23 GPT Summary- Lookaheadフレームワークを提案し、クエリに対して最適なモデルを選択するために潜在的な出力を予測することで、情報に基づいたルーティングを実現。これにより、複雑なクエリに対するルーティング精度が向上し、既存の手法より平均7.7%の性能向上を達成。 Comment
元ポスト:
先行研究:
- [Paper Note] RouterDC: Query-Based Router by Dual Contrastive Learning for Assembling Large Language Models, Shuhao Chen+, NeurIPS'24, 2024.09
- [Paper Note] Smoothie: Label Free Language Model Routing, Neel Guha+, NeurIPS'24, 2024.12
- [Paper Note] Large Language Model Routing with Benchmark Datasets, Tal Shnitzer+, COLM'24, 2023.09
[Paper Note] Multi-Modal Manipulation via Multi-Modal Policy Consensus, Haonan Chen+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#MultiModal #DiffusionModel #Robotics Issue Date: 2025-10-22 GPT Summary- 多様な感覚モダリティを統合することはロボット操作において重要であり、従来の特徴連結アプローチは最適ではない。提案手法では、ポリシーを拡散モデルに因数分解し、各モデルが特定の表現に特化。ルーターネットワークを用いて適応的に重みを学習し、新しい表現の統合を可能にする。シミュレーションや実世界のタスクで、マルチモーダル推論において特徴連結のベースラインを上回る性能を示し、物理的な摂動に対しても堅牢性を持つことが確認された。 Comment
元ポスト:
pj page: https://policyconsensus.github.io
[Paper Note] Dr.LLM: Dynamic Layer Routing in LLMs, Ahmed Heakl+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #DynamicNetworks #One-Line Notes Issue Date: 2025-10-17 GPT Summary- Dr.LLMは、LLMsに動的な層ルーティングを導入し、計算効率を向上させるフレームワーク。モンテカルロ木探索を用いて高品質な層構成を導出し、ARCやDARTで精度を最大+3.4%向上させ、平均5層を節約。ドメイン外タスクでもわずか0.85%の精度低下で従来手法を上回る。明示的な監視下でのルーターがLLMsを効率的に活用できることを示す。 Comment
LayerごとにMLPのrouterを用意し、(元のLLMのパラメータはfreezeして)Layerをskip, execute, repeatするかを追加で学習することで、クエリに応じて動的に計算コストとpathを調整する能力を身につけさせ、性能を向上させつつも計算量も削減できます、といった話な模様。routerが学習されているのでinference時にsearchは不要。
[Paper Note] Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning, Haozhen Zhang+, NeurIPS'25, 2025.06
Paper/Blog Link My Issue
#Multi #LanguageModel #ReinforcementLearning #NeurIPS Issue Date: 2025-10-07 GPT Summary- Router-R1は、複数の大規模言語モデル(LLMs)を効果的にルーティングし集約するための強化学習に基づくフレームワークを提案。内部の熟慮と動的なモデル呼び出しを交互に行い、パフォーマンスとコストのトレードオフを最適化。実験では、一般的なQAベンチマークで強力なベースラインを上回る性能を示し、優れた一般化とコスト管理を実現。 Comment
元ポスト:
ポイント解説:
[Paper Note] Large Language Model Routing with Benchmark Datasets, Tal Shnitzer+, COLM'24, 2023.09
Paper/Blog Link My Issue
#NLP #LanguageModel #COLM Issue Date: 2025-10-24 GPT Summary- 複数のLLMから最適なモデルを選択するための「ルーター」モデルを学習する新しいアプローチを提案。ベンチマークデータセットを再利用し、二項分類タスクに還元可能であることを示し、単一モデル使用時よりも一貫して性能が向上することを実証。 Comment
[Paper Note] Smoothie: Label Free Language Model Routing, Neel Guha+, NeurIPS'24, 2024.12
Paper/Blog Link My Issue
#NLP #LanguageModel #NeurIPS Issue Date: 2025-10-24 GPT Summary- 本研究では、教師なしルーティング手法「Smoothie」を提案し、異なる大規模言語モデル(LLMs)の出力を基にサンプルに最適なLLMを選択する方法を探求します。Smoothieは、LLM出力の埋め込み表現と潜在変数グラフィカルモデルを用いて各LLMの品質スコアを推定し、最も高いスコアのLLMにサンプルをルーティングします。実験により、Smoothieがルーティングのベースラインを最大10ポイント上回る精度を示し、9つのタスクで最適なモデルを正しく特定できることが確認されました。 Comment
[Paper Note] RouterDC: Query-Based Router by Dual Contrastive Learning for Assembling Large Language Models, Shuhao Chen+, NeurIPS'24, 2024.09
Paper/Blog Link My Issue
#NLP #LanguageModel #ContrastiveLearning #NeurIPS Issue Date: 2025-10-24 GPT Summary- 複数のLLMを組み合わせるためのルーティング手法「RouterDC」を提案。RouterDCはエンコーダとLLM埋め込みから成り、2つの対照的学習損失を用いて訓練。実験により、RouterDCは既存の手法を大きく上回り、分布内タスクで+2.76%、分布外タスクで+1.90%の性能向上を示した。ソースコードは公開されている。 Comment
openreview: https://openreview.net/forum?id=7RQvjayHrM¬eId=YrqLVNAOot
[Paper Note] Multi-Head Mixture-of-Experts, Xun Wu+, NeurIPS'24
Paper/Blog Link My Issue
#NLP #LanguageModel #MoE(Mixture-of-Experts) #NeurIPS Issue Date: 2025-09-04 GPT Summary- MH-MoEは、マルチヘッドメカニズムを用いてトークンを複数のサブトークンに分割し、専門家の活性化を向上させる新しい手法です。これにより、文脈理解が深まり、過学習が軽減されます。MH-MoEは実装が簡単で、他のSMoEモデルと統合可能であり、広範な実験でその有効性が示されています。 Comment
SNLP'24での解説スライド: https://speakerdeck.com/takase/snlp2024-multiheadmoe
MoEのRouting Collapseに対して、Expertsの表現力を落とすことで特定のExpertsにルーティングが偏らないようにする、というコンセプトな模様。具体的には、inputを複数headに分割してhead単位でExpertsを選択し、出力をconcatする、といったアーキテクチャらしい。
Composing Weight and Data Sparsity in MoE: Improving compute efficiency through varying compute per token, Perceptron, 2026.01
Paper/Blog Link My Issue
#Article #ComputerVision #Pretraining #NLP #MultiModal #MoE(Mixture-of-Experts) #read-later #VisionLanguageModel #Sparse #Initial Impression Notes Issue Date: 2026-01-23 Comment
元ポスト:
MoEがトークン単位でactivateするweightをサブセットにするweight sparcityによって効率化を実現する手法とみなしたときに、それぞれのinputに情報量の濃淡があることから現在のトークンごとにweightを割り当てるのではなく、weightごとにトークンを割り当てるというもう一つの軸を考えることができ(=Data Sparcity)、これをweightごとにトークンのsubsetしか持たないような実現方法をとるとcontextが損なわれauto-regressiveの前提が崩れるためtrain-inference-mismatchが生じるので、null experts(受け取ったトークンに対して何もしない)を実装して実現するみたいな話のように見えるが全くまだ読めていない。
LLMRouter: An Open-Source Library for LLM Routing, Feng+, 2025.12
Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #Library #python #SoftwareEngineering Issue Date: 2025-12-30 Comment
元ポスト:
GPT-5.1: A smarter, more conversational ChatGPT, OpenAI, 2025.11
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ChatGPT #Blog #Reasoning #Proprietary #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-11-13 Comment
元ポスト:
instantモデルはよりあたたかい応答でより指示追従能力を高め、thinkingモデルは入力に応じてより適応的に思考トークン数を調整する。autoモデルは入力に応じてinstant, thinkingに適切にルーティングをする。
所見:
Artificial Analysisによるベンチマーキング:
GPT-5.1-Codex-maxの50% time horizon:
Ming-flash-omni-Preview, inclusionAI, 2025.10
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #TTS #UMM #Omni #Sparse #ImageSynthesis #Initial Impression Notes Issue Date: 2025-10-28 Comment
元ポスト:
過去一番多くのタグを付与した気がするが、果たして大規模、Omniモーダルかつ、UMMにしたことによる恩恵(=様々なモダリティを統一された空間上に学習させる恩恵)はどの程度あるのだろうか?
アーキテクチャを見ると、モダリティごとに(モダリティ単位でのバイアスがかかった)Routerが用意されexpertにルーティングされるような構造になっている。
OmniモーダルでUMMを大規模にスクラッチから事前学習:
- [Paper Note] ERNIE 5.0 Technical Report, Haifeng Wang+, arXiv'26, 2026.02
From Monolithic to Modular: Scaling Semantic Routing with Extensible LoRA, vLLM blog, 2025.10
Paper/Blog Link My Issue
#Article #Embeddings #NLP #Blog #Encoder Issue Date: 2025-10-27 Comment
元ポスト:
