DynamicNetworks


Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Routing #One-Line Notes Issue Date: 2025-10-17 GPT Summary- Dr.LLMは、LLMsに動的な層ルーティングを導入し、計算効率を向上させるフレームワーク。モンテカルロ木探索を用いて高品質な層構成を導出し、ARCやDARTで精度を最大+3.4%向上させ、平均5層を節約。ドメイン外タスクでもわずか0.85%の精度低下で従来手法を上回る。明示的な監視下でのルーターがLLMsを効率的に活用できることを示す。 Comment

LayerごとにMLPのrouterを用意し、(元のLLMのパラメータはfreezeして)Layerをskip, execute, repeatするかを追加で学習することで、クエリに応じて動的に計算コストとpathを調整する能力を身につけさせ、性能を向上させつつも計算量も削減できます、といった話な模様。routerが学習されているのでinference時にsearchは不要。




Paper/Blog Link My Issue
#NeuralNetwork #EfficiencyImprovement #MachineLearning #NLP #ACL #Encoder Issue Date: 2023-07-18 GPT Summary- 動的ネットワークはモデルの表現力を向上させるが、完全に動的にすると冗長なパラメータと高いコストが生じる。本研究では、冗長な動的パラメータを静的パラメータに変換する部分的動的ネットワーク、PAD-Netを提案し、動的と静的パラメータを効率的に分割するIterative Mode Partitionを用いた。実験により、ResNet-50で動的パラメータを30%使用してトップ1精度を+0.7%向上、BERTで50%使用して言語理解のスコアを+1.9%改善した。コードは公開予定。