Adaptiveに関する論文・技術記事メモの一覧

Adaptive

[Paper Note] OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration, Shaobo Wang+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #read-later #Selected Papers/Blogs #DataFiltering #One-Line Notes Issue Date: 2026-02-12 GPT Summary- 高品質な公的テキストが不足する中、データ選択の動的特性を無視した手法の限界を克服するために、最適化器誘導投影ユーティリティ選択（OPUS）を提案。OPUSは、効果的な更新を安定したプロキシから導き出すことでデータをスコアリングし、計算効率を考慮したゴースト手法とボルツマン・サンプリングを用いる。これにより、GPT-2 Large/XLやQwen3-8B-Baseにおいて優れた成果を上げ、事前トレーニングの効率を飛躍的に改善。 Comment

元ポスト:

Loading…

事前学習においてステップ単位で動的にバッチに含める学習データを選択する手法で、従来手法は単に勾配を考慮して選択していたが、実際にoptimizerによって更新される方向はmomentumなどによって異なるためgapが生じていた。これを埋めるために、optimizerが実際に重みを更新した際に、Validation setのlossがどれだけ低下するかによってUtilityを定義し、Utilityが大きくなるようにデータを動的に選択することで学習効率が向上する、といった話に見える。

[Paper Note] When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning, Shoubin Yu+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #Test-Time Scaling #WorldModels #SpatialUnderstanding Issue Date: 2026-02-11 GPT Summary- 視覚的空間推論における想像の役割を分析し、制御可能なリソースとしてのテスト時視覚的想像の効果を評価。静的証拠が十分であるか、想像が改善に寄与するかを探求し、適応型フレームワークAVICを導入。結果は、想像の必要性や有害性の明確なシナリオを示し、制御された想像が固定戦略に匹敵するかそれを超える成果を達成。効率的な空間推論には、想像の分析と制御が不可欠であることを強調。 Comment

元ポスト:

Loading…

[Paper Note] AOrchestra: Automating Sub-Agent Creation for Agentic Orchestration, Jianhao Ruan+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #read-later #Selected Papers/Blogs #KeyPoint Notes #LongHorizon #Orchestration #BudgetAllocation Issue Date: 2026-02-11 GPT Summary- 任意のエージェントを命令・コンテキスト・ツール・モデルのタプルとしてモデル化し、タスクの自動化を促進する統一されたフレームワークを提案。AOrchestraでは中央オーケストレーターがタプルを具体化し、専門的な実行者を生成。この設計により、エンジニアリング作業を削減しつつ、エージェントの多様性と性能を最適化。実験では、AOrchestraが競合モデルに対して16.28%の相対改善を達成。 Comment

元ポスト:

Loading…

サブエージェントを生成するオーケストレータを学習し、動的に直面するタスクに適応したサブエージェント（適切なコンテキスト, 指示, ツール, モデル）[^1]を持つエージェントを構築し、実行を委譲することで、固定されたハーネスに依存せず、人間がエンジニアリングするコストも削減しながら、性能が向上する、という話に見える。

ベンチマークの性能向上が非常に大きく、効果的な手法であることが伺える。

[^1]: このようなサブエージェントのAbstractionを定義したのも貢献だと考えられる。

具体的な手法としては下記で、(a)オーケストレータエージェントがユーザからタスクを受け取り、サブタスクを解くためにサブエージェントを構築し委譲する。その後結果を受けとり状態を更新し、さらにサブエージェントを構築しタスクを委譲する、といった操作を繰り返す。(b)サブエージェントは(M, T, I, C)によって抽象化され、それぞれモデル、ツール、指示、コンテキストである。図中の(c)では自己教師あり学習が利用される旨が記述されているが、本文中ではSFTを使うと記述されているためここは齟齬があるように感じる（タイポも含まれている）。オーケストレーションのポイントは、タスクのオーケストレーションと、モデルのルーティングの二つの要素に分けられる。前者をSFTで学習し、後者はInstructionをiterativeに改善するプロセスで最適化する。

具体的には、オーケストレーションという特化したタスクを学習させるため、今回はexpertによる正解となる(T, I, C)を模倣できるように、SFTで学習する（GRPOのような手法でも学習できることについても言及されている点には注意）。
また、後者のモデルルーティングの最適化については、さまざまなモデルに対してInstructionを与え、得られたtrajectoryに対して性能とコストを計算し、これらを考慮してInstructionを更新することを繰り返すAutomatic Prompt Optimizationを採用している。これにより、コストと性能のパレート最適な構成を見つける。

[Paper Note] LatentMem: Customizing Latent Memory for Multi-Agent Systems, Muxin Fu+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #AIAgents #Selected Papers/Blogs #memory #KeyPoint Notes #Initial Impression Notes Issue Date: 2026-02-07 GPT Summary- LatentMemは、LLMを用いたマルチエージェントシステム向けに設計された学習可能なメモリフレームワークで、カスタマイズと情報最適化を実現します。経験バンクと潜在メモリを活用し、メモリエントリーの均質化と情報過多の問題を解決。タスクレベルの最適化信号を利用することで、従来のメモリ設計に対し最大19.36%の性能向上を達成しました。 Comment

元ポスト:

Loading…

skim readingしかできていないが、現在のMulti AI Agentsにおけるメモリ機構はstaticな機構であるため、メモリが均質化してしまいエージェントの役割ごとに最適化されておらず、かつlong trajectoryを扱う際に情報がコンパクトに圧縮されておらずtrajectoryが肥大化していってしまう。このため、エージェントの役割ごとに異なるメモリを生成し、かつ固定長の潜在表現に情報を圧縮する（これによりlong contextでのメモリ肥大化を防ぐ）ような新たなDeep Neural Networkに基づくMemory ComposerをRLを通じて学習するという話のようである。

エージェントのプロファイルと、experience bankから抽出された現在のクエリに対するtrajectoryに基づいて、個々のエージェントごとにrelevantな情報が圧縮されたメモリの潜在表現を生成するようなMemory ComposerをRLで学習し活用する（LMPO）。このとき、エージェントのパラメータは更新せずfreezeする。あくまでバックボーンはfreezeして変更せず、メモリ機構のみを最適化することに焦点を当てている。Memory Composerは、与えられたメモリ, エージェントの（freezeされた）パラメータ, 与えられたプロンプトによってreasoningを実施し、最終的な応答が正しかったかどうかに基づいてGRPOベースのRLVR（=LMPO）を実施することによって学習する。エージェントがメモリを活用して得られたtrajectoryはexperience bankに格納されて利用される。

既存手法と比べて多くのQAベンチマークで高い性能を獲得し、OODなベンチマークでもある程度は汎化するようである。

in-domainなベンチマークと比較して、out-of-domainなベンチマークでの性能向上が小さいので、汎化性能にまだ課題があるように感じた。解決している問題は非常に重要だと考えられ、どのようにすれば汎用的なMemory Composerが学習できるか？を考えるとおもしろそうである。

[Paper Note] A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces, Mingxuan Du+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #RAG(RetrievalAugmentedGeneration) #Test-Time Scaling #One-Line Notes #Scalability #Initial Impression Notes Issue Date: 2026-02-06 GPT Summary- A-RAGは、階層的な取得インターフェースを通じてエージェント型のRAGシステムを実現し、モデルが適応的に情報を検索・取得できる能力を向上させる。キーワード検索、意味検索、チャンク読み取りの3つのツールを提供し、既存の方法と比較して一貫した優れた性能を示す。モデルのスケーリング特性についても体系的に検討し、今後の研究のためにコードを公開予定。 Comment

元ポスト:

Loading…

固定されたワークフローでのRAGではなく、エージェントが自ら考えて最適な検索ツールを模索し情報を自動的に取得するAgentic RAGな枠組みを提案している。研究としての新規性はweaknessだと感じるが、実務的に有効な方法だと思う。LLM側のreasoning effortやmax tokenを増やすことで性能がスケーリングするため（Test Time Scaling)これもまた実用的な手法だと感じる。

[Paper Note] Learn to Reason Efficiently with Adaptive Length-based Reward Shaping, Wei Liu+, ICLR'26, 2025.05

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #Reasoning #ICLR #Length #PostTraining Issue Date: 2026-02-03 GPT Summary- 推論の効率を向上させるため、RLベースの手法LASERを提案。長さに基づく報酬シェイピングを用いて、冗長性を減少させつつ、パフォーマンスと効率の良好なバランスを実現。また、動的な報酬仕様と難易度を考慮した手法LASER-Dを導入し、簡潔な推論パターンを促進。実験により、推論性能と応答の長さ効率が大幅に向上した。 Comment

元ポスト:

Loading…

[Paper Note] Beyond Speedup -- Utilizing KV Cache for Sampling and Reasoning, Zeyu Xing+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Embeddings #NLP #LanguageModel #read-later #Selected Papers/Blogs #KV Cache #DownstreamTasks #Initial Impression Notes #SelfVerification Issue Date: 2026-01-30 GPT Summary- KVキャッシュを文脈情報の軽量な表現として再利用し、再計算や保存の必要を排除。KV由来の表現は、（i）チェーン・オブ・エンベディングで競争力のある性能を発揮し、（ii）ファスト/スロー思考切替でトークン生成を最大5.7倍削減する一方、精度損失を最小限に抑える。これにより、KVキャッシュがLLM推論における表現再利用の新たな基盤となることを示す。 Comment

元ポスト:

Loading…

KV Cacheを軽量なhidden stateを表すembeddingとして扱うことで色々と応用できます、という話に見え、たとえばデコーディングの途中でhallucinationをdetectする際により省メモリで実現できたり、fast/d slowなthinkingの切り替えの制御に利用するなど、単に次トークンを生成する際の高速化の用途を超えて使うという興味深い発想な研究に見える。

[Paper Note] CARMO: Dynamic Criteria Generation for Context-Aware Reward Modelling, Taneesh Gupta+, ACL'25 Findings, 2024.10

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Distillation #ACL #RewardHacking #PostTraining #Findings #Rubric-based Issue Date: 2026-02-11 GPT Summary- CARMOはダイナミックでコンテキストに関連した基準を用い、報酬モデリングの脆弱性を軽減する新手法。人間のフィードバックを取り入れ、生成された基準に基づき評価することで、報酬のハッキングを防ぎつつ、ゼロショット設定での性能を向上させ、Reward Benchで2.1％の改善を達成。Mistral-Baseに対して高いアライメントを示すデータセットも構築。 Comment

元ポスト:

Loading…

[Paper Note] Harnessing Diversity for Important Data Selection in Pretraining Large Language Models, Chi Zhang+, ICLR'25 Spotlight, 2024.09

Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #NLP #LanguageModel #ICLR #read-later #Diversity #Selected Papers/Blogs #DataMixture #Generalization #One-Line Notes #DownstreamTasks #Multi-Armed Bandit Issue Date: 2026-01-21 GPT Summary- データ選択は大規模言語モデルの事前トレーニングにおいて重要で、影響スコアでデータインスタンスの重要性を測定します。しかし、トレーニングデータの多様性不足や影響計算の時間が課題です。本研究では、品質と多様性を考慮したデータ選択手法\texttt{Quad}を提案します。アテンションレイヤーの$iHVP$計算を適応させ、データの品質評価を向上。データをクラスタリングし、選択プロセスでサンプルの影響を評価することで、全インスタンスの処理を回避します。マルチアームバンディット法を用い、品質と多様性のバランスを取ります。 Comment

openreview: https://openreview.net/forum?id=bMC1t7eLRc

あるモデルに対して、特定のデータセットD_rの性能を最大化するようにモデルを学習したいとする。このときに、全ての学習データD_cからD_rが学習の結果最大となるようなデータセットD_bを求めたい、という問題設定である。Influence Scoreを算出するモデルを活用する。

学習元データは事前にクラスタリングしておき、top-Kのクラスタを選択。選択したクラスタの中からmini-batchを抽出しinfluence scoreを計算し、influence scoreが一定の閾値を超えた場合にD_bに追加。その後計算したinfluence scoreと当該クラスタが選択された頻度情報に基づいてtop-kのクラスタを選択する際に用いるcluster scoreを更新。というiterationを繰り返しC_bを構築する、という方法に見える。

[Paper Note] Aioli: A Unified Optimization Framework for Language Model Data Mixing, Mayee F. Chen+, ICLR'25, 2024.11

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #ICLR #DataMixture Issue Date: 2026-01-21 GPT Summary- トレーニングデータの最適な混合が言語モデルの性能に影響を与えるが、既存の手法は層化サンプリングを一貫して上回れない。これを解明するため、標準フレームワークで手法を統一し、混合法則が不正確であることを示した。新たに提案したオンライン手法Aioliは、トレーニング中に混合パラメータを推定し動的に調整。実験では、Aioliが層化サンプリングを平均0.27ポイント上回り、短いランで最大12.012ポイントの向上を達成した。 Comment

openreview: https://openreview.net/forum?id=sZGZJhaNSe

[Paper Note] Adaptation of Agentic AI, Pengcheng Jiang+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #One-Line Notes Issue Date: 2025-12-21 GPT Summary- 本論文では、エージェントAIシステムの適応に関する体系的なフレームワークを提案し、エージェントの適応とツールの適応を分類。これにより、適応戦略の設計空間を明確化し、システム設計における戦略選択のガイダンスを提供。各アプローチの強みと限界を分析し、未解決の課題と将来の機会を強調。研究者や実務者に対して、能力が高く信頼性のあるエージェントAIシステム構築のための基盤を提供することを目指す。 Comment

元ポスト:

Loading…

AI Agentsには実行と適応の二つの軸があり、現在のエージェントは前者しか実施しない。このため、前提が変化すると環境に適応が誤りを繰り返す、適応することが重要[^1]といった話な模様。

適応と言った時にいくつかの軸があり、まずは
- エージェント自身
- エージェントが利用するツール

次に適応するためのシグナルとして
- ツールの実行結果
- エージェントのoutputの評価

がそれぞれあり、2x2のデザインスペースがあるが、現在はその1つしかできていない（i.e., フィードバック無しの実行）とのこと。

[^1]: デモではうまくいくが実際のユースケースではうまくいかないのはこのため、という主旨だとおもわれる。

解説:

Loading…

[Paper Note] Rho-1: Not All Tokens Are What You Need, Zhenghao Lin+, NeurIPS'24, 2024.04

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #NeurIPS #DataMixture Issue Date: 2026-03-18 GPT Summary- 「9l training」を提唱し、トークンごとに異なる損失パターンを取り入れた新しい言語モデルRho-1を導入。Selective Language Modelingを採用し、望ましいトークンのみを選択的に学習。OpenWebMathコーパスでの事前学習を通じて、9つの数学タスクにおいてfew-shot精度を最大30%改善し、最先端のMATHデータセット結果を達成。80Bの一般トークンでも多様なタスクで平均6.8%の性能向上を実現。 Comment

日本語解説: https://techblog.cccmkhd.co.jp/entry/2024/12/10/081653

openreview: https://openreview.net/forum?id=0NMzBwqaAJ

[Paper Note] Adaptive Data Optimization: Dynamic Sample Selection with Scaling Laws, Yiding Jiang+, arXiv'24, 2024.10

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #ICLR #Scaling Laws #DataMixture #One-Line Notes Issue Date: 2026-01-21 GPT Summary- ADOは事前学習データの最適化をオンラインで行うアルゴリズムで、モデル訓練と同時にデータ分布を調整。外部知識やプロキシモデルを必要とせず、ドメインごとの学習ポテンシャルを推定してスケーラブルなデータ混合を実現。実験では、従来法と同等またはそれ以上の性能を示しつつ計算効率を維持する効果的な解決策を提供。スケーリング則を通じて新たなデータ収集戦略の視点も提示。 Comment

openreview: https://openreview.net/forum?id=aqok1UX7Z1

ドメインごとのneural scaling lawsを学習をする中で構築し、scaling lawsに従って動的にドメインのデータをどの程度サンプリングするかを決定するようなオンラインでのDataMixture決定手法、に見える。小規模モデルの実験結果を活用する不確実性やSarrogate modelを用いて推論するといった計算コストの高い方法はおそらく不要?

[Paper Note] LASeR: Learning to Adaptively Select Reward Models with Multi-Armed Bandits, Duy Nguyen+, arXiv'24, 2024.10

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #NeurIPS #Generalization #RewardModel #Multi-Armed Bandit Issue Date: 2025-09-23 GPT Summary- LASeRを導入し、報酬モデルの選択を多腕バンディット問題として定式化。これにより、最適なRMを選択しながらLLMsを効率的に訓練。常識的および数学的推論タスクでLlama-3-8Bの精度を2.67%向上させ、2倍のスピードアップを実現。WildChatタスクでは72.69%の勝率を達成し、長文生成でもF1ポイントの改善を示す。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=tSpWkTFASC&referrer=%5Bthe%20profile%20of%20Mohit%20Bansal%5D(%2Fprofile%3Fid%3D~Mohit_Bansal2)

HY-WU （Part I）: An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing, Tencent HY Team, 2026.03

Paper/Blog Link My Issue
#Article #ComputerVision #Personalization #PEFT(Adaptor/LoRA) #2D (Image) #memory #Editing #One-Line Notes #ImageSynthesis Issue Date: 2026-03-06 Comment

元ポスト:

Loading…

source imageとpromptから、frozenされたモデルに対するadapter weightを（finetuningなしで）動的に生成し、インスタンス固有のパラメータを用いることでinstance specificな演算を実現する