Test-time Learning
[Paper Note] End-to-End Test-Time Training for Long Context, Arnuv Tandon+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #LongSequence #read-later #Selected Papers/Blogs #memory #ContinualLearning Issue Date: 2025-12-30 GPT Summary- 長コンテキスト言語モデリングを継続的学習の問題として定式化し、トランスフォーマーのスライディングウィンドウアテンションを用いて次トークン予測を行う。メタ学習を用いてモデルの初期化を改善し、テスト時にエンドツーエンドで学習を実施。164Bトークンで訓練された3Bモデルは、フルアテンションに匹敵するスケーリング特性を持ちながら、128Kコンテキスト時に2.7倍の推論速度を実現。コードは公開済み。 Comment
元ポスト:
著者ポスト:
TTT-E2E
[Paper Note] Titans: Learning to Memorize at Test Time, Ali Behrouz+, NeurIPS'25, 2024.12
Paper/Blog Link My Issue
#NeuralNetwork #Pocket #NLP #LongSequence #Architecture #NeurIPS #read-later #Selected Papers/Blogs #memory Issue Date: 2025-11-05 GPT Summary- 再帰モデルと注意機構を組み合わせた新しいニューラル長期メモリモジュールを提案。これにより、短期的な依存関係を正確にモデル化しつつ、長期的な記憶を保持。新アーキテクチャ「Titans」は、言語モデリングや常識推論などのタスクで従来のモデルよりも優れた性能を示し、2Mを超えるコンテキストウィンドウサイズにも対応可能。 Comment
元ポスト:
解説:
[Paper Note] Thinking on the Fly: Test-Time Reasoning Enhancement via Latent Thought Policy Optimization, Wengao Ye+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Online/Interactive #Pocket #NLP #LanguageModel #ReinforcementLearning #OOD #LatentReasoning #One-Line Notes Issue Date: 2025-10-18 GPT Summary- Latent Thought Policy Optimization(LTPO)を提案し、LLMの推論を強化するパラメータフリーのフレームワークを導入。中間的な潜在「思考」ベクトルを動的に最適化し、外部監視なしで報酬信号に基づくオンラインポリシー勾配法を使用。5つの推論ベンチマークで強力な性能を示し、特にAIMEベンチマークで顕著な改善を達成。 Comment
元ポスト:
test-time に online-RLを適用することでモデルのパラメータを更新することなく、クエリに応じて動的にlatent reasoningを洗練し、推論能力をロバストにできる、という話な模様?
実験結果を見ると、モデルのパラメータ数が大きい場合にgainが小さくなっていっているように見え、かつ実験中のlargest modelのgainがサンプル数の少ないAIMEのスコアに依存しているように見える。
[Paper Note] Training-Free Group Relative Policy Optimization, Yuzheng Cai+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Pocket #NLP #AIAgents #Generalization Issue Date: 2025-10-17 GPT Summary- 大規模言語モデル(LLM)の専門的なドメインでのパフォーマンス向上のため、Training-Free GRPOを提案。これは、パラメータ更新なしでLLMエージェントの性能を向上させ、少ないトレーニングデータで高品質な経験的知識を蒸留する手法。数学的推論やウェブ検索タスクでの実験により、Training-Free GRPOが小型LLMを上回る性能を示した。 Comment
元ポスト:
[Paper Note] ArcMemo: Abstract Reasoning Composition with Lifelong LLM Memory, Matthew Ho+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#MachineLearning #Pocket #NLP #Abstractive #LanguageModel #Reasoning #Generalization #memory #One-Line Notes Issue Date: 2025-10-13 GPT Summary- LLMは推論時に外部メモリを活用し、概念レベルのメモリを導入することで、再利用可能でスケーラブルな知識の保存を実現。これにより、関連する概念を選択的に取得し、テスト時の継続的学習を可能にする。評価はARC-AGIベンチマークで行い、メモリなしのベースラインに対して7.5%の性能向上を達成。動的なメモリ更新が自己改善を促進することを示唆。 Comment
元ポスト:
ARC-AGIでしか評価されていないように見える。
[Paper Note] ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory, Siru Ouyang+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AIAgents #read-later #memory #One-Line Notes Issue Date: 2025-09-30 GPT Summary- ReasoningBankという新しいメモリフレームワークを提案し、エージェントが成功体験と失敗体験から推論戦略を抽出できるようにする。テスト時には関連メモリを活用し、学びを統合することで能力を向上させる。さらに、メモリを意識したテスト時スケーリング(MaTTS)を導入し、エージェントの体験を多様化・拡大する。これにより、ウェブブラウジングやソフトウェアエンジニアリングのベンチマークで既存のメモリメカニズムを上回る効果と効率を実現。メモリ駆動の経験スケーリングを新たな次元として確立し、エージェントの自己進化を促進する。 Comment
元ポスト:
メモリを良質なものに更新、蓄積し続けることで性能がスケールするのであれば、新たなtest-time scalingのパラダイムになりそう。
ざっくり読んでみると本研究ではこのパラダイムのことをTest-Time Learningと呼称している(先行研究が2つ引用されているがざっと見た限りでは両者はそう言った呼称はしていないように見えた)。
すなわち、クエリのストリームが到達した時に将来のクエリを見ることはできずに、過去のクエリに対するtrajectoryや、self-verificationなどによってのみラベル無しで自己進化していくパラダイムのこと。
関連:
- [Paper Note] M+: Extending MemoryLLM with Scalable Long-Term Memory, Yu Wang+, ICML'25, 2025.02
[Paper Note] Memento: Fine-tuning LLM Agents without Fine-tuning LLMs, Huichi Zhou+, arXiv'25
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #AIAgents #memory Issue Date: 2025-09-02 GPT Summary- 本論文では、ファインチューニングを必要としない新しい学習パラダイムを提案し、メモリベースのオンライン強化学習を通じて低コストでの継続的な適応を実現します。これをメモリ拡張マルコフ決定過程(M-MDP)として形式化し、行動決定のためのニューラルケース選択ポリシーを導入。エージェントモデル「Memento」は、GAIA検証で87.88%の成功率を達成し、DeepResearcherデータセットでも最先端の手法を上回る性能を示しました。このアプローチは、勾配更新なしでのリアルタイム学習を可能にし、機械学習の進展に寄与します。 Comment
元ポスト:
元ポスト:
[Paper Note] On the Slow Death of Scaling, Hooker+, 2026.01
Paper/Blog Link My Issue
#Article #NeuralNetwork #EfficiencyImprovement #NLP #LanguageModel #Scaling Laws Issue Date: 2026-01-09 Comment
元ポスト:
著者ポスト:
Knowledge Flow: Scaling Reasoning Beyond the Context Limit, Zhuang+, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #Test-Time Scaling #read-later #One-Line Notes Issue Date: 2025-10-21 Comment
元ポスト:
モデルのロールアウトの結果からattemptから知識リストをiterativeに更新(新たな知識を追加, 古い知識を削除 or 両方)していくことによって、過去のattemptからのinsightを蓄積し性能を改善するような新たなテストタイムスケーリングの枠組みな模様。sequential test-time scalingなどとは異なり、複数のattemptによって知識リストを更新することでスケールさせるので、context windowの制約を受けない、といった話な模様。LLM AgentにおけるTest-time learningとかなり類似したコンセプトに見える。