Test Time Training (TTT)に関する論文・技術記事メモの一覧

Test Time Training (TTT)

[Paper Note] TEMPO: Scaling Test-time Training for Large Reasoning Models, Qingyang Zhang+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #LanguageModel #read-later #Diversity #Critic Issue Date: 2026-04-25 GPT Summary- テスト時訓練（TTT）では、ラベルなしのテストインスタンスでモデルパラメータを適応させるが、既存の手法はLRMsで性能が頭打ちになる。提案するTEMPOは、周期的にポリシーの洗練とクリティックの再較正を行い、期待値最大化（EM）アルゴリズムとして位置づけられる。この再較正を通じて持続的な改善を実現し、AIME 2024でOLMO3-7Bを33.0％から51.1％、Qwen3-14Bを42.3％から65.8％へと向上させ、高い多様性を維持する。 Comment

元ポスト:

Loading…

[Paper Note] In-Place Test-Time Training, Guhao Feng+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#LanguageModel #ICLR #read-later #Author Thread-Post Issue Date: 2026-04-08 GPT Summary- 静的な学習パラダイムでは新情報への動的適応が制限される。本研究では、推論時訓練（TTT）を用いてモデルパラメータを更新し、インプレースTTTフレームワークを提案。これにより、MLPブロックの最終射影行列をファストウェイトとして扱い、ゼロからの再訓練なしでLLMを強化。次トークン予測タスクに目的を整合させ、スケーラブルなアルゴリズムを実現。実験により、4Bパラメータモデルが優れた性能を示し、競合するアプローチを上回った。In-Place TTTは継続的学習の新たな一歩を提供する。 Comment

openreview: https://openreview.net/forum?id=dTWfCLSoyl

元ポスト:

Loading…

[Paper Note] MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild, Peng Xia+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #AgentSkills #Initial Impression Notes Issue Date: 2026-03-26 GPT Summary- MetaClawは、LLMエージェントが変化するニーズに対応するための継続的メタ学習フレームワークである。失敗軌跡を解析して即座にスキルを合成し、ダウンタイムをゼロにするスキル駆動の適応や、機会主義的ポリシー最適化を通じて、効果的に能力を更新する。これにより、精度を最大32%向上させ、全体のパイプラインの精度も21.4%から40.6%に増加させることが示された。 Comment

元ポスト:

Loading…

- [Paper Note] OpenClaw-RL: Train Any Agent Simply by Talking, Yinjie Wang+, arXiv'26, 2026.03

と一見すると似たような研究に見えるが、

[Paper Note] OpenClaw-RL: Train Any Agent Simply by Talking, Yinjie Wang+, arXiv'26, 2026.03 の肝は「trajectory中のprocessにおいて活用可能なシグナルがあるから、それをもっと活用しよう」という気持ちで、
本研究は「失敗したtrajectoryに適用するためにSkillを合成し、ユーザが利用しないIdle Timeの間にLoRA + RLでポリシーの重みも更新して賢くしよう」という気持ちであり、目的が異なるように見える。

- [Paper Note] SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks, Xiangyi Li+, arXiv'26, 2026.02

においては、Skillをtaskに関する手続的な知識に基づいてスキルを自己生成しても性能向上せず、むしろ悪化させるような結果が出ており、不用意にSkillを合成すると性能が劣化するという結果が出ている。
本研究は失敗したtrajectoryに対して適応するためのSkill合成である点と、LoRAによってポリシー自体も賢くなるのであれば前提が変わるので話は変わってくるのかな、という印象。

[Paper Note] GradMem: Learning to Write Context into Memory with Test-Time Gradient Descent, Yuri Kuratov+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #LanguageModel #PEFT(Adaptor/LoRA) #read-later #memory #Initial Impression Notes #SoftPrompt #Author Thread-Post Issue Date: 2026-03-26 GPT Summary- 長い文脈をコンパクトに保存するGradMemを提案。これは、推論時に文脈へアクセスできない状況で、文脈を圧縮して数のクエリに応答する。モデルの重みを凍結し、少量のプレフィックストークンで数ステップの勾配降下を行うことで、文脈の再構成を最適化。連想キー-値検索において、GradMemは従来の手法より優れた性能を発揮し、自然言語タスクで競争力のある結果を示す。 Comment

元ポスト:

Loading…

prefixにmemory用のトークンを用意し、TTTの枠組みでcontextのreconstruction lossを通じて圧縮する、という話に見える。tokenはsoft tokenであり、m*d次元の行列で表現される。

要はcontextの潜在表現をReconstruction lossによるTTTでprefix tuningするsoft prompting手法、という感じだろうか。

[Paper Note] Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training, Fangfu Liu+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#ComputerVision #Dataset #Self-SupervisedLearning #SpatialUnderstanding #One-Line Notes Issue Date: 2026-03-14 GPT Summary- 視覚的空間知能の強化を目指し、Streaming Visual Spatial IntelligenceのためのSpatial-TTTを提案。動画から空間証拠を記憶・整理するためにパラメータの一部を適応し、スライディングウィンドウ注意機構を採用。さらに、3D時空間畳み込みを導入し、幾何的対応と時間的連続性を捉える。実験結果は、長時間の空間理解を向上させ、最先端の性能を達成したことを示す。 Comment

pj page: https://liuff19.github.io/Spatial-TTT/

元ポスト:

Loading…

HF: https://huggingface.co/collections/THU-SI/spatial-ttt

要は、spatial understandingに特化した認知機構を小規模ネットワーク+TTTで構築した研究（と思われる）。TTTについては下記issue参照のこと。動画の各フレームはViTでエンコードされ、QuestionはtokenizeされてHybridなdecoder-only modelに入力され、最終的にテキストが出力されるようなアーキテクチャになっている。Hybridなモデルは、3:1の割合でハイブリッドなブロックとFull Attention Blockがスタックされている。ハイブリッドなblockはQKVを共有した2つのルートが存在し、片方はSWA Layer, もう一方がTTT Layerとなっている。これによってSWA Layerによって高い画像理解能力をlong sequenceでも保ちつつ、TTT Layerで入力情報に基づいて動的にSpatial Understandingに特化したstate(=weight)を更新する、といった方向性のアーキテクチャに見える。
- [Paper Note] Learning to (Learn at Test Time): RNNs with Expressive Hidden States, Yu Sun+, ICML'25, 2024.07

[Paper Note] Doc-to-LoRA: Learning to Instantly Internalize Contexts, Rujikorn Charakorn+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #PEFT(Adaptor/LoRA) #FactualKnowledge #memory #One-Line Notes #DownstreamTasks Issue Date: 2026-03-01 GPT Summary- 長い入力を効率的に処理するために、Doc-to-LoRA（D2L）を提案。これはメタラーニングを用いて、単一の前方伝播で情報を効率よく蒸留し、適応型LoRAアダプタを生成する。D2Lにより、推論時のレイテンシとメモリ消費を削減し、文脈を超えてゼロショット精度を向上。実世界のデータセットにおいても、標準的な文脈蒸留を上回る性能を示す。 Comment

- [Paper Note] Text-to-LoRA: Instant Transformer Adaption, Rujikorn Charakorn+, ICML'25, 2025.06

に続く研究。

元ポスト:

Loading…

ポイント解説:

Loading…

Doc-to-LoRAの目的は、文書レベルの情報をメモリの内部パラメータとして埋め込むこと。

[Paper Note] Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs, Yining Hong+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #Dataset #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #PEFT(Adaptor/LoRA) #SelfCorrection #Test-Time Scaling #PostTraining #read-later #VisionLanguageModel #3D (Scene) #Robotics #EmbodiedAI #Initial Impression Notes Issue Date: 2026-02-28 GPT Summary- 具現化されたLLMsは高レベルのタスク推論を持つが、過去の失敗を振り返れず、ミスが繰り返される独立した試行となる。この問題に対処するため、Reflection Test-Time Planningを導入し、二つの省察モードを統合。実行中の反省では内部評価を通じて候補アクションを生成し、実行後の反省では外部反省を基にモデルを更新。新たに設計したベンチマークで実験を行い、ベースラインモデルに対して有意な改善を示した。定性的分析では、反省を通じた行動の修正が強調された。 Comment

pj page: https://reflective-test-time-planning.github.io/

元ポスト:

Loading…

- [Paper Note] LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness, Chenming Zhu+, ICCV'25, 2024.09

まだ全然理解できていないが、Action Model, Internal reflection LLM, external reflection LLMとしてLLaVA 3Dと呼ばれるモデルをベースにし、単一のモデルで3種類のモードを学習するようである。そしてテスト時にはLoRAを用いたTTTを実施するようである。

[Paper Note] tttLRM: Test-Time Training for Long Context and Autoregressive 3D Reconstruction, Chen Wang+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NeuralNetwork #HumanComputerInteraction #LongSequence #3D Reconstruction #4D (Video) #ImageSynthesis #NovelViewSynthesis Issue Date: 2026-02-27 GPT Summary- tttLRMは、テスト時訓練（TTT）層を用いて自己回帰型3D再構成を線形計算量で実現する新モデルです。複数の画像を圧縮し、潜在空間で3D表現を形成し、Gaussian Splatsなどへデコード可能です。また、オンライン学習によりストリーミング観測から逐次的に再構成が可能になります。新規視点合成タスクでの事前学習が3Dモデリングの改善に寄与し、高品質な再構成と早い収束を実現。実験により、最先端手法と比較して卓越した性能を示すことが確認されました。 Comment

pj page: https://cwchenwang.github.io/tttLRM/

元ポスト:

Loading…

[Paper Note] Test-Time Training with KV Binding Is Secretly Linear Attention, Junchen Liu+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #AIAgents #memory Issue Date: 2026-02-26 GPT Summary- TTTを再定義し、記憶化ではなく学習済み線形アテンションとしての挙動を示す。これにより、アーキテクチャの単純化や効率向上が可能となり、多様なTTTバリアントを体系的に線形アテンションに還元できることが明らかに。 Comment

元ポスト:

Loading…

pj page: https://research.nvidia.com/labs/sil/projects/tttla/

[Paper Note] TTCS: Test-Time Curriculum Synthesis for Self-Evolving, Chengyi Yang+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SyntheticData #CurriculumLearning #MajorityVoting Issue Date: 2026-02-03 GPT Summary- TTCSフレームワークは、LLMの推論能力を向上させるための共同進化型テスト時トレーニングを提供。質問合成器と推論ソルバーを初期化し、合成器が難易度の高い質問を生成し、ソルバーは自己一貫性報酬で学習を更新。これにより、質問のバリアントが安定したテスト時トレーニングを実現。実験で数学的ベンチマークにおける推論能力の向上と一般ドメインタスクへの移行が確認された。 Comment

元ポスト:

Loading…

先行研究:
- [Paper Note] TTRL: Test-Time Reinforcement Learning, Yuxin Zuo+, NeurIPS'25, 2025.04

[Paper Note] Learning to Discover at Test Time, Mert Yuksekgonul+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #ScientificDiscovery #read-later #Selected Papers/Blogs #ContinualLearning #Initial Impression Notes Issue Date: 2026-01-23 GPT Summary- LLMを用いたテスト時トレーニングによる発見（TTT-Discover）を提案し、特定の科学的問題に対し優れた解を生成。強化学習を通じて、独自の経験を持つLLMが問題解決に集中。数学から生物学までの様々な課題で新たな最先端を達成し、成果はオープンソースのモデルを用いて再現可能。 Comment

test timeにモデルが解空間を探索するようにweightをupdateすることを（RLで）学習し、平均的に良いsolutionではなくbestなsolutionを見つけるような目的関数を用いることで、scientic discoveryの能力を向上

pj page: https://test-time-training.github.io/discover/

[Paper Note] Learning to （Learn at Test Time）: RNNs with Expressive Hidden States, Yu Sun+, ICML'25, 2024.07

Paper/Blog Link My Issue
#NLP #Self-SupervisedLearning #SSM (StateSpaceModel) #ICML #Selected Papers/Blogs #One-Line Notes #RecurrentModels Issue Date: 2026-02-26 GPT Summary- 隠れ状態を機械学習モデルとして扱い、自己教師あり学習を用いたTest-Time Training（TTT）層を提案。TTT-LinearとTTT-MLPの二つの実装を比較し、長い文脈に対するパフォーマンスを向上。特に、TTT-MLPは長い文脈における潜在能力を示し、TransformerやMambaと比較して有望な結果を得た。 Comment

openreview: https://openreview.net/forum?id=wXfuOj9C7L

隠れ状態そのものを、重みWを持つモデルfとして解釈し、新たなinput x_tが入力された時にW_tをW_{t+1}へ更新するupdate ruleを自己教師あり学習として学習する（すなわち、W_t ← W_{t-1}+ ηΔl(W_{t-1}, x_t)として定式化する）。これによりtest時の入力に対して隠れ状態を更新することが、test sequenceに基づいてモデルfを学習することと等価となる（Test Time Training; TTT)。

たとえばtransformerにおけるself-attentionをTTT layerに置換するような実装がある。self attentionのoutputの計算量はO(t)だが、TTT layerではO(1)となる。

TTT-Layerの実装として線形モデルに基づくTTT-Linearと非線形モデルとしてMLPに基づいたTTT-MLPが提案されている。

(TTT-LayerのKVBindingの実装例を後ほど追記, 論文中のFigure 6)

[Paper Note] TTRL: Test-Time Reinforcement Learning, Yuxin Zuo+, NeurIPS'25, 2025.04

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #NeurIPS #Selected Papers/Blogs Issue Date: 2026-02-03 GPT Summary- ラベルのないデータを用いてLLMにおける強化学習（RL）を探求し、テスト時強化学習（TTRL）を新たに提案。TTRLは事前知識を活用し、自己進化を促進。実験結果はさまざまなタスクでのパフォーマンス向上を示し、特にQwen-2.5-Math-7Bの性能を211%向上させた。真のラベル付きデータに近い性能を達成し、TTRLの広範な適用可能性を強調。 Comment

pj page: https://github.com/PRIME-RL/TTRL

openreview: https://openreview.net/forum?id=VuVhgEiu20&referrer=%5Bthe%20profile%20of%20Bowen%20Zhou%5D(%2Fprofile%3Fid%3D~Bowen_Zhou8)

Agentが参照するメモリをテスト時のexperienceに基づいて更新し、良質なものを蓄積することでタスクを実行するごとに賢くなるような枠組みもある(Test-time Learningと論文では呼称している）:
- [Paper Note] ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory, Siru Ouyang+, arXiv'25, 2025.09

[Paper Note] End-to-End Test-Time Training for Long Context, Arnuv Tandon+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #LongSequence #read-later #Selected Papers/Blogs #memory #ContinualLearning #Author Thread-Post Issue Date: 2025-12-30 GPT Summary- 長い文脈の言語モデリングを継続学習として定式化し、スライディングウィンドウ型の注意機構を用いたトランスフォーマーで次トークン予測を通じて文脈を圧縮。メタ学習によって初期化を改善し、テスト時訓練（TTT）の一形態を実現。3Bパラメータのモデルで1640億トークン学習し、文脈長のスケーリング特性が向上。推論レイテンシが一定で、128Kの文脈では全注意より2.7倍速い性能を示す。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

TTT-E2E

[Paper Note] Thinking on the Fly: Test-Time Reasoning Enhancement via Latent Thought Policy Optimization, Wengao Ye+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Online/Interactive #NLP #LanguageModel #ReinforcementLearning #OOD #LatentReasoning #One-Line Notes Issue Date: 2025-10-18 GPT Summary- Latent Thought Policy Optimization（LTPO）を提案し、LLMの推論を強化するパラメータフリーのフレームワークを導入。中間的な潜在「思考」ベクトルを動的に最適化し、外部監視なしで報酬信号に基づくオンラインポリシー勾配法を使用。5つの推論ベンチマークで強力な性能を示し、特にAIMEベンチマークで顕著な改善を達成。 Comment

元ポスト:

Loading…

test-time に online-RLを適用することでモデルのパラメータを更新することなく、クエリに応じて動的にlatent reasoningを洗練し、推論能力をロバストにできる、という話な模様？

実験結果を見ると、モデルのパラメータ数が大きい場合にgainが小さくなっていっているように見え、かつ実験中のlargest modelのgainがサンプル数の少ないAIMEのスコアに依存しているように見える。

[Paper Note] Text-to-LoRA: Instant Transformer Adaption, Rujikorn Charakorn+, ICML'25, 2025.06

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #PEFT(Adaptor/LoRA) #ICML #memory #One-Line Notes #Initial Impression Notes #Author Thread-Post Issue Date: 2025-06-12 GPT Summary- Text-to-LoRA（T2L）は、自然言語による説明に基づいて大規模言語モデル（LLMs）を迅速に適応させる手法で、従来のファインチューニングの高コストと時間を克服します。T2Lは、LoRAを安価なフォワードパスで構築するハイパーネットワークを使用し、タスク特有のアダプターと同等のパフォーマンスを示します。また、数百のLoRAインスタンスを圧縮し、新しいタスクに対してゼロショットで一般化可能です。このアプローチは、基盤モデルの専門化を民主化し、計算要件を最小限に抑えた言語ベースの適応を実現します。 Comment

元ポスト:

Loading…

な、なるほど、こんな手が…！

openreview: https://openreview.net/forum?id=zWskCdu3QA

ポイント解説:

Loading…

Text-to-LoRAの目的は、instructionをメモリの内部パラメータに埋め込み、モデルにon-the-flyで新たな挙動を身につけさせること。