Test Time Training (TTT)


Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #AIAgents #memory Issue Date: 2026-02-26 GPT Summary- TTTを再定義し、記憶化ではなく学習済み線形アテンションとしての挙動を示す。これにより、アーキテクチャの単純化や効率向上が可能となり、多様なTTTバリアントを体系的に線形アテンションに還元できることが明らかに。 Comment

元ポスト:

Loading…

pj page: https://research.nvidia.com/labs/sil/projects/tttla/

関連:
- [Paper Note] Learning to (Learn at Test Time): RNNs with Expressive Hidden States, Yu Sun+, ICML'25, 2024.07




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SyntheticData #CurriculumLearning #MajorityVoting Issue Date: 2026-02-03 GPT Summary- TTCSフレームワークは、LLMの推論能力を向上させるための共同進化型テスト時トレーニングを提供。質問合成器と推論ソルバーを初期化し、合成器が難易度の高い質問を生成し、ソルバーは自己一貫性報酬で学習を更新。これにより、質問のバリアントが安定したテスト時トレーニングを実現。実験で数学的ベンチマークにおける推論能力の向上と一般ドメインタスクへの移行が確認された。 Comment

元ポスト:

Loading…

先行研究:
- [Paper Note] TTRL: Test-Time Reinforcement Learning, Yuxin Zuo+, NeurIPS'25, 2025.04




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #ScientificDiscovery #read-later #Selected Papers/Blogs #ContinualLearning #Initial Impression Notes Issue Date: 2026-01-23 GPT Summary- LLMを用いたテスト時トレーニングによる発見(TTT-Discover)を提案し、特定の科学的問題に対し優れた解を生成。強化学習を通じて、独自の経験を持つLLMが問題解決に集中。数学から生物学までの様々な課題で新たな最先端を達成し、成果はオープンソースのモデルを用いて再現可能。 Comment

test timeにモデルが解空間を探索するようにweightをupdateすることを(RLで)学習し、平均的に良いsolutionではなくbestなsolutionを見つけるような目的関数を用いることで、scientic discoveryの能力を向上

pj page: https://test-time-training.github.io/discover/




Paper/Blog Link My Issue
#NLP #SSM (StateSpaceModel) #ICML #Selected Papers/Blogs #One-Line Notes #RecurrentModels Issue Date: 2026-02-26 GPT Summary- 隠れ状態を機械学習モデルとして扱い、自己教師あり学習を用いたTest-Time Training(TTT)層を提案。TTT-LinearとTTT-MLPの二つの実装を比較し、長い文脈に対するパフォーマンスを向上。特に、TTT-MLPは長い文脈における潜在能力を示し、TransformerやMambaと比較して有望な結果を得た。 Comment

openreview: https://openreview.net/forum?id=wXfuOj9C7L

隠れ状態そのものを、重みWを持つモデルfとして解釈し、新たなinput x_tが入力された時にW_tをW_{t+1}へ更新するupdate ruleを自己教師あり学習として学習する(すなわち、W_t ← W_{t-1}+ ηΔl(W_{t-1}, x_t)として定式化する)。これによりtest時の入力に対して隠れ状態を更新することが、test sequenceに基づいてモデルfを学習することと等価となる(Test Time Training; TTT)。

たとえばtransformerにおけるself-attentionをTTT layerに置換するような実装がある。self attentionのoutputの計算量はO(t)だが、TTT layerではO(1)となる。

TTT-Layerの実装として線形モデルに基づくTTT-Linearと非線形モデルとしてMLPに基づいたTTT-MLPが提案されている。

(TTT-LayerのKVBindingの実装例を後ほど追記, 論文中のFigure 6)




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #NeurIPS #Selected Papers/Blogs Issue Date: 2026-02-03 GPT Summary- ラベルのないデータを用いてLLMにおける強化学習(RL)を探求し、テスト時強化学習(TTRL)を新たに提案。TTRLは事前知識を活用し、自己進化を促進。実験結果はさまざまなタスクでのパフォーマンス向上を示し、特にQwen-2.5-Math-7Bの性能を211%向上させた。真のラベル付きデータに近い性能を達成し、TTRLの広範な適用可能性を強調。 Comment

pj page: https://github.com/PRIME-RL/TTRL

openreview: https://openreview.net/forum?id=VuVhgEiu20&referrer=%5Bthe%20profile%20of%20Bowen%20Zhou%5D(%2Fprofile%3Fid%3D~Bowen_Zhou8)

Agentが参照するメモリをテスト時のexperienceに基づいて更新し、良質なものを蓄積することでタスクを実行するごとに賢くなるような枠組みもある(Test-time Learningと論文では呼称している):
- [Paper Note] ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory, Siru Ouyang+, arXiv'25, 2025.09




Paper/Blog Link My Issue
#NLP #LanguageModel #LongSequence #read-later #Selected Papers/Blogs #memory #ContinualLearning Issue Date: 2025-12-30 GPT Summary- 長コンテキスト言語モデリングを継続的学習の問題として定式化し、トランスフォーマーのスライディングウィンドウアテンションを用いて次トークン予測を行う。メタ学習を用いてモデルの初期化を改善し、テスト時にエンドツーエンドで学習を実施。164Bトークンで訓練された3Bモデルは、フルアテンションに匹敵するスケーリング特性を持ちながら、128Kコンテキスト時に2.7倍の推論速度を実現。コードは公開済み。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

TTT-E2E




Paper/Blog Link My Issue
#Online/Interactive #NLP #LanguageModel #ReinforcementLearning #OOD #LatentReasoning #One-Line Notes Issue Date: 2025-10-18 GPT Summary- Latent Thought Policy Optimization(LTPO)を提案し、LLMの推論を強化するパラメータフリーのフレームワークを導入。中間的な潜在「思考」ベクトルを動的に最適化し、外部監視なしで報酬信号に基づくオンラインポリシー勾配法を使用。5つの推論ベンチマークで強力な性能を示し、特にAIMEベンチマークで顕著な改善を達成。 Comment

元ポスト:

Loading…

test-time に online-RLを適用することでモデルのパラメータを更新することなく、クエリに応じて動的にlatent reasoningを洗練し、推論能力をロバストにできる、という話な模様?

image

実験結果を見ると、モデルのパラメータ数が大きい場合にgainが小さくなっていっているように見え、かつ実験中のlargest modelのgainがサンプル数の少ないAIMEのスコアに依存しているように見える。