ContinualLearning


Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #LongSequence #read-later #Selected Papers/Blogs #memory #Test-time Learning Issue Date: 2025-12-30 GPT Summary- 長コンテキスト言語モデリングを継続的学習の問題として定式化し、トランスフォーマーのスライディングウィンドウアテンションを用いて次トークン予測を行う。メタ学習を用いてモデルの初期化を改善し、テスト時にエンドツーエンドで学習を実施。164Bトークンで訓練された3Bモデルは、フルアテンションに匹敵するスケーリング特性を持ちながら、128Kコンテキスト時に2.7倍の推論速度を実現。コードは公開済み。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

TTT-E2E




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Catastrophic Forgetting #memory Issue Date: 2025-10-22 GPT Summary- スパースメモリファインチューニングを用いて、破滅的忘却を軽減しながら継続的学習を可能にするモデルを提案。新しい知識を学習する際、メモリスロットの更新を制限することで、既存の能力との干渉を減少。実験では、スパースメモリファインチューニングが他の手法に比べて著しく少ない忘却を示し、継続的学習における有望なアプローチであることを示した。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Memory Layers at Scale, Vincent-Pierre Berges+, ICLR'25, 2024.12

ポイント解説:

Loading…