RecursiveModelsに関する論文・技術記事メモの一覧

RecursiveModels

[Paper Note] Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence, Sean McLeish+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #LatentReasoning #RecurrentModels Issue Date: 2025-11-12 GPT Summary- 深層再帰言語モデルの進展により、再帰の計算量を訓練時とテスト時で切り離すことが可能に。本研究では、非再帰言語モデルを深層再帰モデルに変換する方法を提案し、再帰のカリキュラムを用いることで性能を維持しつつ計算コストを削減できることを示した。数学実験では、再帰モデルへの変換がポストトレーニングよりも優れた性能を発揮することが確認された。 Comment

元ポスト:

Loading…

[Paper Note] Scaling Latent Reasoning via Looped Language Models, Rui-Jie Zhu+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Transformer #Selected Papers/Blogs #LatentReasoning #KeyPoint Notes #RecurrentModels Issue Date: 2025-10-30 GPT Summary- Ouroは、推論を事前訓練フェーズに組み込むことを目指したループ言語モデル（LoopLM）であり、反復計算やエントロピー正則化を通じて性能を向上させる。1.4Bおよび2.6Bモデルは、最大12Bの最先端LLMに匹敵する性能を示し、知識操作能力の向上がその要因であることを実験で確認。LoopLMは明示的なCoTよりも整合した推論を生成し、推論の新たなスケーリングの可能性を示唆している。モデルはオープンソースで提供されている。 Comment

pj page: https://ouro-llm.github.io

元ポスト:

Loading…

解説:

Loading…

基本構造はdecoder-only transformerで
- Multi-Head Attention
- RoPE
- SwiGLU活性化
- Sandwich Normalization
が使われているLoopedTransformerで、exit gateを学習することで早期にloopを打ち切り、出力をすることでコストを節約できるようなアーキテクチャになっている。

より少ないパラメータ数で、より大きなパラメータ数のモデルよりも高い性能を示す（Table7,8）。また、Tを増やすとモデルの安全性も増す（＝有害プロンプトの識別力が増す）。その代わり、再帰数Tを大きくするとFLOPsがT倍になるので、メモリ効率は良いが計算効率は悪い。

linear probingで再帰の次ステップ予測をしたところ浅い段階では予測が不一致になるため、思考が進化していっているのではないか、という考察がある。

また、再帰数Tを4で学習した場合に、inference時にTを5--8にしてもスケールしない(Table10)。

またAppendix D.1において、通常のtransformerのLoopLMを比較し、5種類の大きさのモデルサイズで比較。通常のtransformerではループさせる代わりに実際に層の数を増やすことで、パラメータ数を揃えて実験したところ、通常のtransformerの方が常に性能が良く、loopLMは再帰数を増やしてもスケールせず、モデルサイズが大きくなるにつれて差がなくなっていく、というスケーリングの面では残念な結果に終わっているようだ。

といった話が解説に書かれている。元論文は完全にskim readingして解説ポストを主に読んだので誤りが含まれるかもしれない点には注意。

著者による紹介: https://youtu.be/jwb_QNZJNyA?si=tEOkew8Qo8Rjab3Y

[Paper Note] Encode, Think, Decode: Scaling test-time reasoning with recursive latent thoughts, Yeskendir Koishekenov+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #LanguageModel #mid-training #read-later #LatentReasoning #RecurrentModels Issue Date: 2025-10-15 GPT Summary- ETD手法を用いて、LLMの推論能力を向上させる。特定の層を反復することで、17の推論ベンチマークで大幅な精度向上を達成。GSM8Kで28.4%、MATHで36%の向上を示し、再帰的な推論が効果的であることを確認。 Comment

元ポスト:

Loading…

[Paper Note] Less is More: Recursive Reasoning with Tiny Networks, Alexia Jolicoeur-Martineau, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #LanguageModel #SmallModel #Selected Papers/Blogs #LatentReasoning Issue Date: 2025-10-09 GPT Summary- 階層的推論モデル（HRM）は、2つの小さなニューラルネットワークを用いた新しいアプローチで、数独や迷路などのパズルタスクで大規模言語モデル（LLMs）を上回る性能を示す。しかし、HRMは最適ではない可能性があるため、我々はTiny Recursive Model（TRM）を提案。TRMはよりシンプルで高い一般化能力を持ち、700万パラメータでARC-AGI-1で45%、ARC-AGI-2で8%の精度を達成し、ほとんどのLLMを上回る性能を示した。 Comment

元ポスト:

Loading…

所見:

Loading…

ポイント解説:

Loading…

ARC-AGI公式による検証が終わり報告されている結果が信頼できることが確認された模様:

Loading…

続報:

Loading…

Sudoku Benchでも性能改善する模様？

[Paper Note] Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation, Sangmin Bae+, NeurIPS'25

Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #NLP #Transformer #Architecture #NeurIPS #memory #RecurrentModels Issue Date: 2025-07-17 GPT Summary- Mixture-of-Recursions（MoR）というフレームワークを提案し、再帰型トランスフォーマー内でパラメータ共有と適応計算を同時に実現。MoRは、レイヤーの再利用とトークンごとの再帰深さの動的割り当てにより、メモリアクセス効率を向上させる。135Mから1.7Bパラメータのモデルで、トレーニングFLOPsを維持しつつ、困惑度を低下させ、少数ショット精度を向上。MoRは大規模モデルのコストを抑えつつ、品質向上に寄与することを示す。 Comment

元ポスト:

Loading…

解説:

Loading…

著者ポスト:

Loading…

[Paper Note] Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks, Kai Sheng Tai+, ACL-IJCNLP'15, 2015.02

Paper/Blog Link My Issue
#NeuralNetwork #NLP #ACL #IJCNLP #Selected Papers/Blogs #One-Line Notes #RecurrentModels Issue Date: 2018-02-13 GPT Summary- Tree-LSTMは、LSTMの構造を木構造に拡張し、文の関連性予測と感情分類で従来の全システムとLSTMベースラインを上回る性能を示す。 Comment

Tree-LSTM論文

Recursive Language Models: the paradigm of 2026, PRIME Intellect, 2026.01

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #LongSequence #read-later #Selected Papers/Blogs #reading #ContextRot Issue Date: 2026-01-02 Comment

Recursive Language Models, Zhang+, MIT CSAIL, 2025.10

Paper/Blog Link My Issue
#Article #LanguageModel #Blog Issue Date: 2025-10-27 Comment

元ポスト:

Loading…

Oolong: Evaluating Long Context Reasoning and Aggregation Capabilities, Zhang+, 2025.10

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #LongSequence Issue Date: 2025-10-17 Comment

blog: https://alexzhang13.github.io/blog/2025/rlm/
super basic implementation:

Loading…

元ポスト:

Loading…