LatentReasoning
[Paper Note] Latent Reasoning with Normalizing Flows, Guancheng Tu+, arXiv'26, 2026.06
Paper/Blog Link My Issue
#Author Thread-Post Issue Date: 2026-06-09 GPT Summary- NF-CoTは、テキストの明示的チェーン・オブ・思考(CoT)を圧縮された連続状態として扱う潜在推論フレームワーク。正規化フローを利用し、モデルの利点(確率的サンプリングやKVキャッシュとの互換性)を保持。コード生成ベンチマークでは、NF-CoTがパス率を向上させ、中間推論コストを削減することを示した。 Comment
元ポスト:
[Paper Note] Unlocking the Working Memory of Large Language Models for Latent Reasoning, Lukas Aichberger+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #One-Line Notes #Author Thread-Post Issue Date: 2026-06-03 GPT Summary- 大規模言語モデルの推論能力を向上させるために、自己回帰的生成の代わりに作業記憶ブロックを採用するReasoning in Memory(RiM)が提案される。これにより、内部計算と外部通信の混同を回避し、計算効率の高い潜在推論を実現。2段階のカリキュラムを用いて、まず推論ステップを予測し、その後最終回答の洗練を行う。実験により、RiMが既存の方法と同等かそれ以上の性能を示すことが確認され、作業記憶が潜在推論の有効なメカニズムとして機能する可能性が示された。 Comment
元ポスト:
元ポストのgifが端的にアーキテクチャを示しており非常にわかりやすい。
メモリブロックと呼ばれるboundaryトークン ``とm個のメモリトークン`
[Paper Note] Equilibrium Reasoners: Learning Attractors Enables Scalable Reasoning, Benhao Huang+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#NLP #LanguageModel #Test-Time Scaling #RecurrentModels #RecursiveModels #Initial Impression Notes #Author Thread-Post Issue Date: 2026-05-23 GPT Summary- 潜在状態を反復的に更新することで推論のスケーリングを実現するモデル(EqR)を提案。これにより、タスク特異の情報なしでテスト時のスケーリングが可能に。内部ダイナミクスを深さと広さで調整し、アトラクターへの収束を強化。シンプルなケースは少ない反復で収束し、難しいケースではスケーリングが有効。最終的には、精度がSudoku-Extremeで99%以上に向上。学習されたアトラクターの分布が反復的推論の理解に寄与することを示唆。 Comment
元ポスト:
関連:
- [Paper Note] Generative Recursive Reasoning, Junyeob Baek+, arXiv'26, 2026.05
本研究とモチベーションが非常に類似しているように感じる。
[Paper Note] LT2: Linear-Time Looped Transformers, Chunyuan Deng+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#NLP #Transformer #Architecture #RecurrentModels #RecursiveModels #Author Thread-Post Issue Date: 2026-05-23 GPT Summary- LT2(Linear-Time Looped Transformers)は、ループ処理と線形またはスパースアテンションを組み合わせ、計算コストを削減する新しいアーキテクチャ。これにより反復的なメモリ精緻化や有効受容野の拡張が実現され、従来のモデルの性能を上回る。LT2-hybridでは異なるアテンションバリアントを組み合わせ、効率と品質の両面で最適化。約1Bトークンの訓練データで、変換済みモデルは業界標準を超え、ループ型トランスフォーマーのスケーラビリティを向上させる。 Comment
元ポスト:
[Paper Note] Generative Recursive Reasoning, Junyeob Baek+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #MachineLearning #NLP #LanguageModel #Architecture #Test-Time Scaling #read-later #Selected Papers/Blogs #Encoder-Decoder #RecursiveModels #Initial Impression Notes #Author Thread-Post Issue Date: 2026-05-21 GPT Summary- 将来のニューラル推論システムにおける拡張計算の実装として、Generative Recursive reasoning Models (GRAM)を提案。GRAMは、再帰的潜在推論を確率的な複数の潜在軌道に変換し、条件付き推論や無条件生成を可能にする。これにより、従来の決定論的モデルよりも改善された性能を示し、構造化推論や制約充足タスクにおいて有効性を発揮。 Comment
pj page: https://ahn-ml.github.io/gram-website/
元ポスト:
先行研究:
- [Paper Note] Looped Transformers are Better at Learning Learning Algorithms, Liu Yang+, ICLR'24
- [Paper Note] Hierarchical Reasoning Model, Guan Wang+, arXiv'25
- [Paper Note] Less is More: Recursive Reasoning with Tiny Networks, Alexia Jolicoeur-Martineau, arXiv'25, 2025.10
全然まだ理解できていないが、depth(iterative refinement)のみではなく、width(multiple parallel trajectories)方向にinference-time scaling可能なrecursiveなアーキテクチャの提案で、
LoopedTransformerのようなモデルはdeterministicな推論プロセスなため単一の軌跡に収束する(同じ入力に対して同じ出力をする)が、本研究では再帰的な推論プロセスにおいて、deterministicなhidden stateの推論に加えて、確率的でlearnableなguidance ε_t(ε_tの分散の大きさによって探索の度合いを変化させられる)をサンプリングして加えることで、多様なlatent trajectoryを生成可能にするで、自然なparallel inference-time scalingを可能にする
という感じだろうか。
[Paper Note] HRM-Text: Efficient Pretraining Beyond Scaling, Guan Wang+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #SmallModel #Architecture #read-later #Selected Papers/Blogs #RecurrentModels Issue Date: 2026-05-20 GPT Summary- HRMを用いた新たな言語モデルは、多タイムスケール処理を取り入れ、計算資源を大幅に節約しつつ高い性能を達成。指示-応答ペアに特化した訓練により、ゼロからの学習でもMMLUやARC-Cなどで顕著な結果を出し、公開モデルと対等以上の性能を示す。これは、アーキテクチャと学習目標の共設計によって、事前学習をよりアクセスしやすくする可能性を示唆している。 Comment
元ポスト:
気になる
[Paper Note] Recursive Multi-Agent Systems, Xiyuan Yang+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #AIAgents #RecursiveModels Issue Date: 2026-05-06 GPT Summary- 再帰型言語モデルをマルチエージェントシステムに拡張するフレームワーク RecursiveMAS を提案。エージェント間の協力を再帰的にスケールさせ、潜在状態転送を実現。内側・外側ループ学習で協調最適化を行い、また実用的な評価で平均精度を8.3%向上、推論速度を1.2倍〜2.4倍速め、トークン使用量を34.6%〜75.6%削減。 Comment
元ポスト:
pj page: https://recursivemas.github.io/
ポイント解説:
[Paper Note] The Recurrent Transformer: Greater Effective Depth and Efficient Decoding, Costin-Andrei Oncescu+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Architecture #Reference Collection #RecurrentModels #Author Thread-Post Issue Date: 2026-04-28 GPT Summary- Recurrent Transformerは、各レイヤが自らの活性化から計算されたキーとバリューにアテンションを行うことで、時間的深さを持ちながらも最適化の不安定さを軽減。従来のTransformerとトークン間の再帰的更新を穏やかな前提下でエミュレートし、計算の効率性を改善。150Mおよび300MパラメータのC4事前学習において、クロスエントロピーの改善を達成し、深さを幅へとトレードオフすることで、メモリ占有量と推論レイテンシを低減することを示した。 Comment
元ポスト:
解説:
[Paper Note] How Much Is One Recurrence Worth? Iso-Depth Scaling Laws for Looped Language Models, Kristian Schwethelm+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Scaling Laws #RecurrentModels Issue Date: 2026-04-26 GPT Summary- ループ化された言語モデルにおける追加の再帰が、等価なパラメータ数での価値を測定。116回の実験を通じて、新たな再帰等価指数 φ = 0.46 を導出。φ は、再帰の影響を検証損失に反映し、ループモデルの性能と計算コストの関係を明示化。下流評価ではパラメトリック知識タスクに差が残る一方、オープンブック課題では差が縮小。今後のアーキテクチャ選択は φ を基に比較可能に。
[Paper Note] Hyperloop Transformers, Abbas Zeitoun+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Architecture #RecurrentModels #ResidualStream Issue Date: 2026-04-26 GPT Summary- LLMのパラメータ効率を向上させる新しいアーキテクチャを提案。ループド・トランスフォーマーをコアに、深さを跨いでトランスフォーマー層を再利用し、通常のトランスフォーマーよりも効率的。中間ブロックをハイパーコネクションで拡張し、パラメータ数を約50%削減しつつ性能向上を実現。量子化後も優位性を維持し、メモリ効率の良い言語モデリングに寄与。 Comment
元ポスト:
[Paper Note] A Mechanistic Analysis of Looped Reasoning Language Models, Hugh Blayney+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Transformer #Architecture #Reference Collection Issue Date: 2026-04-21 GPT Summary- ループ推論型言語モデルの推論性能向上を探求し、フィードフォワードモデルとの内部ダイナミクスの違いを比較。循環的再帰を分析し、各層が異なる不動点に収束する様子を示す。再帰の過程でアテンションヘッドの挙動が安定化し、フィードフォワードモデルの推論段階を繰り返すことを発見。再帰ブロックのサイズや入力の注入が安定性に与える影響にも焦点を当て、設計の指針へと結びつける。 Comment
元ポスト:
解説:
[Paper Note] The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook, Xinlei Yu+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #Reference Collection #Initial Impression Notes Issue Date: 2026-04-17 GPT Summary- 潜在空間は言語モデルにおいて重要な役割を果たし、多くのプロセスが連続的な潜在空間で自然に行われることが示されている。本調査は、潜在空間の基盤、進化、機構、能力、展望を整理し、それを他の空間や視覚モデルと明確に区別する。特に、アーキテクチャや最適化を含む四つの主要な発展線を特定し、推論や知覚など多様な能力を支える潜在空間の役割を論じる。未解決課題と今後の研究方向も示し、次世代知能のパラダイムを理解するための基盤を提供することを期待している。 Comment
latent reasoningに関する最新survey
Taxonomyがしっかりしているのが非常に良さそうである。たとえばCOCONUT(Representation/Reasoning)、Looped Transformer (Architecture, Reasoning), VJ-JEPA (Architecture/Perception)を見るとそれぞれ異なるセルに配置されている。手法ごとの表を見ると年号だけでなく、”日付”別で整理され時系列かされている。あと毎回Surveyみて思うが、多すぎである。。。
- [Paper Note] Training Large Language Models to Reason in a Continuous Latent Space, Shibo Hao+, COLM'25
- (Looped Transformerの例) [Paper Note] Skip a Layer or Loop it? Test-Time Depth Adaptation of Pretrained LLMs, Ziyue Li+, arXiv'25
- [Paper Note] VL-JEPA: Joint Embedding Predictive Architecture for Vision-language, Delong Chen+, arXiv'25, 2025.12
元ポスト:
[Paper Note] Parcae: Scaling Laws For Stable Looped Language Models, Hayden Prairie+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Architecture #Stability #RecurrentModels #RecursiveModels #Initial Impression Notes Issue Date: 2026-04-16 GPT Summary- ループ型アーキテクチャの訓練の不安定性を克服するため、動的システムとして再定式化し、注入パラメータのスペクトルノルムを制約する新しいアーキテクチャParcaeを提案。Parcaeは従来モデルより低いパープレキシティを達成し、FLOPsのスケーリング特性を調査。訓練時に固定パラメータでのFLOPs増加法則を導出し、推論時には計算量のスケーリングを実現。2.99ポイントと1.18ポイントの品質改善を報告。 Comment
blog: https://sandyresearch.github.io/parcae/
元ポスト:
学習がより安定するような工夫を加えたlooped transformerのようである
所見:
[Paper Note] Next Concept Prediction in Discrete Latent Space Leads to Stronger Language Models, Yuliang Liu+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Transformer #Quantization #Architecture Issue Date: 2026-02-10 GPT Summary- 次の概念予測(NCP)を提案し、生成型の事前学習パラダイムを構築。NCPは複数トークンの概念を予測し、生成モデルConceptLMが隠れ状態の量子化を通して概念語彙を形成。70Mから1.5Bパラメータの範囲で最大300Bのデータを用い、13のベンチマークで従来モデルを上回る性能を示す。また、8BパラメータのLlamaモデルにおける実験から、NCPがトークン予測を改善する可能性を示唆。NCPは強力な言語モデルを生む有望なアプローチである。 Comment
元ポスト:
先行研究:
- [Paper Note] Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture, Mahmoud Assran+, CVPR'23, 2023.01
- [Paper Note] Large Concept Models: Language Modeling in a Sentence Representation Space, LCM team+, arXiv'24, 2024.12
- [Paper Note] Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space, Xingwei Qu+, arXiv'25, 2025.12
[Paper Note] Reasoning with Latent Tokens in Diffusion Language Models, Andre He+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #DiffusionModel #Decoding Issue Date: 2026-02-06 GPT Summary- 離散拡散モデルは、自動回帰モデルと競争できる性能を持ちつつ、推論時に多くの計算を要する。このトレードオフは、推論時に未知のトークンの共同予測を行うことに起因しており、この予測を省略すると速度が向上するが性能が低下する。そこで、潜在トークンを調整する新たな手法を提案し、推論速度とサンプル品質のトレードオフを実現。さらに、潜在トークンを利用して自動回帰モデルでの改善を示し、全体的一貫性や先見性を要するタスクにおける性能向上のメカニズムを示唆している。 Comment
元ポスト:
[Paper Note] ConceptMoE: Adaptive Token-to-Concept Compression for Implicit Compute Allocation, Zihao Huang+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #Initial Impression Notes #Concept (LLM PreTraining) #Author Thread-Post Issue Date: 2026-01-30 GPT Summary- ConceptMoEは、トークン間の類似性を利用して計算リソースを動的に割り当てる新しい手法です。これにより、概念表現を生成し、計算集約モデルへのシーケンス圧縮を行います。評価において、ConceptMoEは標準的なMoEを上回り、言語や視覚言語タスクでの性能向上を示しました。特に、計算の効率も大幅に改善され、アーキテクチャの改変なしに既存のMoEに統合可能です。 Comment
著者ポスト:
論文タイトルにMoEというワードが入っているが、実際にMoEアーキテクチャを採用しているわけではない点に注意。アーキテクチャはいわゆるLarge Concept Model (エンコーダー→チャンク生成→コンセプトモデル→デチャンキング→デコーダー)であり、チャンクの境界がトークン間のlearnableなモジュールによって学習・決定されるため、トークンレベルで見たときに適応的にトークンをチャンク化することでコンセプトが定義され、かつトークン単位の計算資源の配分がチャンク化を(learnableに)通じて行われるという話に見える。
斜め読みしかできていないが、アーキテクチャそのものの貢献よりも、本研究の貢献として大きい部分はMoEモデルを用いた同じパラメータ/FLOPsでの異なるアーキテクチャ間のfair comparisonを通じてconcept modelの性能が高いことを示したことや、既存のMoEモデルを軽量なモジュールの追加(チャンクモジュール+デチャンクモジュール+追加のゼロで初期化されたQKV attention)し継続事前学習をすることでretrofittingすることでも性能が向上すること、計算効率がチャンクによってトークンが圧縮されるため、fair comparisonの上で高い性能を達成しながら、圧縮率Rに応じて向上することを示ししたこと、などにあるように見受けられる。
が、ただの斜め読みした感想でしかないので読みたい。
[Paper Note] Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space, Xingwei Qu+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#NLP #LanguageModel #read-later #One-Line Notes #Concept (LLM PreTraining) #Author Thread-Post Issue Date: 2026-01-03 GPT Summary- DLCM(Dynamic Large Concept Models)は、トークン均一な計算の限界を克服するための階層的な言語モデリングフレームワークであり、意味的境界を学習して計算を圧縮された概念空間にシフトします。これにより、推論を効率化し、固定されたFLOPsの下で計算配分を最適化します。DLCMは、実用的な設定で推論計算の約3分の1を再配分し、12のゼロショットベンチマークで平均2.69%の性能向上を達成しました。 Comment
元ポスト:
従来のトークンを最小単位とする言語モデルではなく、意味的なチャンクを最小単位として扱う(チャンクの境界は隠れ状態の類似度が閾値を超えるか否かによって決める)Encoder-(Thinking Model)-Decoderタイプのモデルに見える。
関連:
- [Paper Note] Large Concept Models: Language Modeling in a Sentence Representation Space, LCM team+, arXiv'24, 2024.12
扱うconceptの最小単位という観点で見ると、こちらの研究はコンセプトをsentenceとしているが、本研究は(まだ全然読めていないのでおそらく)動的に決まるboundaryに基づくチャンクという点で異なっているように見える。
著者ポストを引用しているポスト:
[Paper Note] Think Visually, Reason Textually: Vision-Language Synergy in ARC, Beichen Zhang+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#Reasoning Issue Date: 2025-12-17 GPT Summary- 抽象的推論は依然として基盤モデルにとっての課題であり、ARC-AGIを用いて視覚と言語の相乗的推論を提案。視覚は全体的なパターンの抽象化を支援し、言語はルールの定式化に特化。二つの戦略を導入し、テキストベースの推論を視覚で検証することで最大4.33%の性能向上を実現。視覚と言語の統合が人間のような知能の達成に寄与することを示唆。 Comment
元ポスト:
[Paper Note] Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence, Sean McLeish+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #RecurrentModels #RecursiveModels #Author Thread-Post Issue Date: 2025-11-12 GPT Summary- 深層再帰言語モデルの進展により、再帰の計算量を訓練時とテスト時で切り離すことが可能に。本研究では、非再帰言語モデルを深層再帰モデルに変換する方法を提案し、再帰のカリキュラムを用いることで性能を維持しつつ計算コストを削減できることを示した。数学実験では、再帰モデルへの変換がポストトレーニングよりも優れた性能を発揮することが確認された。 Comment
元ポスト:
関連:
openreview: https://openreview.net/forum?id=eC85h3y4pG
[Paper Note] Scaling Latent Reasoning via Looped Language Models, Rui-Jie Zhu+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Transformer #Selected Papers/Blogs #KeyPoint Notes #RecurrentModels #RecursiveModels #Author Thread-Post Issue Date: 2025-10-30 GPT Summary- Ouroは、推論を事前訓練フェーズに組み込むことを目指したループ言語モデル(LoopLM)であり、反復計算やエントロピー正則化を通じて性能を向上させる。1.4Bおよび2.6Bモデルは、最大12Bの最先端LLMに匹敵する性能を示し、知識操作能力の向上がその要因であることを実験で確認。LoopLMは明示的なCoTよりも整合した推論を生成し、推論の新たなスケーリングの可能性を示唆している。モデルはオープンソースで提供されている。 Comment
pj page: https://ouro-llm.github.io
元ポスト:
解説:
基本構造はdecoder-only transformerで
- Multi-Head Attention
- RoPE
- SwiGLU活性化
- Sandwich Normalization
が使われているLoopedTransformerで、exit gateを学習することで早期にloopを打ち切り、出力をすることでコストを節約できるようなアーキテクチャになっている。
より少ないパラメータ数で、より大きなパラメータ数のモデルよりも高い性能を示す(Table7,8)。また、Tを増やすとモデルの安全性も増す(=有害プロンプトの識別力が増す)。その代わり、再帰数Tを大きくするとFLOPsがT倍になるので、メモリ効率は良いが計算効率は悪い。
linear probingで再帰の次ステップ予測をしたところ浅い段階では予測が不一致になるため、思考が進化していっているのではないか、という考察がある。
また、再帰数Tを4で学習した場合に、inference時にTを5--8にしてもスケールしない(Table10)。
またAppendix D.1において、通常のtransformerのLoopLMを比較し、5種類の大きさのモデルサイズで比較。通常のtransformerではループさせる代わりに実際に層の数を増やすことで、パラメータ数を揃えて実験したところ、通常のtransformerの方が常に性能が良く、loopLMは再帰数を増やしてもスケールせず、モデルサイズが大きくなるにつれて差がなくなっていく、というスケーリングの面では残念な結果に終わっているようだ。
といった話が解説に書かれている。元論文は完全にskim readingして解説ポストを主に読んだので誤りが含まれるかもしれない点には注意。
[Paper Note] Thinking on the Fly: Test-Time Reasoning Enhancement via Latent Thought Policy Optimization, Wengao Ye+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Online/Interactive #NLP #LanguageModel #ReinforcementLearning #OOD #One-Line Notes #Test Time Training (TTT) Issue Date: 2025-10-18 GPT Summary- Latent Thought Policy Optimization(LTPO)を提案し、LLMの推論を強化するパラメータフリーのフレームワークを導入。中間的な潜在「思考」ベクトルを動的に最適化し、外部監視なしで報酬信号に基づくオンラインポリシー勾配法を使用。5つの推論ベンチマークで強力な性能を示し、特にAIMEベンチマークで顕著な改善を達成。 Comment
元ポスト:
test-time に online-RLを適用することでモデルのパラメータを更新することなく、クエリに応じて動的にlatent reasoningを洗練し、推論能力をロバストにできる、という話な模様?
実験結果を見ると、モデルのパラメータ数が大きい場合にgainが小さくなっていっているように見え、かつ実験中のlargest modelのgainがサンプル数の少ないAIMEのスコアに依存しているように見える。
[Paper Note] LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning, Haoqiang Kang+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #LanguageModel #DiffusionModel #Reasoning #KeyPoint Notes Issue Date: 2025-10-18 GPT Summary- LaDiR(Latent Diffusion Reasoner)という新しい推論フレームワークを提案。これは、LLMの限界を克服し、潜在表現と潜在拡散モデルを統合。VAEを用いて構造化された潜在推論空間を構築し、双方向注意マスクでデノイズ。これにより、効率的な推論軌跡の生成が可能となり、精度と多様性を向上。数学的推論の評価で、従来手法を上回る結果を示す。 Comment
元ポスト:
既存のreasoning/latent reasoningはsequentialにreasoning trajectoryを生成していくが、(このため、誤った推論をした際に推論を是正しづらいといわれている)本手法ではthought tokensと呼ばれる思考トークンをdiffusion modelを用いてdenoisingすることでreasoning trajectoryを生成する。このプロセスはtrajectory全体をiterativeにrefineしていくため前述の弱点が是正される可能性がある。また、thought tokensの生成は複数ブロック(ブロック間はcausal attention, ブロック内はbi-directional attention)に分けて実施されるため複数のreasoning trajectoryを並列して探索することになり、reasoning traceの多様性が高まる効果が期待できる。最後にVAEによってdiscreteなinputをlatent spaceに落とし込み、その空間上でdenoising(= latent space空間上で思考する)し、その後decodingしてdiscrete tokenに再度おとしこむ(= thought tokens)というアーキテクチャになっているため、latent space上でのreasoningの解釈性が向上する。最終的には、
結果のスコアを見る限り、COCONUTと比べるとだいぶgainを得ているが、Discrete Latentと比較するとgainは限定的に見える。
[Paper Note] Encode, Think, Decode: Scaling test-time reasoning with recursive latent thoughts, Yeskendir Koishekenov+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #LanguageModel #mid-training #read-later #RecurrentModels #RecursiveModels #Author Thread-Post Issue Date: 2025-10-15 GPT Summary- ETD手法を用いて、LLMの推論能力を向上させる。特定の層を反復することで、17の推論ベンチマークで大幅な精度向上を達成。GSM8Kで28.4%、MATHで36%の向上を示し、再帰的な推論が効果的であることを確認。 Comment
元ポスト:
[Paper Note] Less is More: Recursive Reasoning with Tiny Networks, Alexia Jolicoeur-Martineau, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #LanguageModel #SmallModel #Selected Papers/Blogs #RecursiveModels Issue Date: 2025-10-09 GPT Summary- 階層的推論モデル(HRM)は、2つの小さなニューラルネットワークを用いた新しいアプローチで、数独や迷路などのパズルタスクで大規模言語モデル(LLMs)を上回る性能を示す。しかし、HRMは最適ではない可能性があるため、我々はTiny Recursive Model(TRM)を提案。TRMはよりシンプルで高い一般化能力を持ち、700万パラメータでARC-AGI-1で45%、ARC-AGI-2で8%の精度を達成し、ほとんどのLLMを上回る性能を示した。 Comment
元ポスト:
所見:
ポイント解説:
ARC-AGI公式による検証が終わり報告されている結果が信頼できることが確認された模様:
続報:
Sudoku Benchでも性能改善する模様?
[Paper Note] Thoughtbubbles: an Unsupervised Method for Parallel Thinking in Latent Space, Houjun Liu+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #read-later #Selected Papers/Blogs Issue Date: 2025-10-03 GPT Summary- 本研究では、トランスフォーマーの新しい変種「Thoughtbubbles」を提案し、並列適応計算を潜在空間で実行する方法を示す。残差ストリームをフォークまたは削除することで、計算を効率化し、事前トレーニング中に学習可能。Thoughtbubblesは、従来の手法を上回る性能を示し、推論時のトレーニングとテストの挙動を統一する可能性を持つ。 Comment
元ポスト:
重要論文に見える
[Paper Note] SIM-CoT: Supervised Implicit Chain-of-Thought, Xilin Wei+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#NLP #LanguageModel Issue Date: 2025-09-29 GPT Summary- 暗黙のChain-of-Thought (CoT) メソッドは、LLMsにおける明示的なCoT推論の効率的な代替手段ですが、性能の不安定性が課題です。これに対処するため、SIM-CoTを提案し、ステップレベルの監視を導入して潜在的な推論空間を安定化します。補助デコーダーを用いて暗黙のトークンを明示的な推論ステップに整合させ、解釈可能性を向上させます。SIM-CoTは、CoconutやCODIでの精度を向上させ、明示的CoTのベースラインを上回り、トークン効率も改善します。 Comment
元ポスト:
[Paper Note] Soft Tokens, Hard Truths, Natasha Butt+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Chain-of-Thought #Author Thread-Post Issue Date: 2025-09-24 GPT Summary- 本研究では、離散CoTからの蒸留なしに強化学習を用いて連続CoTを学習する新しい方法を提案。ソフトトークンを活用し、計算コストを抑えつつ数百のトークンを持つ連続CoTを学習可能。LlamaおよびQwenモデルでの実験により、連続CoTは離散トークンCoTと同等またはそれを上回る性能を示し、特に連続CoTでトレーニング後に離散トークンで推論するシナリオが最良の結果を得ることが確認された。さらに、連続CoTのRLトレーニングは、ドメイン外タスクにおけるベースモデルの予測保持を向上させることが明らかになった。 Comment
元ポスト:
解説:
著者ポスト:
ポイント解説:
[Paper Note] Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation, Sangmin Bae+, NeurIPS'25
Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #NLP #Transformer #Architecture #NeurIPS #memory #RecurrentModels #RecursiveModels #Author Thread-Post Issue Date: 2025-07-17 GPT Summary- Mixture-of-Recursions(MoR)というフレームワークを提案し、再帰型トランスフォーマー内でパラメータ共有と適応計算を同時に実現。MoRは、レイヤーの再利用とトークンごとの再帰深さの動的割り当てにより、メモリアクセス効率を向上させる。135Mから1.7Bパラメータのモデルで、トレーニングFLOPsを維持しつつ、困惑度を低下させ、少数ショット精度を向上。MoRは大規模モデルのコストを抑えつつ、品質向上に寄与することを示す。 Comment
元ポスト:
解説:
関連:
- [Paper Note] Universal Transformers, Mostafa Dehghani+, ICLR'19
- [Paper Note] Looped Transformers for Length Generalization, Ying Fan+, ICLR'25
- [Paper Note] Looped Transformers are Better at Learning Learning Algorithms, Liu Yang+, ICLR'24
著者ポスト:
[Paper Note] A Survey on Latent Reasoning, Rui-Jie Zhu+, arXiv'25
Paper/Blog Link My Issue
#Survey #NLP #LanguageModel Issue Date: 2025-07-10 GPT Summary- 大規模言語モデル(LLMs)は、明示的な思考の連鎖(CoT)によって優れた推論能力を示すが、自然言語推論への依存が表現力を制限する。潜在的推論はこの問題を解決し、トークンレベルの監視を排除する。研究は、ニューラルネットワーク層の役割や多様な潜在的推論手法を探求し、無限深度の潜在的推論を可能にする高度なパラダイムについて議論する。これにより、潜在的推論の概念を明確にし、今後の研究方向を示す。関連情報はGitHubリポジトリで提供されている。 Comment
元ポスト:
Latent Reasoningというテクニカルタームが出てきた
出力されるdiscreteなtokenによってreasoningを実施するのではなく、モデル内部のrepresentationでreasoningを実施するLatent ReasoningのSurvey
[Paper Note] Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach, Jonas Geiping+, NeurIPS'25
Paper/Blog Link My Issue
#NLP #LanguageModel #Architecture #NeurIPS #Test-Time Scaling Issue Date: 2025-02-10 GPT Summary- 新しい言語モデルアーキテクチャを提案し、潜在空間での暗黙的推論によりテスト時の計算をスケールさせる。再帰ブロックを反復し、任意の深さに展開することで、従来のトークン生成モデルとは異なるアプローチを採用。特別なトレーニングデータを必要とせず、小さなコンテキストウィンドウで複雑な推論を捉える。3.5億パラメータのモデルをスケールアップし、推論ベンチマークでのパフォーマンスを劇的に改善。
[Paper Note] Training Large Language Models to Reason in a Continuous Latent Space, Shibo Hao+, COLM'25
Paper/Blog Link My Issue
#NLP #LanguageModel #Chain-of-Thought #COLM #PostTraining #read-later #One-Line Notes Issue Date: 2024-12-12 GPT Summary- 新しい推論パラダイム「Coconut」を提案し、LLMの隠れ状態を連続的思考として利用。これにより、次の入力を連続空間でフィードバックし、複数の推論タスクでLLMを強化。Coconutは幅優先探索を可能にし、特定の論理推論タスクでCoTを上回る性能を示す。潜在的推論の可能性を探る重要な洞察を提供。 Comment
Chain of Continuous Thought
通常のCoTはRationaleをトークン列で生成するが、Coconutは最終的なhidden stateをそのまま次ステップの入力にすることで、トークンに制限されずにCoTさせるということらしい。あとでしっかり読む
おそらく学習の際に工夫が必要なので既存モデルのデコーディングを工夫してできます系の話ではないかも
OpenReview:
https://openreview.net/forum?id=tG4SgayTtk
ICLR'25にrejectされている。
ざっと最初のレビューに書かれているWeaknessを読んだ感じ
- 評価データが合成データしかなく、よりrealisticなデータで評価した方が良い
- CoTら非常に一般的に適用可能な技術なので、もっと広範なデータで評価すべき
- GSM8Kでは大幅にCOCONUTはCoTに性能が負けていて、ProsQAでのみにしかCoTに勝てていない
- 特定のデータセットでの追加の学習が必要で、そこで身につけたreasoning能力が汎化可能か明らかでない
といった感じに見える
COLM'25 openreview:
https://openreview.net/forum?id=Itxz7S4Ip3#discussion
COLM'25にAccept
[Paper Note] Looped Transformers are Better at Learning Learning Algorithms, Liu Yang+, ICLR'24
Paper/Blog Link My Issue
#MachineLearning #Transformer #Architecture #Selected Papers/Blogs #RecurrentModels Issue Date: 2025-08-30 GPT Summary- ループ型transformerアーキテクチャを提案し、従来のtransformerに反復的特性を組み込むことで、データフィッティング問題を解決。実験により、標準のtransformerと同等の性能を保ちながら、パラメータ数を10%未満に抑えることができることが示された。 Comment
openreview: https://openreview.net/forum?id=HHbRxoDTxE
[Paper Note] Universal Transformers, Mostafa Dehghani+, ICLR'19
Paper/Blog Link My Issue
#NLP #Transformer #Architecture #ICLR #Selected Papers/Blogs #Generalization #RecurrentModels Issue Date: 2025-08-30 GPT Summary- 再帰神経ネットワーク(RNN)は逐次処理によりシーケンスモデリングで広く使われてきたが、トレーニングが遅くなる欠点がある。最近のフィードフォワードや畳み込みアーキテクチャは並列処理が可能で優れた結果を出しているが、RNNが得意とする単純なタスクでの一般化には失敗する。そこで、我々はユニバーサル・トランスフォーマー(UT)を提案し、フィードフォワードの並列処理能力とRNNの帰納バイアスを組み合わせたモデルを開発した。UTは特定の条件下でチューリング完全であり、実験では標準的なトランスフォーマーを上回る性能を示し、特にLAMBADAタスクで新たな最先端を達成し、機械翻訳でもBLEUスコアを改善した。 Comment
openreview: https://openreview.net/forum?id=HyzdRiR9Y7
Recursive Language Models: the paradigm of 2026, PRIME Intellect, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #LongSequence #read-later #Selected Papers/Blogs #reading #RecursiveModels #ContextRot Issue Date: 2026-01-02 Comment
関連研究:
- [Paper Note] Recursive Language Models, Alex L. Zhang+, arXiv'25, 2025.12
- Context Rot: How Increasing Input Tokens Impacts LLM Performance, CHROMA TECHNICAL REPORT, 2025.07
- [Paper Note] Scaling Long-Horizon LLM Agent via Context-Folding, Weiwei Sun+, arXiv'25, 2025.10
- [Paper Note] AgentFold: Long-Horizon Web Agents with Proactive Context Management, Rui Ye+, arXiv'25, 2025.10
- [Paper Note] Agentic Context Engineering: Evolving Contexts for Self-Improving
Language Models, Qizheng Zhang+, arXiv'25, 2025.10
Recursive Language Models, Zhang+, MIT CSAIL, 2025.10
Paper/Blog Link My Issue
#Article #LanguageModel #Blog #RecursiveModels Issue Date: 2025-10-27 Comment
元ポスト:
