LatentRepresentationに関する論文・技術記事メモの一覧

LatentRepresentation

[Paper Note] EvoEmbedding: Evolvable Representations for Long-Context Retrieval and Agentic Memory, Chang Nie+, arXiv'26, 2026.06

Paper/Blog Link My Issue
#Embeddings #NLP #LanguageModel #memory Issue Date: 2026-07-05 GPT Summary- EvoEmbeddingは、文脈や時間的順序を考慮した動的な埋め込みモデルであり、逐次処理により潜在メモリを更新し、進化する状況に基づいて検索対象を最適化する。EvoTrain-180Kデータセットを用いて、潜在メモリと検索を共同最適化し、長文脈検索において他の大規模モデルを凌駕する性能を発揮することを実証。さらに、エージェント型ワークフローにも統合可能で、性能向上を実現。 Comment

元ポスト:

Loading…

[Paper Note] Learn from your own latents and not from tokens: A sample-complexity theory, Daniel J. Korchinski+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #Analysis #MachineLearning #NLP #Self-SupervisedLearning #One-Line Notes #Author Thread-Post Issue Date: 2026-06-02 GPT Summary- 生成モデルは、訓練データの量が生物的学習者に比べて大きくなる中で高い性能を示している。新たな手法として、ネットワークが潜在表現を予測する訓練が行われており、これがデータ効率の改善につながる可能性がある。本研究では、確率的文脈自由文法（PCFG）をデータに用いて、潜在予測が効率を高めることを示す。教師あり学習は指数的なサンプル数を要するのに対し、潜在予測は定数のサンプルで達成可能であることを明らかにした。また、階層的クラスタリングやエンドツーエンドのニューラルネットワークを用いた分析を通じて、data2vecが階層的潜在予測を実行していることを確認し、明示的なスタッキングの冗長性を示唆している。 Comment

元ポスト:

Loading…

JEPAのようなモデル自身が獲得した潜在表現を予測する自己教師あり学習手法は、階層的な生成構造を持つデータに対して、トークンレベルの予測ではO(m^{L+1})のサンプルが必要となるが、O(m^3)程度で済むことが理論的に示された模様。

著者ポスト:

Loading…

[Paper Note] Causal-JEPA: Learning World Models through Object-Level Latent Interventions, Heejeong Nam+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #RepresentationLearning #Transformer #Self-SupervisedLearning #OpenWeight #Encoder #WorldModels #KeyPoint Notes Issue Date: 2026-02-16 GPT Summary- C-JEPAは、オブジェクト中心の世界モデルで、画像パッチからの埋め込み予測を通じてオブジェクトの相互作用を捉えることを目的としている。オブジェクトレベルのマスキングを導入し、潜在的介入を誘発することで反事実的推論を強化し、ショートカット解法を防ぐ。実験結果では、視覚質問応答において約20％の性能向上を示し、エージェント制御タスクでは必要な潜在入力のわずか1％で同等の結果を達成した。さらに、因果的帰納的バイアスを誘発することも示している。 Comment

元ポスト:

Loading…

pj page: https://hazel-heejeong-nam.github.io/cjepa/

（JEPAはあまり馴染みがなく、以下の私の解説はどこかに誤りがある可能性が高い）

video basedなシステムを前提、すなわちimageのsequenceが与えられる前提である。このとき、各タイムステップごとに選択されたobjectの状態をマスクし、マスクされたobjectのhistoryを予測し、予測された状態から将来の状態を予測する。objectは状態だけでなく、補足的な観測可能な情報を保持することができ（たとえばアクションと感覚に関するシグナルなど）状態遷移に利用される。また、マスク対象として選択されたオブジェクトの最初のステップの状態だけは、アンカーとして保持する。マスク処理はlatent levelはでのinteiventionとして解釈でき、これにより予測のためにobject間の相互作用を捉えることが誘発され、object centricな潜在表現が学習される。マスクされたオブジェクトの状態は、予測された一つ前のステップでの状態に対してlinearで変換しpositional embeddingを足し合わせることで求められ（式3）、これらの予測されたhistoryの状態がViTの入力となり（bidirectionalなattentionを通じて）将来の状態を予測する。lossは予測されたhistoryの状態と将来の状態が与えられたときに、freezeされたobjectのエンコーダから得られる潜在表現との距離が最小化されるように学習される（エンコーダ側はstop gradientする）。

解説:

Loading…

[Paper Note] Latent Collaboration in Multi-Agent Systems, Jiaru Zou+, ICML'26, 2025.11

Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #AIAgents #ICML #Initial Impression Notes #Author Thread-Post Issue Date: 2025-11-27 GPT Summary- LatentMASは、マルチエージェントシステムにおいて、LLMエージェントがテキスト媒介なしで直接協力できるフレームワークを提案。各エージェントは潜在思考生成を行い、共有された潜在作業メモリを通じて情報を損失なく交換。理論的分析と9つのベンチマーク評価により、従来のテキストベースのMASよりも高い表現力と効率を示し、精度向上や推論速度の改善を実現。コードはオープンソースで提供。 Comment

元ポスト:

Loading…

Would you like to collaborate on something building from this?

著者ポスト:

Loading…

エージェントのKV Pairをとっておき、次のエージェントで生成する際に、KV Pairをconcatすることで、潜在空間上で思考をエージェント間で共有する。ただし、エージェント間でKV Cacheを共有する上での核となるアイデアが3.1, 3.2と思われるが、まだ内容を読めていない。

textでのコンテキスト共有と比較して性能が向上するだけでなく、トークンコストとスピードが向上する。

[Paper Note] Next-Latent Prediction Transformers Learn Compact World Models, Jayden Teoh+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Self-SupervisedLearning #Architecture #Selected Papers/Blogs #WorldModels #KeyPoint Notes #Author Thread-Post Issue Date: 2026-06-18 GPT Summary- Next-Lat Prediction（NextLat）は、トランスフォーマーの次トークン予測を潜在空間での自己教師付き予測に拡張し、予測可能な潜在状態を学習。これにより、整合した信念状態を形成し、内部世界モデルをコンパクトに構築。エビデンスとして、推論や計画において顕著な精度向上を示し、言語モデリングの推論速度を最大3.3倍に高速化。NextLatはトランスフォーマーに再帰的な帰納バイアスを効果的に注入するシンプルで強力な手法を提供。 Comment

元ポスト:

Loading…

解説:

Loading…

以下上記解説ポストの要約

transformerのアーキテクチャではRNNのような状態を逐次更新するようなアーキテクチャではないため、現在の隠れ状態とnext tokenから、次の隠れ状態を予測できるような損失関数を追加し（式3）、transformerに状態遷移を学習させる（自己教師あり学習によって実現できる）。また、next tokenの予測性能を落とさないように、真の隠れ状態が与えられた時の出力分布と離れないようなKL Divergenceに基づく損失をLossとして加える（式4）。これにより、
- transformerが過去のhistoryをコンパクトなbelief statesに圧縮することを促し
- latent spaceを予測することでone-hot tokenからの学習よりもdenseなシグナルに基づくため、データ効率を向上させ、
- look-aheadをすることによって投機的デコーディングに資する
- 内部表現が一貫した世界モデルとなることを促す

といった狙いがある。実験の結果、planning能力が向上し（belief statesによって先を見越して計画することが促されるため）next token predictionのperplexityを低下させることなく20 token先まで予測した場合にMulti Token Predictionよりもcross-entropy lossで性能を上回る、といった恩恵があるようである。

[Paper Note] Thought Communication in Multiagent Collaboration, Yujia Zheng+, NeurIPS'25 Spotlight, 2025.10

Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #AIAgents #NeurIPS Issue Date: 2025-11-07 GPT Summary- 自然言語の曖昧さが集合知の可能性を制限する中、思考コミュニケーションという新しいパラダイムを提案。エージェントが直接相互作用できるようにし、潜在変数モデルとして形式化。非パラメトリックな設定で、エージェント間の共有思考とプライベート思考を特定可能。理論に基づき、潜在的な思考を抽出し、共有パターンを割り当てるフレームワークを開発。実験により理論を検証し、思考コミュニケーションの利点を示す。 Comment

元ポスト:

Loading…

[Paper Note] Gaussian Embeddings: How JEPAs Secretly Learn Your Data Density, Randall Balestriero+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #MachineLearning #read-later Issue Date: 2025-10-09 GPT Summary- JEPAは、潜在空間予測と反収束を組み合わせたアーキテクチャで、データ密度を推定する能力を持つ。成功裏に訓練されたJEPAは、データキュレーションや外れ値検出に利用可能で、サンプルの確率を効率的に計算できる。JEPA-SCOREと呼ばれる手法を用いて、さまざまなデータセットや自己教師あり学習手法でその効果が実証されている。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture, Mahmoud Assran+, CVPR'23, 2023.01

Paper/Blog Link My Issue
#ComputerVision #Pretraining #RepresentationLearning #Transformer #Self-SupervisedLearning #CVPR #read-later #Selected Papers/Blogs #WorldModels #One-Line Notes Issue Date: 2025-07-24 GPT Summary- 本論文では、手作りのデータ拡張に依存せずに意味的な画像表現を学習するI-JEPAという自己教師あり学習アプローチを提案。I-JEPAは、単一のコンテキストブロックから異なるターゲットブロックの表現を予測する。重要な設計選択として、意味的に大きなターゲットブロックと情報量の多いコンテキストブロックのサンプリングが挙げられる。実験により、I-JEPAはVision Transformersと組み合わせることでスケーラブルであり、ImageNet上で強力な下流性能を達成した。 Comment

Joint-Embedding Predictive Architecture (JEPA)を提案した研究。ピクセルやトークンのreconstruction lossではなく、潜在表現を再構成するようなself-supervised learningによってより意味的な特徴を学習するように誘導するもの（と思われるがこれが本質的な理解として正しいかは自信がない）。

JEPAwiki, mishig, 2026.04

Paper/Blog Link My Issue
#Article #ComputerVision #Blog #read-later #WorldModels Issue Date: 2026-04-07 Comment

元ポスト:

Loading…