LatentRepresentation


Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #Analysis #MachineLearning #NLP #Self-SupervisedLearning #One-Line Notes Issue Date: 2026-06-02 GPT Summary- 生成モデルは、訓練データの量が生物的学習者に比べて大きくなる中で高い性能を示している。新たな手法として、ネットワークが潜在表現を予測する訓練が行われており、これがデータ効率の改善につながる可能性がある。本研究では、確率的文脈自由文法(PCFG)をデータに用いて、潜在予測が効率を高めることを示す。教師あり学習は指数的なサンプル数を要するのに対し、潜在予測は定数のサンプルで達成可能であることを明らかにした。また、階層的クラスタリングやエンドツーエンドのニューラルネットワークを用いた分析を通じて、data2vecが階層的潜在予測を実行していることを確認し、明示的なスタッキングの冗長性を示唆している。 Comment

元ポスト:

Loading…

JEPAのようなモデル自身が獲得した潜在表現を予測する自己教師あり学習手法は、階層的な生成構造を持つデータに対して、トークンレベルの予測ではO(m^{L+1})のサンプルが必要となるが、O(m^3)程度で済むことが理論的に示された模様。




Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #RepresentationLearning #Transformer #Self-SupervisedLearning #OpenWeight #Encoder #WorldModels #KeyPoint Notes Issue Date: 2026-02-16 GPT Summary- C-JEPAは、オブジェクト中心の世界モデルで、画像パッチからの埋め込み予測を通じてオブジェクトの相互作用を捉えることを目的としている。オブジェクトレベルのマスキングを導入し、潜在的介入を誘発することで反事実的推論を強化し、ショートカット解法を防ぐ。実験結果では、視覚質問応答において約20%の性能向上を示し、エージェント制御タスクでは必要な潜在入力のわずか1%で同等の結果を達成した。さらに、因果的帰納的バイアスを誘発することも示している。 Comment

元ポスト:

Loading…

pj page: https://hazel-heejeong-nam.github.io/cjepa/

(JEPAはあまり馴染みがなく、以下の私の解説はどこかに誤りがある可能性が高い)

video basedなシステムを前提、すなわちimageのsequenceが与えられる前提である。このとき、各タイムステップごとに選択されたobjectの状態をマスクし、マスクされたobjectのhistoryを予測し、予測された状態から将来の状態を予測する。objectは状態だけでなく、補足的な観測可能な情報を保持することができ(たとえばアクションと感覚に関するシグナルなど)状態遷移に利用される。また、マスク対象として選択されたオブジェクトの最初のステップの状態だけは、アンカーとして保持する。マスク処理はlatent levelはでのinteiventionとして解釈でき、これにより予測のためにobject間の相互作用を捉えることが誘発され、object centricな潜在表現が学習される。マスクされたオブジェクトの状態は、予測された一つ前のステップでの状態に対してlinearで変換しpositional embeddingを足し合わせることで求められ(式3)、これらの予測されたhistoryの状態がViTの入力となり(bidirectionalなattentionを通じて)将来の状態を予測する。lossは予測されたhistoryの状態と将来の状態が与えられたときに、freezeされたobjectのエンコーダから得られる潜在表現との距離が最小化されるように学習される(エンコーダ側はstop gradientする)。

解説:

Loading…




Paper/Blog Link My Issue
#ComputerVision #MachineLearning #read-later Issue Date: 2025-10-09 GPT Summary- JEPAは、潜在空間予測と反収束を組み合わせたアーキテクチャで、データ密度を推定する能力を持つ。成功裏に訓練されたJEPAは、データキュレーションや外れ値検出に利用可能で、サンプルの確率を効率的に計算できる。JEPA-SCOREと呼ばれる手法を用いて、さまざまなデータセットや自己教師あり学習手法でその効果が実証されている。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…




Paper/Blog Link My Issue
#ComputerVision #Pretraining #RepresentationLearning #Transformer #Self-SupervisedLearning #CVPR #read-later #Selected Papers/Blogs #WorldModels #One-Line Notes Issue Date: 2025-07-24 GPT Summary- 本論文では、手作りのデータ拡張に依存せずに意味的な画像表現を学習するI-JEPAという自己教師あり学習アプローチを提案。I-JEPAは、単一のコンテキストブロックから異なるターゲットブロックの表現を予測する。重要な設計選択として、意味的に大きなターゲットブロックと情報量の多いコンテキストブロックのサンプリングが挙げられる。実験により、I-JEPAはVision Transformersと組み合わせることでスケーラブルであり、ImageNet上で強力な下流性能を達成した。 Comment

Joint-Embedding Predictive Architecture (JEPA)を提案した研究。ピクセルやトークンのreconstruction lossではなく、潜在表現を再構成するようなself-supervised learningによってより意味的な特徴を学習するように誘導するもの(と思われるがこれが本質的な理解として正しいかは自信がない)。