VariationalAutoEncoderに関する論文・技術記事メモの一覧

VariationalAutoEncoder

[Paper Note] UniVideo: Unified Understanding, Generation, and Editing for Videos, Cong Wei+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #Transformer #MultiModal #DiffusionModel #OpenWeight #read-later #Selected Papers/Blogs #VideoGeneration/Understandings #Editing Issue Date: 2026-01-09 GPT Summary- UniVideoは、動画ドメインにおけるマルチモーダルコンテンツの生成と編集を目的とした統一モデルで、MLLMとMMDiTを組み合わせたデュアルストリーム設計を採用。これにより、複雑な指示の解釈と視覚的一貫性を維持しつつ、動画生成や編集タスクを統一的に訓練。実験結果では、テキスト/画像から動画への生成や文脈内編集において最先端の性能を示し、編集とスタイル転送の統合や未見の指示への対応も可能。視覚プロンプトに基づく生成もサポートし、モデルとコードは公開されている。 Comment

pj page: https://congwei1230.github.io/UniVideo/

元ポスト:

Loading…

HF: https://huggingface.co/KlingTeam/UniVideo

[Paper Note] TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models, Zhiheng Liu+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#ComputerVision #Pocket #MultiModal #VisionLanguageModel #2D (Image) #FlowMatching #UMM #4D (Video) Issue Date: 2025-12-03 GPT Summary- TUNAという統一マルチモーダルモデル（UMM）を提案し、VAEエンコーダと表現エンコーダを連鎖させて統一された視覚表現を構築。これにより、画像と動画の理解・生成タスクをエンドツーエンドで処理可能にし、従来の分離されたUMMsを上回る性能を実現。事前学習された表現エンコーダの重要性も強調され、共同訓練により理解と生成が相互に利益を得ることが示された。広範な実験により、TUNAが最先端の結果を達成したことが確認された。 Comment

pj page: https://tuna-ai.org/

[Paper Note] MiniOneRec: An Open-Source Framework for Scaling Generative Recommendation, Xiaoyu Kong+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#RecommenderSystems #Pocket #LanguageModel #ReinforcementLearning #PostTraining #read-later #Selected Papers/Blogs #One-Line Notes #Scalability Issue Date: 2025-11-26 GPT Summary- MiniOneRecを提案し、SID構築から強化学習までのエンドツーエンドの生成レコメンデーションフレームワークを提供。実験により、モデルサイズの増加に伴いトレーニング損失と評価損失が減少し、生成アプローチのパラメータ効率が確認された。さらに、SID整合性の強制と強化学習を用いたポストトレーニングパイプラインにより、ランキング精度と候補の多様性が大幅に向上。 Comment

github: https://github.com/AkaliKong/MiniOneRec

元ポスト:

Loading…

興味深い話ではあるが、generativeなRecSysはlatencyの面で厳しいものがあるという認識ではある。読みたい。

[Paper Note] OminiControl: Minimal and Universal Control for Diffusion Transformer, Zhenxiong Tan+, ICCV'25 Highlight, 2024.11

Paper/Blog Link My Issue
#ComputerVision #Controllable #Pocket #Transformer #DiffusionModel #Selected Papers/Blogs #ICCV #KeyPoint Notes Issue Date: 2025-10-22 GPT Summary- OminiControlは、Diffusion Transformer（DiT）アーキテクチャにおける画像条件付けの新しいアプローチで、パラメータオーバーヘッドを最小限に抑えつつ、柔軟なトークン相互作用と動的な位置エンコーディングを実現。広範な実験により、複数の条件付けタスクで専門的手法を上回る性能を示し、合成された画像ペアのデータセット「Subjects200K」を導入。効率的で多様な画像生成システムの可能性を示唆。 Comment

元ポスト:

Loading…

DiTのアーキテクチャは（MMA以外は）変更せずに、Condition Image C_IをVAEでエンコードしたnoisy inputをDiTのinputにconcatし順伝播させることで、DiTをunified conditioningモデル（＝C_Iの特徴量を他のinputと同じlatent spaceで学習させ統合的に扱う）として学習する[^1]。

[^1]: 既存研究は別のエンコーダからエンコードしたfeatureが加算されていて（式3）、エンコーダ部分に別途パラメータが必要だっただけでなく、加算は空間的な対応関係が存在しない場合はうまく対処できず（featureの次元が空間的な情報に対応しているため）、conditional tokenとimageの交互作用を妨げていた。

また、positional encodingのindexをconditional tokenとnoisy image tokensと共有すると、空間的な対応関係が存在するタスク（edge guided generation等）はうまくいったが、被写体を指定する生成（subject driven generation)のような対応関係が存在しないタスク（non-aligned task)の場合はうまくいかなかった。しかし、non-aligned taskの場合は、indexにオフセットを加えシフトさせる（式4）ことで、conditional text/image token間で空間的にoverlapしないようにすることで性能が大幅に改善した。

既存研究では、C_Iの強さをコントロールするために、ハイパーパラメータとして定数を導入し、エンコードされたfeatureを加算する際の強さを調整していたが（3.2.3節）、本手法ではconcatをするためこのような方法は使えない。そのため、Multi-Modal Attention(MMA)にハイパーパラメータによって強さを調整可能なbias matrixを導入し、C_IとXのattentionの交互作用の強さを調整することで対応した（式5,6）。

[Paper Note] The Free Transformer, François Fleuret, arXiv'25, 2025.10

Paper/Blog Link My Issue
#MachineLearning #Pocket #Transformer #Architecture #Decoder Issue Date: 2025-10-22 GPT Summary- 無監督で学習された潜在変数に条件付けるデコーダーTransformerの拡張を提案し、下流タスクでの性能が大幅に向上することを実験で示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] Limited Preference Data? Learning Better Reward Model with Latent Space Synthesis, Leitian Tao+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #Alignment #SyntheticData #NeurIPS #RewardModel Issue Date: 2025-10-06 GPT Summary- 報酬モデリングのために、LLMの潜在埋め込み空間で好みデータを合成する新フレームワークLENSを提案。VAEを用いて埋め込みの構造化された表現を学習し、コストのかかるテキスト生成を回避しつつ、多様で一貫した合成好みペアを生成。実験では、合成ペアが元の好みの順序を保持し、報酬モデルの一般化を改善。生成速度は18倍速く、16,000倍小さいモデルで優れた結果を達成。効率的なデータ拡張を通じて報酬モデリングを強化する効果的な手法を提供。 Comment

元ポスト:

Loading…

[Paper Note] Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion, Xun Huang+, NeurIPS'25

Paper/Blog Link My Issue
#ComputerVision #Pocket #Transformer #DiffusionModel #NeurIPS #PostTraining #Selected Papers/Blogs #VideoGeneration/Understandings #One-Line Notes Issue Date: 2025-09-19 GPT Summary- Self Forcingは、自動回帰型ビデオ拡散モデルの新しいトレーニング手法で、エクスポージャーバイアスの問題に対処します。従来の手法が真のコンテキストに基づくのに対し、Self Forcingは自己生成した出力に基づいてフレームを生成し、全体の品質を評価するホリスティックな損失を用います。計算コストとパフォーマンスのバランスを取るために、少数ステップの拡散モデルと確率的勾配切断を採用し、ロールイングKVキャッシュメカニズムを導入。実験により、リアルタイムのストリーミングビデオ生成が可能で、非因果的拡散モデルの生成品質に匹敵またはそれを上回ることが示されました。 Comment

pj page: https://self-forcing.github.io

元ポスト:

Loading…

自己回帰的な動画生成（をする）モデルにおいて、学習時はground-truchのcontextが利用して学習されるが、推論時は自身が生成結果そのものをcontextとして利用するため、学習-推論時にgapが生じ、（徐々に誤差が蓄積することで）品質が劣化するという問題（exposure bias）に対処するために、学習時から自身が生成した出力をcontextとして与えて生成を行い（ロールアウト）、動画全体に対して分布の整合性を測るlossを導入（=フレーム単位の誤差を最小化にするのではなく、動画全体に対して（分布の）誤差を最適化する）することで、exposure biasを軽減する、という話な模様。

結果的に、単一のRTX4090でリアルタイムのストリーミングビデオ生成が高品質に生成可能となった（かもしれない）:
https://note.com/ngc_shj/n/n505b2f7cdfe4

[Paper Note] Semantic IDs for Music Recommendation, M. Jeffrey Mei+, arXiv'25

Paper/Blog Link My Issue
#RecommenderSystems #Pocket #SemanticID Issue Date: 2025-07-28 GPT Summary- コンテンツ情報を活用した共有埋め込みを用いることで、次アイテム推薦のレコメンダーシステムのモデルサイズを削減し、精度と多様性を向上させることを示す。音楽ストリーミングサービスでのオンラインA/Bテストを通じて、その効果を実証。 Comment

元ポスト:

Loading…

- [Paper Note] Self-Attentive Sequential Recommendation, Wang-Cheng Kang+, ICDM'18
- [Paper Note] Recommender Systems with Generative Retrieval, Shashank Rajput+, NeurIPS'23

上記2つのハイブリッド

[Paper Note] Recommender Systems with Generative Retrieval, Shashank Rajput+, NeurIPS'23

Paper/Blog Link My Issue
#RecommenderSystems #Pocket #Transformer #NeurIPS #read-later #Selected Papers/Blogs #ColdStart #Encoder-Decoder #SemanticID Issue Date: 2025-07-28 GPT Summary- 新しい生成的検索アプローチを提案し、アイテムのセマンティックIDを用いて次のアイテムを予測するTransformerベースのモデルを訓練。これにより、従来のレコメンダーシステムを大幅に上回る性能を達成し、過去の対話履歴がないアイテムに対しても改善された検索性能を示す。 Comment

openreview: https://openreview.net/forum?id=BJ0fQUU32w

Semantic IDを提案した研究

アイテムを意味的な情報を保持したdiscrete tokenのタプル（＝Semantic ID)で表現し、encoder-decoderでNext ItemのSemantic IDを生成するタスクに落としこむことで推薦する。SemanticIDの作成方法は後で読んで理解したい。

[Paper Note] High-Resolution Image Synthesis with Latent Diffusion Models, Robin Rombach+, CVPR'22, 2021.12

Paper/Blog Link My Issue
#ComputerVision #Pocket #TextToImageGeneration #CVPR #Selected Papers/Blogs #Encoder-Decoder #ImageSynthesis #U-Net Issue Date: 2025-10-10 GPT Summary- 拡散モデル（DMs）は、逐次的なデノイジングオートエンコーダを用いて画像生成プロセスを効率化し、最先端の合成結果を達成。従来のピクセル空間での訓練に比べ、強力な事前訓練されたオートエンコーダの潜在空間での訓練により、計算リソースを削減しつつ視覚的忠実度を向上。クロスアテンション層を導入することで、テキストやバウンディングボックスに基づく柔軟な生成が可能となり、画像インペインティングや無条件画像生成などで競争力のある性能を発揮。 Comment

ここからtext等による条件付けをした上での生成が可能になった（らしい）

日本語解説: https://qiita.com/UMAboogie/items/afa67842e0461f147d9b
前提知識:
- [Paper Note] Denoising Diffusion Probabilistic Models, Jonathan Ho+, NeurIPS'20, 2020.06

[Paper Note] Neural Discrete Representation Learning, Aaron van den Oord+, NIPS'17, 2017.11

Paper/Blog Link My Issue
#ComputerVision #Pocket #Quantization #NeurIPS #Tokenizer #Selected Papers/Blogs #UMM Issue Date: 2025-12-11 GPT Summary- 教師なしでの有用な表現学習のために、生成モデルVQ-VAEを提案。VQ-VAEは、離散的なコードを出力し、学習された事前分布を持つ点でVAEと異なる。ベクトル量子化を用いることで、ポスティアコラプス問題を回避し、高品質な画像や音声生成、スピーカー変換を実現。 Comment

日本語解説:
- https://qiita.com/nishiha/items/44de5c46ebdfe615f6e8
- https://data-analytics.fun/2021/05/14/understanding-vq-vae/

[Paper Note] Salience Estimation via Variational Auto-Encoders for Multi-Document Summarization, Li+, AAAI'17

Paper/Blog Link My Issue
#Multi #DocumentSummarization #Document #Pocket #NLP #AAAI Issue Date: 2018-10-05

LongCat-Video-Avatar, meituan-longcat, 2025.12

Paper/Blog Link My Issue
#Article #ComputerVision #Transformer #DiffusionModel #OpenWeight #VideoGeneration/Understandings #3D (Scene) #One-Line Notes #Audio-Text-to-Video #Audio-Text-Image-to-Video #Video Continuation Issue Date: 2025-12-17 Comment

元ポスト:

Loading…

アーキテクチャはDiTベースのDiffusion Modelで、3D Variational AutoencoderによってEncode/Decodeされ、3D RoPEによって位置情報が埋め込まれる。DiT Blockでは、テキストとaudio用のcross attentionが用いられてこれらのモーダルに関する情報が組み込まれる。audioはWav2Vecでエンコードされ、テキストはUMT5[^1]によってエンコードされる。

[^1]: multilingualなT5で100言語以上がサポートされている模様

LongCat-Video Techcal Report, Meituan LongCat Team, 2025.10

Paper/Blog Link My Issue
#Article #ComputerVision #Transformer #DiffusionModel #TextToImageGeneration #LongSequence #OpenWeight #VideoGeneration/Understandings Issue Date: 2025-10-26 Comment

元ポスト:

Loading…

HF: https://huggingface.co/meituan-longcat/LongCat-Video

公式ポスト:

Loading…

RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation, Jiang+, Alibaba, 2025.08

Paper/Blog Link My Issue
#Article #NLP #Transformer #Blog #OpenWeight #VideoGeneration/Understandings #Robotics #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-08-12 Comment

TL;DRは下記。

> We introduce RynnVLA-001, a vision-language-action model built upon large-scale video generative pre-training.
> - RynnVLA-001 is pretrained on ~12M ego-centric manipulation videos.
> - We unify next-frame prediction and next-action prediction into a single transformer.
> - We train a lightweight VAE to accurately compress action chunks into action embeddings.
> - Our RynnVLA-001 outperforms Pi-0 and GR00T-N1.5, in terms of both real-world task success rate and instruction-following capability.

まず、11.93Mの一人称視点での人間が操作（特に手の操作）をする動画と、244Kのrobotが操作をする動画でTransformerを事前学習する。このとき、actionラベルは一切用いず、pixelの情報から物理世界のダイナミクスを理解させる。続いて、Action Chunks（複数のアクションの少量のかたまり）を、dense embeddingにエンコードするVAEを学習する。チャンクを用いる理由は、ピクセルの変化が微小な場合、同じアクションが連続して予測されてしまいstuckしめしまう現象を防ぐこと、予測の効率が良いからとのこと。これによりVLAは単一のembedding vectorを予測するだけで、一貫性のあるアクション系列にデコードできる。最後に、step1で学習したvideo generationモデルと、step2で学習したVAEによるaction representationを統合する。具体的には、next frame prediction（visual tokenを予測; cross entropy loss）とnext action prediction（action edbeddingを予測する）を統合して学習する。action embeddingはcontinuousなベクトルなので異なるヘッドを用意して学習する（L1 Loss)。inference時はRGBのobservationと、テキストによるinstructionを入力として受け取り、action embeddingを予測する。action edbeddingはVAE decoderに渡され、low levelなaction系列に変換される。robotは予測されたアクションを実行し、observationが変化するのでまた予測する、といったiterationを実施する。visual tokenによる予測は不要なので、計算効率の観点から実施しない。

元ポスト:

Loading…

HF: https://huggingface.co/Alibaba-DAMO-Academy/RynnVLA-001-7B-Base