ImageToVideoGeneration
[Paper Note] FSVideo: Fast Speed Video Diffusion Model in a Highly-Compressed Latent Space, FSVideo Team+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Transformer #DiffusionModel #4D (Video) Issue Date: 2026-02-05 GPT Summary- FSVideoは、高速なトランスフォーマーベースの画像から動画(I2V)への拡散フレームワークで、圧縮された潜在空間を持つ動画オートエンコーダー、強化された層間の情報フローを持つ拡散トランスフォーマー、少数ステップのアップサンプラーを利用して多解像度生成を実現。最終モデルは14BのDITベースとアップサンプラーを含み、競争力のある性能と優れた速度を誇る。モデル設計とトレーニング戦略も詳述。 Comment
pj page: https://kingofprank.github.io/fsvideo/
元ポスト:
[Paper Note] LongCat-Video Technical Report, Meituan LongCat Team+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #OpenWeight #VideoGeneration/Understandings #WorldModels #4D (Video) #TextToVideoGeneration #SparseAttention #Video Continuation Issue Date: 2025-11-02 GPT Summary- 「LongCat-Video」は、13.6Bパラメータを持つ動画生成モデルで、複数の動画生成タスクにおいて高いパフォーマンスを発揮します。Diffusion Transformerフレームワークに基づき、テキストや画像から動画を生成し、長時間動画の生成においても高品質と一貫性を維持します。効率的な推論を実現するために、粗から細への生成戦略とブロックスパースアテンションを採用し、720p、30fpsの動画を数分で生成可能です。マルチリワードRLHFによるトレーニングにより、最新のモデルと同等の性能を達成し、コードとモデルの重みは公開されています。 Comment
pj page: https://github.com/meituan-longcat/LongCat-Video
元ポスト:
