ImageToVideoGeneration


Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal #Proprietary #VideoGeneration/Understandings #audio #TextToVideoGeneration Issue Date: 2026-04-16 GPT Summary- Seedance 2.0は新しい多モーダル音声・映像生成モデルで、480pおよび720pの解像度で4〜15秒のコンテンツを生成可能。テキスト、画像、音声、映像を統一的に扱い、先行モデルより多様な機能を提供。専門家評価で最先端な性能を示し、低遅延用に改善されたFast版も提供。ユーザーに強化されたクリエイティブ体験を提供。 Comment

pj page: https://seed.bytedance.com/en/seedance2_0

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Transformer #DiffusionModel #4D (Video) Issue Date: 2026-02-05 GPT Summary- FSVideoは、高速なトランスフォーマーベースの画像から動画(I2V)への拡散フレームワークで、圧縮された潜在空間を持つ動画オートエンコーダー、強化された層間の情報フローを持つ拡散トランスフォーマー、少数ステップのアップサンプラーを利用して多解像度生成を実現。最終モデルは14BのDITベースとアップサンプラーを含み、競争力のある性能と優れた速度を誇る。モデル設計とトレーニング戦略も詳述。 Comment

pj page: https://kingofprank.github.io/fsvideo/

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #OpenWeight #VideoGeneration/Understandings #WorldModels #4D (Video) #TextToVideoGeneration #SparseAttention #Video Continuation Issue Date: 2025-11-02 GPT Summary- 「LongCat-Video」は、13.6Bパラメータを持つ動画生成モデルで、複数の動画生成タスクにおいて高いパフォーマンスを発揮します。Diffusion Transformerフレームワークに基づき、テキストや画像から動画を生成し、長時間動画の生成においても高品質と一貫性を維持します。効率的な推論を実現するために、粗から細への生成戦略とブロックスパースアテンションを採用し、720p、30fpsの動画を数分で生成可能です。マルチリワードRLHFによるトレーニングにより、最新のモデルと同等の性能を達成し、コードとモデルの重みは公開されています。 Comment

pj page: https://github.com/meituan-longcat/LongCat-Video

元ポスト:

Loading…