ImageToVideoGeneration
[Paper Note] LongCat-Video Technical Report, Meituan LongCat Team+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #Pocket #DiffusionModel #OpenWeight #VideoGeneration/Understandings #WorldModels #4D (Video) #TextToVideoGeneration #SparseAttention #Video Continuation Issue Date: 2025-11-02 GPT Summary- 「LongCat-Video」は、13.6Bパラメータを持つ動画生成モデルで、複数の動画生成タスクにおいて高いパフォーマンスを発揮します。Diffusion Transformerフレームワークに基づき、テキストや画像から動画を生成し、長時間動画の生成においても高品質と一貫性を維持します。効率的な推論を実現するために、粗から細への生成戦略とブロックスパースアテンションを採用し、720p、30fpsの動画を数分で生成可能です。マルチリワードRLHFによるトレーニングにより、最新のモデルと同等の性能を達成し、コードとモデルの重みは公開されています。 Comment
pj page: https://github.com/meituan-longcat/LongCat-Video
元ポスト: