Audio-Text-Image-to-Video
LongCat-Video-Avatar, meituan-longcat, 2025.12
Paper/Blog Link My Issue
#Article #ComputerVision #Transformer #DiffusionModel #VariationalAutoEncoder #OpenWeight #VideoGeneration/Understandings #3D (Scene) #One-Line Notes #Audio-Text-to-Video #Video Continuation Issue Date: 2025-12-17 Comment
元ポスト:
アーキテクチャはDiTベースのDiffusion Modelで、3D Variational AutoencoderによってEncode/Decodeされ、3D RoPEによって位置情報が埋め込まれる。DiT Blockでは、テキストとaudio用のcross attentionが用いられてこれらのモーダルに関する情報が組み込まれる。audioはWav2Vecでエンコードされ、テキストはUMT5[^1]によってエンコードされる。
[^1]: multilingualなT5で100言語以上がサポートされている模様