audio
[Paper Note] Context Unrolling in Omni Models, Ceyuan Yang+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #Reasoning #VisionLanguageModel #2D (Image) #3D (Scene) #UMM #4D (Video) #Omni #One-Line Notes #Reference Collection #AudioLanguageModel #Fidelity #text Issue Date: 2026-04-24 GPT Summary- Omniは、多様なモダリティにネイティブに訓練されたマルチモーダルモデルで、Context Unrollingを通じて異なるモダリティの情報を統合。これにより、下流の推論忠実度が向上し、高い生成・理解性能を発揮。テキスト、画像、動画、3Dジオメトリを用いた高度な推論能力を示す。 Comment
元ポスト:
モダリティを跨いでtaskに対してrelevantなcontextを活性化させることで、omniモデルの生成時の推論能力と、忠実度を向上させる
[Paper Note] Seedance 2.0: Advancing Video Generation for World Complexity, Team Seedance+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal #Proprietary #VideoGeneration/Understandings #TextToVideoGeneration #ImageToVideoGeneration Issue Date: 2026-04-16 GPT Summary- Seedance 2.0は新しい多モーダル音声・映像生成モデルで、480pおよび720pの解像度で4〜15秒のコンテンツを生成可能。テキスト、画像、音声、映像を統一的に扱い、先行モデルより多様な機能を提供。専門家評価で最先端な性能を示し、低遅延用に改善されたFast版も提供。ユーザーに強化されたクリエイティブ体験を提供。 Comment
pj page: https://seed.bytedance.com/en/seedance2_0
元ポスト:
[Paper Note] JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation, Kai Liu+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #VideoGeneration/Understandings #Encoder-Decoder #4D (Video) #Omni #One-Line Notes #AudioVisualGeneration Issue Date: 2026-01-03 GPT Summary- JavisGPTは、音声と映像の理解・生成のための初の統合型マルチモーダル大規模言語モデルであり、SyncFusionモジュールを用いて音声と映像の融合を実現。三段階のトレーニングパイプラインを設計し、高品質な指示データセットJavisInst-Omniを構築。広範な実験により、JavisGPTは既存のモデルを上回る性能を示し、特に複雑な同期設定で優れた結果を出した。 Comment
pj page: https://javisverse.github.io/JavisGPT-page/
元ポスト:
音声と映像を同時に生成可能なadapterタイプのMLLM
[Paper Note] Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data, Yunxin Li+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #LanguageModel #MultiModal #SpeechProcessing #DiffusionModel #PositionalEncoding #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #DataMixture #2D (Image) #Routing #UMM #4D (Video) #Omni #KeyPoint Notes #text Issue Date: 2025-11-18 GPT Summary- Uni-MoE 2.0は、Lycheeファミリーから発表されたオープンソースのオムニモーダル大規模モデルで、言語中心のマルチモーダル理解と生成を大幅に向上させる。動的容量のMixture-of-Experts設計や進行的トレーニング戦略を採用し、画像、テキスト、音声の生成が可能。約75Bトークンのデータでトレーニングされ、85のベンチマークで競争力のある性能を示し、特にビデオ理解やオムニモーダリティ理解で優れた結果を達成。 Comment
pj page: https://idealistxy.github.io/Uni-MoE-v2.github.io/
元ポスト:
pj pageをみた感じ、アーキテクチャは下記で、モダリティごとのエンコーダを用意しトークン化し同じ空間上で各モダリティを学習するUnified Multi Modalモデルとなっている。MoEアーキテクチャを採用しモダリティごとのexpertと共有のexpert、null expert(パラメータも必要とせず何も処理しないexpertでアーキテクチャをMoEから変えずに不要な計算を排除して効率を向上可能)を用意しルータで制御する。また、speechやvideoなどの時系列性に対処するためにRoPEを3次元に拡張したPEを用いて、各モダリティがシームレスにalignmentをとれるようにしている。
事前学習ではまずテキストを中心としたクロスモーダルな学習をする。たとえば、image/audio/video-textタスクで学習をする。このフェーズで各モダリティをテキストのsemantic spaceに写像する能力を鍛える(Figure5 left)。
その後SFTで各モダリティに特化したexpertを学習する。ここでは段階的にSFTを実施し、まずまずAudio, Visualのexpertを同時にwarmupし、その後Textのexpertsを追加して次のアニーリングフェーズを学習しているように見える。
続いてアニーリングフェーズとして、様々なモダリティのデータをバランスさせてDataMixtureし、徐々に学習率を下げながら特定のタスクやモダリティに特化せず、全体の性能が向上するように学習する。その後、long sequenceのreasoningの能力を向上させるためにGSPO-DPOをiterativeに適用する。DPOの嗜好データはLLM as a Judgeでロールアウトに基づいて構成する、
という感じらしい。
Table2にDataMixtureの比率がかかれているし、各種データの概要も3.2節にかかれているように見える。素晴らしい。
[Paper Note] Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap, Yueqian Lin+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#Dataset #Evaluation #SpeechProcessing #Reasoning #AudioLanguageModel Issue Date: 2025-10-21 GPT Summary- 音声インタラクティブシステムの推論能力を評価するためのベンチマーク「VERA」を提案。2,931の音声エピソードを5つのトラックに整理し、音声インタラクションに適応。12の音声システムをテキストベースラインと比較した結果、音声モデルの精度は著しく低く、特に数学トラックでは74.8%対6.1%の差が見られた。レイテンシと精度の分析から、迅速な音声システムは約10%の精度に集約され、リアルタイム性を犠牲にしないとテキストパフォーマンスには近づけないことが示された。VERAは、音声アシスタントの推論能力向上に向けた再現可能なテストベッドを提供する。 Comment
元ポスト:
latencyとAccuracyのトレードオフ
[Paper Note] OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM, Hanrong Ye+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #NLP #Temporal #LanguageModel #SyntheticData #MultiModal #SpeechProcessing #Architecture #2D (Image) #TTS #4D (Video) #Omni #text Issue Date: 2025-10-21 GPT Summary- OmniVinciは、視覚と音声を統合したオムニモーダルLLMを構築するプロジェクトであり、3つの革新(OmniAlignNet、Temporal Embedding Grouping、Constrained Rotary Time Embedding)を提案。2400万の会話データを用いて、モダリティ間の相互強化を実現。DailyOmni、MMAR、Video-MMEでの性能向上を達成し、トレーニングトークンの使用量を大幅に削減。ロボティクスや医療AIなどの応用におけるオムニモーダルの利点を示す。 Comment
pj page: https://nvlabs.github.io/OmniVinci/
元ポスト:
image, video, テキスト, 音声を理解しテキストを出力(TTSも可)するモデルに関する新たなアーキテクチャとデータキュレーションパイプラインを提案している模様
[Paper Note] Qwen2.5-Omni Technical Report, Jin Xu+, arXiv'25, 2025.03
Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #Speech #OpenWeight #2D (Image) #4D (Video) #Omni #One-Line Notes #Reference Collection #text Issue Date: 2025-03-31 GPT Summary- Qwen2.5-Omniは、テキスト、画像、音声、映像を同時に認識し、自然な音声応答をストリーミング生成するエンドツーエンドのマルチモーダルモデルです。音声と映像の同期には新しい位置埋め込み手法TMRoPEを導入し、Thinker-Talkerアーキテクチャにより干渉を避けつつ同時生成を実現。ストリーミング音声トークンのデコードにはスライディングウィンドウDiTを用いて初期遅延を削減。Qwen2.5-Omniは、マルチモーダルベンチマークで最先端の性能を示し、音声生成の自然さにおいて既存手段を上回ります。 Comment
Qwen TeamによるマルチモーダルLLM。テキスト、画像、動画音声をinputとして受け取り、テキスト、音声をoutputする。
weight:
https://huggingface.co/collections/Qwen/qwen25-omni-67de1e5f0f9464dc6314b36e
[Paper Note] Perceiver: General Perception with Iterative Attention, Andrew Jaegle+, ICLR'22, 2021.03
Paper/Blog Link My Issue
#ComputerVision #NLP #Transformer #MultiModal #SpeechProcessing #Attention #Architecture #ICLR #Selected Papers/Blogs #2D (Image) #text Issue Date: 2026-02-07 GPT Summary- 本研究では、Transformersに基づく「Perceiver」モデルを提案し、生物システムのように多様なモダリティの高次元入力を同時に処理する能力を持つことを示します。従来のモデルが個々のモダリティに特化しているのに対し、Perceiverは少ない仮定で多数の入力を扱い、非対称注意メカニズムを用いて大規模なデータを処理します。これにより、画像や音声などの多様な分類タスクにおいて、先行モデルと同等以上の性能を実現しました。特に、ImageNetでは数十万のピクセルを直接扱い、ResNet-50やViTに匹敵する結果を達成し、AudioSetにおいても競争力を持っています。 Comment
openreview: https://openreview.net/forum?id=fILj7WpI-g
多様なモダリティ入力を単一のモデルで処理しlogitsで出力するtransformer。Perceiver-IOと並んで多様なモダリティを処理可能な先駆け的研究
Perceiverの出力は単純な分類問題を想定しており、より多様なoutputができるように拡張したものがPerceiver-IO:
- [Paper Note] Perceiver IO: A General Architecture for Structured Inputs & Outputs, Andrew Jaegle+, ICLR'22, 2021.07
Qwen3.5-Omni: Scaling Up, Toward Native Omni-Modal AGI, Qwen Team, 2026.04
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #SpeechProcessing #Proprietary #VisionLanguageModel #2D (Image) #4D (Video) #Omni #AudioLanguageModel #text Issue Date: 2026-04-04 Comment
元ポスト:
Gemma 4: Byte for byte, the most capable open models, Google, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #MultiModal #Reasoning #OpenWeight #MoE(Mixture-of-Experts) #Selected Papers/Blogs #2D (Image) #4D (Video) #One-Line Notes #Reference Collection #text #Initial Impression Notes Issue Date: 2026-04-02 Comment
元ポスト:
2B, 4B, 26BのMoEモデルと31BのDenseモデルの4種類のモデルファミリーで、マルチモーダル(vision)対応。2B, 4Bはaudioも入力として扱える。
edgeデバイス向けのモデルは128k, 他は256kのコンテキストウィンドウ。140+の多言語サポート。
Apache 2.0ライセンス
arenaで同サイズのモデル群でSoTAといった話がブログ中に記述されている。
モデルカードには一般的なベンチマーク群とのスコアも記載されている。
https://ai.google.dev/gemma/docs/core/model_card_4?hl=ja
(そもそも既存のベンチマークにもコンタミネーションがあると思われるが、)arenaに関しては特定の企業に対してデータを提供し、複数のモデルの亜種をテストできるという慣行があり、リーダーボードにバイアスがあるであろう点には注意:
- [Paper Note] The Leaderboard Illusion, Shivalika Singh+, NeurIPS'25
artificial analysisによる評価:
Qwenがproprietaryになったことから、ライセンス的に使いやすく、日本語に強そうなモデルとしては筆頭ではなかろうか。日本語性能が気になる。
アーキテクチャ解説:
ポイント解説:
所見:
attentionのscaleをsqrt(d)でスケールさせる代わりに、QK-norm, V normを適用するなど。
NvidiaによるNVFP4へのpost-trainingによる量子化:
https://huggingface.co/nvidia/Gemma-4-31B-IT-NVFP4
量子化後の性能も比較されており、知識、数学、コーディング、terminac useなど6種類のベンチマークでオリジナルのモデルと遜色ない性能が出ている旨記載されている。
解説:
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4
Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis, Black Forest Labs, 2026.03
Paper/Blog Link My Issue
#Article #ComputerVision #Pretraining #NLP #MultiModal #SpeechProcessing #Self-SupervisedLearning #read-later #2D (Image) #FlowMatching #4D (Video) #Omni #RectifiedFlow Issue Date: 2026-03-10 Comment
backbone modelは下記のFLUX.2と呼ばれるモデル:
FLUX Commercial Licensing:
https://bfl.ai/licensing
先行研究:
- The Simulation Company, Simile, 2026.02
先行研究から読みたい
元ポスト:
[Paper Note] Pushing the Frontier of Audiovisual Perception with Large-Scale Multimodal Correspondence Learning, Meta, 2025.12
Paper/Blog Link My Issue
#Article #ComputerVision #Library #MultiModal #SpeechProcessing #python #Encoder #2D (Image) #4D (Video) Issue Date: 2025-12-19 Comment
元ポスト:
様々なモダリティ(画像・動画・音声等)をエンコードできるPerception Encoderに最近リリースされたSAM Audio (Audio-Visual / Audio-frame) も組み込まれた模様
code:
https://github.com/facebookresearch/perception_models
LongCat-Flash-Omni Technical Report, 2025.10
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #SpeechProcessing #OpenWeight #MoE(Mixture-of-Experts) #2D (Image) #UMM #4D (Video) #Omni #text Issue Date: 2025-11-01 Comment
元ポスト:
HF: https://huggingface.co/meituan-longcat/LongCat-Flash-Omni
text, image/video, audioをinputし、audioを生成するomniモデル
microsoft_Phi-4-multimodal-instruct, Microsoft, 2025.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MultiModal #OpenWeight #VisionLanguageModel #2D (Image) #Reference Collection #text Issue Date: 2025-03-04 Comment
MIT License
