Omniに関する論文・技術記事メモの一覧

Omni

[Paper Note] MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction, Junbo Cui+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#ComputerVision #NLP #SpeechProcessing #Speech #SmallModel #OpenWeight #VisionLanguageModel #2D (Image) #4D (Video) #audio #text #Realtime #SpeechToSpeech Issue Date: 2026-05-12 GPT Summary- MiniCPM-o 4.5は、リアルタイムの全二重オムニモーダル対話を実現する最新の進展であり、視覚・聴覚・発話を同時に処理可能。Omni-Flowを用いた統一的なフレームワークにより、知覚と応答を融合させ、能動的な行動を促進する。90億パラメータを持ち、Gemini 2.5 Flashに近い性能を発揮し、エッジデバイス上でもリアルタイム処理が可能となる。 Comment

HF: https://huggingface.co/openbmb/MiniCPM-o-4_5

元ポスト:

Loading…

[Paper Note] Context Unrolling in Omni Models, Ceyuan Yang+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #Reasoning #VisionLanguageModel #2D (Image) #3D (Scene) #UMM #4D (Video) #One-Line Notes #Reference Collection #AudioLanguageModel #Fidelity #audio #text Issue Date: 2026-04-24 GPT Summary- Omniは、多様なモダリティにネイティブに訓練されたマルチモーダルモデルで、Context Unrollingを通じて異なるモダリティの情報を統合。これにより、下流の推論忠実度が向上し、高い生成・理解性能を発揮。テキスト、画像、動画、3Dジオメトリを用いた高度な推論能力を示す。 Comment

元ポスト:

Loading…

モダリティを跨いでtaskに対してrelevantなcontextを活性化させることで、omniモデルの生成時の推論能力と、忠実度を向上させる

[Paper Note] Qwen3.5-Omni Technical Report, Qwen Team, arXiv'26, 2026.04

Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #SpeechProcessing #Speech #Proprietary #MoE(Mixture-of-Experts) #2D (Image) #TTS #text Issue Date: 2026-04-22 GPT Summary- Qwen3.5-OmniはQwen-Omniモデルファミリーの最新進展で、数百億パラメータと256kのコンテキスト長を持ち、テキスト-ビジョン対とオーディオ視覚コンテンツを利用したオムニモーダリティ能力を発揮します。215のサブタスクでSOTA結果を達成し、Gemini-3.1 Proを上回る性能を示しました。Hybrid Attention MoEフレームワークを採用し、長シーケンス推論を効率化。ARIAにより音声合成の安定性を向上させ、10言語で人間の感情ニュアンスをサポート。優れた音声-視覚グラウンディング能力を持ち、音声-視覚指示に基づく直接コーディングを実現する新たな機能も観察されています。 Comment

元ポスト:

Loading…

[Paper Note] ERNIE 5.0 Technical Report, Haifeng Wang+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #Speech #Proprietary #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #2D (Image) #UMM #4D (Video) #text #Initial Impression Notes Issue Date: 2026-02-06 GPT Summary- ERNIE 5.0は、テキスト、画像、ビデオ、音声に対応したマルチモーダル理解と生成のための基盤モデルです。超スパースな専門家の混合アーキテクチャを使用し、依存しないルーティングでトークン予測を行います。新たなトレーニングパラダイムにより、モデルは性能、サイズ、推論レイテンシを柔軟に調整可能です。幅広い実験において、ERNIE 5.0は複数のモダリティで優れた性能を示し、初の商用規模の兆パラメータモデルとして注目されています。 Comment

元ポスト:

Loading…

リリース時の公式ポスト:

Loading…

あくまでskim readingをして得た印象なのだが、非常に興味深い研究で、Omniモダリティを超大規模モデルでスクラッチからUnified Multimodal Modelとして学習し、MoEで効率的に推論するというアーキテクチャと手法に見え（個人的にこういう手法でやったらどうなるのだろう？と思っていたドンピシャな設定）、各種ベンチマークの性能指標を見ると多くの指標で全体的に良いスコアを達成しており様々なタスクを高性能で実現できる一方、特定の分野のベンチマークでGemini Pro 3の方が強い面が多く（たとえばテキストモダリティのstem, coding, vision全般, ASR全般)、Omniモダリティの統合は一筋縄ではいかず、どのようにモダリティを統合し、学習することが効果的なのか？という根源的な問いがあらためて思い浮かぶ。

Ming Omniでも同様のことがやられていた:
- [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25, 2025.06

[Paper Note] JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation, Kai Liu+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #VideoGeneration/Understandings #Encoder-Decoder #4D (Video) #One-Line Notes #audio #AudioVisualGeneration Issue Date: 2026-01-03 GPT Summary- JavisGPTは、音声と映像の理解・生成のための初の統合型マルチモーダル大規模言語モデルであり、SyncFusionモジュールを用いて音声と映像の融合を実現。三段階のトレーニングパイプラインを設計し、高品質な指示データセットJavisInst-Omniを構築。広範な実験により、JavisGPTは既存のモデルを上回る性能を示し、特に複雑な同期設定で優れた結果を出した。 Comment

pj page: https://javisverse.github.io/JavisGPT-page/

元ポスト:

Loading…

音声と映像を同時に生成可能なadapterタイプのMLLM

[Paper Note] Next-Embedding Prediction Makes Strong Vision Learners, Sihan Xu+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#ComputerVision #Pretraining #Transformer #MultiModal #read-later #Selected Papers/Blogs #2D (Image) #Backbone #UMM #KeyPoint Notes Issue Date: 2025-12-20 GPT Summary- 生成的事前学習の原則を視覚学習に応用し、モデルが過去のパッチ埋め込みから未来の埋め込みを予測する「次埋め込み予測自己回帰（NEPA）」を提案。シンプルなTransformerを用いてImageNet-1kで高精度を達成し、タスク特有の設計を必要とせず、スケーラビリティを保持。NEPAは視覚的自己教師あり学習の新たなアプローチを提供する。 Comment

pj page: https://sihanxu.me/nepa/
HF: https://huggingface.co/collections/SixAILab/nepa

元ポスト:

Loading…

Autoregressiveにnext embedding prediction（≠reconstruction)をする。エンコーダ自身のembeddingとautoregressive headが生成したembeddingを比較することでlossが計算されるが、双方に勾配を流すとほぼ全てのパッチが同じembeddingを共有するという解に到達し何も学習されないので、エンコーダのエンコード結果（＝target)のgradientをstopする。これにより、targetとしての勾配は受け取らないが（predictionに近づけようとする勾配）、文脈に応じたベクトルを作り、next embeddingを予測する入力としての勾配は受け取るので、エンコーダは文脈に応じた学習を続けることができる。

コミュニティからのフィードバックを受けて執筆されたブログ:
https://sihanxu.me/nepa/blog

元ポスト:

Loading…

NEPAを提案した背景に関して直感的な解説を実施している。興味深い。具体的には、omnimodalityモデルの困難さはインターフェースの問題であり、latent spaceがomnimodalityの共通のインタフェースになりうり、モダリティごとの予測対象とlossを個別に設計せずに済む方法の一つがAutoregressiveな予測であり、そういったインタフェースがスケーリングのために必要という意見と、omnimodalityにおいて過去のliteratureで扱われているdiscreteなtokenとcontinuous symbolsは得意なモダリティが異なり予測対象や前処理のメカニズムも異なるため同時に扱うことが難しい旨などが記述されている。

[Paper Note] Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data, Yunxin Li+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #LanguageModel #MultiModal #SpeechProcessing #DiffusionModel #PositionalEncoding #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #DataMixture #2D (Image) #Routing #UMM #4D (Video) #KeyPoint Notes #audio #text Issue Date: 2025-11-18 GPT Summary- Uni-MoE 2.0は、Lycheeファミリーから発表されたオープンソースのオムニモーダル大規模モデルで、言語中心のマルチモーダル理解と生成を大幅に向上させる。動的容量のMixture-of-Experts設計や進行的トレーニング戦略を採用し、画像、テキスト、音声の生成が可能。約75Bトークンのデータでトレーニングされ、85のベンチマークで競争力のある性能を示し、特にビデオ理解やオムニモーダリティ理解で優れた結果を達成。 Comment

pj page: https://idealistxy.github.io/Uni-MoE-v2.github.io/

元ポスト:

Loading…

pj pageをみた感じ、アーキテクチャは下記で、モダリティごとのエンコーダを用意しトークン化し同じ空間上で各モダリティを学習するUnified Multi Modalモデルとなっている。MoEアーキテクチャを採用しモダリティごとのexpertと共有のexpert、null expert(パラメータも必要とせず何も処理しないexpertでアーキテクチャをMoEから変えずに不要な計算を排除して効率を向上可能)を用意しルータで制御する。また、speechやvideoなどの時系列性に対処するためにRoPEを3次元に拡張したPEを用いて、各モダリティがシームレスにalignmentをとれるようにしている。

事前学習ではまずテキストを中心としたクロスモーダルな学習をする。たとえば、image/audio/video-textタスクで学習をする。このフェーズで各モダリティをテキストのsemantic spaceに写像する能力を鍛える(Figure5 left)。

その後SFTで各モダリティに特化したexpertを学習する。ここでは段階的にSFTを実施し、まずまずAudio, Visualのexpertを同時にwarmupし、その後Textのexpertsを追加して次のアニーリングフェーズを学習しているように見える。

続いてアニーリングフェーズとして、様々なモダリティのデータをバランスさせてDataMixtureし、徐々に学習率を下げながら特定のタスクやモダリティに特化せず、全体の性能が向上するように学習する。その後、long sequenceのreasoningの能力を向上させるためにGSPO-DPOをiterativeに適用する。DPOの嗜好データはLLM as a Judgeでロールアウトに基づいて構成する、

という感じらしい。

Table2にDataMixtureの比率がかかれているし、各種データの概要も3.2節にかかれているように見える。素晴らしい。

[Paper Note] OmniVGGT: Omni-Modality Driven Visual Geometry Grounded, Haosong Peng+, CVPR'25, 2025.11

Paper/Blog Link My Issue
#ComputerVision #Transformer #FoundationModel #read-later #2D (Image) #3D (Scene) #Robotics #SpatialUnderstanding #Geometric #Robustness Issue Date: 2025-11-16 GPT Summary- OmniVGGTという新しいフレームワークを提案し、RGB以外の幾何学的手がかりを活用して3D基盤モデルの性能を向上させる。GeoAdapterを用いて深度情報やカメラパラメータをモデルにエンコードし、安定した最適化を実現。確率的なマルチモーダル融合手法により、任意の数のモダリティ入力を可能にし、堅牢な空間表現を学習。実験により、OmniVGGTが従来手法を上回り、視覚-言語-行動モデルに統合することでロボティクスタスクでも性能向上を達成。 Comment

元ポスト:

Loading…

depth mapやcameraの情報などの様々な幾何学的情報を入力した場合（depth mapがないなど情報が欠落していても良い）にロバストに対応できるような基盤モデルを構築する手法らしい

評価データ:
- [Paper Note] A naturalistic open source movie for optical flow evaluation, Butler+, ECCV'12
- [Paper Note] ReFusion: 3D Reconstruction in Dynamic Environments for RGB-D Cameras Exploiting Residuals, Emanuele Palazzolo+, IROS'19, 2019.05
- [Paper Note] Indoor Segmentation and Support Inference from RGBD Images, Silberman+, ECCV'12
- [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images,Shotton+, CVPR'13
- [Paper Note] ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes, Angela Dai+, CVPR'17, 2017.02
- [Paper Note] A Multi-view Stereo Benchmark with High-Resolution Images and Multi-camera Videos, Schöps+, CVPR'17
- [Paper Note] Large-Scale Data for Multiple-View Stereopsis, Aanæs+, IJCV'16
- [Paper Note] Tanks and temples: Benchmarking large-scale scene reconstruction, Knapitsch+, TOG'17
- [Paper Note] Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life 3D Category Reconstruction, Reizenstein+, ICCV'21
- [Paper Note] Stereo Magnification: Learning View Synthesis using Multiplane Images, Tinghui Zhou+, SIGGRAPH'18, 2018.05
- [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images, Shotton+, CVPR'13
- [Paper Note] CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks, Oier Mees+, RA-L'22 Best Paper Award, 2021.12

[Paper Note] UNO-Bench: A Unified Benchmark for Exploring the Compositional Law Between Uni-modal and Omni-modal in Omni Models, Chen Chen+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #LanguageModel #Evaluation #MultiModal #SpeechProcessing #2D (Image) #4D (Video) #text Issue Date: 2025-11-05 GPT Summary- 新しいベンチマークUNO-Benchを提案し、ユニモーダルとオムニモーダルの能力を44のタスクと5つのモダリティで評価。人間生成データと自動圧縮データを用い、複雑な推論を評価する多段階オープンエンド質問形式を導入。実験により、オムニモーダルの能力がモデルの強さに応じて異なる影響を与えることを示した。 Comment

pj page: https://meituan-longcat.github.io/UNO-Bench/

元ポスト:

Loading…

[Paper Note] OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM, Hanrong Ye+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #NLP #Temporal #LanguageModel #SyntheticData #MultiModal #SpeechProcessing #Architecture #2D (Image) #TTS #4D (Video) #audio #text Issue Date: 2025-10-21 GPT Summary- OmniVinciは、視覚と音声を統合したオムニモーダルLLMを構築するプロジェクトであり、3つの革新（OmniAlignNet、Temporal Embedding Grouping、Constrained Rotary Time Embedding）を提案。2400万の会話データを用いて、モダリティ間の相互強化を実現。DailyOmni、MMAR、Video-MMEでの性能向上を達成し、トレーニングトークンの使用量を大幅に削減。ロボティクスや医療AIなどの応用におけるオムニモーダルの利点を示す。 Comment

pj page: https://nvlabs.github.io/OmniVinci/

元ポスト:

Loading…

image, video, テキスト, 音声を理解しテキストを出力（TTSも可）するモデルに関する新たなアーキテクチャとデータキュレーションパイプラインを提案している模様

[Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25, 2025.06

Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #OpenWeight #read-later #Selected Papers/Blogs #UMM Issue Date: 2025-07-26 GPT Summary- Ming-Omniは、画像、テキスト、音声、動画を処理できる統一マルチモーダルモデルで、音声生成と画像生成において優れた能力を示す。専用エンコーダを用いて異なるモダリティからトークンを抽出し、MoEアーキテクチャで処理することで、効率的にマルチモーダル入力を融合。音声デコーダと高品質な画像生成を統合し、コンテキストに応じたチャットやテキストから音声への変換、画像編集が可能。Ming-Omniは、GPT-4oに匹敵する初のオープンソースモデルであり、研究と開発を促進するためにコードとモデルの重みを公開。 Comment

元ポスト:

Loading…

現在はv1.5も公開されておりさらに性能が向上している模様？

HF: https://huggingface.co/inclusionAI/Ming-Lite-Omni

[Paper Note] Qwen2.5-Omni Technical Report, Jin Xu+, arXiv'25, 2025.03

Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #Speech #OpenWeight #2D (Image) #4D (Video) #One-Line Notes #Reference Collection #audio #text Issue Date: 2025-03-31 GPT Summary- Qwen2.5-Omniは、テキスト、画像、音声、映像を同時に認識し、自然な音声応答をストリーミング生成するエンドツーエンドのマルチモーダルモデルです。音声と映像の同期には新しい位置埋め込み手法TMRoPEを導入し、Thinker-Talkerアーキテクチャにより干渉を避けつつ同時生成を実現。ストリーミング音声トークンのデコードにはスライディングウィンドウDiTを用いて初期遅延を削減。Qwen2.5-Omniは、マルチモーダルベンチマークで最先端の性能を示し、音声生成の自然さにおいて既存手段を上回ります。 Comment

Qwen TeamによるマルチモーダルLLM。テキスト、画像、動画音声をinputとして受け取り、テキスト、音声をoutputする。

weight: https://huggingface.co/collections/Qwen/qwen25-omni-67de1e5f0f9464dc6314b36e

元ポスト: https://www.linkedin.com/posts/niels-rogge-a3b7a3127_alibabas-qwen-team-has-done-it-again-this-activity-7311036679627132929-HUqy?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

Develop Physical AI Reasoning, World, and Action Models with NVIDIA Cosmos 3, nvidia, 2026.05

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #OpenWeight #Selected Papers/Blogs #VideoGeneration/Understandings #Robotics #WorldModels #UMM #reading #One-Line Notes #WorldActionModel #Author Thread-Post Issue Date: 2026-06-02 Comment

元ポスト:

Loading…

公式:

Loading…

encoder-freeなOmniモダリティモデルで、かつ将来の世界の状態、およびactionを予測可能なWorldActionModel

MMX The official CLI for the MiniMax AI Platform: Built for AI agents. Generate text, images, video, speech, and music — from any agent or terminal., MiniMax-AI, 2026.04

Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #AIAgents #Repository #Initial Impression Notes #AgentHarness Issue Date: 2026-04-11 Comment

元ポスト:

Loading…

MiniMax AIのAPIを用いて、omni-modalなタスクを実行できるCLIツールのようである。

Qwen3.5-Omni: Scaling Up, Toward Native Omni-Modal AGI, Qwen Team, 2026.04

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #SpeechProcessing #Proprietary #VisionLanguageModel #2D (Image) #4D (Video) #AudioLanguageModel #audio #text Issue Date: 2026-04-04 Comment

元ポスト:

Loading…

Xiaomi MiMo-V2-Omni, Xiaomi, 2026.03

Paper/Blog Link My Issue
#Article #Author Thread-Post Issue Date: 2026-03-21 Comment

元ポスト:

Loading…

Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis, Black Forest Labs, 2026.03

Paper/Blog Link My Issue
#Article #ComputerVision #Pretraining #NLP #MultiModal #SpeechProcessing #Self-SupervisedLearning #read-later #2D (Image) #FlowMatching #4D (Video) #RectifiedFlow #audio Issue Date: 2026-03-10 Comment

backbone modelは下記のFLUX.2と呼ばれるモデル:
FLUX Commercial Licensing: https://bfl.ai/licensing

先行研究:
- The Simulation Company, Simile, 2026.02

先行研究から読みたい

元ポスト:

Loading…

Ming-omni-tts-0.5B, inclusionAI, 2026.02

Paper/Blog Link My Issue
#Article #Transformer #SpeechProcessing #DiffusionModel #Speech #OpenWeight #read-later #TTS #UMM #One-Line Notes #AdversarialTraining #Music Issue Date: 2026-02-18 Comment

元ポスト:

Loading…

TTSだけでなく、環境音や音楽の生成も可能な音声生成モデル。発話速度、ピッチ、音量、感情、訛りなどを正確にコントロール可能で、100+以上のビルトインのvoiceや、zeroshotでのvoice designが可能とのこと。また、speechだけでなく環境音や音楽の生成もできる産業界では初めてのモデルとのこと。また、3.1Hzごとのフレームレートでパッチ化されて入力され（これはこれまでと比べるとかなり低いフレームレートらしい）るため高速に処理が走り、テキスト入力として数式などのフォーマットも入力可能とのこと。

テクニカルレポートのリンクがまだ生きておらず詳細は不明。

Ming-flash-omni-2.0, inclusionAI, 2026.02

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Transformer #MultiModal #SpeechProcessing #DiffusionModel #Speech #OpenWeight #MoE(Mixture-of-Experts) #2D (Image) #text Issue Date: 2026-02-12 Comment

元ポスト:

Loading…

公式ポスト:

Loading…

MiniCPM-o-4_5, OpenBMB, 2026.02

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #SpeechProcessing #DiffusionModel #OpenWeight #AutomaticSpeechRecognition(ASR) #VisionLanguageModel #TTS #AudioLanguageModel Issue Date: 2026-02-05 Comment

元ポスト:

Loading…

LongCat-Flash-Omni Technical Report, 2025.10

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #SpeechProcessing #OpenWeight #MoE(Mixture-of-Experts) #2D (Image) #UMM #4D (Video) #audio #text Issue Date: 2025-11-01 Comment

元ポスト:

Loading…

HF: https://huggingface.co/meituan-longcat/LongCat-Flash-Omni

text, image/video, audioをinputし、audioを生成するomniモデル

Ming-flash-omni-Preview, inclusionAI, 2025.10

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #TTS #Routing #UMM #Sparse #ImageSynthesis #Initial Impression Notes Issue Date: 2025-10-28 Comment

元ポスト:

Loading…

過去一番多くのタグを付与した気がするが、果たして大規模、Omniモーダルかつ、UMMにしたことによる恩恵（＝様々なモダリティを統一された空間上に学習させる恩恵）はどの程度あるのだろうか？

アーキテクチャを見ると、モダリティごとに（モダリティ単位でのバイアスがかかった）Routerが用意されexpertにルーティングされるような構造になっている。

OmniモーダルでUMMを大規模にスクラッチから事前学習:
- [Paper Note] ERNIE 5.0 Technical Report, Haifeng Wang+, arXiv'26, 2026.02

Qwen3-Omni, Qwen Team, 2025.09

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #Reference Collection Issue Date: 2025-09-23 Comment

テクニカルレポート: https://github.com/QwenLM/Qwen3-Omni/blob/main/assets/Qwen3_Omni.pdf

公式ポスト:

Loading…

元ポスト:

Loading…

ポイント解説:

Loading…

日本語で音声to音声可能:

Loading…

Artificial Analysisによる評価:

Loading…