UMM
[Paper Note] Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization, Hao Luo+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #MultiModal #Reasoning #OpenWeight #CrossDomain #Robotics #VisionLanguageActionModel #Physics Issue Date: 2026-01-22 GPT Summary- Being-H0.5は、クロスエンボディメント一般化のために設計されたVLAモデルであり、人間の相互作用を「母国語」として扱う学習パラダイムを提案。35,000時間以上のマルチモーダルデータを含むUniHand-2.0を用いて、多様なロボット制御を統一的なアクション空間にマッピングし、リソースの少ないロボットが他のプラットフォームからスキルを習得できるようにする。Being-H0.5はMixture-of-Transformersを採用し、現実世界での安定性のために多様体保存ゲーティングとユニバーサル非同期チャンクイングを導入。シミュレーションベンチマークで最先端の結果を達成し、5つのロボットプラットフォームで強力な能力を示す。 Comment
pj page:
https://research.beingbeyond.com/being-h05
HF:
https://huggingface.co/collections/BeingBeyond/being-h05
元ポスト:
[Paper Note] STEP3-VL-10B Technical Report, Ailin Huang+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #OpenWeight #read-later #Selected Papers/Blogs #VisionLanguageModel #Initial Impression Notes Issue Date: 2026-01-19 GPT Summary- STEP3-VL-10Bは、効率と最先端のマルチモーダル知能のトレードオフを再定義する軽量なオープンソース基盤モデル。言語に整合した知覚エンコーダとQwen3-8Bデコーダを統合し、1k回以上の強化学習を含むスケーラブルな後処理パイプラインを導入。並列協調推論を実装し、視覚推論の探索と統合を最適化。コンパクトながら、他の大規模モデルに匹敵する性能を発揮し、MMBenchで92.2%、AIME2025で94.43%などの成果を記録。再現可能な基準として全モデルスイートをコミュニティに提供。 Comment
元ポスト:
HF: https://huggingface.co/stepfun-ai/Step3-VL-10B
たったの10Bモデルにもかかわらず、100B, 200B級のベンチマーク性能を達成しており、unifiedなアーキテクチャで事前学習中に全てのパラメータをunfrozenな上で1.2Tマルチモーダルトークンで学習し、PaCoReと呼ばれるRLで学習されたtest time scaling手法や、GRPO系ではなくPPOをRLで採用するなど、ユニークな工夫が満載に見え、重要研究に見える。
[Paper Note] MoST: Mixing Speech and Text with Modality-Aware Mixture of Experts, Yuxuan Lou+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #MultiModal #SpeechProcessing #Speech #text Issue Date: 2026-01-16 GPT Summary- 「MoST(Mixture of Speech and Text)」という新しいマルチモーダル言語モデルを提案。MAMoEアーキテクチャに基づき、専門的なルーティングパスを導入して音声とテキストの処理を統合。モデルはモダリティ特有のエキスパートと共有エキスパートを活用し、音声-テキストの効率的な変換パイプラインを開発。テスト結果は、MoSTが既存モデルを上回る性能を示し、特にルーティングメカニズムと共有エキスパートの影響が顕著であった。本モデルは、初の完全オープンソース音声-テキストLLMとして重要な意義を持つ。 Comment
元ポスト:
テキストとスピーチのUMMで、テキスト・音声生成の両方が可能
[Paper Note] Next-Embedding Prediction Makes Strong Vision Learners, Sihan Xu+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #Pretraining #Pocket #Transformer #MultiModal #read-later #Selected Papers/Blogs #2D (Image) #Backbone #Omni #KeyPoint Notes Issue Date: 2025-12-20 GPT Summary- 生成的事前学習の原則を視覚学習に応用し、モデルが過去のパッチ埋め込みから未来の埋め込みを予測する「次埋め込み予測自己回帰(NEPA)」を提案。シンプルなTransformerを用いてImageNet-1kで高精度を達成し、タスク特有の設計を必要とせず、スケーラビリティを保持。NEPAは視覚的自己教師あり学習の新たなアプローチを提供する。 Comment
pj page:
https://sihanxu.me/nepa/
HF:
https://huggingface.co/collections/SixAILab/nepa
元ポスト:
Autoregressiveにnext embedding prediction(≠reconstruction)をする。エンコーダ自身のembeddingとautoregressive headが生成したembeddingを比較することでlossが計算されるが、双方に勾配を流すとほぼ全てのパッチが同じembeddingを共有するという解に到達し何も学習されないので、エンコーダのエンコード結果(=target)のgradientをstopする。これにより、targetとしての勾配は受け取らないが(predictionに近づけようとする勾配)、文脈に応じたベクトルを作り、next embeddingを予測する入力としての勾配は受け取るので、エンコーダは文脈に応じた学習を続けることができる。
コミュニティからのフィードバックを受けて執筆されたブログ:
https://sihanxu.me/nepa/blog
元ポスト:
NEPAを提案した背景に関して直感的な解説を実施している。興味深い。具体的には、omnimodalityモデルの困難さはインターフェースの問題であり、latent spaceがomnimodalityの共通のインタフェースになりうり、モダリティごとの予測対象とlossを個別に設計せずに済む方法の一つがAutoregressiveな予測であり、そういったインタフェースがスケーリングのために必要という意見と、omnimodalityにおいて過去のliteratureで扱われているdiscreteなtokenとcontinuous symbolsは得意なモダリティが異なり予測対象や前処理のメカニズムも異なるため同時に扱うことが難しい旨などが記述されている。
[Paper Note] OneThinker: All-in-one Reasoning Model for Image and Video, Kaituo Feng+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #ReinforcementLearning #MultiModal #Reasoning #OpenWeight #VisionLanguageModel #2D (Image) #4D (Video) #One-Line Notes #text Issue Date: 2025-12-06 GPT Summary- OneThinkerは、視覚的推論を統一するオールインワンの強化学習モデルであり、質問応答やキャプショニングなどの多様なタスクに対応。OneThinker-600kトレーニングコーパスを用いて訓練され、報酬の異質性に対処するEMA-GRPOを提案。広範な実験により、10の視覚理解タスクで強力なパフォーマンスを示し、タスク間の知識移転とゼロショット一般化能力を実証。全てのコード、モデル、データは公開。 Comment
pj page:
https://github.com/tulerfeng/OneThinker
HF:
https://huggingface.co/OneThink
元ポスト:
image/videoに関するreasoningタスクをunifiedなアーキテクチャで実施するVLM
Qwen3-VL-Instruct-8Bに対するgain。様々なタスクで大幅なgainを得ている。特にTracking, segmentation, groundingのgainが大きいように見える。
[Paper Note] TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models, Zhiheng Liu+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #Pocket #MultiModal #VariationalAutoEncoder #VisionLanguageModel #2D (Image) #FlowMatching #4D (Video) Issue Date: 2025-12-03 GPT Summary- TUNAという統一マルチモーダルモデル(UMM)を提案し、VAEエンコーダと表現エンコーダを連鎖させて統一された視覚表現を構築。これにより、画像と動画の理解・生成タスクをエンドツーエンドで処理可能にし、従来の分離されたUMMsを上回る性能を実現。事前学習された表現エンコーダの重要性も強調され、共同訓練により理解と生成が相互に利益を得ることが示された。広範な実験により、TUNAが最先端の結果を達成したことが確認された。 Comment
pj page: https://tuna-ai.org/
[Paper Note] RynnVLA-002: A Unified Vision-Language-Action and World Model, Jun Cen+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #WorldModels #VisionLanguageActionModel #One-Line Notes Issue Date: 2025-11-25 GPT Summary- RynnVLA-002は、ビジョン・言語・アクション(VLA)モデルと世界モデルを統合した新しいモデルで、アクションと視覚入力を用いて未来の画像状態を予測し、環境の物理法則を学習します。このフレームワークにより、環境のダイナミクスとアクション計画の共同学習が可能となり、実験では個別モデルを上回る性能を示しました。シミュレーションでは97.4%の成功率を達成し、実世界のロボットタスクでも成功率が50%向上しました。 Comment
HF: https://huggingface.co/Alibaba-DAMO-Academy/RynnVLA-002
元ポスト:
関連:
- RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation, Jiang+, Alibaba, 2025.08
VLAによるアクション予測とWorldModelによる視覚的な画像生成の交互作用をさせたという話に見える。
[Paper Note] UniTok-Audio: A Unified Audio Generation Framework via Generative Modeling on Discrete Codec Tokens, Chengwei Liu+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #SpeechProcessing #Speech #AudioLanguageModel #text Issue Date: 2025-11-04 GPT Summary- UniTok-Audioは、音声生成タスクのための統一されたスケーラブルフレームワークで、条件の特徴を抽出し、音声の離散トークンを生成。特別なタスク識別トークンにより、複数のタスクの学習を統一し、高忠実度の波形再構築を実現。実験では、音声復元や音声変換など5つのタスクで競争力のある性能を示し、将来的にオープンソース化予定。 Comment
元ポスト:
[Paper Note] Emu3.5: Native Multimodal Models are World Learners, Yufeng Cui+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Pocket #NLP #LanguageModel #Transformer #MultiModal #DiffusionModel #2D (Image) #text Issue Date: 2025-11-01 GPT Summary- Emu3.5は、視覚と言語の両方に基づく次の状態を予測する大規模なマルチモーダルワールドモデルで、10兆トークン以上のデータで事前訓練されています。双方向の並列予測を用いた「Discrete Diffusion Adaptation(DiDA)」により、推論を約20倍加速し、強力なマルチモーダル能力を発揮します。Emu3.5は、画像生成や編集タスクで優れたパフォーマンスを示し、オープンソースとして提供されています。 Comment
pj page: https://emu.world/
元ポスト:
ポイント解説:
[Paper Note] IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction, Hao Li+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #Pocket #Dataset #Transformer #FoundationModel #3D Reconstruction #3D (Scene) #SpatialUnderstanding Issue Date: 2025-10-28 GPT Summary- 人間の3Dシーン理解を模倣するため、空間再構築とインスタンス理解を統合したInstanceGrounded Geometry Transformer(IGGT)を提案。IGGTは2D視覚入力を用いて幾何学的構造とインスタンスクラスタリングを統一的に表現し、3Dシーンの一貫性を向上させる。新たに構築したInsScene-15Kデータセットを用いて、3D一貫性のあるインスタンスレベルのマスク注釈を提供。 Comment
pj page: https://lifuguan.github.io/IGGT_official/
元ポスト:
ポイント解説:
[Paper Note] Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos, Haobo Yuan+, arXiv'25, 2025.01
Paper/Blog Link My Issue
#ComputerVision #Pocket #ImageSegmentation #VideoGeneration/Understandings #VisionLanguageModel Issue Date: 2025-10-27 GPT Summary- Sa2VAは、画像と動画の基盤理解のための統一モデルであり、最小限のワンショット指示チューニングで多様なタスクをサポート。SAM-2とLLaVAを組み合わせ、テキスト、画像、動画を統合。新たに導入したRef-SAVデータセットにより、複雑な動画シーンでのオブジェクト表現を強化。実験結果は、特に参照動画オブジェクトセグメンテーションで最先端の成果を示し、実世界の応用が期待される。 Comment
HF: https://huggingface.co/collections/ByteDance/sa2va-model-zoo
元ポスト:
ポイント解説:
[Paper Note] PixelWorld: Towards Perceiving Everything as Pixels, Zhiheng Lyu+, arXiv'25, 2025.01
Paper/Blog Link My Issue
#Pocket #NLP #Dataset #Evaluation #VisionLanguageModel #Pixel-based Issue Date: 2025-10-21 GPT Summary- 「Perceive Everything as Pixels(PEAP)」の概念を提案し、自然言語や図式的な入力を単一のピクセル空間に統合するベンチマーク「PixelWorld」を公開。PEAPは意味理解タスクで競争力のある精度を示すが、推論が重要なタスクではパフォーマンスが低下。Chain-of-Thoughtプロンプティングがこのギャップを部分的に緩和し、視覚とテキストの統合により前処理の複雑さが軽減されることが確認された。PixelWorldは統一された視覚言語モデルの評価に役立つ。 Comment
元ポスト:
[Paper Note] End-to-End Multi-Modal Diffusion Mamba, Chunhao Lu+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #MachineLearning #Pocket #NLP #MultiModal #DiffusionModel #SSM (StateSpaceModel) Issue Date: 2025-10-21 GPT Summary- MDM(Multi-modal Diffusion Mamba)という新しいアーキテクチャを提案し、エンドツーエンドのマルチモーダル処理を統一。Mambaベースの選択拡散モデルを用いて、エンコーディングとデコーディングでモダリティ特有の情報を段階的に生成。高解像度画像とテキストを同時に生成し、既存モデルを大幅に上回る性能を示す。計算効率を保ちながらマルチモーダルプロセスを統一する新たな方向性を確立。 Comment
元ポスト:
[Paper Note] Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation, Kang Liao+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #Pocket #Dataset #LanguageModel #Supervised-FineTuning (SFT) #InstructionTuning #Evaluation #MultiModal #DiffusionModel #SpatialUnderstanding Issue Date: 2025-10-20 GPT Summary- カメラ中心の理解と生成を統合したマルチモーダルモデル「Puffin」を提案。Puffinは、言語回帰と拡散生成を組み合わせ、カメラを言語として扱う新しいアプローチを採用。400万の視覚-言語-カメラのデータセット「Puffin-4M」で訓練され、空間的な視覚的手がかりを考慮した推論を実現。実験結果では、専門モデルを上回る性能を示し、指示チューニングにより多様なタスクに対応可能。研究成果はコードやデータセットと共に公開予定。 Comment
元ポスト:
[Paper Note] From Pixels to Words -- Towards Native Vision-Language Primitives at Scale, Haiwen Diao+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #Pretraining #Pocket #Selected Papers/Blogs #VisionLanguageModel #Scalability Issue Date: 2025-10-19 GPT Summary- ネイティブなビジョン・ランゲージモデル(VLM)の課題を明確にし、効果的な構築指針を示す。具体的には、ピクセルと単語の整合、ビジョンとランゲージの統合、クロスモーダル特性の具現化を重視。新たに開発したNEOは、390Mの画像-テキスト例で視覚的知覚を効率的に発展させ、コスト効率の高いエコシステムを提供。 Comment
元ポスト:
pj page:
https://github.com/EvolvingLMMs-Lab/NEO
HFへのリンクもpj pageにある。
[Paper Note] Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models, Sharut Gupta+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Pretraining #MachineLearning #Pocket #MultiModal #One-Line Notes Issue Date: 2025-10-10 GPT Summary- UML(Unpaired Multimodal Learner)を提案し、非ペアのマルチモーダルデータを活用して表現学習を強化する新しいトレーニングパラダイムを示す。異なるモダリティからの入力を交互に処理し、明示的なペアを必要とせずにクロスモーダル構造から利益を得る。実験により、テキスト、音声、画像などの非ペアデータを用いることで、単一モダルターゲットのパフォーマンスが向上することを確認。 Comment
pj page: https://unpaired-multimodal.github.io
モダリティ間で(モダリティごとのエンコーダとデコーダ以外の)パラメータを共有し(UMMs)、通常はpair-dataで学習するが、unpaired data(+self-supervised / 分類ヘッドを用いた(ここはしっかり読めてないので自信ない)supervised learning)で学習する。これによりダウンストリームタスクでの性能が向上する。
unpaired dataで学習するという点が革新的に見える。unpaired dataで学習する枠組みにより大量のデータを活用し表現を学習できる。また、ペアデータで学習することによりパラメータに埋め込める知識やスキルが(おそらく)限られていたが、より広範な知識やスキルを埋め込めるのでは、という印象がある。
元ポスト:
著者ポスト:
[Paper Note] Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model, Chunting Zhou+, ICLR'25, 2024.08
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #MultiModal #ICLR #read-later #Selected Papers/Blogs Issue Date: 2025-09-22 GPT Summary- Transfusionは、離散データと連続データに対してマルチモーダルモデルを訓練する手法で、言語モデリングの損失関数と拡散を組み合わせて単一のトランスフォーマーを訓練します。最大7Bパラメータのモデルを事前訓練し、ユニモーダルおよびクロスモーダルベンチマークで優れたスケーリングを示しました。モダリティ特有のエンコーディング層を導入することで性能を向上させ、7Bパラメータのモデルで画像とテキストを生成できることを実証しました。 Comment
openreview: https://openreview.net/forum?id=SI2hI0frk6
[Paper Note] MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer, Yanghao Li+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel Issue Date: 2025-09-22 GPT Summary- Manzanoは、視覚コンテンツの理解と生成を統一的に行うマルチモーダル大規模言語モデル(LLMs)で、ハイブリッド画像トークナイザーとトレーニングレシピを組み合わせてパフォーマンスのトレードオフを軽減します。単一のビジョンエンコーダーが画像からテキストへの埋め込みを生成し、自己回帰型LLMがテキストと画像トークンの高レベルの意味を予測します。このアーキテクチャにより、両方の能力の共同学習が可能となり、最先端の結果を達成しました。 Comment
元ポスト:
ポイント解説:
DocVQAのオラクルはラベルノイズと曖昧性の観点から94--95という主張:
[Paper Note] LMFusion: Adapting Pretrained Language Models for Multimodal Generation, Weijia Shi+, NeurIPS'25
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #MultiModal #NeurIPS Issue Date: 2025-09-19 GPT Summary- LMFusionは、テキストのみのLLMにマルチモーダル生成能力を付与するフレームワークで、テキストと画像の理解・生成を可能にします。既存のLlama-3の重みを活用し、画像処理のための並列トランスフォーマーモジュールを追加。各モダリティは独立して処理され、相互作用が可能です。実験により、LMFusionは画像理解を20%、生成を3.6%向上させ、Llama-3の言語能力を維持しつつ、効率的にマルチモーダルモデルを開発できることが示されました。 Comment
元ポスト:
先行研究:
- [Paper Note] Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model, Chunting Zhou+, ICLR'25, 2024.08
- [Paper Note] U-Net: Convolutional Networks for Biomedical Image Segmentation, Olaf Ronneberger+, MICCAI'15, 2015.05
[Paper Note] Reconstruction Alignment Improves Unified Multimodal Models, Ji Xie+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #Alignment #MultiModal #read-later Issue Date: 2025-09-11 GPT Summary- 統一多モーダルモデル(UMMs)のトレーニングは、スパースなキャプションに依存しており、視覚的詳細を見逃すことが多い。そこで、再構成アライメント(RecA)を導入し、視覚理解エンコーダの埋め込みを用いてキャプションなしで豊富な監視を提供。RecAはUMMを視覚理解埋め込みに条件付け、自己監視型の再構成損失で最適化し、生成と編集の忠実度を向上させる。27 GPU時間で、画像生成性能や編集ベンチマークを大幅に向上させ、効率的なポストトレーニング戦略としての地位を確立。 Comment
pj page: https://reconstruction-alignment.github.io
元ポスト:
ベンチマーク:
- [Paper Note] GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment, Dhruba Ghosh+, NeurIPS'23
- [Paper Note] ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment, Xiwei Hu+, arXiv'24
[Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #MultiModal #SpeechProcessing #OpenWeight Issue Date: 2025-07-26 GPT Summary- Ming-Omniは、画像、テキスト、音声、動画を処理できる統一マルチモーダルモデルで、音声生成と画像生成において優れた能力を示す。専用エンコーダを用いて異なるモダリティからトークンを抽出し、MoEアーキテクチャで処理することで、効率的にマルチモーダル入力を融合。音声デコーダと高品質な画像生成を統合し、コンテキストに応じたチャットやテキストから音声への変換、画像編集が可能。Ming-Omniは、GPT-4oに匹敵する初のオープンソースモデルであり、研究と開発を促進するためにコードとモデルの重みを公開。 Comment
元ポスト:
現在はv1.5も公開されておりさらに性能が向上している模様?
Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models, Weixin Liang+, TMLR'25
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #NLP #LanguageModel #Transformer #MultiModal #SpeechProcessing #Architecture #TMLR Issue Date: 2024-11-12 GPT Summary- 大規模言語モデル(LLMs)のマルチモーダル処理を効率化するために、Mixture-of-Transformers(MoT)を提案。MoTは計算コストを削減し、モダリティごとにパラメータを分離して特化した処理を実現。Chameleon 7B設定では、55.8%のFLOPsで密なベースラインに匹敵する性能を示し、音声を含む場合も37.2%のFLOPsで同様の結果を達成。さらに、Transfusion設定では、7BのMoTモデルが密なベースラインの画像性能に対してFLOPsの3分の1で匹敵し、760Mのモデルは主要な画像生成指標で上回る結果を得た。MoTは実用的な利点も示し、画像品質を47.2%、テキスト品質を75.6%の経過時間で達成。
[Paper Note] ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment, Xiwei Hu+, arXiv'24
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #Evaluation #DiffusionModel #read-later #Selected Papers/Blogs Issue Date: 2025-09-11 GPT Summary- 拡散モデルに大規模言語モデル(LLM)を組み込む「効率的な大規模言語モデルアダプター(ELLA)」を提案。これにより、複雑なプロンプトの整合性を向上させ、意味的特徴を適応させる新しいモジュール「時間ステップ認識セマンティックコネクタ(TSC)」を導入。ELLAは密なプロンプトに対する性能が最先端手法を上回ることを実験で示し、特に複数のオブジェクト構成において優位性を発揮。 Comment
pj page: https://ella-diffusion.github.io
Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action, Jiasen Lu+, N_A, CVPR'24
Paper/Blog Link My Issue
#ComputerVision #Pretraining #Pocket #NLP #Transformer #InstructionTuning #MultiModal #SpeechProcessing #CVPR #Selected Papers/Blogs #Encoder-Decoder #Robotics #EmbodiedAI Issue Date: 2023-12-29 GPT Summary- Unified-IO 2は、最初の自己回帰型のマルチモーダルモデルであり、画像、テキスト、音声、アクションを理解し生成することができます。異なるモダリティを統一するために、共有の意味空間に入力と出力を配置し、単一のエンコーダ・デコーダトランスフォーマーモデルで処理します。さまざまなアーキテクチャの改善を提案し、大規模なマルチモーダルな事前トレーニングコーパスを使用してモデルをトレーニングします。Unified-IO 2は、GRITベンチマークを含む35以上のベンチマークで最先端のパフォーマンスを発揮します。 Comment
画像、テキスト、音声、アクションを理解できる初めてのautoregressive model。AllenAI
モデルのアーキテクチャ図
マルチモーダルに拡張したことで、訓練が非常に不安定になったため、アーキテクチャ上でいくつかの工夫を加えている:
- 2D Rotary Embedding
- Positional EncodingとしてRoPEを採用
- 画像のような2次元データのモダリティの場合はRoPEを2次元に拡張する。具体的には、位置(i, j)のトークンについては、Q, Kのembeddingを半分に分割して、それぞれに対して独立にi, jのRoPE Embeddingを適用することでi, j双方の情報を組み込む。
- QK Normalization
- image, audioのモダリティを組み込むことでMHAのlogitsが非常に大きくなりatteetion weightが0/1の極端な値をとるようになり訓練の不安定さにつながった。このため、dot product attentionを適用する前にLayerNormを組み込んだ。
- Scaled Cosine Attention
- Image Historyモダリティにおいて固定長のEmbeddingを得るためにPerceiver Resamplerを扱ったているが、こちらも上記と同様にAttentionのlogitsが極端に大きくなったため、cosine類似度をベースとしたScaled Cosine Attention [Paper Note] Swin Transformer V2: Scaling Up Capacity and Resolution, Ze Liu+, arXiv'21
を利用することで、大幅に訓練の安定性が改善された。
- その他
- attention logitsにはfp32を適用
- 事前学習されたViTとASTを同時に更新すると不安定につながったため、事前学習の段階ではfreezeし、instruction tuningの最後にfinetuningを実施
目的関数としては、Mixture of Denoisers (UL2: Unifying Language Learning Paradigms, Yi Tay+, N/A, ICLR'23
)に着想を得て、Multimodal Mixture of Denoisersを提案。MoDでは、
- \[R\]: 通常のspan corruption (1--5 token程度のspanをmaskする)
- \[S\]: causal language modeling (inputを2つのサブシーケンスに分割し、前方から後方を予測する。前方部分はBi-directionalでも可)
- \[X\]: extreme span corruption (12>=token程度のspanをmaskする)
の3種類が提案されており、モダリティごとにこれらを使い分ける:
- text modality: UL2 (UL2: Unifying Language Learning Paradigms, Yi Tay+, N/A, ICLR'23
)を踏襲
- image, audioがtargetの場合: 2つの類似したパラダイムを定義し利用
- \[R\]: patchをランダムにx%マスクしre-constructする
- \[S\]: inputのtargetとは異なるモダリティのみの情報から、targetモダリティを生成する
訓練時には prefixとしてmodality token \[Text\], \[Image\], \[Audio\] とparadigm token \[R\], \[S\], \[X\] をタスクを指示するトークンとして利用している。
また、image, audioのマスク部分のdenoisingをautoregressive modelで実施する際には普通にやるとdecoder側でリークが発生する(a)。これを防ぐには、Encoder側でマスクされているトークンを、Decoder側でteacher-forcingする際にの全てマスクする方法(b)があるが、この場合、生成タスクとdenoisingタスクが相互に干渉してしまいうまく学習できなくなってしまう(生成タスクでは通常Decoderのinputとして[mask]が入力され次トークンを生成する、といったことは起きえないが、愚直に(b)をやるとそうなってしまう)。ので、(c)に示したように、マスクされているトークンをinputとして生成しなければならない時だけ、マスクを解除してdecoder側にinputする、という方法 (Dynamic Masking) でこの問題に対処している。
[Paper Note] Neural Discrete Representation Learning, Aaron van den Oord+, NIPS'17, 2017.11
Paper/Blog Link My Issue
#ComputerVision #Pocket #Quantization #VariationalAutoEncoder #NeurIPS #Tokenizer #Selected Papers/Blogs Issue Date: 2025-12-11 GPT Summary- 教師なしでの有用な表現学習のために、生成モデルVQ-VAEを提案。VQ-VAEは、離散的なコードを出力し、学習された事前分布を持つ点でVAEと異なる。ベクトル量子化を用いることで、ポスティアコラプス問題を回避し、高品質な画像や音声生成、スピーカー変換を実現。 Comment
日本語解説:
-
https://qiita.com/nishiha/items/44de5c46ebdfe615f6e8
-
https://data-analytics.fun/2021/05/14/understanding-vq-vae/
[Paper Note] NitroGen: An Open Foundation Model for Generalist Gaming Agents, Loïc Magne, Nvidia, 2025.12
Paper/Blog Link My Issue
#Article #ComputerVision #Dataset #Game #4D (Video) #VisionActionModel Issue Date: 2025-12-21 Comment
元ポスト:
HF:
https://huggingface.co/nvidia/NitroGen
pj page:
https://nitrogen.minedojo.org/
1000以上のゲームの40000時間を超えるゲームプレイから学習されたVideo to Action Model
LongCat-Flash-Omni Technical Report, 2025.10
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #SpeechProcessing #OpenWeight #MoE(Mixture-of-Experts) #2D (Image) #4D (Video) #Omni #audio #text Issue Date: 2025-11-01 Comment
元ポスト:
HF: https://huggingface.co/meituan-longcat/LongCat-Flash-Omni
text, image/video, audioをinputし、audioを生成するomniモデル
Ming-flash-omni-Preview, inclusionAI, 2025.10
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #TTS #Routing #Omni #Sparse #ImageSynthesis Issue Date: 2025-10-28 Comment
元ポスト:
過去一番多くのタグを付与した気がするが、果たして大規模、Omniモデルかつ、UMMにしたことによる恩恵(=様々なモダリティを統一された空間上に学習させる恩恵)はどの程度あるのだろうか?
アーキテクチャを見ると、モダリティごとに(モダリティ単位でのバイアスがかかった)Routerが用意されexpertにルーティングされるような構造になっている。
LMMs Engine, EvolvingLMMs-Lab, 2025.10
Paper/Blog Link My Issue
#Article #ComputerVision #MachineLearning #NLP #MultiModal #Repository #PostTraining #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-27 Comment
元ポスト:
事前学習済みのLLM, VLM, dLM, DiffusionModelなどからUMMを学習できる事後学習フレームワーク。
LigerKernelでメモリ使用量を30%削減し、SparseAttentionもサポートし、Muon Optimizerもサポートしている。
Introducing MiMo-Audio, LLM-Core Xiaomi, 2025.10
Paper/Blog Link My Issue
#Article #Pretraining #InstructionTuning #SpeechProcessing #Reasoning #SmallModel #OpenWeight #Zero/FewShotLearning #Selected Papers/Blogs #AudioLanguageModel Issue Date: 2025-10-25 Comment
HF: https://huggingface.co/collections/XiaomiMiMo/mimo-audio
元ポスト:
text, audioを入力として受け取り、text, audioを出力するAudioLanguageModel
Ming-UniVision: Joint Image Understanding and Generation via a Unified Continuous Tokenizer, inclusionAI, 2025.10
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #OpenWeight Issue Date: 2025-10-03 Comment
HF: https://huggingface.co/inclusionAI/Ming-UniVision-16B-A3B
元ポスト:
HunyuanImage-3.0, Tencent, 2025.09
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #OpenWeight #One-Line Notes Issue Date: 2025-09-29 Comment
元ポスト:
所見:
テキスト生成+画像理解・生成が可能なUnified Multimodal Models (UMMs)。テキストはtokenizer、画像は生成用エンコーダ、理解用エンコーダを用意してエンコードしDecoder-Only Tranformerに入力。auto-regressiveに生成し、テキストはDe-Tokenizerでテキスト化、画像の場合は専用のDecoderでデコードする。
MagicBench, ByteDance-Seed, 2025.09
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Dataset #LanguageModel #Evaluation #TextToImageGeneration Issue Date: 2025-09-19 Comment
元ポスト:
英文と中文両方存在する
Janus-Series: Unified Multimodal Understanding and Generation Models, DeepSeek, 2025.01
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #OpenWeight Issue Date: 2025-01-28 Comment
DeepSeekによる新たなUMM、Janus-Proが本日リリース。MIT License
Janus-Proのパフォーマンス。
github上でのパフォーマンスの図解から引用。マルチモーダル(テキスト+画像)の理解に関するベンチマークでLLaVA超え。GenEval, DPG Benchと呼ばれる画像生成ベンチマークでDALL-E 3超え。
テクニカルレポート中での詳細から引用。どのベンチマークでも基本的に最高性能なように見える。
テクニカルレポート:
https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf
ベンチマーク:
- [Paper Note] GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment, Dhruba Ghosh+, NeurIPS'23
- [Paper Note] ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment, Xiwei Hu+, arXiv'24