text
[Paper Note] Text-Printed Image: Bridging the Image-Text Modality Gap for Text-centric Training of Large Vision-Language Models, Shojiro Yamabe+, CVPR'26, 2025.12
Paper/Blog Link My Issue
#ComputerVision #DataAugmentation #SyntheticData #CVPR #VisionLanguageModel Issue Date: 2026-02-28 GPT Summary- テキスト中心訓練を用いて、画像収集のコストを削減する新たなアプローチとしてText-Printed Image(TPI)を提案。TPIはテキストを白いキャンバスに直接レンダリングすることで合成画像を生成し、VQAタスクでのモダリティギャップを軽減。系統的な実験により、TPIは合成画像生成モデルよりも効果的な性能を示し、LVLMsの自動データ生成の可能性を強調。 Comment
元ポスト:
[Paper Note] ERNIE 5.0 Technical Report, Haifeng Wang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #Speech #Proprietary #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #2D (Image) #UMM #4D (Video) #Omni #Initial Impression Notes Issue Date: 2026-02-06 GPT Summary- ERNIE 5.0は、テキスト、画像、ビデオ、音声に対応したマルチモーダル理解と生成のための基盤モデルです。超スパースな専門家の混合アーキテクチャを使用し、依存しないルーティングでトークン予測を行います。新たなトレーニングパラダイムにより、モデルは性能、サイズ、推論レイテンシを柔軟に調整可能です。幅広い実験において、ERNIE 5.0は複数のモダリティで優れた性能を示し、初の商用規模の兆パラメータモデルとして注目されています。 Comment
元ポスト:
リリース時の公式ポスト:
あくまでskim readingをして得た印象なのだが、非常に興味深い研究で、Omniモダリティを超大規模モデルでスクラッチからUnified Multimodal Modelとして学習し、MoEで効率的に推論するというアーキテクチャと手法に見え(個人的にこういう手法でやったらどうなるのだろう?と思っていたドンピシャな設定)、各種ベンチマークの性能指標を見ると多くの指標で全体的に良いスコアを達成しており様々なタスクを高性能で実現できる一方、特定の分野のベンチマークでGemini Pro 3の方が強い面が多く(たとえばテキストモダリティのstem, coding, vision全般, ASR全般)、Omniモダリティの統合は一筋縄ではいかず、どのようにモダリティを統合し、学習することが効果的なのか?という根源的な問いがあらためて思い浮かぶ。
Ming Omniでも同様のことがやられていた:
- [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25, 2025.06
[Paper Note] MoST: Mixing Speech and Text with Modality-Aware Mixture of Experts, Yuxuan Lou+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #MultiModal #SpeechProcessing #Speech #UMM Issue Date: 2026-01-16 GPT Summary- 「MoST(Mixture of Speech and Text)」という新しいマルチモーダル言語モデルを提案。MAMoEアーキテクチャに基づき、専門的なルーティングパスを導入して音声とテキストの処理を統合。モデルはモダリティ特有のエキスパートと共有エキスパートを活用し、音声-テキストの効率的な変換パイプラインを開発。テスト結果は、MoSTが既存モデルを上回る性能を示し、特にルーティングメカニズムと共有エキスパートの影響が顕著であった。本モデルは、初の完全オープンソース音声-テキストLLMとして重要な意義を持つ。 Comment
元ポスト:
テキストとスピーチのUMMで、テキスト・音声生成の両方が可能
[Paper Note] Web World Models, Jichen Feng+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #read-later #WorldModels Issue Date: 2025-12-30 GPT Summary- 本研究では、言語エージェントのための中間的なアプローチとしてWeb World Model(WWM)を提案。WWMは、ウェブコードで実装された世界の状態と物理法則を基に、大規模言語モデルが高レベルの意思決定を生成する仕組み。実際の地理に基づく旅行地図や架空の探検など、様々な環境を構築し、実用的な設計原則を特定。これにより、制御可能でありながら無限の探索が可能な環境を実現することを示した。 Comment
pj page: https://github.com/Princeton-AI2-Lab/Web-World-Models
元ポスト:
ポイント解説:
[Paper Note] OneThinker: All-in-one Reasoning Model for Image and Video, Kaituo Feng+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #ReinforcementLearning #MultiModal #Reasoning #OpenWeight #VisionLanguageModel #2D (Image) #UMM #4D (Video) #One-Line Notes Issue Date: 2025-12-06 GPT Summary- OneThinkerは、視覚的推論を統一するオールインワンの強化学習モデルであり、質問応答やキャプショニングなどの多様なタスクに対応。OneThinker-600kトレーニングコーパスを用いて訓練され、報酬の異質性に対処するEMA-GRPOを提案。広範な実験により、10の視覚理解タスクで強力なパフォーマンスを示し、タスク間の知識移転とゼロショット一般化能力を実証。全てのコード、モデル、データは公開。 Comment
pj page:
https://github.com/tulerfeng/OneThinker
HF:
https://huggingface.co/OneThink
元ポスト:
image/videoに関するreasoningタスクをunifiedなアーキテクチャで実施するVLM
Qwen3-VL-Instruct-8Bに対するgain。様々なタスクで大幅なgainを得ている。特にTracking, segmentation, groundingのgainが大きいように見える。
[Paper Note] Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data, Yunxin Li+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #LanguageModel #MultiModal #SpeechProcessing #DiffusionModel #PositionalEncoding #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #DataMixture #2D (Image) #Routing #UMM #4D (Video) #Omni #KeyPoint Notes #audio Issue Date: 2025-11-18 GPT Summary- Uni-MoE 2.0は、Lycheeファミリーから発表されたオープンソースのオムニモーダル大規模モデルで、言語中心のマルチモーダル理解と生成を大幅に向上させる。動的容量のMixture-of-Experts設計や進行的トレーニング戦略を採用し、画像、テキスト、音声の生成が可能。約75Bトークンのデータでトレーニングされ、85のベンチマークで競争力のある性能を示し、特にビデオ理解やオムニモーダリティ理解で優れた結果を達成。 Comment
pj page: https://idealistxy.github.io/Uni-MoE-v2.github.io/
元ポスト:
pj pageをみた感じ、アーキテクチャは下記で、モダリティごとのエンコーダを用意しトークン化し同じ空間上で各モダリティを学習するUnified Multi Modalモデルとなっている。MoEアーキテクチャを採用しモダリティごとのexpertと共有のexpert、null expert(パラメータも必要とせず何も処理しないexpertでアーキテクチャをMoEから変えずに不要な計算を排除して効率を向上可能)を用意しルータで制御する。また、speechやvideoなどの時系列性に対処するためにRoPEを3次元に拡張したPEを用いて、各モダリティがシームレスにalignmentをとれるようにしている。
事前学習ではまずテキストを中心としたクロスモーダルな学習をする。たとえば、image/audio/video-textタスクで学習をする。このフェーズで各モダリティをテキストのsemantic spaceに写像する能力を鍛える(Figure5 left)。
その後SFTで各モダリティに特化したexpertを学習する。ここでは段階的にSFTを実施し、まずまずAudio, Visualのexpertを同時にwarmupし、その後Textのexpertsを追加して次のアニーリングフェーズを学習しているように見える。
続いてアニーリングフェーズとして、様々なモダリティのデータをバランスさせてDataMixtureし、徐々に学習率を下げながら特定のタスクやモダリティに特化せず、全体の性能が向上するように学習する。その後、long sequenceのreasoningの能力を向上させるためにGSPO-DPOをiterativeに適用する。DPOの嗜好データはLLM as a Judgeでロールアウトに基づいて構成する、
という感じらしい。
Table2にDataMixtureの比率がかかれているし、各種データの概要も3.2節にかかれているように見える。素晴らしい。
[Paper Note] EditLens: Quantifying the Extent of AI Editing in Text, Katherine Thai+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #LanguageModel #GenerativeAI #read-later #AI Detector Issue Date: 2025-11-16 GPT Summary- AIによるテキスト編集の検出に関する研究を行い、AI編集の程度を定量化する類似性指標を提案。これを基に回帰モデルEditLensを訓練し、人間とAIのテキストを高精度で区別。AI編集の影響を分析し、著作権や教育に関する示唆を提供。モデルとデータセットは公開予定。 Comment
元ポスト:
興味深い👀
[Paper Note] MMaDA: Multimodal Large Diffusion Language Models, Ling Yang+, NeurIPS'25, 2025.05
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #MultiModal #DiffusionModel #TextToImageGeneration #NeurIPS #2D (Image) Issue Date: 2025-11-05 GPT Summary- MMaDAは、テキスト推論やマルチモーダル理解、テキストから画像生成に優れた性能を発揮する新しいマルチモーダル拡散基盤モデルです。主な革新点は、モダリティに依存しない統一された拡散アーキテクチャ、混合長チェーン・オブ・ソートによるファインチューニング戦略、そしてUniGRPOという統一ポリシー勾配ベースのRLアルゴリズムです。実験により、MMaDA-8Bは他のモデルを上回る性能を示し、事前トレーニングと事後トレーニングのギャップを埋める効果が確認されました。コードとトレーニング済みモデルはオープンソースで提供されています。 Comment
ポイント解説:
元ポスト:
[Paper Note] UNO-Bench: A Unified Benchmark for Exploring the Compositional Law Between Uni-modal and Omni-modal in Omni Models, Chen Chen+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #LanguageModel #Evaluation #MultiModal #SpeechProcessing #2D (Image) #4D (Video) #Omni Issue Date: 2025-11-05 GPT Summary- 新しいベンチマークUNO-Benchを提案し、ユニモーダルとオムニモーダルの能力を44のタスクと5つのモダリティで評価。人間生成データと自動圧縮データを用い、複雑な推論を評価する多段階オープンエンド質問形式を導入。実験により、オムニモーダルの能力がモデルの強さに応じて異なる影響を与えることを示した。 Comment
pj page: https://meituan-longcat.github.io/UNO-Bench/
元ポスト:
[Paper Note] When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought, Yiyang Zhou+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#NLP #Dataset #Evaluation #MultiModal #Reasoning #Selected Papers/Blogs #VisionLanguageModel #2D (Image) #KeyPoint Notes #Visual-CoT Issue Date: 2025-11-05 GPT Summary- MIRAは、中間的な視覚画像を生成し推論を支援する新しいベンチマークで、従来のテキスト依存の手法とは異なり、スケッチや構造図を用いる。546のマルチモーダル問題を含み、評価プロトコルは画像と質問、テキストのみのCoT、視覚的ヒントを含むVisual-CoTの3レベルを網羅。実験結果は、中間的な視覚的手がかりがモデルのパフォーマンスを33.7%向上させることを示し、視覚情報の重要性を強調している。 Comment
pj page: https://mira-benchmark.github.io/
元ポスト:
Visual CoT
Frontierモデル群でもAcc.が20%未満のマルチモーダル(Vision QA)ベンチマーク。
手作業で作成されており、Visual CoT用のsingle/multi stepのintermediate imagesも作成されている。興味深い。
VLMにおいて、{few, many}-shotがうまくいく場合(Geminiのようなプロプライエタリモデルはshot数に応じて性能向上、一方LlamaのようなOpenWeightモデルは恩恵がない)と
- [Paper Note] Many-Shot In-Context Learning in Multimodal Foundation Models, Yixing Jiang+, arXiv'24, 2024.05
うまくいかないケース(事前訓練で通常見られない分布外のドメイン画像ではICLがうまくいかない)
- [Paper Note] Roboflow100-VL: A Multi-Domain Object Detection Benchmark for Vision-Language Models, Peter Robicheaux+, NeurIPS'25, 2025.05
も報告されている。
おそらく事前学習段階で当該ドメインの画像が学習データにどれだけ含まれているか、および、画像とテキストのalignmentがとれていて、画像-テキスト間の知識を活用できる状態になっていることが必要なのでは、という気はする。
著者ポスト:
[Paper Note] UniTok-Audio: A Unified Audio Generation Framework via Generative Modeling on Discrete Codec Tokens, Chengwei Liu+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #LanguageModel #SpeechProcessing #Speech #UMM #AudioLanguageModel Issue Date: 2025-11-04 GPT Summary- UniTok-Audioは、音声生成タスクのための統一されたスケーラブルフレームワークで、条件の特徴を抽出し、音声の離散トークンを生成。特別なタスク識別トークンにより、複数のタスクの学習を統一し、高忠実度の波形再構築を実現。実験では、音声復元や音声変換など5つのタスクで競争力のある性能を示し、将来的にオープンソース化予定。 Comment
元ポスト:
[Paper Note] Emu3.5: Native Multimodal Models are World Learners, Yufeng Cui+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #NLP #LanguageModel #Transformer #MultiModal #DiffusionModel #2D (Image) #UMM Issue Date: 2025-11-01 GPT Summary- Emu3.5は、視覚と言語の両方に基づく次の状態を予測する大規模なマルチモーダルワールドモデルで、10兆トークン以上のデータで事前訓練されています。双方向の並列予測を用いた「Discrete Diffusion Adaptation(DiDA)」により、推論を約20倍加速し、強力なマルチモーダル能力を発揮します。Emu3.5は、画像生成や編集タスクで優れたパフォーマンスを示し、オープンソースとして提供されています。 Comment
pj page: https://emu.world/
元ポスト:
ポイント解説:
[Paper Note] ARC-Encoder: learning compressed text representations for large language models, Hippolyte Pilchen+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #LanguageModel #ContextWindow #Encoder #One-Line Notes #Compression Issue Date: 2025-10-26 GPT Summary- 本研究では、コンテキストを連続表現に圧縮するARC-Encoderを提案し、デコーダLLMのトークン埋め込みを置き換えるアプローチを探求。ARC-Encoderは、テキストトークンの少ない連続表現を出力し、計算効率を向上させる。さまざまなLLMシナリオで評価した結果、最先端のパフォーマンスを達成し、複数のデコーダに同時に適応可能であることを示した。 Comment
元ポスト:
最近textのcontextをvisual tokenでレンダリングすることで圧縮する話が盛り上がっているが、こちらはtextの表現そのものを圧縮する話な模様。
そのうちpixel単位の入力、テキスト単位での入力を圧縮する話どちらかだけでなく、双方のハイブリッドになり、かつタスクに応じてattention等を通じてどちらのモダリティの情報を使うか、また圧縮前と後の情報どちらを使うか、みたいなものを動的に選択してタスクに応じて計算量やメモリを節約しつつ、高い性能を担保する、みたいな話になるんではなかろうか。
[Paper Note] OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM, Hanrong Ye+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #NLP #Temporal #LanguageModel #SyntheticData #MultiModal #SpeechProcessing #Architecture #2D (Image) #TTS #4D (Video) #Omni #audio Issue Date: 2025-10-21 GPT Summary- OmniVinciは、視覚と音声を統合したオムニモーダルLLMを構築するプロジェクトであり、3つの革新(OmniAlignNet、Temporal Embedding Grouping、Constrained Rotary Time Embedding)を提案。2400万の会話データを用いて、モダリティ間の相互強化を実現。DailyOmni、MMAR、Video-MMEでの性能向上を達成し、トレーニングトークンの使用量を大幅に削減。ロボティクスや医療AIなどの応用におけるオムニモーダルの利点を示す。 Comment
pj page: https://nvlabs.github.io/OmniVinci/
元ポスト:
image, video, テキスト, 音声を理解しテキストを出力(TTSも可)するモデルに関する新たなアーキテクチャとデータキュレーションパイプラインを提案している模様
[Paper Note] DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature, Eric Mitchell+, ICML'23, 2023.01
Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #ICML #Selected Papers/Blogs #AI Detector Issue Date: 2025-11-17 GPT Summary- LLM生成テキストの検出の必要性を背景に、対数確率関数の負の曲率を利用した新しい検出手法「DetectGPT」を提案。これにより、別の分類器やデータセットを必要とせず、特定のLLMから生成されたテキストを高精度で識別可能。特に、GPT-NeoXによるフェイクニュース記事の検出で、従来の手法を大幅に上回る性能を示した。
[Paper Note] Large-scale Contrastive Language-Audio Pretraining with Feature Fusion and Keyword-to-Caption Augmentation, Yusong Wu+, ICASSP'23, 2022.11
Paper/Blog Link My Issue
#NeuralNetwork #Embeddings #Pretraining #NLP #Library #RepresentationLearning #MultiModal #SpeechProcessing #ContrastiveLearning #Speech #One-Line Notes #ICASSP Issue Date: 2023-04-25 GPT Summary- 音声データと自然言語説明を組み合わせたコントラスト学習による音声表現開発のパイプラインを提案。633,526の音声-テキストペアからなるLAION-Audio-630Kを公開し、音声エンコーダとテキストエンコーダを用いたモデルを構築。特徴融合メカニズムを採用し、可変長の音声入力に対応。テキストから音声検索や音声分類に関する実験により、特にテキスト検索で優れた性能を示し、ゼロショット設定でも最先端の結果を達成。LAION-Audio-630Kとモデルは公開済み。 Comment
テキストとオーディオをエンコードするMLPエンコーダをそれぞれ用意し、大量のペアをcontrastive learningで事前学習することで、テキストとオーディオ間を同じ空間に写像し、類似度を測れるようにしたモデル。zero-shotでaudio分類などが可能。
[Paper Note] Perceiver: General Perception with Iterative Attention, Andrew Jaegle+, ICLR'22, 2021.03
Paper/Blog Link My Issue
#ComputerVision #NLP #Transformer #MultiModal #SpeechProcessing #Attention #Architecture #ICLR #Selected Papers/Blogs #2D (Image) #audio Issue Date: 2026-02-07 GPT Summary- 本研究では、Transformersに基づく「Perceiver」モデルを提案し、生物システムのように多様なモダリティの高次元入力を同時に処理する能力を持つことを示します。従来のモデルが個々のモダリティに特化しているのに対し、Perceiverは少ない仮定で多数の入力を扱い、非対称注意メカニズムを用いて大規模なデータを処理します。これにより、画像や音声などの多様な分類タスクにおいて、先行モデルと同等以上の性能を実現しました。特に、ImageNetでは数十万のピクセルを直接扱い、ResNet-50やViTに匹敵する結果を達成し、AudioSetにおいても競争力を持っています。 Comment
openreview: https://openreview.net/forum?id=fILj7WpI-g
多様なモダリティ入力を単一のモデルで処理しlogitsで出力するtransformer。Perceiver-IOと並んで多様なモダリティを処理可能な先駆け的研究
Perceiverの出力は単純な分類問題を想定しており、より多様なoutputができるように拡張したものがPerceiver-IO:
- [Paper Note] Perceiver IO: A General Architecture for Structured Inputs & Outputs, Andrew Jaegle+, ICLR'22, 2021.07
[Paper Note] ALFWorld: Aligning Text and Embodied Environments for Interactive Learning, Mohit Shridhar+, ICLR'21, 2020.10
Paper/Blog Link My Issue
#MachineLearning #NLP #Dataset #ReinforcementLearning #Evaluation #EmbodiedAI Issue Date: 2025-10-26 GPT Summary- ALFWorldは、エージェントが抽象的なテキストポリシーを学び、視覚環境で具体的な目標を実行できるシミュレーターである。これにより、視覚的環境での訓練よりもエージェントの一般化が向上し、問題を分解して各部分の改善に集中できる設計を提供する。 Comment
openreview: https://openreview.net/forum?id=0IOX0YcCdTn
pj page: https://alfworld.github.io
Learning Transferable Visual Models From Natural Language Supervision, Radford+, OpenAI, ICML'21
Paper/Blog Link My Issue
#ComputerVision #Embeddings #NLP #RepresentationLearning #MultiModal #ContrastiveLearning #ICML #Selected Papers/Blogs #2D (Image) #One-Line Notes Issue Date: 2023-04-27 Comment
CLIP論文。大量の画像と画像に対応するテキストのペアから、対照学習を行い、画像とテキスト間のsimilarityをはかれるようにしたモデル
[Paper Note] TextWorld: A Learning Environment for Text-based Games, Marc-Alexandre Côté+, Workshop on Computer Games'18 Held in Conjunction with IJCAI'18, 2018.06
Paper/Blog Link My Issue
#MachineLearning #NLP #Dataset #ReinforcementLearning #Evaluation #IJCAI #Workshop #Game Issue Date: 2025-10-26 GPT Summary- TextWorldは、テキストベースのゲームにおける強化学習エージェントのトレーニングと評価のためのサンドボックス環境であり、ゲームのインタラクティブなプレイを処理するPythonライブラリを提供します。ユーザーは新しいゲームを手作りまたは自動生成でき、生成メカニズムによりゲームの難易度や言語を制御可能です。TextWorldは一般化や転移学習の研究にも利用され、ベンチマークゲームのセットを開発し、いくつかのベースラインエージェントを評価します。 Comment
Ming-flash-omni-2.0, inclusionAI, 2026.02
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Transformer #MultiModal #SpeechProcessing #DiffusionModel #Speech #OpenWeight #MoE(Mixture-of-Experts) #2D (Image) #Omni Issue Date: 2026-02-12 Comment
元ポスト:
関連:
- Ming-flash-omni-Preview, inclusionAI, 2025.10
- [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25, 2025.06
公式ポスト:
Third-Party Pangram Evaluations, Pangram., Destiny Akinode, 2025.11
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #GenerativeAI #Blog #AI Detector Issue Date: 2025-11-16 Comment
元ポスト:
LongCat-Flash-Omni Technical Report, 2025.10
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #SpeechProcessing #OpenWeight #MoE(Mixture-of-Experts) #2D (Image) #UMM #4D (Video) #Omni #audio Issue Date: 2025-11-01 Comment
元ポスト:
HF: https://huggingface.co/meituan-longcat/LongCat-Flash-Omni
text, image/video, audioをinputし、audioを生成するomniモデル
