MultiModal
[Paper Note] Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization, Hao Luo+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Reasoning #OpenWeight #CrossDomain #Robotics #VisionLanguageActionModel #UMM #Physics Issue Date: 2026-01-22 GPT Summary- Being-H0.5は、クロスエンボディメント一般化のために設計されたVLAモデルであり、人間の相互作用を「母国語」として扱う学習パラダイムを提案。35,000時間以上のマルチモーダルデータを含むUniHand-2.0を用いて、多様なロボット制御を統一的なアクション空間にマッピングし、リソースの少ないロボットが他のプラットフォームからスキルを習得できるようにする。Being-H0.5はMixture-of-Transformersを採用し、現実世界での安定性のために多様体保存ゲーティングとユニバーサル非同期チャンクイングを導入。シミュレーションベンチマークで最先端の結果を達成し、5つのロボットプラットフォームで強力な能力を示す。 Comment
pj page:
https://research.beingbeyond.com/being-h05
HF:
https://huggingface.co/collections/BeingBeyond/being-h05
元ポスト:
[Paper Note] MoST: Mixing Speech and Text with Modality-Aware Mixture of Experts, Yuxuan Lou+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #SpeechProcessing #Speech #UMM #text Issue Date: 2026-01-16 GPT Summary- 「MoST(Mixture of Speech and Text)」という新しいマルチモーダル言語モデルを提案。MAMoEアーキテクチャに基づき、専門的なルーティングパスを導入して音声とテキストの処理を統合。モデルはモダリティ特有のエキスパートと共有エキスパートを活用し、音声-テキストの効率的な変換パイプラインを開発。テスト結果は、MoSTが既存モデルを上回る性能を示し、特にルーティングメカニズムと共有エキスパートの影響が顕著であった。本モデルは、初の完全オープンソース音声-テキストLLMとして重要な意義を持つ。 Comment
元ポスト:
テキストとスピーチのUMMで、テキスト・音声生成の両方が可能
[Paper Note] Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning, Chengwen Liu+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #AIAgents #Evaluation #VisionLanguageModel #DeepResearch #4D (Video) #One-Line Notes Issue Date: 2026-01-14 GPT Summary- VideoDRは、ビデオを基にしたオープンドメインのビデオ質問応答のための新たな深層研究ベンチマークで、フレーム間の視覚的手がかり抽出やインタラクティブなウェブ検索、マルチホップ推論を要求する。高品質なビデオサンプルを提供し、複数のマルチモーダル大規模言語モデルの評価を行った結果、エージェントの性能はワークフローに依存することが示された。VideoDRは次世代ビデオ深層研究エージェントへの重要な課題を明らかにする。 Comment
元ポスト:
初めてのvideo deep researchベンチマークとのこと
[Paper Note] LightAgent: Mobile Agentic Foundation Models, Yangqin Jiang+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SyntheticData #Reasoning #SmallModel #OpenWeight #ComputerUse #VisionLanguageModel #One-Line Notes #GUI Issue Date: 2026-01-19 GPT Summary- LightAgentは、モバイルプラットフォーム向けにデバイスとクラウドの協力を活用したGUIエージェントシステムを提案。これにより、オフライン性能とコスト効率を両立し、強化された二段階トレーニングを通じて高い意思決定能力を実現。実験を通じて大規模モデルに匹敵する性能を示し、クラウドコストを大幅に削減。 Comment
pj page: https://github.com/HKUDS/OpenPhone
3Bで10B級の性能を誇る低lavencyのedge device向けSVLM
元ポスト:
[Paper Note] UniVideo: Unified Understanding, Generation, and Editing for Videos, Cong Wei+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #Transformer #DiffusionModel #VariationalAutoEncoder #OpenWeight #read-later #Selected Papers/Blogs #VideoGeneration/Understandings #Editing Issue Date: 2026-01-09 GPT Summary- UniVideoは、動画ドメインにおけるマルチモーダルコンテンツの生成と編集を目的とした統一モデルで、MLLMとMMDiTを組み合わせたデュアルストリーム設計を採用。これにより、複雑な指示の解釈と視覚的一貫性を維持しつつ、動画生成や編集タスクを統一的に訓練。実験結果では、テキスト/画像から動画への生成や文脈内編集において最先端の性能を示し、編集とスタイル転送の統合や未見の指示への対応も可能。視覚プロンプトに基づく生成もサポートし、モデルとコードは公開されている。 Comment
pj page: https://congwei1230.github.io/UniVideo/
元ポスト:
[Paper Note] ThinkGen: Generalized Thinking for Visual Generation, Siyu Jiao+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #Pretraining #Pocket #NLP #LanguageModel #ReinforcementLearning #Chain-of-Thought #DiffusionModel #TextToImageGeneration #read-later #One-Line Notes #ImageSynthesis Issue Date: 2026-01-06 GPT Summary- ThinkGenは、マルチモーダル大規模言語モデル(MLLM)のChain-of-Thought(CoT)推論を活用した初の思考駆動型視覚生成フレームワークである。MLLMが特化した指示を生成し、Diffusion Transformer(DiT)がそれに基づいて高品質な画像を生成する。さらに、MLLMとDiT間で強化学習を行うSepGRPOトレーニングパラダイムを提案し、多様なデータセットに対応した共同トレーニングを可能にする。実験により、ThinkGenは複数の生成ベンチマークで最先端の性能を達成した。 Comment
元ポスト:
MLLMとDiTを別々にRLして、MLLMはDiTが好むplan/instructionを生成し、その後DiTとConnectorに対してplan/instructionに従うようなRLをするような手法のようである。図2,3,4を見ると概要がわかる。
[Paper Note] JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation, Kai Liu+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #SpeechProcessing #VideoGeneration/Understandings #Encoder-Decoder #4D (Video) #Omni #One-Line Notes #audio #AudioVisualGeneration Issue Date: 2026-01-03 GPT Summary- JavisGPTは、音声と映像の理解・生成のための初の統合型マルチモーダル大規模言語モデルであり、SyncFusionモジュールを用いて音声と映像の融合を実現。三段階のトレーニングパイプラインを設計し、高品質な指示データセットJavisInst-Omniを構築。広範な実験により、JavisGPTは既存のモデルを上回る性能を示し、特に複雑な同期設定で優れた結果を出した。 Comment
pj page: https://javisverse.github.io/JavisGPT-page/
元ポスト:
音声と映像を同時に生成可能なadapterタイプのMLLM
[Paper Note] DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models, Zefeng He+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #DiffusionModel #Reasoning #read-later Issue Date: 2026-01-03 GPT Summary- DiffThinkerという新しい生成的マルチモーダル推論フレームワークを提案し、視覚中心のタスクにおいて優れた論理的一貫性と空間的精度を実現。DiffThinkerはMLLMsと比較され、効率性、制御性、並列性、協調性の4つの特性が明らかにされる。広範な実験により、DiffThinkerは主要なクローズドソースモデルを大幅に上回る性能を示し、視覚中心の推論に対する有望なアプローチであることを強調。 Comment
pj page: https://diffthinker-project.github.io/
元ポスト:
[Paper Note] Xiaomi MiMo-VL-Miloco Technical Report, Jiaze Li+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #Reasoning #OpenWeight #VideoGeneration/Understandings #VisionLanguageModel #KeyPoint Notes Issue Date: 2025-12-23 GPT Summary- MiMo-VL-Miloco-7Bとその量子化バリアントをオープンソース化し、家庭中心の視覚と言語モデルとして優れた性能を発揮。特にスマートホーム環境に特化し、ジェスチャー認識やマルチモーダル推論で高いF1スコアを達成。二段階のトレーニングパイプラインを設計し、効率的な推論を実現。家庭シナリオのトレーニングが活動理解を向上させ、テキスト推論にも効果を示す。モデルとツールキットは公開され、スマートホームアプリケーションの研究に貢献。 Comment
元ポスト:
HF:
https://huggingface.co/collections/xiaomi-open-source/xiaomi-mimo-vl-miloco
モデル自体は11月から公開されている
home-scenario gesture recognitionとdaily activity recognitionでGemini-2.5-Proを上回る性能を達成している。特定のユースケースに特化しつつ、genericなユースケースの性能を損なわないようなモデルを学習したい場合は参考になるかもしれない。
まずSFTでhome-scenarioデータ[^1] + GeneralデータのDataMixでreasoning patternを学習させ、tokenのefficiencyを高めるためにCoTパターンを排除しdirect answerをするようなデータ(およびprompting)でも学習させる。これによりhome-scenarioでの推論能力が強化される。SFTはfull parameter tuningで実施され、optimizerはAdamW。バッチサイズ128, warmup ratio 0.03, learning rate 1 * 10^-5。スケジューラについては記述がないように見える。
その後、一般的なユースケース(Video Understanding (temporal groundingにフォーカス), GUI Grounding, Multimodal Reasoning (特にSTEMデータ))データを用いてGRPOでRLをする。明らかに簡単・難しすぎるデータは除外。RLのrewardは `r_acc + r_format`の線形補完(係数はaccL: 0.9, format: 0.1)で定義される。r_accはデータごとに異なっている。Video Understandingでは予測したqueryに対してモデルが予測したtimespanとgoldのtimespanのoverlapがどの程度あるかをaccとし、GUI Groundingではbounding boxを予測しpred/goldのoverlapをaccとする。Multimodal ReasoninghはSTEMデータなので回答が一致するかをbinaryのaccとして与えている。
モデルのアーキテクチャは、アダプターでLLMと接続するタイプのもので、動画/画像のBackboneにはViTを用いて、MLPのアダプターを持ちいてLLMの入力としている。
[^1]: volunteerによるhome-scenarioでのデータ作成; ruleを規定しvolunteerに理解してもらいデータ収集。その後研究者が低品質なものを除外
[Paper Note] LongVie 2: Multimodal Controllable Ultra-Long Video World Model, Jianxiong Gao+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #Pocket #DiffusionModel #LongSequence #VideoGeneration/Understandings #WorldModels #4D (Video) #reading #One-Line Notes #DepthEstimation Issue Date: 2025-12-21 GPT Summary- LongVie 2は、動画生成システムに基づくワールドモデルで、制御可能性、視覚品質、時間的一貫性を向上させるために3段階で訓練される自己回帰フレームワークです。マルチモーダルガイダンス、劣化認識トレーニング、歴史的コンテキストガイダンスを用いて、長距離制御と高い視覚忠実度を実現。LongVGenBenchを導入し、100本の高解像度動画を用いたベンチマークを提供。実験により、最先端の性能を達成し、連続動画生成の可能性を示しました。 Comment
pj page: https://vchitect.github.io/LongVie2-project/
元ポスト:
最大5分間のlong videoの生成が可能で、マルチモーダルな入力(depth map(空間の構造の制御; dense control signal), point map(キーポイントの時間軸での軌跡; sparse control signal))に応じて生成をコントロールし、temporal consistencyも向上しているとのこと。
関連:
- [Paper Note] SpatialTracker: Tracking Any 2D Pixels in 3D Space, Yuxi Xiao+, CVPR'24, 2024.04
- [Paper Note] Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control, Zekai Gu+, SIGGRAPH'25, 2025.01
- [Paper Note] Video Depth Anything: Consistent Depth Estimation for Super-Long Videos, Sili Chen+, CVPR'25 Highlight, 2025.01
[Paper Note] Next-Embedding Prediction Makes Strong Vision Learners, Sihan Xu+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #Pretraining #Pocket #Transformer #read-later #Selected Papers/Blogs #2D (Image) #Backbone #UMM #Omni #KeyPoint Notes Issue Date: 2025-12-20 GPT Summary- 生成的事前学習の原則を視覚学習に応用し、モデルが過去のパッチ埋め込みから未来の埋め込みを予測する「次埋め込み予測自己回帰(NEPA)」を提案。シンプルなTransformerを用いてImageNet-1kで高精度を達成し、タスク特有の設計を必要とせず、スケーラビリティを保持。NEPAは視覚的自己教師あり学習の新たなアプローチを提供する。 Comment
pj page:
https://sihanxu.me/nepa/
HF:
https://huggingface.co/collections/SixAILab/nepa
元ポスト:
Autoregressiveにnext embedding prediction(≠reconstruction)をする。エンコーダ自身のembeddingとautoregressive headが生成したembeddingを比較することでlossが計算されるが、双方に勾配を流すとほぼ全てのパッチが同じembeddingを共有するという解に到達し何も学習されないので、エンコーダのエンコード結果(=target)のgradientをstopする。これにより、targetとしての勾配は受け取らないが(predictionに近づけようとする勾配)、文脈に応じたベクトルを作り、next embeddingを予測する入力としての勾配は受け取るので、エンコーダは文脈に応じた学習を続けることができる。
コミュニティからのフィードバックを受けて執筆されたブログ:
https://sihanxu.me/nepa/blog
元ポスト:
NEPAを提案した背景に関して直感的な解説を実施している。興味深い。具体的には、omnimodalityモデルの困難さはインターフェースの問題であり、latent spaceがomnimodalityの共通のインタフェースになりうり、モダリティごとの予測対象とlossを個別に設計せずに済む方法の一つがAutoregressiveな予測であり、そういったインタフェースがスケーリングのために必要という意見と、omnimodalityにおいて過去のliteratureで扱われているdiscreteなtokenとcontinuous symbolsは得意なモダリティが異なり予測対象や前処理のメカニズムも異なるため同時に扱うことが難しい旨などが記述されている。
[Paper Note] T5Gemma 2: Seeing, Reading, and Understanding Longer, Biao Zhang+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#Pocket #NLP #SmallModel #MultiLingual #OpenWeight #Encoder-Decoder #KeyPoint Notes Issue Date: 2025-12-19 GPT Summary- T5Gemma 2は、軽量なオープンエンコーダーデコーダーモデルで、多言語・多モーダル・長文コンテキスト能力を備えています。T5Gemmaの適応レシピに基づき、デコーダー専用モデルをエンコーダーデコーダーモデルに拡張し、効率向上のために埋め込みの共有とマージドアテンションを導入しました。実験により、長文コンテキストモデリングにおける強みが確認され、事前学習性能はGemma 3と同等以上、事後学習性能は大幅に向上しました。今後、事前学習済みモデルをコミュニティに公開予定です。 Comment
初めてのマルチモーダル、long-context、かつ140言語に対応したencoder-decoderモデルとのこと。
事前学習済みのdecoder-only model (今回はGemma2)によってencoder/decoderをそれぞれ初期化し、UL2 (UL2: Unifying Language Learning Paradigms, Yi Tay+, N/A, ICLR'23
) によって事前学習する。encoder / decoder側双方のword embeddingは共有し、encoder側のattentionはcausal attentionからbidirectional attentionに変更する。また、decoder側はself-attention/cross-attentionをマージする。
- UL2: Unifying Language Learning Paradigms, Yi Tay+, N/A, ICLR'23
merged attentionとは、式(1) -- (5)で表されるものであり、Qはdecoderのinput X を用いて、KVの計算する際には、単にdecoder側のinput X とencoder側の隠れ状態 H をconcatしてから、KVを算出する(K, Vのmatrixの次元がHの分大きくなる)というものである。また、マスクトークンの正方行列ではなくなりencoder次元分大きくなり、decoder/encoder部分の両方のvisibilityを制御する。(論文中の当該部分に明記されていないが、普通に考えると)encoder部分は常にvisibleな状態となる。self-/cross attentionは似たような機能を有する(=過去の情報から関連する情報を収集する)ことが先行研究で知られており、単一のモジュールで処理できるという気持ちのようである。H, Xがそれぞれconcatされるので、encoder側の情報とdecoderのこれまでのoutput tokenの情報の両方を同時に考慮することができる。
元ポスト:
HF: https://huggingface.co/collections/google/t5gemma-2
ポイント解説:
[Paper Note] OneThinker: All-in-one Reasoning Model for Image and Video, Kaituo Feng+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #ReinforcementLearning #Reasoning #OpenWeight #VisionLanguageModel #2D (Image) #UMM #4D (Video) #One-Line Notes #text Issue Date: 2025-12-06 GPT Summary- OneThinkerは、視覚的推論を統一するオールインワンの強化学習モデルであり、質問応答やキャプショニングなどの多様なタスクに対応。OneThinker-600kトレーニングコーパスを用いて訓練され、報酬の異質性に対処するEMA-GRPOを提案。広範な実験により、10の視覚理解タスクで強力なパフォーマンスを示し、タスク間の知識移転とゼロショット一般化能力を実証。全てのコード、モデル、データは公開。 Comment
pj page:
https://github.com/tulerfeng/OneThinker
HF:
https://huggingface.co/OneThink
元ポスト:
image/videoに関するreasoningタスクをunifiedなアーキテクチャで実施するVLM
Qwen3-VL-Instruct-8Bに対するgain。様々なタスクで大幅なgainを得ている。特にTracking, segmentation, groundingのgainが大きいように見える。
[Paper Note] TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models, Zhiheng Liu+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #Pocket #VariationalAutoEncoder #VisionLanguageModel #2D (Image) #FlowMatching #UMM #4D (Video) Issue Date: 2025-12-03 GPT Summary- TUNAという統一マルチモーダルモデル(UMM)を提案し、VAEエンコーダと表現エンコーダを連鎖させて統一された視覚表現を構築。これにより、画像と動画の理解・生成タスクをエンドツーエンドで処理可能にし、従来の分離されたUMMsを上回る性能を実現。事前学習された表現エンコーダの重要性も強調され、共同訓練により理解と生成が相互に利益を得ることが示された。広範な実験により、TUNAが最先端の結果を達成したことが確認された。 Comment
pj page: https://tuna-ai.org/
[Paper Note] Qwen3-VL Technical Report, Shuai Bai+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #OpenWeight #MoE(Mixture-of-Experts) #VisionLanguageModel Issue Date: 2025-11-27 GPT Summary- Qwen3-VLは、テキスト、画像、動画を統合した最先端のビジョン・ランゲージモデルで、256Kトークンの長文コンテキスト理解を実現。強化されたテキスト理解、堅牢なマルチモーダル推論、空間・時間モデリングのアップグレードを特徴とし、様々なベンチマークで優れたパフォーマンスを示す。密なアーキテクチャとエキスパート混合アーキテクチャの両方で高い性能を発揮し、実世界のマルチモーダルコードインテリジェンスの基盤エンジンとしての役割が期待される。 Comment
元ポスト:
[Paper Note] MTBBench: A Multimodal Sequential Clinical Decision-Making Benchmark in Oncology, Kiril Vasilev+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #LanguageModel #Evaluation #Selected Papers/Blogs #Medical Issue Date: 2025-11-26 GPT Summary- MTBBenchは、臨床ワークフローの複雑さを反映したマルチモーダル大規模言語モデル(LLMs)のための新しいベンチマークで、腫瘍学の意思決定をシミュレートします。既存の評価が単一モーダルであるのに対し、MTBBenchは異種データの統合や時間に基づく洞察の進化を考慮しています。臨床医によって検証されたグラウンドトゥルースの注釈を用い、複数のLLMを評価した結果、信頼性の欠如や幻覚の発生、データの調和に苦労することが明らかになりました。MTBBenchは、マルチモーダルおよび長期的な推論を強化するツールを提供し、タスクレベルのパフォーマンスを最大9.0%および11.2%向上させることが示されました。 Comment
dataset: https://huggingface.co/datasets/EeshaanJain/MTBBench
元ポスト:
> Ground truth annotations are validated by clinicians via a co-developed app, ensuring clinical relevance.
素晴らしい
[Paper Note] DeepEyesV2: Toward Agentic Multimodal Model, Jack Hong+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#Pocket #NLP #AIAgents #Reasoning #SmallModel #VisionLanguageModel #KeyPoint Notes Issue Date: 2025-11-10 GPT Summary- DeepEyesV2は、テキストや画像の理解に加え、外部ツールを活用するエージェント的なマルチモーダルモデルを構築する方法を探求。二段階のトレーニングパイプラインを用いてツール使用行動を強化し、多様なトレーニングデータセットをキュレーション。RealX-Benchという新たなベンチマークを導入し、実世界のマルチモーダル推論を評価。DeepEyesV2は、タスクに応じたツール呼び出しを行い、強化学習により文脈に基づくツール選択を実現。コミュニティへの指針提供を目指す。 Comment
pj page: https://visual-agent.github.io/
元ポスト:
ポイント解説:
VLM(Qwen2.5-VL-7B)をバックボーンとしSFT(tooluseに関するcoldstart)→RL(RLVR+format reward)で学習することで、VLMによるAI Agentを構築。画像をcropしcropした画像に対するマルチモーダルな検索や、適切なtooluseの選択などに基づいて応答できる。
事前の実験によってまずQwen2.5-VL-7Bに対してRLのみでtooluse能力(コーディング能力)を身につけられるかを試したところ、Reward Hackingによって適切なtooluse能力が獲得されなかった(3.2節; 実行可能ではないコードが生成されたり、ダミーコードだったりなど)。
このためこのcoldstartを解消するためにSFTのための学習データを収集(3.3節)。これには、
- 多様なタスクと画像が含まれており
- verifiableで構造化されたOpen-endなQAに変換でき
- ベースモデルにとって簡単すぎず(8回のattemptで最大3回以上正解したものは除外)
- ツールの利用が正解に寄与するかどうかに基づきサンプルを分類する。tooluseをしても解答できないケースをSFTに、追加のtooluseで解答できるサンプルをRL用に割り当て
ようなデータを収集。さらに、trajectoryはGemini2.5, GPT4o, Claude Sonnet4などのstrong modelから収集した。
RealX-Benchと呼ばれるベンチマークも作成しているようだがまだ読めていない。
proprietary modelの比較対象が少し古め。ベースモデルと比較してSFT-RLによって性能は向上。Human Performanceも掲載されているのは印象的である。
ただ、汎用モデルでこの性能が出るのであれば、DeepSearchに特化したモデルや?GPT5, Claude-4.5-Sonnetなどではこのベンチマーク上ではHuman Performanceと同等かそれ以上の性能が出るのではないか?という気がする。
[Paper Note] PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs, Zixin Zhang+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #LanguageModel #Evaluation #read-later #Selected Papers/Blogs #Robotics #EmbodiedAI Issue Date: 2025-11-10 GPT Summary- MLLMsの物理的道具に対する理解を評価するための新しいベンチマークPhysToolBenchを提案。1,000以上の画像-テキストペアからなるVQAデータセットで、道具認識、道具理解、道具創造の3つの能力を評価。32のMLLMsに対する評価で道具理解に欠陥があることが明らかになり、初歩的な解決策を提案。コードとデータセットは公開。 Comment
元ポスト:
興味深い
[Paper Note] MMaDA: Multimodal Large Diffusion Language Models, Ling Yang+, NeurIPS'25, 2025.05
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #DiffusionModel #TextToImageGeneration #NeurIPS #2D (Image) #text Issue Date: 2025-11-05 GPT Summary- MMaDAは、テキスト推論やマルチモーダル理解、テキストから画像生成に優れた性能を発揮する新しいマルチモーダル拡散基盤モデルです。主な革新点は、モダリティに依存しない統一された拡散アーキテクチャ、混合長チェーン・オブ・ソートによるファインチューニング戦略、そしてUniGRPOという統一ポリシー勾配ベースのRLアルゴリズムです。実験により、MMaDA-8Bは他のモデルを上回る性能を示し、事前トレーニングと事後トレーニングのギャップを埋める効果が確認されました。コードとトレーニング済みモデルはオープンソースで提供されています。 Comment
ポイント解説:
元ポスト:
[Paper Note] VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction, Chaoyou Fu+, NeurIPS'25, 2025.01
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #SpeechProcessing #Speech #NeurIPS #VisionLanguageModel #2D (Image) #TTS #AudioLanguageModel Issue Date: 2025-11-05 GPT Summary- 音声の役割を重視したマルチモーダル大規模言語モデル(MLLM)の訓練手法を提案。視覚と音声の相互作用を強化し、ASRやTTSモジュールなしで効率的な音声対話を実現。ベンチマークで最先端手法と比較し、リアルタイムの視覚と音声の相互作用が可能であることを示す。 Comment
元ポスト:
image/video, speechを入力として受けとりリアルタイムに音声を出力するマルチモーダルモデル。
[Paper Note] VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning, Haozhe Wang+, NeurIPS'25, 2025.04
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Reasoning #SelfCorrection #NeurIPS #VisionLanguageModel Issue Date: 2025-11-05 GPT Summary- スロースロース思考システムは、明示的な反省を通じて難しい問題を解決する可能性を示しているが、マルチモーダル推論能力はファストスロース思考モデルと同等である。本研究では、強化学習を用いて視覚と言語のモデルのスロースロース思考能力を向上させることを目指し、選択的サンプルリプレイ(SSR)と強制的再考を導入。これにより、モデルVL-RethinkerはMathVista、MathVerseでそれぞれ80.4%、63.5%の最先端スコアを達成し、他のベンチマークでも優れた性能を示した。 Comment
元ポスト:
[Paper Note] UNO-Bench: A Unified Benchmark for Exploring the Compositional Law Between Uni-modal and Omni-modal in Omni Models, Chen Chen+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #LanguageModel #Evaluation #SpeechProcessing #2D (Image) #4D (Video) #Omni #text Issue Date: 2025-11-05 GPT Summary- 新しいベンチマークUNO-Benchを提案し、ユニモーダルとオムニモーダルの能力を44のタスクと5つのモダリティで評価。人間生成データと自動圧縮データを用い、複雑な推論を評価する多段階オープンエンド質問形式を導入。実験により、オムニモーダルの能力がモデルの強さに応じて異なる影響を与えることを示した。 Comment
pj page: https://meituan-longcat.github.io/UNO-Bench/
元ポスト:
[Paper Note] When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought, Yiyang Zhou+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#Pocket #NLP #Dataset #Evaluation #Reasoning #Selected Papers/Blogs #VisionLanguageModel #2D (Image) #KeyPoint Notes #text #Visual-CoT Issue Date: 2025-11-05 GPT Summary- MIRAは、中間的な視覚画像を生成し推論を支援する新しいベンチマークで、従来のテキスト依存の手法とは異なり、スケッチや構造図を用いる。546のマルチモーダル問題を含み、評価プロトコルは画像と質問、テキストのみのCoT、視覚的ヒントを含むVisual-CoTの3レベルを網羅。実験結果は、中間的な視覚的手がかりがモデルのパフォーマンスを33.7%向上させることを示し、視覚情報の重要性を強調している。 Comment
pj page: https://mira-benchmark.github.io/
元ポスト:
Visual CoT
Frontierモデル群でもAcc.が20%未満のマルチモーダル(Vision QA)ベンチマーク。
手作業で作成されており、Visual CoT用のsingle/multi stepのintermediate imagesも作成されている。興味深い。
VLMにおいて、{few, many}-shotがうまくいく場合(Geminiのようなプロプライエタリモデルはshot数に応じて性能向上、一方LlamaのようなOpenWeightモデルは恩恵がない)と
- [Paper Note] Many-Shot In-Context Learning in Multimodal Foundation Models, Yixing Jiang+, arXiv'24, 2024.05
うまくいかないケース(事前訓練で通常見られない分布外のドメイン画像ではICLがうまくいかない)
- [Paper Note] Roboflow100-VL: A Multi-Domain Object Detection Benchmark for Vision-Language Models, Peter Robicheaux+, NeurIPS'25, 2025.05
も報告されている。
おそらく事前学習段階で当該ドメインの画像が学習データにどれだけ含まれているか、および、画像とテキストのalignmentがとれていて、画像-テキスト間の知識を活用できる状態になっていることが必要なのでは、という気はする。
著者ポスト:
[Paper Note] SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL Tuning, Fangxun Shu+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#Pocket #NLP #ReinforcementLearning #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-05 GPT Summary- SAIL-RLは、マルチモーダル大規模言語モデルの推論能力を向上させる強化学習フレームワークで、二重報酬システムを用いて推論の質を評価します。これにより、過剰思考や不足思考の問題を解決し、推論とマルチモーダル理解のベンチマークを改善。商業モデルに対して競争力のあるパフォーマンスを示し、幻覚を減少させることに成功しました。 Comment
元ポスト:
個々のrewardを応答が持つ性質に応じて切り替える(直接回答するか、思考するかのjudgeの正しさなど)JudgeRewardと思考の品質を3つの次元(logical coherence, factual grounding, answer consistency)から(LLMをベースに)評価するThinkingRewardの二つを用いてRLする(=dual reward mechanism)ことで、推論の質を担保しながらoverthinkingを防ぐ。通常のRLVRによるRewardとフォーマットによる報酬も組み合わせ、複数の個別のRewardを乗算して最終的なRewardを決定することで、reward hackingに対して頑健にする(式1)。
[Paper Note] Emu3.5: Native Multimodal Models are World Learners, Yufeng Cui+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Pocket #NLP #LanguageModel #Transformer #DiffusionModel #2D (Image) #UMM #text Issue Date: 2025-11-01 GPT Summary- Emu3.5は、視覚と言語の両方に基づく次の状態を予測する大規模なマルチモーダルワールドモデルで、10兆トークン以上のデータで事前訓練されています。双方向の並列予測を用いた「Discrete Diffusion Adaptation(DiDA)」により、推論を約20倍加速し、強力なマルチモーダル能力を発揮します。Emu3.5は、画像生成や編集タスクで優れたパフォーマンスを示し、オープンソースとして提供されています。 Comment
pj page: https://emu.world/
元ポスト:
ポイント解説:
[Paper Note] Kaputt: A Large-Scale Dataset for Visual Defect Detection, Sebastian Höfer+, ICCV'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #Analysis #Pocket #Dataset #Zero/Few/ManyShotPrompting #In-ContextLearning #ICCV #VisionLanguageModel Issue Date: 2025-10-27 GPT Summary- 新しい大規模データセットを提案し、小売物流における欠陥検出の課題に対応。230,000枚の画像と29,000以上の欠陥インスタンスを含み、MVTec-ADの40倍の規模。既存手法の限界を示し、56.96%のAUROCを超えない結果を得た。データセットは今後の研究を促進するために利用可能。 Comment
元ポスト:
[Paper Note] Roboflow100-VL: A Multi-Domain Object Detection Benchmark for Vision-Language Models, Peter Robicheaux+, NeurIPS'25, 2025.05
Paper/Blog Link My Issue
#ComputerVision #Pocket #Dataset #Zero/Few/ManyShotPrompting #Evaluation #In-ContextLearning #NeurIPS #read-later #Selected Papers/Blogs #OOD #Generalization #VisionLanguageModel #One-Line Notes #ObjectDetection Issue Date: 2025-10-27 GPT Summary- 視覚と言語のモデル(VLMs)は、一般的な物体に対して優れたゼロショット検出性能を示すが、分布外のクラスやタスクに対しては一般化が難しい。そこで、少数の視覚例と豊富なテキスト記述を用いてVLMを新しい概念に整合させる必要があると提案。Roboflow100-VLという多様な概念を持つ100のマルチモーダル物体検出データセットを導入し、最先端モデルの評価を行った。特に、難しい医療画像データセットでのゼロショット精度が低く、少数ショットの概念整合が求められることを示した。 Comment
元ポスト:
VLMが「現実世界をどれだけ理解できるか」を評価するためのobject detection用ベンチマークを構築。100のopen source datasetから構成され、それぞれにはtextでのfew shot instructionやvisual exampleが含まれている。データセットは合計で約165kの画像、約1.35M件のアノテーションが含まれ、航空、生物、産業などの事前学習ではあまりカバーされていない新規ドメインの画像が多数含まれているとのこと。
そして現在のモデルは事前学習に含まれていないOODな画像に対する汎化性能が低く、いちいちモデルを追加で学習するのではなく、ICLによって適用できた方が好ましいという考えがあり、そして結果的に現在のVLMでは、ICLがあまりうまくいかない(ICLによるOODの汎化が効果的にできない)ことがわかった、という話らしい。
が、
- [Paper Note] Many-Shot In-Context Learning in Multimodal Foundation Models, Yixing Jiang+, arXiv'24, 2024.05
での知見と異なる。差異はなんだろうか?
以下のスレッドで議論がされている:
pj page: https://rf100-vl.org
うーんあとでしっかり読みたい、、、
[Paper Note] ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows, Qiushi Sun+, arXiv'25, 2025.05
Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #AIAgents #Evaluation #Reasoning #SoftwareEngineering #ComputerUse #read-later #Selected Papers/Blogs #VisionLanguageModel #Science Issue Date: 2025-10-26 GPT Summary- 大規模言語モデル(LLMs)を活用したScienceBoardを紹介。これは、科学的ワークフローを加速するための動的なマルチドメイン環境と、169の厳密に検証されたタスクからなるベンチマークを提供。徹底的な評価により、エージェントは複雑なワークフローでの信頼性が低く、成功率は15%にとどまることが明らかに。これにより、エージェントの限界を克服し、より効果的な設計原則を模索するための洞察が得られる。 Comment
元ポスト:
[Paper Note] Towards Video Thinking Test: A Holistic Benchmark for Advanced Video Reasoning and Understanding, Yuanhan Zhang+, ICCV'25, 2025.07
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #Evaluation #Reasoning #VideoGeneration/Understandings #ICCV #4D (Video) #Robustness Issue Date: 2025-10-24 GPT Summary- ビデオ理解における正確性と堅牢性のギャップを評価するために、Video Thinking Test(Video-TT)を導入。1,000本のYouTube Shortsビデオを用い、オープンエンドの質問と敵対的質問を通じて、ビデオLLMsと人間のパフォーマンスの違いを示す。 Comment
pj page: https://zhangyuanhan-ai.github.io/video-tt/
関連:
[Paper Note] Text or Pixels? It Takes Half: On the Token Efficiency of Visual Text Inputs in Multimodal LLMs, Yanhong Li+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Pocket #NLP #LanguageModel #Pixel-based Issue Date: 2025-10-22 GPT Summary- テキストを画像として提供することで、LLMのトークン使用量を削減しつつ性能を維持できることを示す。長いテキストを画像にレンダリングし、デコーダーに直接入力することで、必要なトークン数を大幅に減少させる。実験により、RULERとCNN/DailyMailのベンチマークで性能を損なうことなく、トークンの節約が実現できることを確認。 Comment
元ポスト:
[Paper Note] FineVision: Open Data Is All You Need, Luis Wiedmann+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#Multi #ComputerVision #Pocket #NLP #Dataset #QuestionAnswering #Conversation #VisionLanguageModel #2D (Image) Issue Date: 2025-10-22 GPT Summary- 本研究では、視覚と言語のモデル(VLM)のために、24百万サンプルからなる統一コーパス「FineVision」を紹介。これは200以上のソースを統合し、半自動化されたパイプラインでキュレーションされている。データの衛生と重複排除が行われ、66の公的ベンチマークに対する汚染除去も適用。FineVisionで訓練されたモデルは、既存のオープンミックスモデルを上回る性能を示し、データ中心のVLM研究の加速を目指す。 Comment
pj page: https://huggingface.co/spaces/HuggingFaceM4/FineVision
ポイント解説:
著者ポスト:
[Paper Note] Multi-Modal Manipulation via Multi-Modal Policy Consensus, Haonan Chen+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#Pocket #DiffusionModel #Robotics #Routing Issue Date: 2025-10-22 GPT Summary- 多様な感覚モダリティを統合することはロボット操作において重要であり、従来の特徴連結アプローチは最適ではない。提案手法では、ポリシーを拡散モデルに因数分解し、各モデルが特定の表現に特化。ルーターネットワークを用いて適応的に重みを学習し、新しい表現の統合を可能にする。シミュレーションや実世界のタスクで、マルチモーダル推論において特徴連結のベースラインを上回る性能を示し、物理的な摂動に対しても堅牢性を持つことが確認された。 Comment
元ポスト:
pj page: https://policyconsensus.github.io
[Paper Note] OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM, Hanrong Ye+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Temporal #LanguageModel #SyntheticData #SpeechProcessing #Architecture #2D (Image) #TTS #4D (Video) #Omni #audio #text Issue Date: 2025-10-21 GPT Summary- OmniVinciは、視覚と音声を統合したオムニモーダルLLMを構築するプロジェクトであり、3つの革新(OmniAlignNet、Temporal Embedding Grouping、Constrained Rotary Time Embedding)を提案。2400万の会話データを用いて、モダリティ間の相互強化を実現。DailyOmni、MMAR、Video-MMEでの性能向上を達成し、トレーニングトークンの使用量を大幅に削減。ロボティクスや医療AIなどの応用におけるオムニモーダルの利点を示す。 Comment
pj page: https://nvlabs.github.io/OmniVinci/
元ポスト:
image, video, テキスト, 音声を理解しテキストを出力(TTSも可)するモデルに関する新たなアーキテクチャとデータキュレーションパイプラインを提案している模様
[Paper Note] End-to-End Multi-Modal Diffusion Mamba, Chunhao Lu+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #MachineLearning #Pocket #NLP #DiffusionModel #SSM (StateSpaceModel) #UMM Issue Date: 2025-10-21 GPT Summary- MDM(Multi-modal Diffusion Mamba)という新しいアーキテクチャを提案し、エンドツーエンドのマルチモーダル処理を統一。Mambaベースの選択拡散モデルを用いて、エンコーディングとデコーディングでモダリティ特有の情報を段階的に生成。高解像度画像とテキストを同時に生成し、既存モデルを大幅に上回る性能を示す。計算効率を保ちながらマルチモーダルプロセスを統一する新たな方向性を確立。 Comment
元ポスト:
[Paper Note] Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding, Sensen Gao+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Survey #InformationRetrieval #Pocket #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #VisionLanguageModel #Encoder #One-Line Notes Issue Date: 2025-10-20 GPT Summary- 文書理解は多様なアプリケーションにおいて重要であり、現在のアプローチには制限がある。特に、OCRベースのパイプラインは構造的詳細を失い、マルチモーダルLLMsはコンテキストモデリングに苦労している。リトリーバル強化生成(RAG)は外部データを活用するが、文書のマルチモーダル性にはマルチモーダルRAGが必要である。本論文では、文書理解のためのマルチモーダルRAGに関する体系的な調査を行い、分類法や進展をレビューし、主要なデータセットや課題をまとめ、文書AIの今後の進展に向けたロードマップを提供する。 Comment
元ポスト:
multimodal RAGに関するSurvey
Table1は2024年以後の35本程度の手法、Table2は20+程度のベンチマークがまとまっており、基本的な概念なども解説されている模様。半数程度がtraining-free/OCRを利用する手法はそれぞれ五分五分程度なようで、Agenticな手法はあまり多くないようだ(3/35)。
[Paper Note] Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation, Kang Liao+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #Pocket #Dataset #LanguageModel #Supervised-FineTuning (SFT) #InstructionTuning #Evaluation #DiffusionModel #UMM #SpatialUnderstanding Issue Date: 2025-10-20 GPT Summary- カメラ中心の理解と生成を統合したマルチモーダルモデル「Puffin」を提案。Puffinは、言語回帰と拡散生成を組み合わせ、カメラを言語として扱う新しいアプローチを採用。400万の視覚-言語-カメラのデータセット「Puffin-4M」で訓練され、空間的な視覚的手がかりを考慮した推論を実現。実験結果では、専門モデルを上回る性能を示し、指示チューニングにより多様なタスクに対応可能。研究成果はコードやデータセットと共に公開予定。 Comment
元ポスト:
[Paper Note] Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training, Junlin Han+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#ComputerVision #Analysis #Pretraining #Pocket #NLP #Dataset #LanguageModel #Evaluation #Reasoning #read-later #DataMixture #VisionLanguageModel Issue Date: 2025-10-15 GPT Summary- 大規模言語モデル(LLMs)は、テキストのみで訓練されながらも視覚的先入観を発展させ、少量のマルチモーダルデータで視覚タスクを実行可能にする。視覚的先入観は、言語の事前訓練中に獲得された知識であり、推論中心のデータから発展する。知覚の先入観は広範なコーパスから得られ、視覚エンコーダーに敏感である。視覚を意識したLLMの事前訓練のためのデータ中心のレシピを提案し、500,000 GPU時間をかけた実験に基づく完全なMLLM構築パイプラインを示す。これにより、視覚的先入観を育成する新しい方法を提供し、次世代のマルチモーダルLLMの発展に寄与する。 Comment
元ポスト:
MLE Bench (Multi-Level Existence Bench)
[Paper Note] Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs, Yumin Choi+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #Prompting #AutomaticPromptEngineering Issue Date: 2025-10-14 GPT Summary- マルチモーダルプロンプト最適化(MPO)を提案し、テキストと非テキストのプロンプトを共同最適化する新たなアプローチを示す。MPOは、ベイズに基づく選択戦略を用いて候補プロンプトを選定し、画像や動画など多様なモダリティにおいてテキスト専用手法を上回る性能を発揮。これにより、MLLMsの潜在能力を最大限に引き出す重要なステップを確立。 Comment
元ポスト:
[Paper Note] Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models, Sharut Gupta+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Pretraining #MachineLearning #Pocket #UMM #One-Line Notes Issue Date: 2025-10-10 GPT Summary- UML(Unpaired Multimodal Learner)を提案し、非ペアのマルチモーダルデータを活用して表現学習を強化する新しいトレーニングパラダイムを示す。異なるモダリティからの入力を交互に処理し、明示的なペアを必要とせずにクロスモーダル構造から利益を得る。実験により、テキスト、音声、画像などの非ペアデータを用いることで、単一モダルターゲットのパフォーマンスが向上することを確認。 Comment
pj page: https://unpaired-multimodal.github.io
モダリティ間で(モダリティごとのエンコーダとデコーダ以外の)パラメータを共有し(UMMs)、通常はpair-dataで学習するが、unpaired data(+self-supervised / 分類ヘッドを用いた(ここはしっかり読めてないので自信ない)supervised learning)で学習する。これによりダウンストリームタスクでの性能が向上する。
unpaired dataで学習するという点が革新的に見える。unpaired dataで学習する枠組みにより大量のデータを活用し表現を学習できる。また、ペアデータで学習することによりパラメータに埋め込める知識やスキルが(おそらく)限られていたが、より広範な知識やスキルを埋め込めるのでは、という印象がある。
元ポスト:
著者ポスト:
[Paper Note] Omni-Embed-Nemotron: A Unified Multimodal Retrieval Model for Text, Image, Audio, and Video, Mengyao Xu+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#RecommenderSystems #Embeddings #InformationRetrieval #Pocket #NLP #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-10-07 GPT Summary- 「Omni-Embed-Nemotron」は、複雑な情報ニーズに応えるための統一的なマルチモーダル検索埋め込みモデルです。従来のテキストベースのリトリーバーが視覚的に豊かなコンテンツに対応できない中、ColPaliの研究を基に、テキスト、画像、音声、動画を統合した検索を実現します。このモデルは、クロスモーダルおよびジョイントモーダル検索を可能にし、そのアーキテクチャと評価結果を通じて、検索の効果を実証しています。 Comment
元ポスト:
[Paper Note] Visual Instruction Bottleneck Tuning, Changdae Oh+, NeurIPS'25, 2025.05
Paper/Blog Link My Issue
#ComputerVision #MachineLearning #Pocket #NLP #LanguageModel #NeurIPS #PostTraining #OOD #Generalization Issue Date: 2025-10-05 GPT Summary- MLLMは未知のクエリに対して性能が低下するが、既存の改善策は多くのデータや計算コストを要する。本研究では、情報ボトルネック原理に基づき、MLLMの堅牢性を向上させるためのVittleを提案。45のデータセットでの実証実験により、VittleがMLLMの堅牢性を一貫して改善することを示した。 Comment
元ポスト:
[Paper Note] LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training, Xiang An+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #OpenWeight #OpenSource #VisionLanguageModel #One-Line Notes Issue Date: 2025-10-04 GPT Summary- LLaVA-OneVision-1.5は、計算コストと財政コストを削減しつつ最先端のパフォーマンスを実現する新しい大規模マルチモーダルモデルです。オープンで効率的なフレームワークを提供し、85Mの事前学習データセットと26Mの指示データセットを含む大規模キュレーションデータセットを構築しました。効率的なトレーニングフレームワークにより、限られた予算内でのトレーニングが可能となり、幅広い下流タスクで競争力のある性能を示しています。特に、LLaVA-OneVision-1.5-8Bは18のベンチマークでQwen2.5-VL-7Bを上回り、4Bモデルは全ての27のベンチマークでQwen2.5-VL-3Bを超えています。今後、LLaVA-OneVision-1.5-RLのリリースも予定されています。 Comment
元ポスト:
各種ベンチでQwen2.5-VL超え
pj page: https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5
ポイント解説:
[Paper Note] ModernVBERT: Towards Smaller Visual Document Retrievers, Paul Teiletche+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #Embeddings #InformationRetrieval #Pocket #NLP #SmallModel #Encoder Issue Date: 2025-10-03 GPT Summary- マルチモーダル埋め込みモデルは文書検索において効率的な代替手段として普及しているが、再利用アプローチが検索性能のボトルネックとなることがある。本研究では、視覚文書検索モデルを改善するための原則的なレシピを確立し、注意マスキングや画像解像度などが性能に影響を与える要因であることを示した。これに基づき、250Mパラメータのコンパクトな視覚-言語エンコーダーModernVBERTを開発し、文書検索タスクで大規模モデルを上回る性能を達成した。モデルとコードは公開されている。 Comment
元ポスト:
MIT Licence
HF:
https://huggingface.co/ModernVBERT
ポイント解説:
[Paper Note] Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model, Chunting Zhou+, ICLR'25, 2024.08
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #ICLR #read-later #Selected Papers/Blogs #UMM Issue Date: 2025-09-22 GPT Summary- Transfusionは、離散データと連続データに対してマルチモーダルモデルを訓練する手法で、言語モデリングの損失関数と拡散を組み合わせて単一のトランスフォーマーを訓練します。最大7Bパラメータのモデルを事前訓練し、ユニモーダルおよびクロスモーダルベンチマークで優れたスケーリングを示しました。モダリティ特有のエンコーディング層を導入することで性能を向上させ、7Bパラメータのモデルで画像とテキストを生成できることを実証しました。 Comment
openreview: https://openreview.net/forum?id=SI2hI0frk6
[Paper Note] Perception Encoder: The best visual embeddings are not at the output of the network, Daniel Bolya+, NeurIPS'25, 2025.04
Paper/Blog Link My Issue
#ComputerVision #Embeddings #Pocket #NLP #Dataset #NeurIPS #Encoder #SpatialUnderstanding Issue Date: 2025-09-22 GPT Summary- Perception Encoder(PE)は、画像と動画理解のための新しいビジョンエンコーダで、シンプルなビジョンと言語の学習を通じて訓練されています。従来の特定のタスクに依存せず、対照的なビジョンと言語の訓練だけで強力な埋め込みを生成します。埋め込みを引き出すために、言語アライメントと空間アライメントの2つの手法を導入。PEモデルは、ゼロショット画像・動画分類で高い性能を示し、Q&Aタスクや空間タスクでも最先端の結果を達成しました。モデルやデータセットは公開されています。 Comment
元ポスト:
解説:
[Paper Note] LMFusion: Adapting Pretrained Language Models for Multimodal Generation, Weijia Shi+, NeurIPS'25
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #NeurIPS #UMM Issue Date: 2025-09-19 GPT Summary- LMFusionは、テキストのみのLLMにマルチモーダル生成能力を付与するフレームワークで、テキストと画像の理解・生成を可能にします。既存のLlama-3の重みを活用し、画像処理のための並列トランスフォーマーモジュールを追加。各モダリティは独立して処理され、相互作用が可能です。実験により、LMFusionは画像理解を20%、生成を3.6%向上させ、Llama-3の言語能力を維持しつつ、効率的にマルチモーダルモデルを開発できることが示されました。 Comment
元ポスト:
先行研究:
- [Paper Note] Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model, Chunting Zhou+, ICLR'25, 2024.08
- [Paper Note] U-Net: Convolutional Networks for Biomedical Image Segmentation, Olaf Ronneberger+, MICCAI'15, 2015.05
[Paper Note] SWE-bench Multimodal: Do AI Systems Generalize to Visual Software Domains?, John Yang+, ICLR'25
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #LanguageModel #AIAgents #Evaluation #ICLR #SoftwareEngineering #VisionLanguageModel Issue Date: 2025-09-16 GPT Summary- 自律システムのバグ修正能力を評価するために、SWE-bench Mを提案。これは視覚要素を含むJavaScriptソフトウェアのタスクを対象とし、617のインスタンスを収集。従来のSWE-benchシステムが視覚的問題解決に苦労する中、SWE-agentは他のシステムを大きく上回り、12%のタスクを解決した。 Comment
openreview: https://openreview.net/forum?id=riTiq3i21b
[Paper Note] Why Do MLLMs Struggle with Spatial Understanding? A Systematic Analysis from Data to Architecture, Wanyue Zhang+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #Analysis #Pocket #LanguageModel #Architecture #SpatialUnderstanding Issue Date: 2025-09-12 GPT Summary- 空間理解はMLLMsにとって重要だが、依然として課題が多い。本研究では、単一視点、多視点、ビデオの3つのシナリオにおける空間理解を体系的に分析し、MulSeTというベンチマークを提案。トレーニングデータの増加はパフォーマンス向上に寄与するが、限界があることが示された。また、空間理解は視覚エンコーダの位置エンコーディングに依存しており、推論の注入を通じたアーキテクチャ改善の可能性を探る。これにより、MLLMsの限界を明らかにし、空間推論能力向上の新たな方向性を示唆している。 Comment
元ポスト:
[Paper Note] Reconstruction Alignment Improves Unified Multimodal Models, Ji Xie+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #Alignment #read-later #UMM Issue Date: 2025-09-11 GPT Summary- 統一多モーダルモデル(UMMs)のトレーニングは、スパースなキャプションに依存しており、視覚的詳細を見逃すことが多い。そこで、再構成アライメント(RecA)を導入し、視覚理解エンコーダの埋め込みを用いてキャプションなしで豊富な監視を提供。RecAはUMMを視覚理解埋め込みに条件付け、自己監視型の再構成損失で最適化し、生成と編集の忠実度を向上させる。27 GPU時間で、画像生成性能や編集ベンチマークを大幅に向上させ、効率的なポストトレーニング戦略としての地位を確立。 Comment
pj page: https://reconstruction-alignment.github.io
元ポスト:
ベンチマーク:
- [Paper Note] GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment, Dhruba Ghosh+, NeurIPS'23
- [Paper Note] ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment, Xiwei Hu+, arXiv'24
[Paper Note] UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning, Haoming Wang+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #ReinforcementLearning #AIAgents #Reasoning #ComputerUse #VisionLanguageModel Issue Date: 2025-09-05 GPT Summary- UI-TARS-2は、GUI用自律エージェントの新しいモデルで、データ生成、安定化されたマルチターンRL、ハイブリッドGUI環境を統合。実証評価では、前モデルを大幅に上回り、複数のベンチマークで高いスコアを達成。約60%の人間レベルのパフォーマンスを示し、長期的な情報探索タスクにも適応可能。トレーニングダイナミクスの分析が安定性と効率向上の洞察を提供し、実世界のシナリオへの一般化能力を強調。 Comment
関連:
- Introducing UI-TARS-1.5, ByteDance, 2025.04
元ポスト:
1.5をリリースしてから5ヶ月で大幅に性能を向上した模様
[Paper Note] R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning, Jie Jiang+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Pocket #NLP #LanguageModel #ReinforcementLearning #Reasoning #GRPO #VisionLanguageModel Issue Date: 2025-09-02 GPT Summary- R-4Bは、問題の複雑さに応じて思考を行うかどうかを適応的に判断する自動思考型のマルチモーダル大規模言語モデル(MLLM)である。思考能力と非思考能力を持たせ、バイモードポリシー最適化(BPO)を用いて思考プロセスの起動を精度良く判断する。訓練には多様なトピックのデータセットを使用し、実験結果はR-4Bが25のベンチマークで最先端のパフォーマンスを達成し、特に推論集約型タスクで低コストで高い性能を示したことを示している。 Comment
元ポスト:
VLMにthinking, non-thinkingを入力に応じて使い分けさせる手法
[Paper Note] OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation, Jianwen Jiang+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #Controllable #Pocket #NLP #LanguageModel #DiffusionModel Issue Date: 2025-08-29 GPT Summary- 「OmniHuman-1.5」は、物理的妥当性と意味的一貫性を兼ね備えたキャラクターアニメーションを生成するフレームワークである。マルチモーダル大規模言語モデルを活用し、音声、画像、テキストの共同意味を解釈することで、感情や意図に基づいた動作を生成。新しいマルチモーダルDiTアーキテクチャにより、異なるモダリティ間の対立を軽減し、リップシンク精度や動作の自然さで優れたパフォーマンスを達成。複雑なシナリオへの拡張性も示している。 Comment
pj page: https://omnihuman-lab.github.io/v1_5/
元ポスト:
promptによって状況や感情などの表現のコントロールが可能らしい
解説:
[Paper Note] Ovis2.5 Technical Report, Shiyin Lu+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #Reasoning #OpenWeight #CurriculumLearning #VideoGeneration/Understandings #VisionLanguageModel Issue Date: 2025-08-28 GPT Summary- Ovis2.5は、ネイティブ解像度の視覚認識とマルチモーダル推論を強化するために設計されたモデルで、画像を可変解像度で処理し、複雑な視覚コンテンツの詳細を保持します。推論時には反省を行う「思考モード」を提供し、精度向上を図ります。5段階のカリキュラムで訓練され、マルチモーダルデータの効率的な処理を実現。Ovis2.5-9BはOpenCompassで平均78.3を記録し、Ovis2-8Bに対して大幅な改善を示しました。Ovis2.5-2Bも73.9を達成し、リソース制約のあるデバイスに最適です。STEMベンチマークや複雑なチャート分析においても優れた性能を発揮しています。 Comment
元ポスト:
HF:
https://huggingface.co/AIDC-AI/Ovis2.5-9B
Apache2.0ライセンス
GLM-4.1V-9B-Thinkingと同等以上の性能な模様。
- [Paper Note] GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning, GLM-V Team+, arXiv'25
[Paper Note] VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search, Yiming Jia+, EMNLP'25
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #QuestionAnswering #SyntheticData #Reasoning #EMNLP #PostTraining #VisionLanguageModel Issue Date: 2025-08-21 GPT Summary- 本研究では、推論に焦点を当てたマルチモーダルデータセットの不足に対処するため、VisualWebInstructという新しいアプローチを提案。30,000のシード画像からGoogle画像検索を用いて700K以上のユニークなURLを収集し、約900KのQAペアを構築。ファインチューニングされたモデルは、Llava-OVで10-20ポイント、MAmmoTH-VLで5ポイントの性能向上を示し、最良モデルMAmmoTH-VL2は複数のベンチマークで最先端の性能を達成。これにより、Vision-Language Modelsの推論能力向上に寄与することが示された。 Comment
元ポスト:
pj page: https://tiger-ai-lab.github.io/VisualWebInstruct/
verified versionが公開:
https://huggingface.co/datasets/TIGER-Lab/VisualWebInstruct_Verified
ポスト:
[Paper Note] WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent, Xinyu Geng+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #LanguageModel #AIAgents #SyntheticData #Evaluation #VisionLanguageModel #DeepResearch Issue Date: 2025-08-14 GPT Summary- WebWatcherは、視覚と言語の推論能力を強化したマルチモーダルエージェントであり、情報探索の困難さに対処する。合成マルチモーダル軌跡を用いた効率的なトレーニングと強化学習により、深い推論能力を向上させる。新たに提案されたBrowseComp-VLベンチマークでの実験により、WebWatcherは複雑なVQAタスクで他のエージェントを大幅に上回る性能を示した。 Comment
元ポスト:
公式:
[Paper Note] MolmoAct: Action Reasoning Models that can Reason in Space, Jason Lee+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #SpeechProcessing #Reasoning #OpenWeight #VisionLanguageActionModel Issue Date: 2025-08-12 GPT Summary- アクション推論モデル(ARMs)であるMolmoActは、知覚、計画、制御を三段階のパイプラインで統合し、説明可能で操作可能な行動を実現。シミュレーションと実世界で高いパフォーマンスを示し、特にSimplerEnv Visual Matchingタスクで70.5%のゼロショット精度を達成。MolmoAct Datasetを公開し、トレーニングによりベースモデルのパフォーマンスを平均5.5%向上。全てのモデルの重みやデータセットを公開し、ARMsの構築に向けたオープンな設計図を提供。 Comment
`Action Reasoning Models (ARMs)`
元ポスト:
blog: https://allenai.org/blog/molmoact
関連:
- Molmo: A family of open state-of-the-art multimodal AI models, AI2, 2024.09
models:
-
https://huggingface.co/allenai/MolmoAct-7B-D-Pretrain-0812
-
https://huggingface.co/allenai/MolmoAct-7B-D-0812
datasets:
-
https://huggingface.co/datasets/allenai/MolmoAct-Dataset
-
https://huggingface.co/datasets/allenai/MolmoAct-Pretraining-Mixture
-
https://huggingface.co/datasets/allenai/MolmoAct-Midtraining-Mixture
データは公開されているが、コードが見当たらない?
チェックポイントとコードも公開された模様:
-
- https://github.com/allenai/MolmoAct
[Paper Note] StructVRM: Aligning Multimodal Reasoning with Structured and Verifiable Reward Models, Xiangxiang Zhang+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #ReinforcementLearning #SyntheticData #RLVR #VisionLanguageModel Issue Date: 2025-08-10 GPT Summary- StructVRMは、複雑な多質問推論タスクにおいて、部分的な正確性を評価するための構造化された検証可能な報酬モデルを導入。サブ質問レベルのフィードバックを提供し、微妙な部分的なクレジットスコアリングを可能にする。実験により、Seed-StructVRMが12のマルチモーダルベンチマークのうち6つで最先端のパフォーマンスを達成したことが示された。これは、複雑な推論におけるマルチモーダルモデルの能力向上に寄与する。 Comment
元ポスト:
複数のsub-questionが存在するような複雑な問題に対して、既存のRLVRにおける全体に対してbinary rewardを適用する方法は報酬が荒すぎるため、よりfine-grainedなverifiableな報酬を設計することで、学習を安定化し性能も向上
以下がverifierのサンプル
general purposeなreal worldに対するmultimodal reasoningシステムを作成するには高品質で多様なデータが必要なので、以下のようなパイプラインを用いて、学習データを合成している模様。後で読む。サマリが元ポストに記載されているので全体像をざっくり知りたい場合は参照のこと。
[Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #SpeechProcessing #OpenWeight #UMM Issue Date: 2025-07-26 GPT Summary- Ming-Omniは、画像、テキスト、音声、動画を処理できる統一マルチモーダルモデルで、音声生成と画像生成において優れた能力を示す。専用エンコーダを用いて異なるモダリティからトークンを抽出し、MoEアーキテクチャで処理することで、効率的にマルチモーダル入力を融合。音声デコーダと高品質な画像生成を統合し、コンテキストに応じたチャットやテキストから音声への変換、画像編集が可能。Ming-Omniは、GPT-4oに匹敵する初のオープンソースモデルであり、研究と開発を促進するためにコードとモデルの重みを公開。 Comment
元ポスト:
現在はv1.5も公開されておりさらに性能が向上している模様?
[Paper Note] Scaling Laws for Optimal Data Mixtures, Mustafa Shukor+, arXiv'25
Paper/Blog Link My Issue
#Pretraining #Pocket #NLP #LanguageModel #Scaling Laws #DataMixture #VisionLanguageModel Issue Date: 2025-07-18 GPT Summary- 本研究では、スケーリング法則を用いて任意のターゲットドメインに対する最適なデータ混合比率を決定する方法を提案。特定のドメイン重みベクトルを持つモデルの損失を正確に予測し、LLM、NMM、LVMの事前訓練における予測力を示す。少数の小規模な訓練実行でパラメータを推定し、高価な試行錯誤法に代わる原則的な選択肢を提供。
[Paper Note] Kimi-VL Technical Report, Kimi Team+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Reasoning #OpenWeight #VisionLanguageModel Issue Date: 2025-07-14 GPT Summary- Kimi-VLは、効率的なオープンソースのMixture-of-Expertsビジョン・ランゲージモデルであり、2.8Bパラメータの言語デコーダーを活性化して高度なマルチモーダル推論を実現。マルチターンエージェントタスクや大学レベルの画像・動画理解において優れた性能を示し、最先端のVLMと競争。128Kの拡張コンテキストウィンドウを持ち、長い入力を処理可能。Kimi-VL-Thinking-2506は、長期的推論能力を強化するために教師ありファインチューニングと強化学習を用いて開発され、堅牢な一般能力を獲得。コードは公開されている。 Comment
- [Paper Note] Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset, Ke Wang+, NeurIPS'24 Datasets and Benchmarks Track
での性能(Vision+テキストの数学の問題)。他の巨大なモデルと比べ2.8BのActivation paramsで高い性能を達成
その他のベンチマークでも高い性能を獲得
モデルのアーキテクチャ。MoonViT (Image Encoder, 1Dのpatchをinput, 様々な解像度のサポート, FlashAttention, SigLIP-SO-400Mを継続事前学習, RoPEを採用) + Linear Projector + MoE Language Decoderの構成
学習のパイプライン。ViTの事前学習ではSigLIP loss (contrastive lossの亜種)とcaption生成のcross-entropy lossを採用している。joint cooldown stageにおいては、高品質なQAデータを合成することで実験的に大幅に性能が向上することを確認したので、それを採用しているとのこと。optimizerは
- [Paper Note] Muon is Scalable for LLM Training, Jingyuan Liu+, arXiv'25
post-trainingにおけるRLでは以下の目的関数を用いており、RLVRを用いつつ、現在のポリシーモデルをreferenceとし更新をするような目的関数になっている。curriculum sampling, prioritize samplingをdifficulty labelに基づいて実施している。
[Paper Note] Perception-Aware Policy Optimization for Multimodal Reasoning, Zhenhailong Wang+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #ReinforcementLearning #Reasoning #On-Policy #VisionLanguageModel Issue Date: 2025-07-12 GPT Summary- 強化学習における検証可能な報酬(RLVR)は、LLMsに多段階推論能力を与えるが、マルチモーダル推論では最適な性能を発揮できない。視覚入力の認識が主なエラー原因であるため、知覚を意識したポリシー最適化(PAPO)を提案。PAPOはGRPOの拡張で、内部監視信号から学習し、追加のデータや外部報酬に依存しない。KLダイバージェンス項を導入し、マルチモーダルベンチマークで4.4%の改善、視覚依存タスクでは8.0%の改善を達成。知覚エラーも30.5%減少し、PAPOの効果を示す。研究は視覚に基づく推論を促進する新しいRLフレームワークの基盤を築く。 Comment
元ポスト:
VLMにおいて、画像をマスクした場合のポリシーモデルの出力と、画像をマスクしない場合のポリシーモデルの出力のKL Divergenceを最大化することで、画像の認知能力が向上し性能向上するよ、みたいな話な模様。
[Paper Note] VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks, Ziyan Jiang+, ICLR'25
Paper/Blog Link My Issue
#ComputerVision #Embeddings #Pocket #NLP #Dataset #Evaluation #ICLR #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-09 GPT Summary- 本研究では、ユニバーサルマルチモーダル埋め込みモデルの構築を目指し、二つの貢献を行った。第一に、MMEB(Massive Multimodal Embedding Benchmark)を提案し、36のデータセットを用いて分類や視覚的質問応答などのメタタスクを網羅した。第二に、VLM2Vecというコントラストトレーニングフレームワークを開発し、視覚-言語モデルを埋め込みモデルに変換する手法を示した。実験結果は、VLM2Vecが既存のモデルに対して10%から20%の性能向上を達成することを示し、VLMの強力な埋め込み能力を証明した。 Comment
openreview: https://openreview.net/forum?id=TE0KOzWYAF
[Paper Note] VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents, Rui Meng+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #Embeddings #InformationRetrieval #Pocket #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-09 GPT Summary- VLM2Vec-V2という統一フレームワークを提案し、テキスト、画像、動画、視覚文書を含む多様な視覚形式の埋め込みを学習。新たにMMEB-V2ベンチマークを導入し、動画検索や視覚文書検索など5つのタスクを追加。広範な実験により、VLM2Vec-V2は新タスクで強力なパフォーマンスを示し、従来の画像ベンチマークでも改善を達成。研究はマルチモーダル埋め込みモデルの一般化可能性に関する洞察を提供し、スケーラブルな表現学習の基盤を築く。 Comment
元ポスト:
Video Classification, Visual Document Retrievalなどのモダリティも含まれている。
[Paper Note] Energy-Based Transformers are Scalable Learners and Thinkers, Alexi Gladstone+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #MachineLearning #Pocket #NLP #LanguageModel #Transformer #Architecture #VideoGeneration/Understandings #VisionLanguageModel Issue Date: 2025-07-06 GPT Summary- エネルギーベースのトランスフォーマー(EBTs)を用いて、無監督学習から思考を学ぶモデルを提案。EBTsは、入力と候補予測の互換性を検証し、エネルギー最小化を通じて予測を行う。トレーニング中に従来のアプローチよりも高いスケーリング率を達成し、言語タスクでの性能を29%向上させ、画像のノイズ除去でも優れた結果を示す。EBTsは一般化能力が高く、モデルの学習能力と思考能力を向上させる新しいパラダイムである。 Comment
元ポスト:
Project Page: https://energy-based-transformers.github.io
First Authorの方による解説ポスト:
[Paper Note] GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning, GLM-V Team+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #Pretraining #Pocket #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #RLHF #Reasoning #LongSequence #mid-training #RewardHacking #PostTraining #CurriculumLearning #RLVR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-03 GPT Summary- 視覚言語モデルGLM-4.1V-Thinkingを発表し、推論中心のトレーニングフレームワークを開発。強力な視覚基盤モデルを構築し、カリキュラムサンプリングを用いた強化学習で多様なタスクの能力を向上。28のベンチマークで最先端のパフォーマンスを達成し、特に難しいタスクで競争力のある結果を示す。モデルはオープンソースとして公開。 Comment
元ポスト:
Qwen2.5-VLよりも性能が良いVLM
アーキテクチャはこちら。が、pretraining(データのフィルタリング, マルチモーダル→long context継続事前学習)->SFT(cold startへの対処, reasoning能力の獲得)->RL(RLVRとRLHFの併用によるパフォーマンス向上とAlignment, RewardHackingへの対処,curriculum sampling)など、全体の学習パイプラインの細かいテクニックの積み重ねで高い性能が獲得されていると考えられる。
[Paper Note] MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning, Yulun Jiang+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #LanguageModel #Evaluation Issue Date: 2025-07-02 GPT Summary- MARBLEという新しいマルチモーダル推論ベンチマークを提案し、MLLMsの複雑な推論能力を評価。MARBLEは、空間的・視覚的・物理的制約下での多段階計画を必要とするM-PortalとM-Cubeの2つのタスクから成る。現在のMLLMsは低いパフォーマンスを示し、視覚的入力からの情報抽出においても失敗が見られる。これにより、次世代モデルの推論能力向上が期待される。 Comment
元ポスト:
Portal2を使った新たなベンチマーク。筆者は昔このゲームを少しだけプレイしたことがあるが、普通に難しかった記憶がある😅
細かいが表中のGPT-o3は正しくはo3だと思われる。
時間がなくて全然しっかりと読めていないが、reasoning effortやthinkingモードはどのように設定して評価したのだろうか。
[Paper Note] SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning, Melanie Rieff+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #LanguageModel #Zero/Few/ManyShotPrompting #In-ContextLearning Issue Date: 2025-07-01 GPT Summary- マルチモーダルインコンテキスト学習(ICL)は医療分野での可能性があるが、十分に探求されていない。SMMILEという医療タスク向けの初のマルチモーダルICLベンチマークを導入し、111の問題を含む。15のMLLMの評価で、医療タスクにおけるICL能力が中程度から低いことが示された。ICLはSMMILEで平均8%、SMMILE++で9.4%の改善をもたらし、無関係な例がパフォーマンスを最大9.5%低下させることも確認。例の順序による最近性バイアスがパフォーマンス向上に寄与することも明らかになった。 Comment
元ポスト:
[Paper Note] Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations, Jiaming Han+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #Tokenizer Issue Date: 2025-06-24 GPT Summary- 本論文では、視覚理解と生成を統一するマルチモーダルフレームワークTarを提案。Text-Aligned Tokenizer(TA-Tok)を用いて画像を離散トークンに変換し、視覚とテキストを統一空間に統合。スケール適応型のエンコーディングとデコーディングを導入し、高忠実度の視覚出力を生成。迅速な自己回帰モデルと拡散ベースのモデルを用いたデトークナイザーを活用し、視覚理解と生成の改善を実現。実験結果では、Tarが既存手法と同等以上の性能を示し、効率的なトレーニングを達成。 Comment
元ポスト:
text modalityとvision modalityを共通の空間で表現する
Visual Understanding/Generationのベンチで全体的に高い性能を達成
[Paper Note] jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval, Michael Günther+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #Embeddings #Pocket #NLP #RepresentationLearning Issue Date: 2025-06-24 GPT Summary- 3.8億パラメータのマルチモーダル埋め込みモデル「jina-embeddings-v4」を提案。新しいアーキテクチャにより、クエリベースの情報検索やクロスモーダルの類似性検索を最適化。タスク特化型のLoRAアダプターを組み込み、視覚的に豊かなコンテンツの処理に優れた性能を発揮。新しいベンチマーク「Jina-VDR」も導入。 Comment
元ポスト:
[Paper Note] MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning, Yiqing Liang+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #RLVR #DataMixture Issue Date: 2025-06-05 GPT Summary- 検証可能な報酬を用いた強化学習(RLVR)をマルチモーダルLLMsに適用するためのポストトレーニングフレームワークを提案。異なる視覚と言語の問題を含むデータセットをキュレーションし、最適なデータ混合戦略を導入。実験により、提案した戦略がMLLMの推論能力を大幅に向上させることを示し、分布外ベンチマークで平均5.24%の精度向上を達成。 Comment
元ポスト:
マルチモーダルな設定でRLVRを適用すると、すべてのデータセットを学習に利用する場合より、特定のタスクのみのデータで学習した方が当該タスクでは性能が高くなったり(つまりデータが多ければ多いほど良いわけでは無い)、特定のデータをablationするとOODに対する予測性能が改善したりするなど、データ間で干渉が起きて敵対的になってしまうような現象が起きる。このことから、どのように適切にデータを混合できるか?という戦略の必要性が浮き彫りになり、モデルベースなMixture戦略(どうやらデータの混合分布から学習後の性能を予測するモデルな模様)の性能がuniformにmixするよりも高い性能を示した、みたいな話らしい。
[Paper Note] LaViDa: A Large Diffusion Language Model for Multimodal Understanding, Shufan Li+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #DiffusionModel Issue Date: 2025-05-24 GPT Summary- LaViDaは、離散拡散モデル(DM)を基にしたビジョン・ランゲージモデル(VLM)で、高速な推論と制御可能な生成を実現。新技術を取り入れ、マルチモーダルタスクにおいてAR VLMと競争力のある性能を達成。COCOキャプショニングで速度向上と性能改善を示し、AR VLMの強力な代替手段であることを証明。 Comment
元ポスト:
Diffusion Modelの波が来た
同程度のサイズのARモデルをoutperform [^1]
[^1]:ただし、これが本当にDiffusion Modelを使ったことによる恩恵なのかはまだ論文を読んでいないのでわからない。必要になったら読む。ただ、Physics of Language Modelのように、完全にコントロールされたデータで異なるアーキテクチャを比較しないとその辺はわからなそうではある。
AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents, Christopher Rawles+, ICLR'25
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #LanguageModel #Evaluation #ICLR #ComputerUse Issue Date: 2025-04-18 GPT Summary- 本研究では、116のプログラムタスクに対して報酬信号を提供する「AndroidWorld」という完全なAndroid環境を提案。これにより、自然言語で表現されたタスクを動的に構築し、現実的なベンチマークを実現。初期結果では、最良のエージェントが30.6%のタスクを完了し、さらなる研究の余地が示された。また、デスクトップWebエージェントのAndroid適応が効果薄であることが明らかになり、クロスプラットフォームエージェントの実現にはさらなる研究が必要であることが示唆された。タスクの変動がエージェントのパフォーマンスに影響を与えることも確認された。 Comment
Android環境でのPhone Useのベンチマーク
Qwen2.5-Omni Technical Report, Jin Xu+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #SpeechProcessing #OpenWeight #Video Issue Date: 2025-03-31 GPT Summary- マルチモーダルモデル「Qwen2.5-Omni」は、テキスト、画像、音声、動画を認識し、ストリーミング方式で自然な音声応答を生成する。音声と視覚エンコーダはブロック処理を用い、TMRoPEによる新しい位置埋め込みで音声と動画の同期を実現。Thinker-Talkerアーキテクチャにより、テキスト生成と音声出力を干渉なく行う。Qwen2.5-Omniは、エンドツーエンドで訓練され、音声指示に対する性能がテキスト入力と同等で、ストリーミングTalkerは既存手法を上回る自然さを持つ。 Comment
Qwen TeamによるマルチモーダルLLM。テキスト、画像、動画音声をinputとして受け取り、テキスト、音声をoutputする。
weight:
https://huggingface.co/collections/Qwen/qwen25-omni-67de1e5f0f9464dc6314b36e
Joint Modeling in Recommendations: A Survey, Xiangyu Zhao+, arXiv'25
Paper/Blog Link My Issue
#Multi #RecommenderSystems #NeuralNetwork #Survey #Pocket #MultitaskLearning Issue Date: 2025-03-03 GPT Summary- デジタル環境におけるDeep Recommender Systems(DRS)は、ユーザーの好みに基づくコンテンツ推薦に重要だが、従来の手法は単一のタスクやデータに依存し、複雑な好みを反映できない。これを克服するために、共同モデリングアプローチが必要であり、推薦の精度とカスタマイズを向上させる。本論文では、共同モデリングをマルチタスク、マルチシナリオ、マルチモーダル、マルチビヘイビアの4次元で定義し、最新の進展と研究の方向性を探る。最後に、将来の研究の道筋を示し、結論を述べる。 Comment
元ポスト:
Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search, Huanjin Yao+, NeurIPS'25
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #Supervised-FineTuning (SFT) #Reasoning #NeurIPS #VisionLanguageModel #TreeSearch Issue Date: 2024-12-31 GPT Summary- 本研究では、MLLMを用いて質問解決のための推論ステップを学習する新手法CoMCTSを提案。集団学習を活用し、複数モデルの知識で効果的な推論経路を探索。マルチモーダルデータセットMulberry-260kを構築し、モデルMulberryを訓練。実験により提案手法の優位性を確認。
Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models, Weixin Liang+, TMLR'25
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #NLP #LanguageModel #Transformer #SpeechProcessing #Architecture #TMLR #UMM Issue Date: 2024-11-12 GPT Summary- 大規模言語モデル(LLMs)のマルチモーダル処理を効率化するために、Mixture-of-Transformers(MoT)を提案。MoTは計算コストを削減し、モダリティごとにパラメータを分離して特化した処理を実現。Chameleon 7B設定では、55.8%のFLOPsで密なベースラインに匹敵する性能を示し、音声を含む場合も37.2%のFLOPsで同様の結果を達成。さらに、Transfusion設定では、7BのMoTモデルが密なベースラインの画像性能に対してFLOPsの3分の1で匹敵し、760Mのモデルは主要な画像生成指標で上回る結果を得た。MoTは実用的な利点も示し、画像品質を47.2%、テキスト品質を75.6%の経過時間で達成。
[Paper Note] MANTIS: Interleaved Multi-Image Instruction Tuning, Dongfu Jiang+, TMLR'24 Outstanding Certification, 2024.05
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Pocket #NLP #Dataset #InstructionTuning #TMLR #Selected Papers/Blogs #VisionLanguageModel #2D (Image) Issue Date: 2025-12-02 GPT Summary- Mantisモデルは、721Kの複数画像指示データを用いた指示調整により、複数画像の視覚言語タスクで最先端の性能を達成。特に、Idefics2-8Bを平均13ポイント上回り、一般化能力も示す。大規模な事前学習に依存せず、低コストの指示調整で複数画像能力を向上できることを示した。 Comment
openreview: https://openreview.net/forum?id=skLtdUVaJa
元ポスト:
[Paper Note] WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models, Hongliang He+, ACL'24, 2024.01
Paper/Blog Link My Issue
#Pocket #ACL #ComputerUse #Selected Papers/Blogs #VisionLanguageModel #KeyPoint Notes Issue Date: 2025-11-25 GPT Summary- WebVoyagerは、実際のウェブサイトと対話しユーザーの指示をエンドツーエンドで完了できる大規模マルチモーダルモデルを搭載したウェブエージェントである。新たに設立したベンチマークで59.1%のタスク成功率を達成し、GPT-4やテキストのみのWebVoyagerを上回る性能を示した。提案された自動評価指標は人間の判断と85.3%一致し、ウェブエージェントの信頼性を高める。 Comment
日本語解説: https://blog.shikoan.com/web-voyager/
スクリーンショットを入力にHTMLの各要素に対してnumeric labelをoverlayし(Figure2)、VLMにタスクを完了するためのアクションを出力させる手法。アクションはFigure7のシステムプロンプトに書かれている通り。
たとえば、VLMの出力として"Click [2]" が得られたら GPT-4-Act GPT-4V-Act, ddupont808, 2023.10
と呼ばれるSoM [Paper Note] Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V, Jianwei Yang+, arXiv'23, 2023.10
をベースにWebUIに対してマウス/キーボードでinteractできるモジュールを用いることで、[2]とマーキングされたHTML要素を同定しClick操作を実現する。
[Paper Note] Many-Shot In-Context Learning in Multimodal Foundation Models, Yixing Jiang+, arXiv'24, 2024.05
Paper/Blog Link My Issue
#ComputerVision #Analysis #Pocket #NLP #Zero/Few/ManyShotPrompting #In-ContextLearning #VisionLanguageModel Issue Date: 2025-10-27 GPT Summary- 本研究では、マルチモーダル基盤モデルの少数ショットから多数ショットのインコンテキスト学習(ICL)の性能を評価し、2,000のデモンストレーション例を用いることで、すべてのデータセットにおいて大幅な改善を観察しました。特に、Gemini 1.5 Proは多くのデータセットで対数的に性能が向上し、オープンウェイトモデルはデモンストレーション例からの恩恵を受けないことが明らかになりました。また、複数のクエリをバッチ処理することで、ゼロショットおよび多数ショットICLの性能が向上し、コストとレイテンシが削減されました。最終的に、GPT-4oとGemini 1.5 Proは類似のゼロショット性能を示しつつ、Gemini 1.5 Proはより早く学習することが確認されました。多数ショットICLは新しいアプリケーションへの適応を効率化する可能性を示唆しています。 Comment
元ポスト:
[Paper Note] Aria: An Open Multimodal Native Mixture-of-Experts Model, Dongxu Li+, arXiv'24, 2024.10
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #OpenWeight #MoE(Mixture-of-Experts) #VisionLanguageModel Issue Date: 2025-10-07 GPT Summary- Ariaは、オープンなマルチモーダルネイティブAIモデルであり、視覚とテキストのタスクにおいて高い性能を発揮します。3.9Bの視覚トークンと3.5Bのテキストトークンを持つエキスパートの混合モデルで、既存のプロプライエタリモデルを上回ります。言語理解やマルチモーダル理解を強化する4段階のパイプラインで事前トレーニングされ、モデルウェイトとコードベースはオープンソースとして提供されます。 Comment
元ポスト:
HF: https://huggingface.co/rhymes-ai/Aria
提案された当時2024年10月時点で、VisionとText Understanding双方でに強い初めてのモデルで、初のマルチモーダルMoEモデルで(当時まだ話題になっていなかったDeepSeek-V2アーキテクチャを採用)、LongVideoのUnderstanidinpで当時の最高性能であったとのこと。
A Comprehensive Survey of Hallucination in Large Language, Image, Video and Audio Foundation Models, Sahoo+, EMNLP'24 Findings
Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #Hallucination Issue Date: 2025-09-24 GPT Summary- 基盤モデル(FMs)の多様なドメインにおける進展は顕著だが、特に高リスクなアプリケーションでは幻覚的な出力が問題となる。本調査論文は、テキスト、画像、動画、音声におけるFMsの幻覚の問題を特定し、軽減策の最近の進展をまとめる。幻覚の定義、分類、検出戦略を含むフレームワークを提供し、今後の研究と開発の基盤を築くことを目指す。 Comment
[Paper Note] InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks, Zhe Chen+, CVPR'24
Paper/Blog Link My Issue
#ComputerVision #Pretraining #Pocket #FoundationModel #CVPR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-08-23 GPT Summary- 大規模視覚-言語基盤モデル(InternVL)は、60億パラメータで設計され、LLMと整合させるためにウェブ規模の画像-テキストデータを使用。視覚認知タスクやゼロショット分類、検索など32のベンチマークで最先端の性能を達成し、マルチモーダル対話システムの構築に寄与。ViT-22Bの代替として強力な視覚能力を持つ。コードとモデルは公開されている。 Comment
既存のResNetのようなSupervised pretrainingに基づくモデル、CLIPのようなcontrastive pretrainingに基づくモデルに対して、text encoder部分をLLMに置き換えて、contrastive learningとgenerativeタスクによる学習を組み合わせたパラダイムを提案。
InternVLのアーキテクチャは下記で、3 stageの学習で構成される。最初にimage text pairをcontrastive learningし学習し、続いてモデルのパラメータはfreezeしimage text retrievalタスク等でモダリティ間の変換を担う最終的にQlLlama(multilingual性能を高めたllama)をvision-languageモダリティを繋ぐミドルウェアのように捉え、Vicunaをテキストデコーダとして接続してgenerative cossで学習する、みたいなアーキテクチャの模様(斜め読みなので少し違う可能性あり
現在のVLMの主流であるvision encoderとLLMをadapterで接続する方式はここからかなりシンプルになっていることが伺える。
[Paper Note] CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark, David Romero+, arXiv'24
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #QuestionAnswering #Evaluation #MultiLingual #VisionLanguageModel #Cultural Issue Date: 2025-08-18 GPT Summary- CVQAは、文化的に多様な多言語のVisual Question Answeringベンチマークで、30か国からの画像と質問を含み、31の言語と13のスクリプトをカバー。データ収集にはネイティブスピーカーを関与させ、合計10,000の質問を提供。マルチモーダル大規模言語モデルをベンチマークし、文化的能力とバイアスを評価するための新たな基準を示す。
[Paper Note] MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI, Xiang Yue+, CVPR'24
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #Evaluation #Reasoning #CVPR Issue Date: 2025-08-09 GPT Summary- MMMUは、大学レベルの専門知識と意図的な推論を必要とするマルチモーダルモデルの評価のための新しいベンチマークで、11,500のマルチモーダル質問を含む。6つの主要分野をカバーし、30種類の画像タイプを使用。既存のベンチマークと異なり、専門家が直面するタスクに類似した課題を提供。GPT-4VとGeminiの評価では、56%と59%の精度にとどまり、改善の余地があることを示す。MMMUは次世代のマルチモーダル基盤モデルの構築に寄与することが期待されている。 Comment
MMMUのリリースから20ヶ月経過したが、いまだに人間のエキスパートのアンサンブルには及ばないとのこと
MMMUのサンプルはこちら。各分野ごとに専門家レベルの知識と推論が求められるとのこと。
[Paper Note] OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems, Chaoqun He+, ACL'24
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #LanguageModel #Evaluation #ACL Issue Date: 2025-01-06 GPT Summary- 大規模言語モデル(LLMs)やマルチモーダルモデル(LMMs)の能力を測定するために、オリンピアドレベルのバイリンガルマルチモーダル科学ベンチマーク「OlympiadBench」を提案。8,476の数学と物理の問題を含み、専門家レベルの注釈が付けられている。トップモデルのGPT-4Vは平均17.97%のスコアを達成したが、物理では10.74%にとどまり、ベンチマークの厳しさを示す。一般的な問題として幻覚や論理的誤謬が指摘され、今後のAGI研究に貴重なリソースとなることが期待される。
Multimodal Autoregressive Pre-training of Large Vision Encoders, Enrico Fini+, arXiv'24
Paper/Blog Link My Issue
#ComputerVision #Pretraining #Pocket #NLP #LanguageModel Issue Date: 2024-11-25 GPT Summary- 新しい手法AIMV2を用いて、大規模なビジョンエンコーダの事前学習を行う。これは画像とテキストを組み合わせたマルチモーダル設定に拡張され、シンプルな事前学習プロセスと優れた性能を特徴とする。AIMV2-3BエンコーダはImageNet-1kで89.5%の精度を達成し、マルチモーダル画像理解において最先端のコントラストモデルを上回る。
MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs, Sheng-Chieh Lin+, arXiv'24
Paper/Blog Link My Issue
#RecommenderSystems #InformationRetrieval #Pocket Issue Date: 2024-11-08 GPT Summary- 本論文では、マルチモーダル大規模言語モデル(MLLM)を用いた「ユニバーサルマルチモーダル検索」の技術を提案し、複数のモダリティと検索タスクに対応する能力を示します。10のデータセットと16の検索タスクでの実験により、MLLMリトリーバーはテキストと画像のクエリを理解できるが、モダリティバイアスによりクロスモーダル検索では劣ることが判明。これを解決するために、モダリティ認識ハードネガティブマイニングを提案し、継続的なファインチューニングでテキスト検索能力を向上させました。結果として、MM-EmbedモデルはM-BEIRベンチマークで最先端の性能を達成し、NV-Embed-v1を上回りました。また、ゼロショットリランキングを通じて、複雑なクエリに対するマルチモーダル検索の改善が可能であることを示しました。これらの成果は、今後のユニバーサルマルチモーダル検索の発展に寄与するものです。 Comment
MM-LLMs: Recent Advances in MultiModal Large Language Models, Duzhen Zhang+, N_A, ACL'24 Findings
Paper/Blog Link My Issue
#Survey #Pocket #LanguageModel #ACL #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2024-01-25 GPT Summary- MM-LLMsは、コスト効果の高いトレーニング戦略を用いて拡張され、多様なMMタスクに対応する能力を持つことが示されている。本論文では、MM-LLMsのアーキテクチャ、トレーニング手法、ベンチマークのパフォーマンスなどについて調査し、その進歩に貢献することを目指している。 Comment
以下、論文を斜め読みしながら、ChatGPTを通じて疑問点を解消しつつ理解した内容なので、理解が不十分な点が含まれている可能性があるので注意。
# 概要
まあざっくり言うと、マルチモーダルを理解できるLLMを作りたかったら、様々なモダリティをエンコーディングして得られる表現と、既存のLLMが内部的に処理可能な表現を対応づける Input Projectorという名の関数を学習すればいいだけだよ(モダリティのエンコーダ、LLMは事前学習されたものをそのままfreezeして使えば良い)。
マルチモーダルを生成できるLLMを作りたかったら、LLMがテキストを生成するだけでなく、様々なモダリティに対応する表現も追加で出力するようにして、その出力を各モダリティを生成できるモデルに入力できるように変換するOutput Projectortという名の関数を学習しようね、ということだと思われる。
## ポイント
- Modality Encoder, LLM Backbone、およびModality Generatorは一般的にはパラメータをfreezeする
- optimizationの対象は「Input/Output Projector」
## Modality Encoder
様々なモダリティI_Xを、特徴量F_Xに変換する。これはまあ、色々なモデルがある。
## Input Projector
モダリティI_Xとそれに対応するテキストtのデータ {I_X, t}が与えられたとき、テキストtを埋め込み表現に変換んした結果得られる特徴量がF_Tである。Input Projectorは、F_XをLLMのinputとして利用する際に最適な特徴量P_Xに変換するθX_Tを学習することである。これは、LLM(P_X, F_T)によってテキストtがどれだけ生成できたか、を表現する損失関数を最小化することによって学習される。
## LLM Backbone
LLMによってテキスト列tと、各モダリティに対応した表現であるS_Xを生成する。outputからt, S_Xをどのように区別するかはモデルの構造などにもよるが、たとえば異なるヘッドを用意して、t, S_Xを区別するといったことは可能であろうと思われる。
## Output Projector
S_XをModality Generatorが解釈可能な特徴量H_Xに変換する関数のことである。これは学習しなければならない。
H_XとModality Generatorのtextual encoderにtを入力した際に得られる表現τX(t)が近くなるようにOutput Projector θ_T_Xを学習する。これによって、S_XとModality Generatorがalignするようにする。
## Modality Generator
各ModalityをH_Xから生成できるように下記のような損失学習する。要は、生成されたモダリティデータ(または表現)が実際のデータにどれだけ近いか、を表しているらしい。具体的には、サンプリングによって得られたノイズと、モデルが推定したノイズの値がどれだけ近いかを測る、みたいなことをしているらしい。
Multi Modalを理解するモデルだけであれば、Input Projectorの損失のみが学習され、生成までするのであれば、Input/Output Projector, Modality Generatorそれぞれに示した損失関数を通じてパラメータが学習される。あと、P_XやらS_Xはいわゆるsoft-promptingみたいなものであると考えられる。
Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action, Jiasen Lu+, N_A, CVPR'24
Paper/Blog Link My Issue
#ComputerVision #Pretraining #Pocket #NLP #Transformer #InstructionTuning #SpeechProcessing #CVPR #Selected Papers/Blogs #Encoder-Decoder #Robotics #UMM #EmbodiedAI Issue Date: 2023-12-29 GPT Summary- Unified-IO 2は、最初の自己回帰型のマルチモーダルモデルであり、画像、テキスト、音声、アクションを理解し生成することができます。異なるモダリティを統一するために、共有の意味空間に入力と出力を配置し、単一のエンコーダ・デコーダトランスフォーマーモデルで処理します。さまざまなアーキテクチャの改善を提案し、大規模なマルチモーダルな事前トレーニングコーパスを使用してモデルをトレーニングします。Unified-IO 2は、GRITベンチマークを含む35以上のベンチマークで最先端のパフォーマンスを発揮します。 Comment
画像、テキスト、音声、アクションを理解できる初めてのautoregressive model。AllenAI
モデルのアーキテクチャ図
マルチモーダルに拡張したことで、訓練が非常に不安定になったため、アーキテクチャ上でいくつかの工夫を加えている:
- 2D Rotary Embedding
- Positional EncodingとしてRoPEを採用
- 画像のような2次元データのモダリティの場合はRoPEを2次元に拡張する。具体的には、位置(i, j)のトークンについては、Q, Kのembeddingを半分に分割して、それぞれに対して独立にi, jのRoPE Embeddingを適用することでi, j双方の情報を組み込む。
- QK Normalization
- image, audioのモダリティを組み込むことでMHAのlogitsが非常に大きくなりatteetion weightが0/1の極端な値をとるようになり訓練の不安定さにつながった。このため、dot product attentionを適用する前にLayerNormを組み込んだ。
- Scaled Cosine Attention
- Image Historyモダリティにおいて固定長のEmbeddingを得るためにPerceiver Resamplerを扱ったているが、こちらも上記と同様にAttentionのlogitsが極端に大きくなったため、cosine類似度をベースとしたScaled Cosine Attention [Paper Note] Swin Transformer V2: Scaling Up Capacity and Resolution, Ze Liu+, arXiv'21
を利用することで、大幅に訓練の安定性が改善された。
- その他
- attention logitsにはfp32を適用
- 事前学習されたViTとASTを同時に更新すると不安定につながったため、事前学習の段階ではfreezeし、instruction tuningの最後にfinetuningを実施
目的関数としては、Mixture of Denoisers (UL2: Unifying Language Learning Paradigms, Yi Tay+, N/A, ICLR'23
)に着想を得て、Multimodal Mixture of Denoisersを提案。MoDでは、
- \[R\]: 通常のspan corruption (1--5 token程度のspanをmaskする)
- \[S\]: causal language modeling (inputを2つのサブシーケンスに分割し、前方から後方を予測する。前方部分はBi-directionalでも可)
- \[X\]: extreme span corruption (12>=token程度のspanをmaskする)
の3種類が提案されており、モダリティごとにこれらを使い分ける:
- text modality: UL2 (UL2: Unifying Language Learning Paradigms, Yi Tay+, N/A, ICLR'23
)を踏襲
- image, audioがtargetの場合: 2つの類似したパラダイムを定義し利用
- \[R\]: patchをランダムにx%マスクしre-constructする
- \[S\]: inputのtargetとは異なるモダリティのみの情報から、targetモダリティを生成する
訓練時には prefixとしてmodality token \[Text\], \[Image\], \[Audio\] とparadigm token \[R\], \[S\], \[X\] をタスクを指示するトークンとして利用している。
また、image, audioのマスク部分のdenoisingをautoregressive modelで実施する際には普通にやるとdecoder側でリークが発生する(a)。これを防ぐには、Encoder側でマスクされているトークンを、Decoder側でteacher-forcingする際にの全てマスクする方法(b)があるが、この場合、生成タスクとdenoisingタスクが相互に干渉してしまいうまく学習できなくなってしまう(生成タスクでは通常Decoderのinputとして[mask]が入力され次トークンを生成する、といったことは起きえないが、愚直に(b)をやるとそうなってしまう)。ので、(c)に示したように、マスクされているトークンをinputとして生成しなければならない時だけ、マスクを解除してdecoder側にinputする、という方法 (Dynamic Masking) でこの問題に対処している。
AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head, AAAI'24
Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #SpeechProcessing #AAAI Issue Date: 2023-04-26 GPT Summary- AudioGPTは、複雑な音声情報を処理し、音声対話をサポートするマルチモーダルAIシステムである。基盤モデルとASR、TTSインターフェースを組み合わせ、音声、音楽、トーキングヘッドの理解と生成を行う。実験により、AudioGPTが多様なオーディオコンテンツの創造を容易にする能力を示した。 Comment
text, audio, imageといったマルチモーダルなpromptから、audioに関する様々なタスクを実現できるシステム
マルチモーダルデータをjointで学習したというわけではなく、色々なモデルの組み合わせてタスクを実現しているっぽい
[Paper Note] Adding Conditional Control to Text-to-Image Diffusion Models, Lvmin Zhang+, arXiv'23
Paper/Blog Link My Issue
#ComputerVision #Controllable #Pocket #NLP #TextToImageGeneration Issue Date: 2025-08-07 GPT Summary- ControlNetは、テキストから画像への拡散モデルに空間的な条件制御を追加するためのニューラルネットワークアーキテクチャであり、事前学習済みのエンコーディング層を再利用して多様な条件制御を学習します。ゼロ畳み込みを用いてパラメータを徐々に増加させ、有害なノイズの影響を軽減します。Stable Diffusionを用いて様々な条件制御をテストし、小規模および大規模データセットに対して堅牢性を示しました。ControlNetは画像拡散モデルの制御における広範な応用の可能性を示唆しています。 Comment
ControlNet論文
[Paper Note] Sigmoid Loss for Language Image Pre-Training, Xiaohua Zhai+, ICCV'23
Paper/Blog Link My Issue
#ComputerVision #Pretraining #Pocket #LanguageModel #Selected Papers/Blogs #ICCV Issue Date: 2025-06-29 GPT Summary- シンプルなペアワイズシグモイド損失(SigLIP)を提案し、画像-テキストペアに基づく言語-画像事前学習を改善。シグモイド損失はバッチサイズの拡大を可能にし、小さなバッチサイズでも性能向上を実現。SigLiTモデルは84.5%のImageNetゼロショット精度を達成。バッチサイズの影響を研究し、32kが合理的なサイズであることを確認。モデルは公開され、さらなる研究の促進を期待。 Comment
SigLIP論文
[Paper Note] Magneto: A Foundation Transformer, Hongyu Wang+, ICML'23
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Transformer #SpeechProcessing #Architecture #ICML #Normalization #KeyPoint Notes Issue Date: 2025-04-19 GPT Summary- 言語、視覚、音声、マルチモーダルにおけるモデルアーキテクチャの収束が進む中、異なる実装の「Transformers」が使用されている。汎用モデリングのために、安定性を持つFoundation Transformerの開発が提唱され、Magnetoという新しいTransformer変種が紹介される。Sub-LayerNormと理論に基づく初期化戦略を用いることで、さまざまなアプリケーションにおいて優れたパフォーマンスと安定性を示した。 Comment
マルチモーダルなモデルなモデルの事前学習において、PostLNはvision encodingにおいてsub-optimalで、PreLNはtext encodingにおいてsub-optimalであることが先行研究で示されており、マルタモーダルを単一のアーキテクチャで、高性能、かつ学習の安定性な高く、try and error無しで適用できる基盤となるアーキテクチャが必要というモチベーションで提案された手法。具体的には、Sub-LayerNorm(Sub-LN)と呼ばれる、self attentionとFFN部分に追加のLayerNormを適用するアーキテクチャと、DeepNetを踏襲しLayer数が非常に大きい場合でも学習が安定するような重みの初期化方法を理論的に分析し提案している。
具体的には、Sub-LNの場合、LayerNormを
- SelfAttention計算におけるQKVを求めるためのinput Xのprojectionの前とAttentionの出力projectionの前
- FFNでの各Linear Layerの前
に適用し、
初期化をする際には、FFNのW, およびself-attentionのV_projと出力のout_projの初期化をγ(=sqrt(log(2N))によってスケーリングする方法を提案している模様。
関連:
- [Paper Note] DeepNet: Scaling Transformers to 1,000 Layers, Hongyu Wang+, arXiv'22
PaLI-3 Vision Language Models: Smaller, Faster, Stronger, Xi Chen+, arXiv'23
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #OpenWeight Issue Date: 2025-04-11 GPT Summary- PaLI-3は、従来のモデルに比べて10倍小型で高速な視覚言語モデル(VLM)であり、特にローカリゼーションや視覚的テキスト理解において優れた性能を示す。SigLIPベースのPaLIは、20億パラメータにスケールアップされ、多言語クロスモーダル検索で新たな最先端を達成。50億パラメータのPaLI-3は、VLMの研究を再燃させることを期待されている。 Comment
OpenReview:
https://openreview.net/forum?id=JpyWPfzu0b
実験的に素晴らしい性能が実現されていることは認められつつも
- 比較対象がSigLIPのみでより広範な比較実験と分析が必要なこと
- BackboneモデルをContrastive Learningすること自体の有用性は既に知られており、新規性に乏しいこと
としてICLR'24にRejectされている
UL2: Unifying Language Learning Paradigms, Yi Tay+, N_A, ICLR'23
Paper/Blog Link My Issue
#Pretraining #Pocket #NLP #LanguageModel #ICLR #Encoder #Encoder-Decoder #KeyPoint Notes Issue Date: 2024-09-26 GPT Summary- 本論文では、事前学習モデルの普遍的なフレームワークを提案し、事前学習の目的とアーキテクチャを分離。Mixture-of-Denoisers(MoD)を導入し、複数の事前学習目的の効果を示す。20Bパラメータのモデルは、50のNLPタスクでSOTAを達成し、ゼロショットやワンショット学習でも優れた結果を示す。UL2 20Bモデルは、FLAN指示チューニングにより高いパフォーマンスを発揮し、関連するチェックポイントを公開。 Comment
OpenReview: https://openreview.net/forum?id=6ruVLB727MC
encoder-decoder/decoder-onlyなど特定のアーキテクチャに依存しないアーキテクチャagnosticな事前学習手法であるMoDを提案。
MoDでは3種類のDenoiser [R] standard span corruption, [S] causal language modeling, [X] extreme span corruption の3種類のパラダイムを活用する。学習時には与えらえたタスクに対して適切なモードをスイッチできるようにparadigm token ([R], [S], [X])を与え挙動を変化させられるようにしており[^1]、finetuning時においては事前にタスクごとに定義をして与えるなどのことも可能。
[^1]: 事前学習中に具体的にどのようにモードをスイッチするのかはよくわからなかった。ランダムに変更するのだろうか。
SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction, Xinyuan Chen+, N_A, arXiv'23
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #GenerativeAI Issue Date: 2023-12-01 GPT Summary- 本研究では、ビデオ生成において連続した長いビデオを生成するためのジェネレーティブなトランジションと予測に焦点を当てたモデルSEINEを提案する。SEINEはテキストの説明に基づいてトランジションを生成し、一貫性と視覚的品質を確保した長いビデオを生成する。さらに、提案手法は他のタスクにも拡張可能であり、徹底的な実験によりその有効性が検証されている。 Comment
https://huggingface.co/spaces/Vchitect/SEINE
画像 + テキストpromptで、動画を生成するデモ
UniIR: Training and Benchmarking Universal Multimodal Information Retrievers, Cong Wei+, N_A, arXiv'23
Paper/Blog Link My Issue
#InformationRetrieval #Pocket #Dataset Issue Date: 2023-12-01 GPT Summary- 従来の情報検索モデルは一様な形式を前提としているため、異なる情報検索の要求に対応できない。そこで、UniIRという統一された指示に基づくマルチモーダルリトリーバーを提案する。UniIRは異なるリトリーバルタスクを処理できるように設計され、10のマルチモーダルIRデータセットでトレーニングされる。実験結果はUniIRの汎化能力を示し、M-BEIRというマルチモーダルリトリーバルベンチマークも構築された。 Comment
後で読む(画像は元ツイートより
元ツイート:
Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks, Bin Xiao+, N_A, arXiv'23
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #MultitaskLearning #FoundationModel Issue Date: 2023-11-13 GPT Summary- Florence-2は、ビジョン基盤モデルであり、さまざまなビジョンタスクに対応するための統一されたプロンプトベースの表現を持っています。このモデルは、テキストプロンプトを受け取り、キャプショニング、オブジェクト検出、グラウンディング、セグメンテーションなどのタスクを実行し、テキスト形式で結果を生成します。また、FLD-5Bという大規模な注釈付きデータセットも開発されました。Florence-2は、多目的かつ包括的なビジョンタスクを実行するためにシーケンスツーシーケンス構造を採用しており、前例のないゼロショットおよびファインチューニングの能力を持つ強力なモデルです。 Comment
Vison Foundation Model。Spatialな階層構造や、Semanticを捉えられるように訓練。Image/Prompt Encoderでエンコードされ、outputはtext + location informationとなる。
Exploring OCR Capabilities of GPT-4V(ision) : A Quantitative and In-depth Evaluation, Yongxin Shi+, N_A, arXiv'23
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #OCR Issue Date: 2023-10-26 GPT Summary- この論文では、GPT-4Vという大規模マルチモーダルモデルの光学文字認識(OCR)能力を評価します。さまざまなOCRタスクにおいてモデルのパフォーマンスを評価し、ラテン文字の認識と理解において優れた性能を示す一方、多言語や複雑なタスクには苦戦することがわかりました。これに基づいて、専門のOCRモデルの必要性やGPT-4Vを活用する戦略についても検討します。この研究は、将来のLMMを用いたOCRの研究に役立つものです。評価のパイプラインと結果は、GitHubで利用可能です。 Comment
GPT4-VをさまざまなOCRタスク「手書き、数式、テーブル構造認識等を含む)で性能検証した研究。
MLT19データセットを使った評価では、日本語の性能は非常に低く、英語とフランス語が性能高い。手書き文字認識では英語と中国語でのみ評価。
Meta-Transformer: A Unified Framework for Multimodal Learning, Yiyuan Zhang+, N_A, arXiv'23
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #SpokenLanguageProcessing #SpeechProcessing Issue Date: 2023-07-22 GPT Summary- 本研究では、マルチモーダル学習のためのMeta-Transformerというフレームワークを提案しています。このフレームワークは、異なるモダリティの情報を処理し関連付けるための統一されたネットワークを構築することを目指しています。Meta-Transformerは、対応のないデータを使用して12のモダリティ間で統一された学習を行うことができ、テキスト、画像、ポイントクラウド、音声、ビデオなどの基本的なパーセプションから、X線、赤外線、高分光、IMUなどの実用的なアプリケーション、グラフ、表形式、時系列などのデータマイニングまで、幅広いタスクを処理することができます。Meta-Transformerは、トランスフォーマーを用いた統一されたマルチモーダルインテリジェンスの開発に向けた有望な未来を示しています。 Comment
12種類のモダリティに対して学習できるTransformerを提案
Dataをsequenceにtokenizeし、unifiedにfeatureをencodingし、それぞれのdownstreamタスクで学習
MPCHAT: Towards Multimodal Persona-Grounded Conversation, ACL'23
Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Personalization #Conversation Issue Date: 2023-07-15 GPT Summary- 本研究では、テキストと画像の両方を使用してパーソナを拡張し、マルチモーダルな対話エージェントを構築するためのデータセットであるMPCHATを提案します。さらに、マルチモーダルパーソナを組み込むことで、応答予測、パーソナのグラウンディング予測、話者の識別といったタスクのパフォーマンスを統計的に有意に改善できることを示します。この研究は、マルチモーダルな対話理解においてマルチモーダルパーソナの重要性を強調し、MPCHATが高品質なリソースとして役立つことを示しています。
Learning to Imagine: Visually-Augmented Natural Language Generation, ACL'23
Paper/Blog Link My Issue
#ComputerVision #NaturalLanguageGeneration #NLP #DiffusionModel #TextToImageGeneration Issue Date: 2023-07-15 GPT Summary- 本研究では、視覚情報を活用した自然言語生成のためのLIVEという手法を提案しています。LIVEは、事前学習済み言語モデルを使用して、テキストに基づいて場面を想像し、高品質な画像を合成する方法です。また、CLIPを使用してテキストの想像力を評価し、段落ごとに画像を生成します。さまざまな実験により、LIVEの有効性が示されています。コード、モデル、データは公開されています。 Comment
>まず、テキストに基づいて場面を想像します。入力テキストに基づいて高品質な画像を合成するために拡散モデルを使用します。次に、CLIPを使用して、テキストが想像力を喚起できるかを事後的に判断します。最後に、私たちの想像力は動的であり、段落全体に1つの画像を生成するのではなく、各文に対して合成を行います。
興味深い
Generative Pretraining in Multimodality, Quan Sun+, N_A, arXiv'23
Paper/Blog Link My Issue
#ComputerVision #Pretraining #Pocket #NLP #Transformer Issue Date: 2023-07-12 GPT Summary- Emuは、マルチモーダルなコンテキストで画像とテキストを生成するためのTransformerベースのモデルです。このモデルは、単一モダリティまたはマルチモーダルなデータ入力を受け入れることができます。Emuは、マルチモーダルなシーケンスでトレーニングされ、画像からテキストへのタスクやテキストから画像へのタスクなど、さまざまなタスクで優れたパフォーマンスを示します。また、マルチモーダルアシスタントなどの拡張機能もサポートしています。
EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone, Shraman Pramanick+, N_A, arXiv'23
Paper/Blog Link My Issue
#ComputerVision #Pretraining #Pocket #NLP Issue Date: 2023-07-12 GPT Summary- エゴセントリックビデオ言語の事前学習の第2世代(EgoVLPv2)は、ビデオと言語のバックボーンにクロスモーダルの融合を直接組み込むことができる。EgoVLPv2は強力なビデオテキスト表現を学習し、柔軟かつ効率的な方法でさまざまなダウンストリームタスクをサポートする。さらに、提案されたバックボーン戦略は軽量で計算効率が高い。EgoVLPv2は幅広いVLタスクで最先端のパフォーマンスを達成している。詳細はhttps://shramanpramanick.github.io/EgoVLPv2/を参照。
SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs, Lijun Yu+, N_A, arXiv'23
Paper/Blog Link My Issue
#ComputerVision #LanguageModel #QuestionAnswering Issue Date: 2023-07-11 GPT Summary- この研究では、Semantic Pyramid AutoEncoder(SPAE)を使用して、凍結されたLLMsが非言語的なモダリティを含むタスクを実行できるようにします。SPAEは、LLMの語彙から抽出されたトークンと生のピクセルデータの変換を行います。生成されたトークンは、視覚再構成に必要な意味と詳細を捉え、LLMが理解できる言語に変換します。実験結果では、我々のアプローチが画像理解と生成のタスクにおいて最先端のパフォーマンスを25%以上上回ることを示しています。 Comment
画像をLLMのtokenスペースにマッピングすることで、LLMがパラメータの更新なしにvisual taskを解くことを可能にした。in context learningによって、様々なvisuataskを解くことができる。
Towards Language Models That Can See: Computer Vision Through the LENS of Natural Language, William Berrios+, N_A, arXiv'23
Paper/Blog Link My Issue
#ComputerVision #LanguageModel #QuestionAnswering Issue Date: 2023-06-30 GPT Summary- 私たちは、LENSというモジュラーなアプローチを提案しています。このアプローチでは、大規模言語モデル(LLMs)を使用してコンピュータビジョンの問題に取り組みます。LENSは、独立したビジョンモジュールの出力に対して言語モデルを使用して推論を行います。私たちは、ゼロショットおよびフューショットのオブジェクト認識などのコンピュータビジョンの設定でLENSを評価しました。LENSは市販のLLMに適用でき、非常に競争力のあるパフォーマンスを発揮します。コードはオープンソースで提供されています。 Comment
参考:
AudioPaLM: A Large Language Model That Can Speak and Listen, Paul K. Rubenstein+, N_A, arXiv'23
Paper/Blog Link My Issue
#NLP #LanguageModel #SpeechProcessing Issue Date: 2023-06-26 GPT Summary- 本研究では、音声理解と生成のためのマルチモーダルアーキテクチャであるAudioPaLMを紹介する。AudioPaLMは、テキストと音声を処理および生成することができ、PaLM-2とAudioLMを統合している。テキストのみの大規模言語モデルの重みを使用してAudioPaLMを初期化することで、音声処理を改善し、多くの言語に対してゼロショット音声対テキスト翻訳を実行する能力を持つことができることを示す。また、AudioPaLMは、音声言語モデルの機能も示している。 Comment
参考:
AVIS: Autonomous Visual Information Seeking with Large Language Models, Ziniu Hu+, N_A, arXiv'23
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #QuestionAnswering Issue Date: 2023-06-16 GPT Summary- 本論文では、自律的な情報収集ビジュアル質問応答フレームワークであるAVISを提案する。AVISは、大規模言語モデル(LLM)を活用して外部ツールの利用戦略を動的に決定し、質問に対する回答に必要な不可欠な知識を獲得する。ユーザースタディを実施して収集したデータを用いて、プランナーや推論エンジンを改善し、知識集約型ビジュアル質問応答ベンチマークで最先端の結果を達成することを示している。 Comment
Learning Multimodal Data Augmentation in Feature Space, ICLR'23
Paper/Blog Link My Issue
#MachineLearning #DataAugmentation Issue Date: 2023-04-26 GPT Summary- マルチモーダルデータの共同学習能力は、インテリジェントシステムの特徴であるが、データ拡張の成功は単一モーダルのタスクに限定されている。本研究では、LeMDAという方法を提案し、モダリティのアイデンティティや関係に制約を設けずにマルチモーダルデータを共同拡張することができることを示した。LeMDAはマルチモーダルディープラーニングの性能を向上させ、幅広いアプリケーションで最先端の結果を達成することができる。 Comment
Data Augmentationは基本的に単体のモダリティに閉じて行われるが、
マルチモーダルな設定において、モダリティ同士がどう関係しているか、どの変換を利用すべきかわからない時に、どのようにデータ全体のsemantic structureを維持しながら、Data Augmentationできるか?という話らしい
[Paper Note] Perceiver IO: A General Architecture for Structured Inputs & Outputs, Andrew Jaegle+, ICLR'22
Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #MachineLearning #Pocket #NLP #MultitaskLearning #SpeechProcessing #ICLR Issue Date: 2025-07-10 GPT Summary- 汎用アーキテクチャPerceiver IOを提案し、任意のデータ設定に対応し、入力と出力のサイズに対して線形にスケール可能。柔軟なクエリメカニズムを追加し、タスク特有の設計を不要に。自然言語、視覚理解、マルチタスクで強力な結果を示し、GLUEベンチマークでBERTを上回る性能を達成。 Comment
当時相当話題となったさまざまなモーダルを統一された枠組みで扱えるPerceiver IO論文
LAION-5B: An open large-scale dataset for training next generation image-text models, Christoph Schuhmann+, NeurIPS'22
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #CLIP #NeurIPS Issue Date: 2025-05-06 GPT Summary- LAION-5Bは、5.85億のCLIPフィルタリングされた画像-テキストペアから成る大規模データセットで、英語のペアが2.32B含まれています。このデータセットは、CLIPやGLIDEなどのモデルの再現とファインチューニングに利用され、マルチモーダルモデルの研究を民主化します。また、データ探索やサブセット生成のためのインターフェースや、コンテンツ検出のためのスコアも提供されます。
ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision, Wonjae Kim+, N_A, ICML'21
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Pretraining #Pocket #NLP #LanguageModel #Transformer Issue Date: 2023-08-22 GPT Summary- VLP(Vision-and-Language Pre-training)のアプローチは、ビジョンと言語のタスクでのパフォーマンスを向上させているが、現在の方法は効率性と表現力の面で問題がある。そこで、本研究では畳み込みフリーのビジョンと言語のトランスフォーマ(ViLT)モデルを提案する。ViLTは高速でありながら競争力のあるパフォーマンスを示し、コードと事前学習済みの重みはGitHubで利用可能である。 Comment
Learning Transferable Visual Models From Natural Language Supervision, Radford+, OpenAI, ICML'21
Paper/Blog Link My Issue
#ComputerVision #NLP #ContrastiveLearning #ICML Issue Date: 2023-04-27 Comment
CLIP論文。大量の画像と画像に対応するテキストのペアから、対象学習を行い、画像とテキスト間のsimilarityをはかれるようにしたモデル
[Paper Note] Supervised Multimodal Bitransformers for Classifying Images and Text, Douwe Kiela+, arXiv'19
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Transformer #Architecture Issue Date: 2025-08-21 GPT Summary- テキストと画像情報を融合する監視型マルチモーダルビットランスフォーマーモデルを提案し、さまざまなマルチモーダル分類タスクで最先端の性能を達成。特に、難易度の高いテストセットでも強力なベースラインを上回る結果を得た。 Comment
テキスト+imageを用いるシンプルなtransformer
Waypoint-1: Real-time Interactive Video Diffusion from Overworld, Overworld, 2026.01
Paper/Blog Link My Issue
#Article #ComputerVision #Controllable #NLP #Transformer #DiffusionModel #OpenWeight #WorldModels #interactive #4D (Video) #One-Line Notes #RectifiedFlow #Realtime Issue Date: 2026-01-22 Comment
blog:
https://over.world/blog/the-path-to-real-time-worlds-and-why-it-matters
pj page:
https://over.world/
元ポスト:
リアルタイムにzero latencyでマウス(カメラも自由に動かせる)、キーボード、テキストでinteraction可能なworld model
ICLR 2026 Acceptance Prediction: Benchmarking Decision Process with A Multi-Agent System, Zhang+, 2026.01
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Dataset #LanguageModel #AIAgents #Evaluation #ScientificDiscovery #VisionLanguageModel #AcademicWriting #Live #One-Line Notes Issue Date: 2026-01-20 Comment
元ポスト:
conference paperのpeer reviewに関するベンチマーク。accept/rejectを予測する。papers, reviews, rebuttalsそしてfinal decisionsが紐づけられている。
Next generation medical image interpretation with MedGemma 1.5 and medical speech to text with MedASR, Google Research, 2026.01
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #SpeechProcessing #Blog #OpenWeight #AutomaticSpeechRecognition(ASR) #VisionLanguageModel #Medical Issue Date: 2026-01-14 Comment
元ポスト:
ポイント解説:
GLM-Image: Auto-regressive for Dense-knowledge and High-fidelity Image Generation, Z.ai, 2026.01
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #DiffusionModel #TextToImageGeneration #OpenWeight #Editing Issue Date: 2026-01-14 Comment
元ポスト:
Qwen3-VL-Embedding and Qwen3-VL-Reranker: For the Next Generation of Multimodal Retrieval, Qwen Team, 2026.1
Paper/Blog Link My Issue
#Article #Embeddings #NLP #RepresentationLearning #MultiLingual #read-later #Reranking Issue Date: 2026-01-09 Comment
元ポスト:
technical report: https://github.com/QwenLM/Qwen3-VL-Embedding/blob/main/assets/qwen3vlembedding_technical_report.pdf
ポイント解説:
🍫 Local Cocoa: Your Personal AI Assistant, Fully Local 💻, synvo-ai, 2026.01
Paper/Blog Link My Issue
#Article #ComputerVision #Tools #NLP #LanguageModel #AIAgents #Selected Papers/Blogs #ContextEngineering #memory Issue Date: 2026-01-09 Comment
元ポスト:
ByteDance Doubao-Seed-1.8 Review, toyama nao, Zhihu, 2025.12
Paper/Blog Link My Issue
#Article #NLP #AIAgents #Evaluation #Reasoning #Proprietary #VisionLanguageModel Issue Date: 2025-12-20 Comment
元ポスト:
[Paper Note] Pushing the Frontier of Audiovisual Perception with Large-Scale Multimodal Correspondence Learning, Meta, 2025.12
Paper/Blog Link My Issue
#Article #ComputerVision #Pocket #Library #SpeechProcessing #python #Encoder #2D (Image) #4D (Video) #audio Issue Date: 2025-12-19 Comment
元ポスト:
様々なモダリティ(画像・動画・音声等)をエンコードできるPerception Encoderに最近リリースされたSAM Audio (Audio-Visual / Audio-frame) も組み込まれた模様
code:
https://github.com/facebookresearch/perception_models
Molmo 2: State-of-the-art video understanding, pointing, and tracking, Ai2, 2025.12
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #SmallModel #OpenWeight #OpenSource #Selected Papers/Blogs #VideoGeneration/Understandings #VisionLanguageModel #2D (Image) #4D (Video) #KeyPoint Notes Issue Date: 2025-12-17 Comment
テクニカルレポート:
https://www.datocms-assets.com/64837/1765901660-molmo_v2_2026-techreport-3.pdf
HF:
https://huggingface.co/collections/allenai/molmo2
関連:
- Molmo: A family of open state-of-the-art multimodal AI models, AI2, 2024.09
Qwen3とOlmoをベースにしたvariantsが存在し、Olmoの方はバックボーンのLLMも含めて全てがオープンになっている。MetaのPerceptionLMと比較して1/8の動画データ量で高い性能を達成できており、データのcurationの品質と、grounding basedな目的関数の工夫によって実現されているとのこと。
proprietaryなモデル群と比較すると、trackingは圧勝、そのほかはGPT5-miniと同様なものが多い。モデルによってタスクの優劣が結構分かれており、Video関連タスクをタスクをまたいで汎化させることにはclosedでも苦戦しているように見える。
オープンモデルとの比較で言うと圧勝で、LongVideoのQAに関してだけは、Eagle2.5-8Bと呼ばれるモデルが勝っている。
あとは全体を通じてLLMのバックボーンがQwen3の場合の性能が良いことが興味深い。バックボーンに採用するLLMに応じて性能が結構変わる。これはアーキテクチャがそもそもConnectorを利用するタイプのもので、Unifiedなアーキテクチャではないことが要因としては考えられる。
元ポスト:
Introducing Mistral 3 The next generation of open multimodal and multilingual AI, Mistral AI, 2025.12
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Blog #MultiLingual #OpenWeight #VisionLanguageModel #One-Line Notes Issue Date: 2025-12-03 Comment
元ポスト:
マルチモーダルなベンチマークがほとんどないように見えるMM-MT-Benchというもののみ?
Awesome Spatial Intelligence in VLMs, mll-lab-nu, 2025.11
Paper/Blog Link My Issue
#Article #Survey #ComputerVision #NLP #Repository #VisionLanguageModel #SpatialUnderstanding Issue Date: 2025-11-18 Comment
元ポスト:
VLM, マルチモーダルなLLMにおけるSpatial Intelligenceに関する論文リスト
Native Multimodal Models: Architecture, Post-Training, and Evaluation, Ziwei Liu, 2025.10
Paper/Blog Link My Issue
#Article #Tutorial #ComputerVision #ICCV Issue Date: 2025-10-29 Comment
元ポスト:
Ming-flash-omni-Preview, inclusionAI, 2025.10
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #SpeechProcessing #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #TTS #Routing #UMM #Omni #Sparse #ImageSynthesis Issue Date: 2025-10-28 Comment
元ポスト:
過去一番多くのタグを付与した気がするが、果たして大規模、Omniモデルかつ、UMMにしたことによる恩恵(=様々なモダリティを統一された空間上に学習させる恩恵)はどの程度あるのだろうか?
アーキテクチャを見ると、モダリティごとに(モダリティ単位でのバイアスがかかった)Routerが用意されexpertにルーティングされるような構造になっている。
LMMs Engine, EvolvingLMMs-Lab, 2025.10
Paper/Blog Link My Issue
#Article #ComputerVision #MachineLearning #NLP #Repository #PostTraining #Selected Papers/Blogs #UMM #One-Line Notes Issue Date: 2025-10-27 Comment
元ポスト:
事前学習済みのLLM, VLM, dLM, DiffusionModelなどからUMMを学習できる事後学習フレームワーク。
LigerKernelでメモリ使用量を30%削減し、SparseAttentionもサポートし、Muon Optimizerもサポートしている。
Apriel-1.5-15b-Thinker, ServiceNow-AI, 2025.09
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Reasoning #SmallModel #OpenWeight #VisionLanguageModel Issue Date: 2025-10-01 Comment
元ポスト:
Artificial Analysisによるベンチマーキングでは現状<20BでSoTAなReasoningモデルな模様。
MIT License
公式ポスト:
Nvidiaによるポスト:
GLM-4.6: Advanced Agentic, Reasoning and Coding Capabilies, Zhipu AI, 2025.09
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #OpenWeight #MoE(Mixture-of-Experts) #read-later #VisionLanguageModel #One-Line Notes Issue Date: 2025-09-30 Comment
元ポスト:
続報:
Artificial Intelligenceによる評価:
OpenWeightモデルの中でトップレベルのベンチスコア
HFにてモデルが公開された模様。ベンチマークのスコアを見て思ったが、106BA12Bのモデルと9Bモデルのスコア差がベンチマークによっては小さいので、場合によってはSLMの方でtest time scacingを効かせた方が、時間的な制約がきつい場合は現実的には高い性能が出るのでは?
HunyuanImage-3.0, Tencent, 2025.09
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #OpenWeight #UMM #One-Line Notes Issue Date: 2025-09-29 Comment
元ポスト:
所見:
テキスト生成+画像理解・生成が可能なUnified Multimodal Models (UMMs)。テキストはtokenizer、画像は生成用エンコーダ、理解用エンコーダを用意してエンコードしDecoder-Only Tranformerに入力。auto-regressiveに生成し、テキストはDe-Tokenizerでテキスト化、画像の場合は専用のDecoderでデコードする。
Qwen3‑LiveTranslate: Real‑Time Multimodal Interpretation — See It, Hear It, Speak It!, Qwen Team, 2025.09
Paper/Blog Link My Issue
#Article #MachineTranslation #NLP #LanguageModel #Blog #Proprietary Issue Date: 2025-09-24 Comment
元ポスト:
Grok 4 Fast, xAI, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Reasoning #VisionLanguageModel Issue Date: 2025-09-21 Comment
ベンチマークに対する評価結果以外の情報はほぼ記述されていないように見える(RL使いました程度)
Artificial Analysisによる評価:
コスト性能比の所見:
Magistral-Small-2509, MistralAI, 2025.09
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #Reasoning #OpenWeight #VisionLanguageModel Issue Date: 2025-09-18 Comment
元ポスト:
granite-docling-258M, IBM, 2025.09
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #OpenWeight #DocParser #VisionLanguageModel Issue Date: 2025-09-18 Comment
元ポスト:
Apache 2.0, 言語は英語のみ
MiniCPM-V-4_5, openbmb, 2025.08
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #OpenWeight #VisionLanguageModel Issue Date: 2025-08-27 Comment
元ポスト:
GPT-5 System Card, OpenAI, 2025.08
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Proprietary #KeyPoint Notes #Reference Collection Issue Date: 2025-08-07 Comment
日本語性能。MMLUを専門の翻訳家を各言語に翻訳。
ざーっとシステムカードを見たが、ベンチマーク上では、Safetyをめっちゃ強化し、hallucinationが低減され、コーディング能力が向上した、みたいな印象(小並感)
longContextの性能が非常に向上しているらしい
-
-
gpt-ossではAttentionSinkが使われていたが、GPT-5では使われているだろうか?もし使われているならlong contextの性能向上に寄与していると思われる。
50% time horizonもscaling lawsに則り進展:
-
- Measuring AI Ability to Complete Long Tasks, Thomas Kwa+, arXiv'25, 2025.03
個別のベンチが数%向上、もしくはcomparableです、ではもはやどれくらい進展したのかわからない(が、個々の能力が交互作用して最終的な出力がされると考えるとシナジーによって全体の性能は大幅に底上げされる可能性がある)からこの指標を見るのが良いのかも知れない
METR's Autonomy Evaluation Resources
-
https://metr.github.io/autonomy-evals-guide/gpt-5-report/
-
HLEに対するツール利用でのスコアの比較に対する所見:
Document Understandingでの評価をしたところOutput tokenが大幅に増えている:
GPT5 Prompting Guide:
https://cookbook.openai.com/examples/gpt-5/gpt-5_prompting_guide
GPT-5: Key characteristics, pricing and model card
-
https://simonwillison.net/2025/Aug/7/gpt-5/
-
システムカード中のSWE Bench Verifiedの評価結果は、全500サンプルのうちの477サンプルでしか実施されておらず、単純にスコアを比較することができないことに注意。実行されなかった23サンプルをFailedとみなすと(実行しなかったものを正しく成功できたとはみなせない)、スコアは減少する。同じ477サンプル間で評価されたモデル間であれば比較可能だが、500サンプルで評価された他のモデルとの比較はできない。
-
- SWE Bench リーダーボード: https://www.swebench.com
まとめ:
所見:
-
-
OpenHandsでの評価:
SWE Bench Verifiedの性能は71.8%。全部の500サンプルで評価した結果だと思うので公式の発表より低めではある。
AttentionSinkについて:
o3と比較してGPT5は約1/3の時間でポケモンレッド版で8個のバッジを獲得した模様:
より温かみのあるようなalignmentが実施された模様:
GPT5はlong contextになるとmarkdownよりめxmlの方が適していると公式ドキュメントに記載があるらしい:
Smallow LLM Leaderboard v2での性能:
GPT5の性能が際立って良く、続いてQwen3, gptossも性能が良い。
Wan2.2, Alibaba Wan, 2025.07
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #OpenWeight #MoE(Mixture-of-Experts) #VideoGeneration/Understandings Issue Date: 2025-07-29 Comment
元ポスト:
初のMoEによるOpen WeightなVideo generationモデルで、直接的に明るさや、カラー、カメラの動きなどを制御でき、text to video, image to video, unified video generationをサポートしている模様
テクニカルペーパー:
https://arxiv.org/abs/2503.20314
ERNIE 4.5 Series, ERNIE TEAM, 2025.06
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #OpenWeight #MoE(Mixture-of-Experts) Issue Date: 2025-06-30 Comment
Tech Report: https://yiyan.baidu.com/blog/publication/ERNIE_Technical_Report.pdf
元ポスト:
解説ポスト:
Kimi-VL-A3B-Thinking-2506, moonshotai, 2025.06
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #Reasoning #OpenWeight Issue Date: 2025-06-24 Comment
元ポスト:
様々なベンチマークでSoTA(gpt4o, Qwen2.5-VL-7B)を達成したReasoning VLM
テクニカルペーパー:
- [Paper Note] Kimi-VL Technical Report, Kimi Team+, arXiv'25
Webスケールの日本語-画像のインターリーブデータセット「MOMIJI」の構築 _巨大テキストデータをAWSで高速に処理するパイプライン, Turing (studio_graph), 2025.05
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Dataset #LanguageModel #AWS #Blog #Japanese Issue Date: 2025-05-20 Comment
貴重なVLMデータセット構築ノウハウ
青塗りのフィルタリングタスクを具体的にどうやっているのか気になる
Introducing UI-TARS-1.5, ByteDance, 2025.04
Paper/Blog Link My Issue
#Article #ComputerVision #Pocket #NLP #LanguageModel #AIAgents #Blog #Reasoning #OpenWeight #ComputerUse #VisionLanguageModel Issue Date: 2025-04-18 GPT Summary- UI-TARSは、スクリーンショットを入力として人間のようにインタラクションを行うネイティブGUIエージェントモデルであり、従来の商業モデルに依存せず、エンドツーエンドで優れた性能を発揮します。実験では、10以上のベンチマークでSOTA性能を達成し、特にOSWorldやAndroidWorldで他のモデルを上回るスコアを記録しました。UI-TARSは、強化された知覚、統一アクションモデリング、システム-2推論、反射的オンライントレースによる反復トレーニングなどの革新を取り入れ、最小限の人間の介入で適応し続ける能力を持っています。 Comment
paper: https://arxiv.org/abs/2501.12326
色々と書いてあるが、ざっくり言うとByteDanceによる、ImageとTextをinputとして受け取り、TextをoutputするマルチモーダルLLMによるComputer Use Agent (CUA)
関連
- OpenAI API での Computer use の使い方, npaka, 2025.03
元ポスト:
Llama 4 Series, Meta, 2025.04
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #OpenWeight #Reference Collection Issue Date: 2025-04-05 Comment
Huggingface:
https://huggingface.co/collections/meta-llama/llama-4-67f0c30d9fe03840bc9d0164
解説ポスト:
Artificial Analysisによる性能検証:
MaverickがGPT4oと同等、ScoutがGPT4o-miniと同等
Update:
性能に関して不可解な点が多そうなので様子見をしても良いかも。
性能検証(Math-Perturb):
日本語にあまり強くないという情報も
元ポスト:
どうやらvLLMのLlama4のinferenceにバグがあったやうで、vLLMのIssue 16311にて、Llama4のinferenceに関するバグが修正され、性能が向上した模様。どのベンチを信じたら良いかまるでわからん。
2025.0413現在のchatbot arenaのランクは、32位となり(chatbot arena向けにtuningされていたであろうモデルは2位だった)GPT-4oが29位であることを考慮すると上記のArtificial Intelligenceの評価とも大体一致している。
https://lmarena.ai
関連ポスト:
Qwen2.5-VL-32B-Instruct, Qwen Team, 2025.03
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #OpenWeight Issue Date: 2025-03-25 Comment
元ポスト:
Nemotron-H: A Family of Accurate, Efficient Hybrid Mamba-Transformer Models, Nvidia, 2025.03
Paper/Blog Link My Issue
#Article #ComputerVision #EfficiencyImprovement #Pretraining #NLP #LanguageModel #Transformer #Supervised-FineTuning (SFT) #Blog #SSM (StateSpaceModel) #Selected Papers/Blogs Issue Date: 2025-03-24 Comment
関連:
- Hunyuan T1, Tencent, 2025.03
TransformerのSelf-attention LayerをMamba2 Layerに置換することで、様々なベンチマークで同等の性能、あるいは上回る性能で3倍程度のInference timeの高速化をしている(65536 input, 1024 output)。
56B程度のmediumサイズのモデルと、8B程度の軽量なモデルについて述べられている。特に、8BモデルでMambaとTransformerのハイブリッドモデルと、通常のTransformerモデルを比較している。学習データに15 Trillion Tokenを利用しており、このデータ量でのApple to Appleのアーキテクチャ間の比較は、現状では最も大規模なものとのこと。性能は多くのベンチマークでハイブリッドにしても同等、Commonsense Understandingでは上回っている。
また、学習したNemotron-Hをバックボーンモデルとして持つVLMについてもモデルのアーキテクチャが述べられている。
SmolDocling-256M, IBM Research, 2025.03
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #OpenWeight Issue Date: 2025-03-18 Comment
Apache-2.0ライセンス。言語はEnglishのみな模様
マルチモーダルなImage-To-Textモデル。サンプルはこちら
ERNIE4.5_X1, Baidu, 2025.03
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #Proprietary Issue Date: 2025-03-17 Comment
解説ポスト:
- ERNIE4.5はGPT4.5をさまざまなベンチマークで上回り、価格がなんとGPT4.5の1%
- X1はマルチモーダルなreasoningモデルでDeepSeek-R1と同等の性能で半額
らしい
このモデルは6月30日にオープン(ウェイト?)になるとスレッドで述べられている。
sarashina2-vision-{8b, 14b}, SB Intuitions, 2025.03
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #OpenWeight #VisionLanguageModel #KeyPoint Notes Issue Date: 2025-03-17 Comment
元ポスト:
VLM。Xに散見される試行例を見ると日本語の読み取り性能は結構高そうに見える。
モデル構成、学習の詳細、および評価:
LLM(sarashina2), Vision Encoder(Qwen2-VL), Projectorの3つで構成されており、3段階の学習を踏んでいる。
最初のステップでは、キャプションデータを用いてProjectorのみを学習しVision Encoderとテキストを対応づける。続いて、日本語を含む画像や日本特有の風景などをうまく扱えるように、これらを多く活用したデータ(内製日本語OCRデータ、図表キャプションデータ)を用いて、Vision EncoderとProjectorを学習。最後にLLMのAlignmentをとるために、プロジェクターとLLMを前段のデータに加えてVQAデータ(内製合成データを含む)や日本語の指示チューニングデータを用いて学習。
ProjectorやMMLLMを具体的にどのように学習するかは
- MM-LLMs: Recent Advances in MultiModal Large Language Models, Duzhen Zhang+, N/A, ACL'24 Findings
を参照のこと。
Janus-Series: Unified Multimodal Understanding and Generation Models, DeepSeek, 2025.01
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #OpenWeight #UMM Issue Date: 2025-01-28 Comment
DeepSeekによる新たなUMM、Janus-Proが本日リリース。MIT License
Janus-Proのパフォーマンス。
github上でのパフォーマンスの図解から引用。マルチモーダル(テキスト+画像)の理解に関するベンチマークでLLaVA超え。GenEval, DPG Benchと呼ばれる画像生成ベンチマークでDALL-E 3超え。
テクニカルレポート中での詳細から引用。どのベンチマークでも基本的に最高性能なように見える。
テクニカルレポート:
https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf
ベンチマーク:
- [Paper Note] GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment, Dhruba Ghosh+, NeurIPS'23
- [Paper Note] ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment, Xiwei Hu+, arXiv'24
Introducing Amazon Nova, our new generation of foundation models, AWS, 2024.12
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #FoundationModel #MultiLingual Issue Date: 2024-12-04 Comment
参考: https://qiita.com/ysit/items/8433d149dbaab702d526
後で個々のベンチマークとメトリックをまとめたい。
まあでもざっくり言うと、他のproprietaryモデルともおおむね同等の性能です、という感じに見える。個々のタスクレベルで見ると、得意なものと不得意なものはありそうではある。
スループットとかも、ProとGPT4oをパッと見で比較した感じ、優れているわけでもなさそう。Liteに対応するGPTはおそらくGPT4o-miniだと思われるが、スループットはLiteの方が高そう。
(画像は論文中からスクショし引用)
下記ポストは独自に評価した結果や、コストと性能のバランスについて言及している。
- ProはGPT4oのコストの約1/3
- Pro, Lite, Flashはほれぞれコストパフォーマンスに非常に優れている(Quality vs. Price参照)
元ポスト:
Molmo: A family of open state-of-the-art multimodal AI models, AI2, 2024.09
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #OpenWeight #OpenSource #VisionLanguageModel Issue Date: 2024-09-27 Comment
以下がベンチマーク結果(VLMのベンチマーク)。11 benchmarksと書かれているのは、VLMのベンチマークである点に注意。
Grok-1.5 Vision Preview, 2024
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel Issue Date: 2024-04-14 Comment
multimodal-maestro
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Library #Prompting #AutomaticPromptEngineering Issue Date: 2023-12-01 Comment
Large Multimodal Model (LMM)において、雑なpromptを与えるても自動的に良い感じoutputを生成してくれるっぽい?
以下の例はリポジトリからの引用であるが、この例では、"Find dog." という雑なpromptから、画像中央に位置する犬に[9]というラベルを与えました、というresponseを得られている。pipelineとしては、Visual Promptに対してまずSAMを用いてイメージのsegmentationを行い、各セグメントにラベルを振る。このラベルが振られた画像と、"Find dog." という雑なpromptを与えるだけで良い感じに処理をしてくれるようだ。
LaVie: Text-to-Video generation, demo
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #GenerativeAI Issue Date: 2023-12-01 Comment
デモのデフォルトで試してみたら、3秒ほどのprompt通りの動画が生成された。
FF14の赤魔導士に変えたら、それっぽいの出てきた
tsuzumi, NTT’23
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #FoundationModel #Blog Issue Date: 2023-11-01 Comment
NTT製のLLM。パラメータ数は7Bと軽量だが高性能。
MTBenchのようなGPT4に勝敗を判定させるベンチマークで、地理、歴史、政治、社会に関する質問応答タスク(図6)でgpt3.5turboと同等、国産LLMの中でトップの性能。GPT3.5turboには、コーディングや数学などの能力では劣るとのこと。
> *6 Rakudaベンチマーク
日本語の言語モデルの性能を評価するベンチマークの一つで、日本の地理・政治・歴史・社会に関する質問応答タスクによって評価を行う。
URL:
https://yuzuai.jp/benchmark
>*7 Japanese Vicuna QAベンチマーク
Rakudaよりもさらに幅広いカテゴリで言語モデルのQAや指示遂行の能力を問う評価方法。一般知識、ロールプレイなど多数の質問から構成される。
URL:
https://github.com/hitoshizuku7/LLM_Judge_ku/blob/main/README.md
tsuzumiはアダプタを追加することで、モデル全体のパラメータを更新することなく、さまざまな知識を持たせたり、振る舞いを変えたりできるようになるとのこと(LoRAアダプタのようなものだと思われる)。
まて、将来的に視覚や聴覚などのマルチモーダル対応も実施。
思想がLoRA Hub LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA Composition, Chengsong Huang+, N/A, COLM'24 に近く、アダプタを着脱すれば柔軟に生成を変えられるのは有用だと思う。
OpenAI、ChatGPTが画像を分析する『GPT-4V(ビジョン)』を発表。安全性、嗜好性、福祉機能を強化, AIDB, 2023.09
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #ChatGPT Issue Date: 2023-09-30 Comment
おう…やべえな…
Awesome Multimodal LLMs
Paper/Blog Link My Issue
#Article #Survey #ComputerVision #NLP #LanguageModel #SpeechProcessing Issue Date: 2023-07-03 Comment
マルチモーダルなLLMのリストがまとめられている