2D (Image)
[Paper Note] VidEoMT: Your ViT is Secretly Also a Video Segmentation Model, Narges Norouzi+, CVPR'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Transformer #ImageSegmentation #CVPR #read-later #Selected Papers/Blogs #Encoder #4D (Video) #Initial Impression Notes Issue Date: 2026-02-28 GPT Summary- VidEoMTは、専用の追跡モジュールなしで動画セグメンテーションを実現するエンコーダーのみのモデルである。軽量なクエリ伝搬機構を導入し、前フレームの情報を活用することで、フレーム間の連携を図る。時系列に依存しない学習済みクエリと融合により、利益を生み出しつつ追加の複雑さを回避し、最大160 FPSで競争力のある精度を達成した。 Comment
元ポスト:
他タスクでも色々使えそうなアーキテクチャに見える
[Paper Note] CaptionQA: Is Your Caption as Useful as the Image Itself?, Shijia Yang+, CVPR'26, 2025.11
Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Evaluation #MultiModal #CVPR #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes #Initial Impression Notes #ImageToTextGeneration Issue Date: 2026-02-26 GPT Summary- 画像キャプションはマルチモーダルシステムにおける視覚コンテンツの代理表現として機能するが、キャプションが実際のタスクで画像の代わりになり得るかを評価する必要がある。そこで、新たにユーティリティベースのベンチマークCaptionQAを提案し、キャプションの質を下流タスクへの支援度で測定する。CaptionQAは四つのドメインにわたり、33,027件の詳細な多肢選択問題を提供し、キャプションが視覚情報を必要とする質問に対応する力を検証する。LLMによる評価により、キャプションの有用性が画像よりも最大32%低下することが確認され、CaptionQAはオープンソースとして公開される。 Comment
元ポスト:
興味深い研究。MLLMの性能をCaption生成を通じて評価している。
良いCaptionであればdownstream taskに活用した際により良い性能が得られるという仮定の元[^1]、MLLMの性能をAnswer=LLM(Question, Caption)で判断する。AnswerはMultiple Choice Questionであり、Cannot Answerなども含まれる。よりQAに対して適切に回答できるCaptionを生成できたMLLMが優れているというutility-basedな評価となっている。
MLLMに対してCaptionを生成する際は、Questionに関する情報は与えずに、画像の情報のみでCaptionを生成する(ように見える)。セクション9に記述されている通り、4種類のバリエーションのpromptを用いる(long, short, simple, taxonomy hinted)。
skim readingしかできていないのだが、脚注1に記述した通り、モデルによって実画像がgivenな状態とCaptionのみで評価した場合でgapの出方に差がある点と、そもそも到達しているスコアの絶対値の対比が出せる点が個人的に興味深い。これにより特定のMLLMが、画像とテキスト、どちらの情報を"理解"するのに優れているのか、あるいは理解した情報に基づいて"生成"するのに優れているのかも間接的に評価できるのではないかと感じる。たとえばGPT-5は他モデルと比べて双方の能力秀でているが、Gemini-2.5-Proは画像を考慮することは得意だが、画像からテキストを生成する能力は少し劣ることがGPT-5とのgapの差から伺える。GLM4.1-VやLLaVAなどは画像理解は得意だが、画像から重要な情報を生成する能力は大きく低いことがわかる。
同じdownstreamタスクを通じてgapを測定でき、かつ単にベンチマークのスコアという以上の一段深い情報が得られる点がこれまでと異なりおもしろいと感じる。
[^1]:実際、セクション5を見ると実際の画像を与えた場合とCaptionのみの場合で評価した場合でgapがあることが示されており、Captionが画像中のdownstream taskに対してrelevantな情報を完全に保持していないことが示唆される。また、モデルに応じてgapが異なっており、モデルによってCaption生成能力が大きく異なることが示唆される。
この評価のパラダイムは一段抽象化をすると、特定のモダリティの情報に対する理解力と、異なるモダリティに変換して生成する能力をdownstreamタスクを通じて観測することになり、Captionの場合は画像-テキスト間だが、他にも動画-テキスト、音声-テキスト、あるいはそれらの逆など、Omniモーダルなモデルの評価やUMMの評価に使えそうな話だな、と思うなどした。
[Paper Note] Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following, Tianyi Xiong+, CVPR'26, 2025.11
Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Evaluation #MultiModal #CVPR #VisionLanguageModel Issue Date: 2026-02-24 GPT Summary- Multi-Critは、大規模マルチモーダルモデル(LMMs)の評価能力を測定するためのベンチマークであり、複数基準への適合性や判断信頼性を評価する。厳格なデータキュレーションを通じて収集された応答ペアは、オープンエンド生成と検証可能な推論タスクを含む。分析の結果、商用およびオープンソースモデルは多様な基準への適合に課題があり、ファインチューニングが視覚的根拠づけを高めるが、多元的基準判断に至らないことがわかった。Multi-Critは、信頼できるマルチモーダルAI評価の基盤を構築する。 Comment
元ポスト:
[Paper Note] REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents, Zheng Chu+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#GraphBased #NLP #Search #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SyntheticData #MultiModal #mid-training #PostTraining #VisionLanguageModel #KeyPoint Notes #LongHorizon #Environment Issue Date: 2026-02-18 GPT Summary- REDSearcherは、大規模言語モデルを用いた探索エージェント最適化のための統一フレームワークであり、複雑なタスクの合成や中間訓練を効率化する。具体的には、タスクの難易度を正確に制御し、ツール使用を促進。また、基本能力や知識の強化を通じて高品質な軌跡収集を低コスト化。迅速なアルゴリズム的反復が可能なシミュレート環境を構築し、テキスト・マルチモーダル両方のベンチマークで最先端性能を達成。高品質な探索軌跡やクエリセットを公開し、今後の研究を促進する。 Comment
pj page: https://redsearchagent.github.io/index/
元ポスト:
ざっくりとしか読めていないが、ポイントはQAを構築する際のreasoningngraphに基づく複雑度の管理と、5段階のverifierによる低品質なQAの除去にあるように見える。
QAを合成する際にQAに回答するためのreasoning graphをKGに基づいて構築し、QAに回答するための情報を網羅するための深さをQAの構造的な複雑さとし、また応答するための情報がソースにどれだけ分散しているか(1 documentにすべての情報が書かれていたらいくら構造が複雑でもone shotのexampleで応答できることになる)の両方を考慮してQAの複雑度を決定しているように見える。
また、合成されたQAから低品質なものや複雑でないめのをフィルタリングするために下記5段階のverificationを実施:
- ツールアクセス無しでLLMの世界知識のみで回答可能なものは除外
- search engine apiで検索をしtop 50に正解が出現しないものはevidenceが十分にsupportされていないとし除外
- QA合成中のKGのevidenace(KGのtripletと、キャッシュされたpassage)をLLM verifierに与え、回答と矛盾する場合は除外
- strong agentにN回rolloutを生成させ、1度も正解できなかったものは除外。またN回のうち何回正解できたかをconfidenceとして保持
- 正解rolloutを生成する過程において、strong agentによって回答がuniqueでないと判断されたものは除外する(厳密ではなくとも、曖昧なタスクを除外する効果を期待する)
上記はtext modalityのQAの合成の場合で、multi modal (image)の場合は、reasoning graphのノードの一部を画像に置換し、画像の中身を解釈した上で次のノードを検索するといった依存関係に変更することでimageを理解しないと応答不可なQAを合成するようである。
verificationについても、上記text onlyのverificationに加え、VLMに基づいたimage onlyのverification(imageだけで回答できるものは除外、imageがQuestionと関係なさすぎる場合は除外等)したり、text+imageをstrong agentに与えN回ロールアウトを実施し正解率を算出し、正解率が高すぎるQAを除外するといった処理を実施しているようである。
[Paper Note] Image Generation with a Sphere Encoder, Kaiyu Yue+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Transformer #Encoder #Encoder-Decoder #KeyPoint Notes #ImageSynthesis Issue Date: 2026-02-17 GPT Summary- Sphere Encoderは、1回のフォワードパスで画像を生成できる効率的な生成フレームワークです。球面潜在空間への均一な写像を行うエンコーダと、ランダムな潜在ベクトルを画像空間に変換するデコーダを学習し、画像再構成損失のみで訓練を行います。このアプローチにより、複数のデータセットにおいて最先端の拡散モデルに匹敵する性能を示しながら、推論コストを大幅に削減しています。 Comment
元ポスト:
画像を球面状(i.e., 3次元の)の潜在表現にエンコードするエンコーダと、エンコーダに摂動を加えた球面上の点からデコーダを通じて元画像を再構成するデコーダを学習することで、潜在表現から画像のピクセルを直接生成する枠組み。球面上の潜在表現から1回のforward pathで画像を構成するよっに学習するため高速に生成ができる。また、生成した画像をさらにエンコードしデコードすることで、追加のデノイジングstepを実施することができ、画像をより洗練させることができる。4ステップ程度でDiffusion Modelには及ばないものの(ImageNet 256*256でgFID 1.38--2.77)、gFID 4.02--4.76程度のスコア(GAN以上、ADM-Gと呼ばれるDiffusionモデルと同等程度)の画像を生成可能(Table3)という感じに見える。
loss functionはピクセル単位の再構成loss、ピクセルの一貫性に関するloss (i.e., 2つの摂動を加えた潜在表現vが類似した画像を生成するか)をL1_perception lossによって学習する(i.e., ピクセル同士の誤差をスムージングしながら直接測るlossと、既存の学習済み画像エンコーダの潜在表現上でのFeature MapのL1/2距離の組み合わせ)と、
潜在空間の一貫性に関するloss(i.e., 元の潜在表現と、潜在表現をデコード→エンコードした後得られる潜在表現のコサイン類似度)が用いられる式(7,8,9,10)。
[Paper Note] BitDance: Scaling Autoregressive Generative Models with Binary Tokens, Yuang Ai+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #NLP #Transformer #DiffusionModel #TextToImageGeneration #Decoding #read-later #ImageSynthesis Issue Date: 2026-02-17 GPT Summary- BitDanceは、バイナリ視覚トークンを予測する自己回帰型の画像生成モデルであり、高エントロピーのバイナリ潜在変数により最大2^{256}の状態を表現できます。バイナリ拡散ヘッドを採用し、標準の分類を超えたトークン生成を実現。次パッチ拡散技術により、複数トークンを高精度で並列予測し、推論速度を8.7倍向上させます。ImageNet 256x256では最高のFIDスコア1.24を達成し、1024x1024画像生成においては従来モデルと比較して30倍以上の速度向上を実現しています。コードとモデルは公開されています。 Comment
pj page: https://bitdance.csuhan.com/
元ポスト:
[Paper Note] Latent Forcing: Reordering the Diffusion Trajectory for Pixel-Space Image Generation, Alan Baade+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #Embeddings #Transformer #DiffusionModel #Architecture #ImageSynthesis #Pixel-based Issue Date: 2026-02-13 GPT Summary- 潜在拡散モデルは高品質な画像生成を実現するものの、エンドツーエンドの利点を失うことが課題であった。本研究では、ラテント強制(Latent Forcing)を提案し、ラテントとピクセルを別々のノイズスケジュールで共同処理することで、効率的に高周波ピクセル特徴を生成する。条件信号の順序が重要であることを発見し、これを分析することで、トークナイザーのREPA蒸留と拡散モデルの違いや生成品質の関係を示す。ImageNetでの適用により、新たな最先端を達成した。 Comment
元ポスト:
[Paper Note] ERNIE 5.0 Technical Report, Haifeng Wang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #Speech #Proprietary #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #UMM #4D (Video) #Omni #text #Initial Impression Notes Issue Date: 2026-02-06 GPT Summary- ERNIE 5.0は、テキスト、画像、ビデオ、音声に対応したマルチモーダル理解と生成のための基盤モデルです。超スパースな専門家の混合アーキテクチャを使用し、依存しないルーティングでトークン予測を行います。新たなトレーニングパラダイムにより、モデルは性能、サイズ、推論レイテンシを柔軟に調整可能です。幅広い実験において、ERNIE 5.0は複数のモダリティで優れた性能を示し、初の商用規模の兆パラメータモデルとして注目されています。 Comment
元ポスト:
リリース時の公式ポスト:
あくまでskim readingをして得た印象なのだが、非常に興味深い研究で、Omniモダリティを超大規模モデルでスクラッチからUnified Multimodal Modelとして学習し、MoEで効率的に推論するというアーキテクチャと手法に見え(個人的にこういう手法でやったらどうなるのだろう?と思っていたドンピシャな設定)、各種ベンチマークの性能指標を見ると多くの指標で全体的に良いスコアを達成しており様々なタスクを高性能で実現できる一方、特定の分野のベンチマークでGemini Pro 3の方が強い面が多く(たとえばテキストモダリティのstem, coding, vision全般, ASR全般)、Omniモダリティの統合は一筋縄ではいかず、どのようにモダリティを統合し、学習することが効果的なのか?という根源的な問いがあらためて思い浮かぶ。
Ming Omniでも同様のことがやられていた:
- [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25, 2025.06
[Paper Note] CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding, Yuling Shi+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal #Coding #VisionLanguageModel #OCR #Compression Issue Date: 2026-02-05 GPT Summary- 大規模言語モデル(LLM)はソースコード理解で成功を収めていますが、計算効率が課題です。従来、LLMはコードをトークンの線形シーケンスとして扱い、計算コストが増加します。そこで、マルチモーダル大規模言語モデル(MLLM)による画像モダリティの利用が提案され、圧縮の可能性を探る研究を行いました。その結果、(1) MLLMは最大8倍のトークン削減を実現し、効果的にコードを理解できることが分かりました;(2) 構文ハイライトなどの視覚的手がかりを活用し、4倍の圧縮下でパフォーマンス向上;(3) クローン検出タスクは視覚的圧縮に対して耐性があり、圧縮比で生のテキストを上回る結果もありました。これにより、MLLMの効率的な推論可能性が示唆されています。 Comment
元ポスト:
textをimageとして扱う関連研究:
- [Paper Note] Language Modelling with Pixels, Phillip Rust+, ICLR'23, 2022.07
- [Paper Note] PixelWorld: Towards Perceiving Everything as Pixels, Zhiheng Lyu+, arXiv'25, 2025.01
- DeepSeek-OCR: Contexts Optical Compression, DeepSeek, 2025.10
literatureについては下記ポスト参考:
[Paper Note] Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models, Wenxuan Huang+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #Evaluation #MultiModal #DeepResearch #Initial Impression Notes Issue Date: 2026-02-05 GPT Summary- Vision-DeepResearchは、マルチモーダル大規模言語モデル(MLLMs)において、多ターン・多エンティティ・多スケールの視覚およびテキスト検索を実現する新しい深層研究パラダイムを提案。これにより、実際のシナリオでの視覚ノイズに対処し、数十の推論ステップと多くのインタラクションをサポート。強化学習を通じて深層研究能力を内在化し、既存のMLLMを上回る性能を発揮する。コードは公開予定。 Comment
pj page: https://osilly.github.io/Vision-DeepResearch/
元ポスト:
image searchやVQAなどを伴うDeepResearchに関するタスクとそのベンチマークの提案という感じに見える。
[Paper Note] PaperBanana: Automating Academic Illustration for AI Scientists, Dawei Zhu+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Multi #ComputerVision #NLP #Dataset #AIAgents #Evaluation #DiffusionModel #VisionLanguageModel #AcademicWriting Issue Date: 2026-02-03 GPT Summary- PaperBananaは、学術イラストの自動生成を実現するエージェントフレームワークであり、視覚言語モデルと画像生成モデルを活用しています。専門エージェントを調整して参照を取得し、コンテンツとスタイルを計画、画像をレンダリングし、批評を通じて洗練を行います。PaperBananaBenchを用いた評価では、多様なスタイルの292のテストケースにおいて、忠実性や美的感覚で主要なベースラインを上回る成果を示しました。これにより、高品質な出版準備の整ったイラスト生成が可能となります。 Comment
pj page: https://dwzhu-pku.github.io/PaperBanana/
元ポスト:
[Paper Note] Factuality Matters: When Image Generation and Editing Meet Structured Visuals, Le Zhuo+, ICLR'26, 2025.10
Paper/Blog Link My Issue
#ComputerVision #Dataset #Evaluation #Factuality #DiffusionModel #ICLR #Editing #UMM #ImageSynthesis Issue Date: 2026-01-30 GPT Summary- 構造化された視覚生成に特化した研究であり、高品質な構造画像データセットを構築。VLMとFLUXを統合したモデルを訓練し、推論能力を強化。新たな評価指標StructScoreを導入し、多段階Q&Aプロトコルで正確性を評価。モデルは強力な編集性能を示し、構造化視覚の統一基盤を目指す。 Comment
元ポスト:
[Paper Note] Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders, Shengbang Tong+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #DiffusionModel #TextToImageGeneration #PostTraining #read-later #Selected Papers/Blogs #Stability #KeyPoint Notes #ImageSynthesis #Scalability #AutoEncoder Issue Date: 2026-01-24 GPT Summary- RAEsは高次元セマンティック空間での成果を活かし、自由形式のテキストから画像生成にスケール可能かを検証。デコーダーを用いてImageNetを超えたスケールアップを行い、特定ドメインの重要性を発見。スケーリングによりフレームワークが単純化される一方、ノイズスケジューリングは依然重要。また、RAEsは全てのモデルスケールでVAEsを上回り、安定した性能を確保し、生成品質の向上を示した。これにより、多モーダルモデルの新たな可能性を切り開く。 Comment
元ポスト:
この研究はざっくり言うとRAE[^1]がスケールするか否かを調査し、スケールするための条件を調査し、事前学習(GenEval, DPGEvalでVAEと比較して4倍早く収束)、ダウンストリームタスクの双方でVAEベースのtext2imageモデルをoutperformすることを示しており、
スケールさせる際の最初の課題はデコーダにあり、web-scale, syntheticデータをただ増やすだけではfidelityは向上するが特定のドメイン(e.g., text reconstruction)の能力は伸びず、text renderingデータなどの、dataの構成が必要不可欠で、
続いてオリジナルのRAEではアーキテクチャに工夫(decoder入力にノイズを足す、ヘッドをwideにする、その他安定化の工夫)をしていたが、モデル、データがスケールした場合シンプルなアーキテクチャ(次元依存のノイズスケジューリング)のみが必須で他は不要となったという知見が得られており、
RAEでは視覚理解と生成が同じ潜在空間の上で行われることがVAEとは異なる強みで、生成のための学習をしても理解能力が損なわれないことを示し、そして、潜在空間上で(VAEの潜在表現は生成に特化しているが、RAEは視覚理解と生成の双方を扱われており同じ空間上で操作可能なので)LLMが直接test time scalingすることを可能にする、
と言ったことが著者ポストで解説されている。
まだ完璧に理解できていないのでRAEの論文から読みたい、が非常にインパクトの大きな話に見える。
[^1]:encoderをSigLIPなどの強力なvision encoderを用いた上で、デコーダを学習する手法。VAEではCNN等で潜在表現を低次元に圧縮するが、表現力に乏しく結果的に意味的な表現を捉える能力に乏しかったが、より強力な事前学習されたエンコーダと高次元の潜在表現を扱うことでDiffusion Modelで扱う潜在表現を進化させる。
[Paper Note] RayRoPE: Projective Ray Positional Encoding for Multi-view Attention, Yu Wu+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Multi #ComputerVision #Transformer #Attention #PositionalEncoding #One-Line Notes #DepthEstimation #NovelViewSynthesis Issue Date: 2026-01-23 GPT Summary- 我々は、マルチビュー変換器における位置エンコーディングの新手法RayRoPEを提案し、パッチをユニークにエンコードしてSE(3)不変な注意を実現します。既存のエンコーディング方式の限界を踏まえ、光線に基づいてパッチの位置を表現し、ジオメトリに配慮した予測点を使用します。RayRoPEは多周波数の類似性を計算するためのクエリフレームの投影座標を確立し、不正確な3D点の不確実性に対処するための位置エンコーディング手法を提供します。視点合成とステレオ深度推定のタスクにおいて、代替方式に対して一貫した性能向上を示し、RGB-D入力の効果的な利用も確認しました。 Comment
pj page: https://rayrope.github.io/
元ポスト:
複数視点(multiview)での画像を入力とするtransformerの位置エンコーディングを改善した研究で、multiviewのattentionは下記のような性質を持つのが理想としており
(a) 座標系の取り方に対してattentionの出力が不変であり
(b) 同じ点であれば、どのviewからのattention出力であっても同一であるべき
(c) 幾何学的に近い点の方が類似度が高くあるべき
(d) 様々な粒度で特徴を捉えられるべき(高周波成分、低周波成分)
これらを獲得できるようにray(方向に関する情報)を取り入れるような新たなRoPEアーキテクチャを考案した、というような感じらしい(ゆるふわ理解)。
pj pageに他手法と比較して生成される別方向の画像などが高品質になっている例が掲載されている。
[Paper Note] EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing, Keming Wu+, ICLR'26, 2025.09
Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #ReinforcementLearning #Evaluation #ICLR #PostTraining #VisionLanguageModel #RewardModel #Editing #One-Line Notes Issue Date: 2025-10-02 GPT Summary- 自然言語指示による画像編集の進展において、オープンソースモデルは遅れをとっている。これを解決するために、20万以上の選好ペアを含む新しいデータセット\mnameを構築し、指示に基づく画像編集タスクで人間の選好と高い整合性を示した。実験では、\mnameが既存のベンチマークで最先端の人間相関を達成し、ノイズの多いデータセットから高品質なサブセットを選択することで、画像編集モデルの性能を大幅に向上させることができた。今後、\mnameはコミュニティに公開され、高品質な画像編集トレーニングデータセットの構築を支援する予定である。 Comment
pj page:
https://tiger-ai-lab.github.io/EditReward/
HF:
https://huggingface.co/collections/TIGER-Lab/editreward-68ddf026ef9eb1510458abc6
これまでのImageEditing用のデータセットは、弱いReward Modelによって合成されるか、GPT-4oや他のVLMによる品質の低いフィルタリングにより生成されており、高品質なデータセットが存在しない課題があった。これを解決するために大規模なImageEditingの嗜好データを収集し、ImageEditingに特化した報酬モデルであるEditRewardを学習。このモデルは人間の専門家とのagreementにおいて高い(というよりりbestと書いてある)agreementを示し、実際にEditRewardによって既存のデータセットをfilteringして学習したら大きなgainがあったよ、という感じらしい。
openreview: https://openreview.net/forum?id=eZu358JOOR
[Paper Note] Comprehensive language-image pre-training for 3D medical image understanding, Tassilo Wald+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #Encoder #3D (Scene) #Medical Issue Date: 2026-01-31 GPT Summary- 視覚と言語の事前学習を活用し、3D医療画像の報告生成を強化。画像のみのデータとペアデータを組み合わせ、COLIPRIエンコーダを開発。報告生成や分類で最先端の性能を達成。モデルは公開中。 Comment
HF: https://huggingface.co/microsoft/colipri
元ポスト:
[Paper Note] The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding, Weichen Fan+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #RepresentationLearning #read-later #AutoEncoder #Spectrum Issue Date: 2025-12-24 GPT Summary- 異なるモダリティの深い表現は相互に関連しており、セマンティックエンコーダは低周波成分を、ピクセルエンコーダは高周波情報を捉えることが明らかになった。この発見を基に、Unified Autoencoding(UAE)モデルを提案し、セマンティック構造とピクセルの詳細を調和させる。実験により、UAEが両者を効果的に統合し、最先端の性能を達成したことが確認された。 Comment
元ポスト:
所見:
ポイント解説:
ポイント解説:
[Paper Note] VLIC: Vision-Language Models As Perceptual Judges for Human-Aligned Image Compression, Kyle Sargent+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #Alignment #DiffusionModel #LLM-as-a-Judge #DPO #PostTraining #One-Line Notes #AutoEncoder Issue Date: 2025-12-21 GPT Summary- 人間の好みに基づく画像圧縮のために、視覚-言語モデル(VLM)を活用した新しいシステムVLICを提案。VLICは、バイナリVLM判断を用いた拡散ベースの画像圧縮システムで、従来の知覚損失ネットワークを蒸留するのではなく、既存技術を活用。これにより、データセットに応じた競争力のある性能を実現。VLMベースの報酬設計とトレーニング手順についても分析を行い、重要な洞察を提供。 Comment
pj page: https://kylesargent.github.io/vlic
元ポスト:
ざっくり言うと、同じ潜在表現に対して異なる2つのノイズシードに対して画像を生成し、VLM-as-a-Judgeを用いて人間の知覚的な好みに近いスコアを得ることで、preferenceペアを合成。この情報に基づいてDiffusion DPOと呼ばれるDPOのdiffusionモデル版を用いてDiffusion autoencoderを学習することで、より人間の知覚的な判断に近い画像圧縮・復元過程を学習する、というような話っぽい。
実際のサンプルを見ると、明らかにテキストの崩れがなくなっているのがわかる。
[Paper Note] Next-Embedding Prediction Makes Strong Vision Learners, Sihan Xu+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #Pretraining #Transformer #MultiModal #read-later #Selected Papers/Blogs #Backbone #UMM #Omni #KeyPoint Notes Issue Date: 2025-12-20 GPT Summary- 生成的事前学習の原則を視覚学習に応用し、モデルが過去のパッチ埋め込みから未来の埋め込みを予測する「次埋め込み予測自己回帰(NEPA)」を提案。シンプルなTransformerを用いてImageNet-1kで高精度を達成し、タスク特有の設計を必要とせず、スケーラビリティを保持。NEPAは視覚的自己教師あり学習の新たなアプローチを提供する。 Comment
pj page:
https://sihanxu.me/nepa/
HF:
https://huggingface.co/collections/SixAILab/nepa
元ポスト:
Autoregressiveにnext embedding prediction(≠reconstruction)をする。エンコーダ自身のembeddingとautoregressive headが生成したembeddingを比較することでlossが計算されるが、双方に勾配を流すとほぼ全てのパッチが同じembeddingを共有するという解に到達し何も学習されないので、エンコーダのエンコード結果(=target)のgradientをstopする。これにより、targetとしての勾配は受け取らないが(predictionに近づけようとする勾配)、文脈に応じたベクトルを作り、next embeddingを予測する入力としての勾配は受け取るので、エンコーダは文脈に応じた学習を続けることができる。
コミュニティからのフィードバックを受けて執筆されたブログ:
https://sihanxu.me/nepa/blog
元ポスト:
NEPAを提案した背景に関して直感的な解説を実施している。興味深い。具体的には、omnimodalityモデルの困難さはインターフェースの問題であり、latent spaceがomnimodalityの共通のインタフェースになりうり、モダリティごとの予測対象とlossを個別に設計せずに済む方法の一つがAutoregressiveな予測であり、そういったインタフェースがスケーリングのために必要という意見と、omnimodalityにおいて過去のliteratureで扱われているdiscreteなtokenとcontinuous symbolsは得意なモダリティが異なり予測対象や前処理のメカニズムも異なるため同時に扱うことが難しい旨などが記述されている。
[Paper Note] MMGR: Multi-Modal Generative Reasoning, Zefan Cai+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Evaluation #FoundationModel #TextToImageGeneration #3D (Scene) #WorldModels #KeyPoint Notes #TextToVideoGeneration Issue Date: 2025-12-19 GPT Summary- MMGR(Multi-Modal Generative Reasoning Evaluation and Benchmark)を導入し、物理的、論理的、空間的、時間的な推論能力に基づくビデオ基盤モデルの評価フレームワークを提案。既存の指標では見落とされる因果関係や物理法則の違反を考慮し、主要なビデオおよび画像モデルをベンチマークした結果、抽象的推論でのパフォーマンスが低いことが明らかに。MMGRは、生成的世界モデルの推論能力向上に向けた統一診断ベンチマークを提供。 Comment
pj page: https://zefan-cai.github.io/MMGR.github.io/
元ポスト:
video/image 生成モデルを(単なる動画生成という枠ではなく世界モデルという観点で評価するために)
- physical reasoning: ロボットのシミュレーションやinteractionに必要な物理世界の理解力
- logical (abstract) reasoning: System2 Thinkingい必要な抽象的なコンテプトやルールに従う能力(Aが起きたらBが続く)
- 3D spatial reasoning: 世界の認知mapを内包するために必要な3D空間における関係性や、環境の案内、物事の構造や全体像を把握する能力
- 2D spatial reasoning: 複雑なpromptをgroundingするために必要な2D空間に写像されたレイアウト、形状、相対位置を理解する能力
- Temporal Reasoning: coherenceを保つために必要な、因果関係、イベントの順序、長期的な依存関係を捉える能力
の5つの軸で評価するフレームワーク。
[Paper Note] Diffusion Transformers with Representation Autoencoders, Boyang Zheng+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #Transformer #DiffusionModel #TextToImageGeneration #Selected Papers/Blogs #reading #One-Line Notes #ImageSynthesis #AutoEncoder Issue Date: 2025-12-17 GPT Summary- 本研究では、従来のVAEエンコーダを事前学習された表現エンコーダに置き換えた表現オートエンコーダ(RAE)を提案し、生成モデルの品質向上を目指す。RAEは高品質な再構成と意味的に豊かな潜在空間を提供し、拡散トランスフォーマーの効果的な機能を可能にする。実験により、ImageNetで優れた画像生成結果を達成し、RAEが拡散トランスフォーマーの新しいデフォルトとなるべきことを示した。 Comment
openreview: https://openreview.net/forum?id=0u1LigJaab
pj page: https://rae-dit.github.io
encoderをSigLIPなどの強力な(frozenした)vision encoderを用いた上で、デコーダを学習する手法。VAEではCNN等で潜在表現を低次元に圧縮するが、表現力に乏しく結果的に意味的な表現を捉える能力に乏しかったが、より強力な事前学習されたエンコーダと高次元の潜在表現を扱うことでDiffusion Modelで扱う潜在表現を進化させる。
[Paper Note] One Layer Is Enough: Adapting Pretrained Visual Encoders for Image Generation, Yuan Gao+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #DiffusionModel #SmallModel #Encoder #AutoEncoder Issue Date: 2025-12-15 GPT Summary- 視覚生成モデルにおける潜在空間の不一致を解消するため、FAE(Feature Auto-Encoder)を提案。FAEは、再構成と生成の両方に必要な情報を保持しつつ、1つのアテンション層で実現。2つの深層デコーダを組み合わせ、さまざまな自己教師ありエンコーダに対応。拡散モデルや正規化フローと接続可能で、ImageNetでのベンチマークにおいて優れた性能を示す。 Comment
元ポスト:
[Paper Note] Can You Learn to See Without Images? Procedural Warm-Up for Vision Transformers, Zachary Shinnick+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Pretraining #Transformer #KeyPoint Notes #WarmUp Issue Date: 2025-12-11 GPT Summary- 視覚トランスフォーマー(ViTs)を手続き生成データで事前学習する新しい方法を提案。これにより、モデルは抽象的な計算的知識を内在化し、標準的な画像トレーニングでデータ効率やパフォーマンスが向上。ImageNet-1kで1%の手続き生成データを使用することで、精度が1.7%以上向上し、28%のデータに相当する効果を示す。新しい事前学習戦略の可能性を示唆。 Comment
元ポスト:
特定のgrammarを持つ(意味情報を持たない予測可能な)シンボルトークン列(e.g.,規則的なアルファベットの羅列, 括弧による階層構造; 非画像データ)を用いてViTのTransformerブロックを事前学習することによって、MLPやattention Layerに対して構造情報を捉える能力がwarmupされ、その後実画像で事前学習をするとサンプル効率が上がる、という話らしい。
warmupでは、ViTにおける入力機構(画像パッチ+linear layer)は一切用いず、discreteなトークンと、それらをランダムに初期化したlookup table を用いる。このとき、embeddingとpositional encodingをfreezeすることで、MLP, Attention Layerに知識が埋め込まれることを保証する。
[Paper Note] OneThinker: All-in-one Reasoning Model for Image and Video, Kaituo Feng+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #ReinforcementLearning #MultiModal #Reasoning #OpenWeight #VisionLanguageModel #UMM #4D (Video) #One-Line Notes #text Issue Date: 2025-12-06 GPT Summary- OneThinkerは、視覚的推論を統一するオールインワンの強化学習モデルであり、質問応答やキャプショニングなどの多様なタスクに対応。OneThinker-600kトレーニングコーパスを用いて訓練され、報酬の異質性に対処するEMA-GRPOを提案。広範な実験により、10の視覚理解タスクで強力なパフォーマンスを示し、タスク間の知識移転とゼロショット一般化能力を実証。全てのコード、モデル、データは公開。 Comment
pj page:
https://github.com/tulerfeng/OneThinker
HF:
https://huggingface.co/OneThink
元ポスト:
image/videoに関するreasoningタスクをunifiedなアーキテクチャで実施するVLM
Qwen3-VL-Instruct-8Bに対するgain。様々なタスクで大幅なgainを得ている。特にTracking, segmentation, groundingのgainが大きいように見える。
[Paper Note] TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models, Zhiheng Liu+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #MultiModal #VariationalAutoEncoder #read-later #Selected Papers/Blogs #VisionLanguageModel #FlowMatching #UMM #4D (Video) Issue Date: 2025-12-03 GPT Summary- TUNAという統一マルチモーダルモデル(UMM)を提案し、VAEエンコーダと表現エンコーダを連鎖させて統一された視覚表現を構築。これにより、画像と動画の理解・生成タスクをエンドツーエンドで処理可能にし、従来の分離されたUMMsを上回る性能を実現。事前学習された表現エンコーダの重要性も強調され、共同訓練により理解と生成が相互に利益を得ることが示された。広範な実験により、TUNAが最先端の結果を達成したことが確認された。 Comment
pj page: https://tuna-ai.org/
[Paper Note] Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data, Yunxin Li+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #LanguageModel #MultiModal #SpeechProcessing #DiffusionModel #PositionalEncoding #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #DataMixture #Routing #UMM #4D (Video) #Omni #KeyPoint Notes #audio #text Issue Date: 2025-11-18 GPT Summary- Uni-MoE 2.0は、Lycheeファミリーから発表されたオープンソースのオムニモーダル大規模モデルで、言語中心のマルチモーダル理解と生成を大幅に向上させる。動的容量のMixture-of-Experts設計や進行的トレーニング戦略を採用し、画像、テキスト、音声の生成が可能。約75Bトークンのデータでトレーニングされ、85のベンチマークで競争力のある性能を示し、特にビデオ理解やオムニモーダリティ理解で優れた結果を達成。 Comment
pj page: https://idealistxy.github.io/Uni-MoE-v2.github.io/
元ポスト:
pj pageをみた感じ、アーキテクチャは下記で、モダリティごとのエンコーダを用意しトークン化し同じ空間上で各モダリティを学習するUnified Multi Modalモデルとなっている。MoEアーキテクチャを採用しモダリティごとのexpertと共有のexpert、null expert(パラメータも必要とせず何も処理しないexpertでアーキテクチャをMoEから変えずに不要な計算を排除して効率を向上可能)を用意しルータで制御する。また、speechやvideoなどの時系列性に対処するためにRoPEを3次元に拡張したPEを用いて、各モダリティがシームレスにalignmentをとれるようにしている。
事前学習ではまずテキストを中心としたクロスモーダルな学習をする。たとえば、image/audio/video-textタスクで学習をする。このフェーズで各モダリティをテキストのsemantic spaceに写像する能力を鍛える(Figure5 left)。
その後SFTで各モダリティに特化したexpertを学習する。ここでは段階的にSFTを実施し、まずまずAudio, Visualのexpertを同時にwarmupし、その後Textのexpertsを追加して次のアニーリングフェーズを学習しているように見える。
続いてアニーリングフェーズとして、様々なモダリティのデータをバランスさせてDataMixtureし、徐々に学習率を下げながら特定のタスクやモダリティに特化せず、全体の性能が向上するように学習する。その後、long sequenceのreasoningの能力を向上させるためにGSPO-DPOをiterativeに適用する。DPOの嗜好データはLLM as a Judgeでロールアウトに基づいて構成する、
という感じらしい。
Table2にDataMixtureの比率がかかれているし、各種データの概要も3.2節にかかれているように見える。素晴らしい。
[Paper Note] Depth Anything 3: Recovering the Visual Space from Any Views, Haotong Lin+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#ComputerVision #Dataset #Transformer #Evaluation #FoundationModel #4D (Video) #SpatialUnderstanding Issue Date: 2025-11-17 GPT Summary- Depth Anything 3(DA3)は、カメラポーズの有無にかかわらず、視覚入力から空間的一貫性のあるジオメトリを予測するモデルです。DA3は、単一のプレーンなトランスフォーマーをバックボーンとして使用し、複雑なマルチタスク学習を排除することで、Depth Anything 2(DA2)と同等の性能を達成しました。新たに設立した視覚ジオメトリベンチマークでは、DA3がすべてのタスクで最先端の結果を示し、カメラポーズ精度で従来の最先端を44.3%、ジオメトリ精度で25.1%上回りました。すべてのモデルは公共の学術データセットでトレーニングされています。 Comment
関連:
- [Paper Note] Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data, Lihe Yang+, CVPR'24, 2024.01
- [Paper Note] Depth Anything V2, Lihe Yang+, NeurIPS'24, 2024.06
元ポスト:
pj page: https://depth-anything-3.github.io/
openreview: https://openreview.net/forum?id=yirunib8l8
[Paper Note] OmniVGGT: Omni-Modality Driven Visual Geometry Grounded, Haosong Peng+, CVPR'25, 2025.11
Paper/Blog Link My Issue
#ComputerVision #Transformer #FoundationModel #read-later #3D (Scene) #Robotics #SpatialUnderstanding #Omni #Geometric #Robustness Issue Date: 2025-11-16 GPT Summary- OmniVGGTという新しいフレームワークを提案し、RGB以外の幾何学的手がかりを活用して3D基盤モデルの性能を向上させる。GeoAdapterを用いて深度情報やカメラパラメータをモデルにエンコードし、安定した最適化を実現。確率的なマルチモーダル融合手法により、任意の数のモダリティ入力を可能にし、堅牢な空間表現を学習。実験により、OmniVGGTが従来手法を上回り、視覚-言語-行動モデルに統合することでロボティクスタスクでも性能向上を達成。 Comment
元ポスト:
depth mapやcameraの情報などの様々な幾何学的情報を入力した場合(depth mapがないなど情報が欠落していても良い)にロバストに対応できるような基盤モデルを構築する手法らしい
評価データ:
- [Paper Note] A naturalistic open source movie for optical flow evaluation, Butler+, ECCV'12
- [Paper Note] ReFusion: 3D Reconstruction in Dynamic Environments for RGB-D Cameras Exploiting Residuals, Emanuele Palazzolo+, IROS'19, 2019.05
- [Paper Note] Indoor Segmentation and Support Inference from RGBD Images, Silberman+, ECCV'12
- [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images,Shotton+, CVPR'13
- [Paper Note] ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes, Angela Dai+, CVPR'17, 2017.02
- [Paper Note] A Multi-view Stereo Benchmark with High-Resolution Images and Multi-camera Videos, Schöps+, CVPR'17
- [Paper Note] Large-Scale Data for Multiple-View Stereopsis, Aanæs+, IJCV'16
- [Paper Note] Tanks and temples: Benchmarking large-scale scene reconstruction, Knapitsch+, TOG'17
- [Paper Note] Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life 3D Category Reconstruction, Reizenstein+, ICCV'21
- [Paper Note] Stereo Magnification: Learning View Synthesis using Multiplane Images, Tinghui Zhou+, SIGGRAPH'18, 2018.05
- [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images, Shotton+, CVPR'13
- [Paper Note] CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks, Oier Mees+, RA-L'22 Best Paper Award, 2021.12
[Paper Note] ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation, Jay Zhangjie Wu+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #Transformer #DiffusionModel #Selected Papers/Blogs #WorldModels Issue Date: 2025-11-11 GPT Summary- ChronoEditフレームワークを提案し、画像編集を動画生成として再定義。入力画像と編集画像を動画の最初と最後のフレームとし、時間的一貫性を学習した動画生成モデルを活用。推論時に時間的推論ステージを導入し、物理的に実現可能な変換を制約する編集軌道を生成。新しいベンチマークPBench-Editで、ChronoEditが視覚的忠実性と物理的妥当性で最先端の手法を上回ることを示した。 Comment
HF:
https://huggingface.co/nvidia/ChronoEdit-14B-Diffusers
LoRAによるUpscaler:
https://huggingface.co/nvidia/ChronoEdit-14B-Diffusers-Upscaler-Lora
元ポスト:
スケッチ+promptでの編集
HF:
https://huggingface.co/nvidia/ChronoEdit-14B-Diffusers-Paint-Brush-Lora
元ポスト:
[Paper Note] SAM 2: Segment Anything in Images and Videos, Nikhila Ravi+, ICLR'25, 2024.08
Paper/Blog Link My Issue
#ComputerVision #Transformer #ImageSegmentation #Prompting #FoundationModel #4D (Video) Issue Date: 2025-11-09 GPT Summary- Segment Anything Model 2(SAM 2)は、プロンプト可能な視覚セグメンテーションのための基盤モデルで、ユーザーのインタラクションを通じてデータを改善するデータエンジンを構築し、最大の動画セグメンテーションデータセットを収集。シンプルなトランスフォーマーアーキテクチャを用い、リアルタイム動画処理に対応。SAM 2は、動画セグメンテーションで従来の手法より3倍少ないインタラクションで高精度を達成し、画像セグメンテーションでも従来モデルより精度が高く、6倍速い。データ、モデル、コード、デモを公開し、関連タスクの重要なマイルストーンを目指す。 Comment
openreview: https://openreview.net/forum?id=Ha6RTeWMd0
[Paper Note] EdgeTAM: On-Device Track Anything Model, Chong Zhou+, arXiv'25, 2025.01
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #ImageSegmentation #SmallModel #OpenWeight #Video Issue Date: 2025-11-09 GPT Summary- SAM 2は動画セグメンテーションの基盤モデルであり、メモリバンクメカニズムを通じて性能を向上させています。本研究では、モバイルデバイス上での効率を高めるために、EdgeTAMを提案し、2D空間パーセプターを用いて計算コストを削減します。これにより、メモリの空間構造を保持しつつ、推論オーバーヘッドなしで性能を向上させる蒸留パイプラインも導入。EdgeTAMは複数のデータセットで高いJ&Fスコアを達成し、iPhone 15 Pro Maxで16 FPSで動作します。 Comment
元ポスト:
SAM2より性能は少し劣るが、edge-deviceてわ動作可能で非常に高速なモデル(promptによって制御可能なsegmentation)とのこと
- [Paper Note] SAM 2: Segment Anything in Images and Videos, Nikhila Ravi+, ICLR'25, 2024.08
[Paper Note] MMaDA: Multimodal Large Diffusion Language Models, Ling Yang+, NeurIPS'25, 2025.05
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #MultiModal #DiffusionModel #TextToImageGeneration #NeurIPS #text Issue Date: 2025-11-05 GPT Summary- MMaDAは、テキスト推論やマルチモーダル理解、テキストから画像生成に優れた性能を発揮する新しいマルチモーダル拡散基盤モデルです。主な革新点は、モダリティに依存しない統一された拡散アーキテクチャ、混合長チェーン・オブ・ソートによるファインチューニング戦略、そしてUniGRPOという統一ポリシー勾配ベースのRLアルゴリズムです。実験により、MMaDA-8Bは他のモデルを上回る性能を示し、事前トレーニングと事後トレーニングのギャップを埋める効果が確認されました。コードとトレーニング済みモデルはオープンソースで提供されています。 Comment
ポイント解説:
元ポスト:
[Paper Note] VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction, Chaoyou Fu+, NeurIPS'25, 2025.01
Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #Speech #NeurIPS #VisionLanguageModel #TTS #AudioLanguageModel Issue Date: 2025-11-05 GPT Summary- 音声の役割を重視したマルチモーダル大規模言語モデル(MLLM)の訓練手法を提案。視覚と音声の相互作用を強化し、ASRやTTSモジュールなしで効率的な音声対話を実現。ベンチマークで最先端手法と比較し、リアルタイムの視覚と音声の相互作用が可能であることを示す。 Comment
元ポスト:
image/video, speechを入力として受けとりリアルタイムに音声を出力するマルチモーダルモデル。
[Paper Note] UNO-Bench: A Unified Benchmark for Exploring the Compositional Law Between Uni-modal and Omni-modal in Omni Models, Chen Chen+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #LanguageModel #Evaluation #MultiModal #SpeechProcessing #4D (Video) #Omni #text Issue Date: 2025-11-05 GPT Summary- 新しいベンチマークUNO-Benchを提案し、ユニモーダルとオムニモーダルの能力を44のタスクと5つのモダリティで評価。人間生成データと自動圧縮データを用い、複雑な推論を評価する多段階オープンエンド質問形式を導入。実験により、オムニモーダルの能力がモデルの強さに応じて異なる影響を与えることを示した。 Comment
pj page: https://meituan-longcat.github.io/UNO-Bench/
元ポスト:
[Paper Note] When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought, Yiyang Zhou+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#NLP #Dataset #Evaluation #MultiModal #Reasoning #Selected Papers/Blogs #VisionLanguageModel #KeyPoint Notes #text #Visual-CoT Issue Date: 2025-11-05 GPT Summary- MIRAは、中間的な視覚画像を生成し推論を支援する新しいベンチマークで、従来のテキスト依存の手法とは異なり、スケッチや構造図を用いる。546のマルチモーダル問題を含み、評価プロトコルは画像と質問、テキストのみのCoT、視覚的ヒントを含むVisual-CoTの3レベルを網羅。実験結果は、中間的な視覚的手がかりがモデルのパフォーマンスを33.7%向上させることを示し、視覚情報の重要性を強調している。 Comment
pj page: https://mira-benchmark.github.io/
元ポスト:
Visual CoT
Frontierモデル群でもAcc.が20%未満のマルチモーダル(Vision QA)ベンチマーク。
手作業で作成されており、Visual CoT用のsingle/multi stepのintermediate imagesも作成されている。興味深い。
VLMにおいて、{few, many}-shotがうまくいく場合(Geminiのようなプロプライエタリモデルはshot数に応じて性能向上、一方LlamaのようなOpenWeightモデルは恩恵がない)と
- [Paper Note] Many-Shot In-Context Learning in Multimodal Foundation Models, Yixing Jiang+, arXiv'24, 2024.05
うまくいかないケース(事前訓練で通常見られない分布外のドメイン画像ではICLがうまくいかない)
- [Paper Note] Roboflow100-VL: A Multi-Domain Object Detection Benchmark for Vision-Language Models, Peter Robicheaux+, NeurIPS'25, 2025.05
も報告されている。
おそらく事前学習段階で当該ドメインの画像が学習データにどれだけ含まれているか、および、画像とテキストのalignmentがとれていて、画像-テキスト間の知識を活用できる状態になっていることが必要なのでは、という気はする。
著者ポスト:
[Paper Note] Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning, Yuhong Liu+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #ReinforcementLearning #Self-SupervisedLearning #RLVR #VisionLanguageModel #3D (Scene) #SpatialUnderstanding #One-Line Notes #Pixel-based Issue Date: 2025-11-03 GPT Summary- 空間理解におけるLVLMの弱点を克服するため、自己教師あり強化学習パラダイムSpatial-SSRLを提案。5つの前提タスクを自動定式化し、検証が容易な信号を導出。これにより、空間推論が大幅に改善され、7つのベンチマークでQwen2.5-VLベースラインに対して平均精度が4.63%(3B)および3.89%(7B)向上。シンプルな監視がRLVRを可能にし、LVLMの空間知能向上に寄与することを示した。 Comment
元ポスト:
RGB/RGB-D imageがgivenなときに、
- cropped patch inpainting
- flipped patch recognition
- shuffled patch reordering
- regional depth ordering
- relative 3D position prediction
の5つのverifiableなタスクを定義しself supervisedなmannerでRLすることでSpatial Understanding能力を向上させる話らしい
3Bモデルがリリース:
https://huggingface.co/internlm/Spatial-SSRL-3B
[Paper Note] Emu3.5: Native Multimodal Models are World Learners, Yufeng Cui+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #NLP #LanguageModel #Transformer #MultiModal #DiffusionModel #UMM #text Issue Date: 2025-11-01 GPT Summary- Emu3.5は、視覚と言語の両方に基づく次の状態を予測する大規模なマルチモーダルワールドモデルで、10兆トークン以上のデータで事前訓練されています。双方向の並列予測を用いた「Discrete Diffusion Adaptation(DiDA)」により、推論を約20倍加速し、強力なマルチモーダル能力を発揮します。Emu3.5は、画像生成や編集タスクで優れたパフォーマンスを示し、オープンソースとして提供されています。 Comment
pj page: https://emu.world/
元ポスト:
ポイント解説:
[Paper Note] FineVision: Open Data Is All You Need, Luis Wiedmann+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#Multi #ComputerVision #NLP #Dataset #QuestionAnswering #MultiModal #Conversation #VisionLanguageModel Issue Date: 2025-10-22 GPT Summary- 本研究では、視覚と言語のモデル(VLM)のために、24百万サンプルからなる統一コーパス「FineVision」を紹介。これは200以上のソースを統合し、半自動化されたパイプラインでキュレーションされている。データの衛生と重複排除が行われ、66の公的ベンチマークに対する汚染除去も適用。FineVisionで訓練されたモデルは、既存のオープンミックスモデルを上回る性能を示し、データ中心のVLM研究の加速を目指す。 Comment
pj page: https://huggingface.co/spaces/HuggingFaceM4/FineVision
ポイント解説:
著者ポスト:
[Paper Note] OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM, Hanrong Ye+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #NLP #Temporal #LanguageModel #SyntheticData #MultiModal #SpeechProcessing #Architecture #TTS #4D (Video) #Omni #audio #text Issue Date: 2025-10-21 GPT Summary- OmniVinciは、視覚と音声を統合したオムニモーダルLLMを構築するプロジェクトであり、3つの革新(OmniAlignNet、Temporal Embedding Grouping、Constrained Rotary Time Embedding)を提案。2400万の会話データを用いて、モダリティ間の相互強化を実現。DailyOmni、MMAR、Video-MMEでの性能向上を達成し、トレーニングトークンの使用量を大幅に削減。ロボティクスや医療AIなどの応用におけるオムニモーダルの利点を示す。 Comment
pj page: https://nvlabs.github.io/OmniVinci/
元ポスト:
image, video, テキスト, 音声を理解しテキストを出力(TTSも可)するモデルに関する新たなアーキテクチャとデータキュレーションパイプラインを提案している模様
[Paper Note] VChain: Chain-of-Visual-Thought for Reasoning in Video Generation, Ziqi Huang+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #Chain-of-Thought #DiffusionModel #Reasoning #VideoGeneration/Understandings Issue Date: 2025-10-20 GPT Summary- VChainは、マルチモーダルモデルの視覚的推論を動画生成に活用する新しいフレームワークで、重要なキーフレームを生成し、動画生成器のチューニングを効率的にガイドします。このアプローチにより、複雑なシナリオにおいて生成動画の品質が大幅に向上しました。 Comment
pj page: https://eyeline-labs.github.io/VChain/
元ポスト:
Chain-of-Visual-Thoughts
keyframeをchain-of-thoughtsに含めることで、時間発展をより正確にしようという試みに見える。追加の学習なしで実施できるとのこと。
[Paper Note] Learning an Image Editing Model without Image Editing Pairs, Nupur Kumari+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #TextToImageGeneration #VisionLanguageModel #Editing #ImageSynthesis Issue Date: 2025-10-18 GPT Summary- 本研究では、ペアデータを使用せずに画像編集モデルをトレーニングする新しいパラダイムを提案。拡散モデルを展開し、視覚-言語モデル(VLM)からのフィードバックを活用して直接最適化を行う。生成画像の視覚的忠実性を保つために分布マッチング損失(DMD)を導入。標準ベンチマークで評価した結果、従来の教師ありペアデータを用いたモデルと同等の性能を達成し、RLベースの手法をも上回ることが示された。 Comment
元ポスト:
[Paper Note] MapAnything: Universal Feed-Forward Metric 3D Reconstruction, Nikhil Keetha+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #Transformer #3D Reconstruction #3D (Scene) #Backbone Issue Date: 2025-09-20 GPT Summary- MapAnythingは、画像と幾何学的入力を用いて3Dシーンの幾何学とカメラを回帰するトランスフォーマーベースのモデルです。多視点シーンの因子化された表現を活用し、様々な3Dビジョンタスクに対応可能です。実験により、専門モデルと同等またはそれを上回る性能を示し、効率的な共同トレーニングを実現しています。 Comment
pj page: https://map-anything.github.io
元ポスト:
v1.1がリリース:
[Paper Note] Learning Dense Feature Matching via Lifting Single 2D Image to 3D Space, Yingping Liang+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #3D (Scene) #FeatureMatching Issue Date: 2025-07-04 GPT Summary- 新しい二段階フレームワーク「Lift to Match (L2M)」を提案し、2D画像を3D空間に持ち上げることで、特徴マッチングの一般化を向上させる。第一段階で3D特徴エンコーダを学習し、第二段階で特徴デコーダを学習することで、堅牢な特徴マッチングを実現。実験により、ゼロショット評価ベンチマークで優れた一般化性能を示した。 Comment
元ポスト:
[Paper Note] Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling, Xiaokang Chen+, arXiv'25, 2025.01
Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal #TextToImageGeneration #OpenWeight #VisionLanguageModel #UMM #One-Line Notes #ImageSynthesis Issue Date: 2025-01-28 GPT Summary- Janus-Proは、最適化されたトレーニング戦略、拡張されたデータ、より大きなモデルサイズを取り入れたJanusの進化形。これにより、マルチモーダル理解と画像生成の安定性において顕著な進歩を実現。研究成果は公開されており、さらなる探究を促すことが期待される。 Comment
DeepSeekによる新たなUMM、Janus-Proが本日リリース。MIT License
Janus-Proのパフォーマンス。
github上でのパフォーマンスの図解から引用。マルチモーダル(テキスト+画像)の理解に関するベンチマークでLLaVA超え。GenEval, DPG Benchと呼ばれる画像生成ベンチマークでDALL-E 3超え。
テクニカルレポート中での詳細から引用。どのベンチマークでも基本的に最高性能なように見える。
テクニカルレポート:
https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf
ベンチマーク:
- [Paper Note] GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment, Dhruba Ghosh+, NeurIPS'23
- [Paper Note] ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment, Xiwei Hu+, arXiv'24
[Paper Note] Developing Generalist Foundation Models from a Multimodal Dataset for 3D Computed Tomography, Ibrahim Ethem Hamamci+, arXiv'24, 2024.03
Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #CLIP #Selected Papers/Blogs #VisionLanguageModel #Encoder #3D (Scene) #Medical Issue Date: 2026-02-01 GPT Summary- CT-RATEデータセットを介して、3D医療画像とそのテキストレポートをペアリングし、幅広い応用に向けたCTフォーカスの対照的言語-画像前訓練フレームワークCT-CLIPを開発。これにより、多異常検出やケースリトリーバルで最先端の完全監視モデルを上回る性能を達成。さらに、CT-RATEから派生した270万件以上のQ&AペアでファインチューニングされたCT-CHATを構築し、3D医療画像に特化した手法の重要性を示す。オープンソースなリリースは医療AIの革新と患者ケア向上に寄与。
[Paper Note] SpatialTracker: Tracking Any 2D Pixels in 3D Space, Yuxi Xiao+, CVPR'24, 2024.04
Paper/Blog Link My Issue
#ComputerVision #CVPR #3D (Scene) #4D (Video) #DepthEstimation #MotionEstimation Issue Date: 2025-12-21 GPT Summary- 本研究では、動画における密な長距離ピクセル運動の回復の難しさを解決するため、3D空間における点の軌跡を推定する手法SpatialTrackerを提案。単眼深度推定器を用いて2Dピクセルを3Dに変換し、トランスフォーマーで3D軌跡を推定。剛体制約を活用しつつ、ピクセルをクラスタリングする剛性埋め込みを同時に学習。評価の結果、特に平面外回転のシナリオで最先端の追跡性能を達成した。
[Paper Note] MANTIS: Interleaved Multi-Image Instruction Tuning, Dongfu Jiang+, TMLR'24 Outstanding Certification, 2024.05
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #NLP #Dataset #InstructionTuning #MultiModal #TMLR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-12-02 GPT Summary- Mantisモデルは、721Kの複数画像指示データを用いた指示調整により、複数画像の視覚言語タスクで最先端の性能を達成。特に、Idefics2-8Bを平均13ポイント上回り、一般化能力も示す。大規模な事前学習に依存せず、低コストの指示調整で複数画像能力を向上できることを示した。 Comment
openreview: https://openreview.net/forum?id=skLtdUVaJa
元ポスト:
[Paper Note] Depth Anything V2, Lihe Yang+, NeurIPS'24, 2024.06
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #SyntheticData #DepthEstimation Issue Date: 2025-11-18 GPT Summary- Depth Anything V2を提案し、合成画像の使用、教師モデルの能力拡大、擬似ラベル付き実画像を用いた学生モデルの教育を通じて、より細かく堅牢な深度推定を実現。最新のStable Diffusionモデルと比較して、効率的かつ正確であり、異なるスケールのモデルを提供。多様なシーンを考慮した評価ベンチマークも構築。 Comment
pj page: https://depth-anything-v2.github.io
[Paper Note] Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data, Lihe Yang+, CVPR'24, 2024.01
Paper/Blog Link My Issue
#ComputerVision #DataAugmentation #FoundationModel #CVPR #DepthEstimation Issue Date: 2025-11-18 GPT Summary- Depth Anythingは、堅牢な単眼深度推定のための基盤モデルを提案し、6200万の未ラベルデータを自動的に注釈付けしてデータセットを拡大。データ拡張と補助的な監視を用いてモデルの一般化能力を向上させ、ゼロショット評価で優れた結果を示した。NYUv2およびKITTIでファインチューニングし、最先端の性能を達成。モデルは公開されている。 Comment
[Paper Note] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models, Junnan Li+, ICML'23, 2023.01
Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #Pretraining #NLP #MultiModal #ICML #VisionLanguageModel #Encoder Issue Date: 2026-02-06 GPT Summary- BLIP-2は、視覚と言語の事前学習を効率化する新しい戦略で、既存の画像エンコーダと大規模言語モデルを活用。軽量なクエリトランスフォーマーにより二段階での事前学習を実施し、視覚と言語の表現を効果的に結合。トレーニング可能なパラメータは少ないながらも、ゼロショットタスクで優れた性能を発揮し、Flamingo80Bを上回る成果を示した。 Comment
日本語解説: https://qiita.com/moufuyu/items/94418980ec0598671221
BLIP:
- [Paper Note] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation, Junnan Li+, ICML'22, 2022.01
Flamingo:
- [Paper Note] Flamingo: a Visual Language Model for Few-Shot Learning, Jean-Baptiste Alayrac+, NeurIPS'22, 2022.04
[Paper Note] Perceiver: General Perception with Iterative Attention, Andrew Jaegle+, ICLR'22, 2021.03
Paper/Blog Link My Issue
#ComputerVision #NLP #Transformer #MultiModal #SpeechProcessing #Attention #Architecture #ICLR #Selected Papers/Blogs #audio #text Issue Date: 2026-02-07 GPT Summary- 本研究では、Transformersに基づく「Perceiver」モデルを提案し、生物システムのように多様なモダリティの高次元入力を同時に処理する能力を持つことを示します。従来のモデルが個々のモダリティに特化しているのに対し、Perceiverは少ない仮定で多数の入力を扱い、非対称注意メカニズムを用いて大規模なデータを処理します。これにより、画像や音声などの多様な分類タスクにおいて、先行モデルと同等以上の性能を実現しました。特に、ImageNetでは数十万のピクセルを直接扱い、ResNet-50やViTに匹敵する結果を達成し、AudioSetにおいても競争力を持っています。 Comment
openreview: https://openreview.net/forum?id=fILj7WpI-g
多様なモダリティ入力を単一のモデルで処理しlogitsで出力するtransformer。Perceiver-IOと並んで多様なモダリティを処理可能な先駆け的研究
Perceiverの出力は単純な分類問題を想定しており、より多様なoutputができるように拡張したものがPerceiver-IO:
- [Paper Note] Perceiver IO: A General Architecture for Structured Inputs & Outputs, Andrew Jaegle+, ICLR'22, 2021.07
Learning Transferable Visual Models From Natural Language Supervision, Radford+, OpenAI, ICML'21
Paper/Blog Link My Issue
#ComputerVision #Embeddings #NLP #RepresentationLearning #MultiModal #ContrastiveLearning #ICML #Selected Papers/Blogs #One-Line Notes #text Issue Date: 2023-04-27 Comment
CLIP論文。大量の画像と画像に対応するテキストのペアから、対照学習を行い、画像とテキスト間のsimilarityをはかれるようにしたモデル
FLUX.2-klein-9B, black-forest-labs, 2026.01
Paper/Blog Link My Issue
#Article #ComputerVision #EfficiencyImprovement #NLP #Transformer #TextToImageGeneration #SmallModel #Selected Papers/Blogs #Editing #One-Line Notes Issue Date: 2026-03-15 Comment
元ポスト:
github: https://github.com/black-forest-labs/flux2
そもそも2025年11月にリリースされているFLUX.2は結構色々なところで名前を見かけるのでおさえておいたほうが良いかもしれない
https://bfl.ai/blog/flux-2
kleinはFLUX.2シリーズの中で最も軽量なモデルとのこと。2ヶ月程度で既に110k DLされている。
Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis, Black Forest Labs, 2026.03
Paper/Blog Link My Issue
#Article #ComputerVision #Pretraining #NLP #MultiModal #SpeechProcessing #Self-SupervisedLearning #read-later #FlowMatching #4D (Video) #Omni #RectifiedFlow #audio Issue Date: 2026-03-10 Comment
backbone modelは下記のFLUX.2と呼ばれるモデル:
FLUX Commercial Licensing:
https://bfl.ai/licensing
先行研究:
- The Simulation Company, Simile, 2026.02
先行研究から読みたい
元ポスト:
HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing, Tencent HY Team, 2026.03
Paper/Blog Link My Issue
#Article #ComputerVision #Personalization #PEFT(Adaptor/LoRA) #memory #Editing #One-Line Notes #ImageSynthesis #Adaptive Issue Date: 2026-03-06 Comment
元ポスト:
source imageとpromptから、frozenされたモデルに対するadapter weightを(finetuningなしで)動的に生成し、インスタンス固有のパラメータを用いることでinstance specificな演算を実現する
関連:
- [Paper Note] Doc-to-LoRA: Learning to Instantly Internalize Contexts, Rujikorn Charakorn+, arXiv'26, 2026.02
- [Paper Note] Text-to-LoRA: Instant Transformer Adaption, Rujikorn Charakorn+, ICML'25, 2025.06
Ming-flash-omni-2.0, inclusionAI, 2026.02
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Transformer #MultiModal #SpeechProcessing #DiffusionModel #Speech #OpenWeight #MoE(Mixture-of-Experts) #Omni #text Issue Date: 2026-02-12 Comment
元ポスト:
関連:
- Ming-flash-omni-Preview, inclusionAI, 2025.10
- [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25, 2025.06
公式ポスト:
Accelerating Diffusion Models with an Open, Plug-and-Play Offering, Nvidia, 2026.01
Paper/Blog Link My Issue
#Article #ComputerVision #EfficiencyImprovement #Tools #NLP #Library #DiffusionModel #TextToImageGeneration #Distillation #PostTraining #Editing #4D (Video) #TextToVideoGeneration #ImageToTextGeneration Issue Date: 2026-01-29 Comment
元ポスト:
self forcingも実装されている
- [Paper Note] Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion, Xun Huang+, NeurIPS'25
[Paper Note] Pushing the Frontier of Audiovisual Perception with Large-Scale Multimodal Correspondence Learning, Meta, 2025.12
Paper/Blog Link My Issue
#Article #ComputerVision #Library #MultiModal #SpeechProcessing #python #Encoder #4D (Video) #audio Issue Date: 2025-12-19 Comment
元ポスト:
様々なモダリティ(画像・動画・音声等)をエンコードできるPerception Encoderに最近リリースされたSAM Audio (Audio-Visual / Audio-frame) も組み込まれた模様
code:
https://github.com/facebookresearch/perception_models
Molmo 2: State-of-the-art video understanding, pointing, and tracking, Ai2, 2025.12
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #SmallModel #OpenWeight #OpenSource #Selected Papers/Blogs #VideoGeneration/Understandings #VisionLanguageModel #4D (Video) #KeyPoint Notes Issue Date: 2025-12-17 Comment
テクニカルレポート:
https://www.datocms-assets.com/64837/1765901660-molmo_v2_2026-techreport-3.pdf
HF:
https://huggingface.co/collections/allenai/molmo2
Qwen3とOlmoをベースにしたvariantsが存在し、Olmoの方はバックボーンのLLMも含めて全てがオープンになっている。MetaのPerceptionLMと比較して1/8の動画データ量で高い性能を達成できており、データのcurationの品質と、grounding basedな目的関数の工夫によって実現されているとのこと。
proprietaryなモデル群と比較すると、trackingは圧勝、そのほかはGPT5-miniと同様なものが多い。モデルによってタスクの優劣が結構分かれており、Video関連タスクをタスクをまたいで汎化させることにはclosedでも苦戦しているように見える。
オープンモデルとの比較で言うと圧勝で、LongVideoのQAに関してだけは、Eagle2.5-8Bと呼ばれるモデルが勝っている。
あとは全体を通じてLLMのバックボーンがQwen3の場合の性能が良いことが興味深い。バックボーンに採用するLLMに応じて性能が結構変わる。これはアーキテクチャがそもそもConnectorを利用するタイプのもので、Unifiedなアーキテクチャではないことが要因としては考えられる。
元ポスト:
demo:
コードベースが公開:
https://github.com/allenai/molmo2
Introducing Nano Banana Pro, Google, 2025.11
Paper/Blog Link My Issue
#Article #ComputerVision #GenerativeAI #Proprietary #Selected Papers/Blogs Issue Date: 2025-11-21 Comment
元ポスト:
所見:
所見:
Introducing Meta Segment Anything Model 3 and Segment Anything Playground, Meta, 2025.11
Paper/Blog Link My Issue
#Article #ComputerVision #ImageSegmentation #FoundationModel #Blog #read-later #Selected Papers/Blogs #4D (Video) Issue Date: 2025-11-20 Comment
元ポスト:
今度はSAM3、最近毎日なんか新しいの出てるな
OlmoEarth-v1-Large, Ai2, 2025.11
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #FoundationModel #OpenWeight Issue Date: 2025-11-06 Comment
元ポスト:
衛星画像で学習されたモデルらしい
LongCat-Flash-Omni Technical Report, 2025.10
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #SpeechProcessing #OpenWeight #MoE(Mixture-of-Experts) #UMM #4D (Video) #Omni #audio #text Issue Date: 2025-11-01 Comment
元ポスト:
HF: https://huggingface.co/meituan-longcat/LongCat-Flash-Omni
text, image/video, audioをinputし、audioを生成するomniモデル
