ImageSynthesis


Paper/Blog Link My Issue
#ComputerVision #Pretraining #Pocket #NLP #LanguageModel #ReinforcementLearning #Chain-of-Thought #MultiModal #DiffusionModel #TextToImageGeneration #read-later #One-Line Notes Issue Date: 2026-01-06 GPT Summary- ThinkGenは、マルチモーダル大規模言語モデル(MLLM)のChain-of-Thought(CoT)推論を活用した初の思考駆動型視覚生成フレームワークである。MLLMが特化した指示を生成し、Diffusion Transformer(DiT)がそれに基づいて高品質な画像を生成する。さらに、MLLMとDiT間で強化学習を行うSepGRPOトレーニングパラダイムを提案し、多様なデータセットに対応した共同トレーニングを可能にする。実験により、ThinkGenは複数の生成ベンチマークで最先端の性能を達成した。 Comment

元ポスト:

Loading…

MLLMとDiTを別々にRLして、MLLMはDiTが好むplan/instructionを生成し、その後DiTとConnectorに対してplan/instructionに従うようなRLをするような手法のようである。図2,3,4を見ると概要がわかる。




Paper/Blog Link My Issue
#ComputerVision #Pocket #DiffusionModel #Selected Papers/Blogs #Encoder-Decoder #Backbone #KeyPoint Notes Issue Date: 2025-12-17 GPT Summary- VAEを用いない新しい潜在拡散モデルSVGを提案。SVGは自己教師あり表現を活用し、明確な意味的識別性を持つ特徴空間を構築。これにより、拡散トレーニングが加速し、生成品質が向上。実験結果はSVGの高品質な視覚表現能力を示す。 Comment

openreview: https://openreview.net/forum?id=kdpeJNbFyf

これまでの拡散モデルベースのImage GeneiationモデルにおけるVAEを、事前学習済み(self supervised learning)のvision encoder(本稿ではDINOv3)に置き換えfreezeし、それとは別途Residual Encoderと呼ばれるViTベースのEncoderを学習する。前者は画像の意味情報を捉える能力をそのまま保持し、Residual Encoder側でReconstructionをする上でのPerceptualな情報等の(vision encoderでは失われてしまう)より精緻な特徴を捉える。双方のEncoder出力はchannel次元でconcatされ、SVG Featureを形成する。SVG Decoderは、SVG FeatureをPixelスペースに戻す役割を果たす。このアーキテクチャはシンプルで軽量だが、DINOv3による強力な意味的な識別力を保ちつつ、精緻な特徴を捉える能力を補完できる。Figure 5を見ると、実際にDINOv3のみと比較して、Residual Encoderによって、細かい部分がより正確なReconstructionが実現できていることが定性的にわかる。学習時はReconstruction lossを使うが、Residual Encoderに過剰に依存するだけめなく、outputの数値的な値域が異なり、DINOv3の意味情報を損なう恐れが足るため、Residual Encoderの出力の分布をDINOv3とalignするように学習する。

image

VAE Encoderによるlatent vectorは低次元だが、提案手法はより高次元なベクトルを扱うため、Diffusionモデルの学習が難しいと考えられるが、SVG Featureの特徴量はうまく分散しており、安定してFlow Matchingで学習ができるとのこと。

実際、実験結果を見ると安定して、しかもサンプル効率がベースラインと比較して大幅に高く収束していることが見受けられる。
image




Paper/Blog Link My Issue
#ComputerVision #Pocket #Transformer #DiffusionModel #TextToImageGeneration #Pixel-based Issue Date: 2025-11-26 GPT Summary- PixelDiTは、オートエンコーダーを排除し、ピクセル空間での拡散プロセスを直接学習するエンドツーエンドモデルである。グローバルなセマンティクスとテクスチャの詳細を捉える二重レベルのトランスフォーマーアーキテクチャを採用し、効率的なトレーニングを実現。ImageNetで1.61のFIDを達成し、テキストから画像への生成にも拡張。GenEvalで0.74、DPG-benchで83.5を記録し、既存モデルを上回る性能を示した。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#ComputerVision #Pocket #LanguageModel #InstructionTuning #DiffusionModel #TextToImageGeneration #read-later #Selected Papers/Blogs #ICCV Issue Date: 2025-10-20 GPT Summary- 本研究では、視覚的指示調整の新手法VPiTを提案し、LLMがテキストと視覚トークンを生成できるようにします。VPiTは、キュレーションされた画像とテキストデータからトークンを予測する能力をLLMに教え、視覚生成能力が向上することを示しました。特に、理解データが生成データよりも効果的に両方の能力に寄与することが明らかになりました。MetaMorphモデルを訓練し、視覚理解と生成で競争力のあるパフォーマンスを達成し、LLMの事前学習から得た知識を活用することで、視覚生成における一般的な失敗を克服しました。これにより、LLMが視覚理解と生成に適応できる可能性が示唆されました。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#ComputerVision #Pocket #DiffusionModel #TextToImageGeneration #VisionLanguageModel #2D (Image) #Editing Issue Date: 2025-10-18 GPT Summary- 本研究では、ペアデータを使用せずに画像編集モデルをトレーニングする新しいパラダイムを提案。拡散モデルを展開し、視覚-言語モデル(VLM)からのフィードバックを活用して直接最適化を行う。生成画像の視覚的忠実性を保つために分布マッチング損失(DMD)を導入。標準ベンチマークで評価した結果、従来の教師ありペアデータを用いたモデルと同等の性能を達成し、RLベースの手法をも上回ることが示された。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#ComputerVision #Analysis #Pocket #DiffusionModel #TextToImageGeneration #CVPR #GeometryUnderstanding Issue Date: 2025-10-24 GPT Summary- 生成モデルはリアルな画像を生成するが、幾何学的特徴において実際の画像と異なることを示す。事前に選別された生成画像を用いて、幾何学的特性に基づく分類器が生成画像を高精度で識別できることを確認。3つの分類器を使用し、画像の透視場、線、物体と影の関係を分析。これにより、生成画像の検出精度が向上し、現在の生成器は実際の画像の幾何学的特性を再現できないと結論付ける。 Comment

pj page: https://projective-geometry.github.io/




Paper/Blog Link My Issue
#ComputerVision #Pocket #TextToImageGeneration #VariationalAutoEncoder #CVPR #Selected Papers/Blogs #Encoder-Decoder #U-Net Issue Date: 2025-10-10 GPT Summary- 拡散モデル(DMs)は、逐次的なデノイジングオートエンコーダを用いて画像生成プロセスを効率化し、最先端の合成結果を達成。従来のピクセル空間での訓練に比べ、強力な事前訓練されたオートエンコーダの潜在空間での訓練により、計算リソースを削減しつつ視覚的忠実度を向上。クロスアテンション層を導入することで、テキストやバウンディングボックスに基づく柔軟な生成が可能となり、画像インペインティングや無条件画像生成などで競争力のある性能を発揮。 Comment

ここからtext等による条件付けをした上での生成が可能になった(らしい)

日本語解説: https://qiita.com/UMAboogie/items/afa67842e0461f147d9b
前提知識:
- [Paper Note] Denoising Diffusion Probabilistic Models, Jonathan Ho+, NeurIPS'20, 2020.06




Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #EfficiencyImprovement #Pocket #DiffusionModel #NeurIPS #Selected Papers/Blogs #Encoder-Decoder #ScoreMatching #U-Net Issue Date: 2025-10-10 GPT Summary- 拡散確率モデルを用いた高品質な画像合成を提案。新しい重み付き変分境界でのトレーニングにより、優れた結果を得る。無条件CIFAR10で9.46のInceptionスコア、256x256のLSUNでProgressiveGANに匹敵する品質を達成。実装はGitHubで公開。 Comment

日本語解説: https://qiita.com/ground0state/items/565de257807b12dba52a




Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #TTS #Routing #UMM #Omni #Sparse Issue Date: 2025-10-28 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25

過去一番多くのタグを付与した気がするが、果たして大規模、Omniモデルかつ、UMMにしたことによる恩恵(=様々なモダリティを統一された空間上に学習させる恩恵)はどの程度あるのだろうか?

アーキテクチャを見ると、モダリティごとに(モダリティ単位でのバイアスがかかった)Routerが用意されexpertにルーティングされるような構造になっている。