TextToImageGeneration
Issue Date: 2025-10-10 [Paper Note] Flow-GRPO: Training Flow Matching Models via Online RL, Jie Liu+, arXiv'25, 2025.05 GPT Summary- Flow-GRPOは、オンライン強化学習をフローマッチングモデルに統合した新しい手法で、ODEをSDEに変換することでRL探索のための統計的サンプリングを実現し、デノイジングステップを削減してサンプリング効率を向上させる。実験結果では、テキストから画像へのタスクで性能が大幅に向上し、GenEvalの精度が63%から95%に、視覚的テキストレンダリングの精度が59%から92%に改善された。また、報酬ハッキングがほとんど発生せず、画像の質や多様性を損なうことなく報酬が増加した。 #ComputerVision #Pocket #Transformer #Architecture #ICLR #read-later #NormalizingFlow
Issue Date: 2025-08-17 [Paper Note] JetFormer: An Autoregressive Generative Model of Raw Images and Text, Michael Tschannen+, ICLR'25 GPT Summary- JetFormerは、画像とテキストの共同生成を効率化する自己回帰型デコーダー専用のトランスフォーマーであり、別々にトレーニングされたコンポーネントに依存せず、両モダリティを理解・生成可能。正規化フローモデルを活用し、テキストから画像への生成品質で既存のベースラインと競合しつつ、堅牢な画像理解能力を示す。JetFormerは高忠実度の画像生成と強力な対数尤度境界を実現する初のモデルである。 Comment
openreview: https://openreview.net/forum?id=sgAp2qG86e
画像をnormalizing flowでソフトトークンに変換し、transformerでソフトトークンを予測させるように学習することで、テキストと画像を同じアーキテクチャで学習できるようにしました、みたいな話っぽい?おもしろそう
#ComputerVision #Pocket #Transformer #ReinforcementLearning #GRPO #On-Policy #Encoder-Decoder
Issue Date: 2025-08-12 [Paper Note] AR-GRPO: Training Autoregressive Image Generation Models via Reinforcement Learning, Shihao Yuan+, arXiv'25 GPT Summary- AR-GRPOは、自己回帰画像生成モデルにオンライン強化学習を統合した新しいアプローチで、生成画像の品質を向上させるためにGRPOアルゴリズムを適用。クラス条件およびテキスト条件の画像生成タスクで実験を行い、標準のARモデルと比較して品質と人間の好みを大幅に改善した。結果は、AR画像生成における強化学習の有効性を示し、高品質な画像合成の新たな可能性を開く。 Comment
元ポスト:
openreview: https://openreview.net/forum?id=Wbr51vK331¬eId=NpvYJlJFqK
#ComputerVision #Controllable #Pocket #NLP #MultiModal Issue Date: 2025-08-07 [Paper Note] Adding Conditional Control to Text-to-Image Diffusion Models, Lvmin Zhang+, arXiv'23 GPT Summary- ControlNetは、テキストから画像への拡散モデルに空間的な条件制御を追加するためのニューラルネットワークアーキテクチャであり、事前学習済みのエンコーディング層を再利用して多様な条件制御を学習します。ゼロ畳み込みを用いてパラメータを徐々に増加させ、有害なノイズの影響を軽減します。Stable Diffusionを用いて様々な条件制御をテストし、小規模および大規模データセットに対して堅牢性を示しました。ControlNetは画像拡散モデルの制御における広範な応用の可能性を示唆しています。 Comment
ControlNet論文
#ComputerVision #NaturalLanguageGeneration #NLP #LanguageModel #TabularData Issue Date: 2023-07-15 Table and Image Generation for Investigating Knowledge of Entities in Pre-trained Vision and Language Models, ACL'23 GPT Summary- 本研究では、Vision&Language(V&L)モデルにおけるエンティティの知識の保持方法を検証するために、テーブルと画像の生成タスクを提案します。このタスクでは、エンティティと関連する画像の知識を含むテーブルを生成する第一の部分と、キャプションとエンティティの関連知識を含むテーブルから画像を生成する第二の部分があります。提案されたタスクを実行するために、Wikipediaの約20万のinfoboxからWikiTIGデータセットを作成しました。最先端のV&LモデルOFAを使用して、提案されたタスクのパフォーマンスを評価しました。実験結果は、OFAが一部のエンティティ知識を忘れることを示しています。 #ComputerVision #NaturalLanguageGeneration #NLP #MultiModal #DiffusionModel Issue Date: 2023-07-15 Learning to Imagine: Visually-Augmented Natural Language Generation, ACL'23 GPT Summary- 本研究では、視覚情報を活用した自然言語生成のためのLIVEという手法を提案しています。LIVEは、事前学習済み言語モデルを使用して、テキストに基づいて場面を想像し、高品質な画像を合成する方法です。また、CLIPを使用してテキストの想像力を評価し、段落ごとに画像を生成します。さまざまな実験により、LIVEの有効性が示されています。コード、モデル、データは公開されています。 Comment
>まず、テキストに基づいて場面を想像します。入力テキストに基づいて高品質な画像を合成するために拡散モデルを使用します。次に、CLIPを使用して、テキストが想像力を喚起できるかを事後的に判断します。最後に、私たちの想像力は動的であり、段落全体に1つの画像を生成するのではなく、各文に対して合成を行います。
興味深い
#ComputerVision #Pocket #NLP #Personalization #DiffusionModel Issue Date: 2023-06-16 ViCo: Detail-Preserving Visual Condition for Personalized Text-to-Image Generation, Shaozhe Hao+, N_A, arXiv'23 GPT Summary- 拡散モデルを用いたパーソナライズされた画像生成において、高速で軽量なプラグインメソッドであるViCoを提案。注目モジュールを導入し、注目ベースのオブジェクトマスクを使用することで、一般的な過学習の劣化を軽減。元の拡散モデルのパラメータを微調整せず、軽量なパラメータトレーニングだけで、最新のモデルと同等またはそれ以上の性能を発揮することができる。 #ComputerVision #Pocket #VariationalAutoEncoder #CVPR #Selected Papers/Blogs #Encoder-Decoder #ImageSynthesis #U-Net Issue Date: 2025-10-10 [Paper Note] High-Resolution Image Synthesis with Latent Diffusion Models, Robin Rombach+, CVPR'22, 2021.12 GPT Summary- 拡散モデル(DMs)は、逐次的なデノイジングオートエンコーダを用いて画像生成プロセスを効率化し、最先端の合成結果を達成。従来のピクセル空間での訓練に比べ、強力な事前訓練されたオートエンコーダの潜在空間での訓練により、計算リソースを削減しつつ視覚的忠実度を向上。クロスアテンション層を導入することで、テキストやバウンディングボックスに基づく柔軟な生成が可能となり、画像インペインティングや無条件画像生成などで競争力のある性能を発揮。 Comment
ここからtext等による条件付けをした上での生成が可能になった(らしい)
#NeuralNetwork #ComputerVision #Pocket #DiffusionModel #NeurIPS #Selected Papers/Blogs #Encoder-Decoder #ScoreMatching #U-Net Issue Date: 2025-10-10 [Paper Note] Diffusion Models Beat GANs on Image Synthesis, Prafulla Dhariwal+, NeurIPS'21 Spotlight, 2021.05 GPT Summary- 拡散モデルが最先端の生成モデルを上回る画像サンプル品質を達成。無条件画像合成ではアーキテクチャの改善、条件付き画像合成では分類器のガイダンスを用いて品質向上。ImageNetでのFIDスコアは、128×128で2.97、256×256で4.59、512×512で7.72を達成し、BigGAN-deepに匹敵。分類器のガイダンスはアップサンプリング拡散モデルと組み合わせることでさらに改善され、256×256で3.94、512×512で3.85を記録。コードは公開中。 Comment
openreview: https://openreview.net/forum?id=AAWuCvzaVt
日本語解説: https://qiita.com/UMAboogie/items/160c1159811743c49d99
バックボーンとして使われているU-Netはこちら:
- [Paper Note] U-Net: Convolutional Networks for Biomedical Image Segmentation, Olaf Ronneberger+, MICCAI'15, 2015.05
#Article #ComputerVision #Transformer #DiffusionModel #Blog #OpenWeight #Selected Papers/Blogs Issue Date: 2025-10-10 Introducing Stable Diffusion 3.5, StabilityAI, 2024.10 Comment
SD3.5
#Article #ComputerVision #NLP #Dataset #LanguageModel #Evaluation #UMM Issue Date: 2025-09-19 MagicBench, ByteDance-Seed, 2025.09 Comment
元ポスト:
英文と中文両方存在する
#Article #ComputerVision #NLP #Blog #ProprietaryLLM #Editing Issue Date: 2025-08-28 Introducing Gemini 2.5 Flash Image, our state-of-the-art image model, Google, 2025.08 Comment
nano banana
ベストプラクティス:
プロンプトガイドと戦略:
https://ai.google.dev/gemini-api/docs/image-generation?hl=ja#prompt-guide
元ポスト: