DiffusionModel
Issue Date: 2025-11-26 [Paper Note] PixelDiT: Pixel Diffusion Transformers for Image Generation, Yongsheng Yu+, arXiv'25, 2025.11 GPT Summary- PixelDiTは、オートエンコーダーを排除し、ピクセル空間での拡散プロセスを直接学習するエンドツーエンドモデルである。グローバルなセマンティクスとテクスチャの詳細を捉える二重レベルのトランスフォーマーアーキテクチャを採用し、効率的なトレーニングを実現。ImageNetで1.61のFIDを達成し、テキストから画像への生成にも拡張。GenEvalで0.74、DPG-benchで83.5を記録し、既存モデルを上回る性能を示した。 Comment
元ポスト:
#ComputerVision #EfficiencyImprovement #Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #FoundationModel #TextToImageGeneration #SmallModel #VideoGeneration/Understandings #VisionLanguageModel
Issue Date: 2025-11-20 [Paper Note] Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation, Vladimir Arkhipkin+, arXiv'25, 2025.11 GPT Summary- Kandinsky 5.0は、高解像度画像と10秒動画合成のための最先端モデルで、3つのコアモデル(Image Lite、Video Lite、Video Pro)から構成される。データキュレーションライフサイクルのレビューや、自己教師ありファインチューニングや強化学習を用いた品質向上技術を取り入れ、高い生成速度とパフォーマンスを実現。オープンソースコードとトレーニングチェックポイントの提供により、研究コミュニティの発展に寄与することを目指す。 Comment
HF: https://huggingface.co/kandinskylab
元ポスト:
#ComputerVision #Controllable #Pocket #VideoGeneration/Understandings
Issue Date: 2025-11-14 [Paper Note] Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising, Assaf Singer+, arXiv'25, 2025.11 GPT Summary- Time-to-Move(TTM)は、画像から動画への拡散モデルを用いたトレーニング不要の動画生成フレームワークで、動きと外観を制御する。ユーザーが得た粗いアニメーションを動きの手がかりとして利用し、二重時計デノイジングにより外観を保持しつつ動きの整合性を強化。TTMは追加のトレーニングなしでリアリズムと動きの制御において既存手法と同等以上の性能を示し、ピクセルレベルの条件付けを通じて外観制御の精度を向上させた。 Comment
元ポスト:
元ポスト:
解説:
#ComputerVision #Pocket #Transformer #Selected Papers/Blogs #2D (Image) #WorldModels Issue Date: 2025-11-11 [Paper Note] ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation, Jay Zhangjie Wu+, arXiv'25, 2025.10 GPT Summary- ChronoEditフレームワークを提案し、画像編集を動画生成として再定義。入力画像と編集画像を動画の最初と最後のフレームとし、時間的一貫性を学習した動画生成モデルを活用。推論時に時間的推論ステージを導入し、物理的に実現可能な変換を制約する編集軌道を生成。新しいベンチマークPBench-Editで、ChronoEditが視覚的忠実性と物理的妥当性で最先端の手法を上回ることを示した。 Comment
HF:
https://huggingface.co/nvidia/ChronoEdit-14B-Diffusers
LoRAによるUpscaler:
https://huggingface.co/nvidia/ChronoEdit-14B-Diffusers-Upscaler-Lora
元ポスト:
スケッチ+promptでの編集
HF:
https://huggingface.co/nvidia/ChronoEdit-14B-Diffusers-Paint-Brush-Lora
元ポスト:
#ComputerVision #Pocket #LongSequence #VideoGeneration/Understandings #One-Line Notes Issue Date: 2025-11-10 [Paper Note] Rolling Forcing: Autoregressive Long Video Diffusion in Real Time, Kunhao Liu+, arXiv'25, 2025.09 GPT Summary- ストリーミングビデオ生成におけるエラーの蓄積を抑えるために、新技術「Rolling Forcing」を提案。複数フレームの共同デノイジング、注意シンクメカニズムの導入、効率的なトレーニングアルゴリズムを特徴とし、リアルタイムでの高品質なビデオ生成を実現。実験により、エラーの蓄積が大幅に削減されることが確認された。 Comment
関連:
- [Paper Note] Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion, Xun Huang+, NeurIPS'25
- [Paper Note] Self-Forcing++: Towards Minute-Scale High-Quality Video Generation, Justin Cui+, arXiv'25, 2025.10
self forcingと比較して複数フレームを同時にdenoisingしエラーの蓄積を低減するコンセプトな模様。
#Pocket #NLP #LanguageModel #ReinforcementLearning #MultiModal #TextToImageGeneration #NeurIPS #2D (Image) #text Issue Date: 2025-11-05 [Paper Note] MMaDA: Multimodal Large Diffusion Language Models, Ling Yang+, NeurIPS'25, 2025.05 GPT Summary- MMaDAは、テキスト推論やマルチモーダル理解、テキストから画像生成に優れた性能を発揮する新しいマルチモーダル拡散基盤モデルです。主な革新点は、モダリティに依存しない統一された拡散アーキテクチャ、混合長チェーン・オブ・ソートによるファインチューニング戦略、そしてUniGRPOという統一ポリシー勾配ベースのRLアルゴリズムです。実験により、MMaDA-8Bは他のモデルを上回る性能を示し、事前トレーニングと事後トレーニングのギャップを埋める効果が確認されました。コードとトレーニング済みモデルはオープンソースで提供されています。 Comment
ポイント解説:
元ポスト:
#Pocket #LanguageModel #ICLR #read-later #Selected Papers/Blogs Issue Date: 2025-11-04 [Paper Note] Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models, Marianne Arriola+, ICLR'25, 2025.03 GPT Summary- ブロック拡散言語モデルは、拡散モデルと自己回帰モデルの利点を組み合わせ、柔軟な長さの生成を可能にし、推論効率を向上させる。効率的なトレーニングアルゴリズムやデータ駆動型ノイズスケジュールを提案し、言語モデリングベンチマークで新たな最先端のパフォーマンスを達成。 Comment
openreview: https://openreview.net/forum?id=tyEyYT267x
#Analysis #Pocket #NLP #LanguageModel #Architecture #read-later #Selected Papers/Blogs Issue Date: 2025-11-04 [Paper Note] On Powerful Ways to Generate: Autoregression, Diffusion, and Beyond, Chenxiao Yang+, arXiv'25, 2025.10 GPT Summary- 自己回帰的な次トークン予測とマスクされた拡散を超えた生成プロセスを研究し、その利点と限界を定量化。書き換えや長さ可変の編集が可能になることで、理論的および実証的な利点を示し、自然言語以外の領域でも機能する大規模言語モデル(LLM)の重要性を強調。 Comment
元ポスト:
#Tutorial #ComputerVision #Pocket Issue Date: 2025-10-29 [Paper Note] The Principles of Diffusion Models, Chieh-Hsin Lai+, arXiv'25, 2025.10 GPT Summary- このモノグラフでは、拡散モデルの核心原則とその多様な定式化の起源を探ります。拡散モデリングは、データをノイズに腐敗させる前方プロセスから始まり、逆プロセスを学習してノイズをデータに戻すことを目的としています。三つの視点(変分的、スコアベース、フローベース)を通じて、ノイズ除去やデータ生成の方法を説明し、共通の基盤として時間依存の速度場を提案します。さらに、制御可能な生成や効率的な数値ソルバーについても議論し、深層学習の知識を持つ読者に拡散モデルの理解を提供します。 Comment
元ポスト:
#Analysis #MachineLearning #Pocket #Optimizer Issue Date: 2025-10-26 [Paper Note] Optimization Benchmark for Diffusion Models on Dynamical Systems, Fabian Schaipp, arXiv'25, 2025.10 GPT Summary- 拡散モデルのトレーニングにおける最適化手法を評価し、MuonとSOAPがAdamWに対して効率的な代替手段であることを示し、最終損失が18%低下することを観察。さらに、学習率スケジュールやAdamとSGDのパフォーマンスギャップなど、トレーニングダイナミクスに関連する現象を再考。 Comment
元ポスト:
#ComputerVision #Pocket #Transformer #read-later Issue Date: 2025-10-26 [Paper Note] Positional Encoding Field, Yunpeng Bai+, arXiv'25, 2025.10 GPT Summary- Diffusion Transformers(DiTs)は、視覚生成において優れた性能を示すアーキテクチャであり、パッチトークンと位置エンコーディング(PE)を用いています。本研究では、DiTsがどのように視覚コンテンツを整理するかを再考し、PEの摂動に対しても一貫した出力を生成することを発見しました。これに基づき、位置エンコーディングを3Dフィールドに拡張したPE-Fieldを提案し、ボリュメトリック推論と階層的エンコーディングを組み込みました。強化されたDiTは、新しい視点合成と空間画像編集において最先端の性能を達成しました。 Comment
pj page: https://yunpeng1998.github.io/PE-Field-HomePage/
元ポスト:
#MachineLearning #Pocket #ICLR #PhysicalConstraints Issue Date: 2025-10-24 [Paper Note] Physics-Informed Diffusion Models, Jan-Hendrik Bastek+, ICLR'25, 2024.03 GPT Summary- 生成モデルと偏微分方程式を統一するフレームワークを提案し、生成サンプルが物理的制約を満たすように損失項を導入。流体の流れに関するケーススタディで残差誤差を最大2桁削減し、構造トポロジー最適化においても優れた性能を示す。過学習に対する正則化効果も確認。実装が簡単で、多様な制約に適用可能。 Comment
openreview: https://openreview.net/forum?id=tpYeermigp&utm_source=chatgpt.com
#ComputerVision #Controllable #Pocket #Transformer #VariationalAutoEncoder #Selected Papers/Blogs #ICCV #KeyPoint Notes Issue Date: 2025-10-22 [Paper Note] OminiControl: Minimal and Universal Control for Diffusion Transformer, Zhenxiong Tan+, ICCV'25 Highlight, 2024.11 GPT Summary- OminiControlは、Diffusion Transformer(DiT)アーキテクチャにおける画像条件付けの新しいアプローチで、パラメータオーバーヘッドを最小限に抑えつつ、柔軟なトークン相互作用と動的な位置エンコーディングを実現。広範な実験により、複数の条件付けタスクで専門的手法を上回る性能を示し、合成された画像ペアのデータセット「Subjects200K」を導入。効率的で多様な画像生成システムの可能性を示唆。 Comment
元ポスト:
DiTのアーキテクチャは(MMA以外は)変更せずに、Condition Image C_IをVAEでエンコードしたnoisy inputをDiTのinputにconcatし順伝播させることで、DiTをunified conditioningモデル(=C_Iの特徴量を他のinputと同じlatent spaceで学習させ統合的に扱う)として学習する[^1]。
[^1]: 既存研究は別のエンコーダからエンコードしたfeatureが加算されていて(式3)、エンコーダ部分に別途パラメータが必要だっただけでなく、加算は空間的な対応関係が存在しない場合はうまく対処できず(featureの次元が空間的な情報に対応しているため)、conditional tokenとimageの交互作用を妨げていた。
また、positional encodingのindexをconditional tokenとnoisy image tokensと共有すると、空間的な対応関係が存在するタスク(edge guided generation等)はうまくいったが、被写体を指定する生成(subject driven generation)のような対応関係が存在しないタスク(non-aligned task)の場合はうまくいかなかった。しかし、non-aligned taskの場合は、indexにオフセットを加えシフトさせる(式4)ことで、conditional text/image token間で空間的にoverlapしないようにすることで性能が大幅に改善した。
既存研究では、C_Iの強さをコントロールするために、ハイパーパラメータとして定数を導入し、エンコードされたfeatureを加算する際の強さを調整していたが(3.2.3節)、本手法ではconcatをするためこのような方法は使えない。そのため、Multi-Modal Attention(MMA)にハイパーパラメータによって強さを調整可能なbias matrixを導入し、C_IとXのattentionの交互作用の強さを調整することで対応した(式5,6)。
#Pocket #MultiModal #Robotics #Routing Issue Date: 2025-10-22 [Paper Note] Multi-Modal Manipulation via Multi-Modal Policy Consensus, Haonan Chen+, arXiv'25, 2025.09 GPT Summary- 多様な感覚モダリティを統合することはロボット操作において重要であり、従来の特徴連結アプローチは最適ではない。提案手法では、ポリシーを拡散モデルに因数分解し、各モデルが特定の表現に特化。ルーターネットワークを用いて適応的に重みを学習し、新しい表現の統合を可能にする。シミュレーションや実世界のタスクで、マルチモーダル推論において特徴連結のベースラインを上回る性能を示し、物理的な摂動に対しても堅牢性を持つことが確認された。 Comment
元ポスト:
pj page: https://policyconsensus.github.io
#ComputerVision #Pocket #LongSequence #read-later #VideoGeneration/Understandings #4D (Video) Issue Date: 2025-10-22 [Paper Note] Self-Forcing++: Towards Minute-Scale High-Quality Video Generation, Justin Cui+, arXiv'25, 2025.10 GPT Summary- 本論文では、長い動画生成における品質劣化を軽減する新しいアプローチを提案します。教師モデルの知識を活用し、自己生成した長い動画から抽出したサンプルセグメントを通じて学生モデルにガイダンスを提供することで、長さを最大20倍にスケールアップしつつ時間的一貫性を維持します。これにより、最大4分15秒の動画を生成可能で、従来の手法よりも忠実度と一貫性で大幅に優れた結果を示しました。 Comment
元ポスト:
おー、もう++が出てきた。すごいスピード感だ。
Self Forcingと比較して50s以上での生成の性能が向上しているように見える
#ComputerVision #MachineLearning #Pocket #NLP #MultiModal #SSM (StateSpaceModel) #UMM Issue Date: 2025-10-21 [Paper Note] End-to-End Multi-Modal Diffusion Mamba, Chunhao Lu+, arXiv'25, 2025.10 GPT Summary- MDM(Multi-modal Diffusion Mamba)という新しいアーキテクチャを提案し、エンドツーエンドのマルチモーダル処理を統一。Mambaベースの選択拡散モデルを用いて、エンコーディングとデコーディングでモダリティ特有の情報を段階的に生成。高解像度画像とテキストを同時に生成し、既存モデルを大幅に上回る性能を示す。計算効率を保ちながらマルチモーダルプロセスを統一する新たな方向性を確立。 Comment
元ポスト:
#ComputerVision #Pocket #Chain-of-Thought #Reasoning #VideoGeneration/Understandings #2D (Image) Issue Date: 2025-10-20 [Paper Note] VChain: Chain-of-Visual-Thought for Reasoning in Video Generation, Ziqi Huang+, arXiv'25, 2025.10 GPT Summary- VChainは、マルチモーダルモデルの視覚的推論を動画生成に活用する新しいフレームワークで、重要なキーフレームを生成し、動画生成器のチューニングを効率的にガイドします。このアプローチにより、複雑なシナリオにおいて生成動画の品質が大幅に向上しました。 Comment
pj page: https://eyeline-labs.github.io/VChain/
元ポスト:
Chain-of-Visual-Thoughts
keyframeをchain-of-thoughtsに含めることで、時間発展をより正確にしようという試みに見える。追加の学習なしで実施できるとのこと。https://github.com/user-attachments/assets/a7283398-2a61-45be-b7a4-eb7452656e06"
/>
#ComputerVision #Pocket #LanguageModel #InstructionTuning #TextToImageGeneration #read-later #Selected Papers/Blogs #ICCV #ImageSynthesis Issue Date: 2025-10-20 [Paper Note] MetaMorph: Multimodal Understanding and Generation via Instruction Tuning, Shengbang Tong+, ICCV'25, 2024.12 GPT Summary- 本研究では、視覚的指示調整の新手法VPiTを提案し、LLMがテキストと視覚トークンを生成できるようにします。VPiTは、キュレーションされた画像とテキストデータからトークンを予測する能力をLLMに教え、視覚生成能力が向上することを示しました。特に、理解データが生成データよりも効果的に両方の能力に寄与することが明らかになりました。MetaMorphモデルを訓練し、視覚理解と生成で競争力のあるパフォーマンスを達成し、LLMの事前学習から得た知識を活用することで、視覚生成における一般的な失敗を克服しました。これにより、LLMが視覚理解と生成に適応できる可能性が示唆されました。 Comment
元ポスト:
#ComputerVision #Pretraining #Pocket #Self-SupervisedLearning Issue Date: 2025-10-20 [Paper Note] Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-training, Jiachen Lei+, arXiv'25, 2025.10 GPT Summary- 新しい二段階トレーニングフレームワークを提案し、ピクセル空間生成モデルの性能と効率のギャップを埋める。第一段階で意味のあるセマンティクスをキャプチャし、第二段階でエンコーダとデコーダを統合してファインチューニング。ImageNetデータセットで優れた性能を示し、特に拡散モデルは従来手法を大きく上回り、一貫性モデルは高解像度画像での直接トレーニングに成功。 Comment
元ポスト:
#ComputerVision #Pocket #Dataset #LanguageModel #Supervised-FineTuning (SFT) #InstructionTuning #Evaluation #MultiModal #UMM #SpatialUnderstanding Issue Date: 2025-10-20 [Paper Note] Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation, Kang Liao+, arXiv'25, 2025.10 GPT Summary- カメラ中心の理解と生成を統合したマルチモーダルモデル「Puffin」を提案。Puffinは、言語回帰と拡散生成を組み合わせ、カメラを言語として扱う新しいアプローチを採用。400万の視覚-言語-カメラのデータセット「Puffin-4M」で訓練され、空間的な視覚的手がかりを考慮した推論を実現。実験結果では、専門モデルを上回る性能を示し、指示チューニングにより多様なタスクに対応可能。研究成果はコードやデータセットと共に公開予定。 Comment
元ポスト:
#Pocket #NLP #LanguageModel #ReinforcementLearning #PostTraining Issue Date: 2025-10-19 [Paper Note] SPG: Sandwiched Policy Gradient for Masked Diffusion Language Models, Chenyu Wang+, arXiv'25, 2025.10 GPT Summary- 拡散型大規模言語モデル(dLLMs)は、効率的なデコード能力を持つが、強化学習(RL)による調整が難しい。従来の代理手法はバイアスを引き起こす可能性がある。そこで、真の対数尤度の上限と下限を利用した「サンドイッチポリシー勾配(SPG)」を提案。実験により、SPGはELBOや他のベースラインを大幅に上回り、GSM8Kで3.6%、MATH500で2.6%、Countdownで18.4%、Sudokuで27.0%の精度向上を達成した。 Comment
pj page: https://chenyuwang-monica.github.io/spg/
元ポスト:
#EfficiencyImprovement #Pocket #NLP #LanguageModel #One-Line Notes #KV Cache Issue Date: 2025-10-19 [Paper Note] Attention Is All You Need for KV Cache in Diffusion LLMs, Quan Nguyen-Tri+, arXiv'25, 2025.10 GPT Summary- 本研究では、拡散型大規模言語モデル(DLMs)のデコーディング待機時間を最小化しつつ予測精度を最大化するために、適応的なKVキャッシュ再計算手法「Elastic-Cache」を提案。これにより、浅いレイヤーの冗長性を削減し、重要なトークンに基づいてキャッシュのリフレッシュを動的に行う。実験では、GSM8KやHumanEvalでの速度向上を示し、生成品質を維持しながら高いスループットを達成した。 Comment
元ポスト:
DLMにおいて、denoisingの各ステップにおいて全てのKVを再計算するのではなく、attention scoreが大きくドリフトしていない部分についてはKV Cacheを再利用し、大きくドリフトした部分だけ再計算するような仕組みを学習することで、品質を損なうことなく推論速度を高速化した模様
#ComputerVision #Controllable #Pocket #ComputerUse #VideoGeneration/Understandings #4D (Video) Issue Date: 2025-10-19 [Paper Note] Ctrl-VI: Controllable Video Synthesis via Variational Inference, Haoyi Duan+, arXiv'25, 2025.10 GPT Summary- ビデオ生成モデルの制約を克服するために、Ctrl-VIという新しいビデオ合成手法を提案。指定要素に対して高い制御性を持ち、非指定要素には多様性を維持。変分推論を用いて複数のビデオ生成バックボーンで合成分布を近似し、KLダイバージェンスの最小化を段階的に行う。実験により、制御性、多様性、3Dの一貫性が向上したことを示す。 Comment
元ポスト:
#Pocket #NLP #LanguageModel #Reasoning #LatentReasoning #KeyPoint Notes Issue Date: 2025-10-18 [Paper Note] LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning, Haoqiang Kang+, arXiv'25, 2025.10 GPT Summary- LaDiR(Latent Diffusion Reasoner)という新しい推論フレームワークを提案。これは、LLMの限界を克服し、潜在表現と潜在拡散モデルを統合。VAEを用いて構造化された潜在推論空間を構築し、双方向注意マスクでデノイズ。これにより、効率的な推論軌跡の生成が可能となり、精度と多様性を向上。数学的推論の評価で、従来手法を上回る結果を示す。 Comment
元ポスト:
既存のreasoning/latent reasoningはsequentialにreasoning trajectoryを生成していくが、(このため、誤った推論をした際に推論を是正しづらいといわれている)本手法ではthought tokensと呼ばれる思考トークンをdiffusion modelを用いてdenoisingすることでreasoning trajectoryを生成する。このプロセスはtrajectory全体をiterativeにrefineしていくため前述の弱点が是正される可能性がある。また、thought tokensの生成は複数ブロック(ブロック間はcausal attention, ブロック内はbi-directional attention)に分けて実施されるため複数のreasoning trajectoryを並列して探索することになり、reasoning traceの多様性が高まる効果が期待できる。最後にVAEによってdiscreteなinputをlatent spaceに落とし込み、その空間上でdenoising(= latent space空間上で思考する)し、その後decodingしてdiscrete tokenに再度おとしこむ(= thought tokens)というアーキテクチャになっているため、latent space上でのreasoningの解釈性が向上する。最終的には、https://github.com/user-attachments/assets/2d0c79d8-f31d-4d80-8671-eb3598d55d3d"
/>
https://github.com/user-attachments/assets/c7b4fcaf-1ac6-4602-8a23-350d6e21ab49"
/>
結果のスコアを見る限り、COCONUTと比べるとだいぶgainを得ているが、Discrete Latentと比較するとgainは限定的に見える。https://github.com/user-attachments/assets/ace6e663-b11b-49f0-8e29-a9ba2fce2649"
/>
#ComputerVision #Pocket #TextToImageGeneration #VisionLanguageModel #2D (Image) #Editing #ImageSynthesis Issue Date: 2025-10-18 [Paper Note] Learning an Image Editing Model without Image Editing Pairs, Nupur Kumari+, arXiv'25, 2025.10 GPT Summary- 本研究では、ペアデータを使用せずに画像編集モデルをトレーニングする新しいパラダイムを提案。拡散モデルを展開し、視覚-言語モデル(VLM)からのフィードバックを活用して直接最適化を行う。生成画像の視覚的忠実性を保つために分布マッチング損失(DMD)を導入。標準ベンチマークで評価した結果、従来の教師ありペアデータを用いたモデルと同等の性能を達成し、RLベースの手法をも上回ることが示された。 Comment
元ポスト:
#Pocket #Transformer #SpeechProcessing #MoE(Mixture-of-Experts) #FlowMatching #TTS #LowResource #ConvolutionalModels Issue Date: 2025-10-18 [Paper Note] DiaMoE-TTS: A Unified IPA-Based Dialect TTS Framework with Mixture-of-Experts and Parameter-Efficient Zero-Shot Adaptation, Ziqi Chen+, arXiv'25, 2025.09 GPT Summary- DiaMoE-TTSは、方言の音声合成のためのIPAベースのフレームワークを提案し、音声表現の標準化と曖昧さの解決を図る。F5-TTSアーキテクチャを基に、方言に対応したMixture-of-Expertsを導入し、効率的なパラメータ適応を実現。スケーラブルでオープンデータ駆動のアプローチにより、数時間のデータで未見の方言や専門的なドメインに対して自然で表現力豊かな音声生成を達成。 Comment
元ポスト:
#Pocket #NLP #Dataset #LanguageModel #Evaluation #Decoding Issue Date: 2025-10-17 [Paper Note] ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs, Wonjun Kang+, arXiv'25, 2025.10 GPT Summary- dLLMは並列デコードにより推論を加速するが、トークンの依存関係を無視するため生成品質が低下する可能性がある。既存の研究はこの問題を見落としており、標準ベンチマークでは評価が不十分である。これに対処するため、情報理論的分析と合成リスト操作のケーススタディを行い、dLLMの限界を明らかにした。新たに提案するParallelBenchは、dLLMにとって困難なタスクを特徴とし、分析の結果、dLLMは実世界での品質低下を引き起こし、現在のデコード戦略は適応性に欠けることが示された。この発見は、スピードと品質のトレードオフを克服する新しいデコード手法の必要性を強調している。 Comment
元ポスト: https://parallelbench.github.io
pj page: https://parallelbench.github.io
#ComputerVision #EfficiencyImprovement #Pocket #Transformer #read-later #Selected Papers/Blogs #Backbone Issue Date: 2025-10-14 [Paper Note] Diffusion Transformers with Representation Autoencoders, Boyang Zheng+, arXiv'25, 2025.10 GPT Summary- 本研究では、従来のVAEエンコーダを事前学習された表現エンコーダに置き換えたRepresentation Autoencoders(RAE)を提案。これにより、高品質な再構成と豊かな潜在空間を実現し、拡散トランスフォーマーの性能向上を図る。RAEは、補助的な表現整合損失なしで早い収束を達成し、ImageNetで優れた画像生成結果を示した。RAEは、拡散トランスフォーマーの新しいデフォルトとしての利点を提供する。 Comment
pj page: https://rae-dit.github.io
元ポスト:
U-NetをBackboneとしたVAEの代わりにViTに基づく(down, up- scaling無しの)アーキテクチャを用いることで、より少ない計算量で高い性能を達成しました、といった話に見える。
ポイント解説:
解説:
#Pretraining #Pocket #NLP #LanguageModel #NeurIPS Issue Date: 2025-10-14 [Paper Note] Next Semantic Scale Prediction via Hierarchical Diffusion Language Models, Cai Zhou+, NeurIPS'25, 2025.10 GPT Summary- 階層的拡散言語モデル(HDLM)は、低レベルのトークンが高レベルのトークンにマッピングされる階層的な語彙に基づく新しい言語モデリング手法です。前方プロセスではトークンが高レベルの先祖に摂動され、逆プロセスでは詳細な意味を予測します。HDLMは、拡散の証拠下限(ELBO)の閉形式表現を導出し、既存のモデルを含む柔軟な実装が可能であることを示します。実験により、HDLMはベースラインよりも低い困惑度を達成し、その有効性が確認されました。 Comment
元ポスト:
#EfficiencyImprovement #Pocket #NLP #LanguageModel #LLMServing #read-later #Selected Papers/Blogs Issue Date: 2025-10-14 [Paper Note] dInfer: An Efficient Inference Framework for Diffusion Language Models, Yuxin Ma+, arXiv'25, 2025.10 GPT Summary- dLLMの推論を効率化するフレームワークdInferを提案。dInferは4つのモジュールに分解され、新しいアルゴリズムと最適化を統合。これにより、出力品質を維持しつつ、推論速度を大幅に向上。HumanEvalで1秒あたり1,100トークンを超え、従来のシステムに比べて10倍のスピードアップを実現。dInferはオープンソースで公開。 Comment
code: https://github.com/inclusionAI/dInfer
とうとうdLLMを高速でinferenceできるフレームワークが出た模様。inclusionAIより。
ポイント解説:
#ComputerVision #MachineLearning #Pocket #ReinforcementLearning #FlowMatching Issue Date: 2025-10-10 [Paper Note] DiffusionNFT: Online Diffusion Reinforcement with Forward Process, Kaiwen Zheng+, arXiv'25, 2025.09 GPT Summary- Diffusion Negative-aware FineTuning(DiffusionNFT)は、オンライン強化学習を用いて拡散モデルを最適化する新しい手法で、ポジティブとネガティブな生成を対比させることで強化信号を組み込みます。このアプローチにより、尤度推定が不要になり、クリーンな画像のみでポリシー最適化が可能になります。DiffusionNFTは、FlowGRPOよりも最大25倍効率的で、GenEvalスコアを短期間で大幅に改善し、複数の報酬モデルを活用することでSD3.5-Mediumのパフォーマンスを向上させます。 Comment
元ポスト:
ベースライン:
- Introducing Stable Diffusion 3.5, StabilityAI, 2024.10
- [Paper Note] Flow-GRPO: Training Flow Matching Models via Online RL, Jie Liu+, NeurIPS'25, 2025.05
- [Paper Note] Classifier-Free Diffusion Guidance, Jonathan Ho+, arXiv'22, 2022.07
#ComputerVision #EfficiencyImprovement #Pocket #Tokenizer #Decoder Issue Date: 2025-10-08 [Paper Note] SSDD: Single-Step Diffusion Decoder for Efficient Image Tokenization, Théophane Vallaeys+, arXiv'25, 2025.10 GPT Summary- 新しいピクセル拡散デコーダアーキテクチャ(SSDD)を提案し、KL-VAEに依存せずに高品質な画像再構成を実現。SSDDは敵対的損失なしで訓練され、再構成FIDを改善し、サンプリング速度を向上させる。これにより、KL-VAEの代替として迅速かつ高品質な生成モデルの構築が可能となる。 Comment
元ポスト:
#Pocket #NLP #LanguageModel #Test-Time Scaling #read-later #MajorityVoting Issue Date: 2025-10-07 [Paper Note] Test-Time Scaling in Diffusion LLMs via Hidden Semi-Autoregressive Experts, Jihoon Lee+, arXiv'25, 2025.10 GPT Summary- dLLMsは異なる生成順序に基づく専門的な挙動を学習するが、固定された推論スケジュールは性能を低下させる。HEXという新手法を導入し、異なるブロックスケジュールでのアンサンブルを行うことで、精度を大幅に向上させる。GSM8KやMATH、ARC-C、TruthfulQAなどのベンチマークで顕著な改善を示し、テスト時スケーリングの新たなパラダイムを確立した。 Comment
元ポスト:
これは気になる👀
著者ポスト:
#EfficiencyImprovement #Pocket #NLP #LanguageModel #Decoding Issue Date: 2025-10-06 [Paper Note] Free Draft-and-Verification: Toward Lossless Parallel Decoding for Diffusion Large Language Models, Shutong Wu+, arXiv'25, 2025.09 GPT Summary- Diffusion Large Language Models (DLLMs)は、双方向の注意メカニズムにより文脈を捉える能力が高いが、推論効率が自己回帰モデルに劣る。既存の並列デコーディングアルゴリズムは性能低下を伴う。これを解決するために、損失のない並列デコーディングを実現する新しいアルゴリズム「Free Draft-and-Verification(Freedave)」を提案。Freedaveにより、DLLMsのスループットは数学的推論タスクで最大2.8倍向上する。 Comment
元ポスト:
#Analysis #MachineLearning #Pocket #Memorization Issue Date: 2025-10-04 [Paper Note] How Diffusion Models Memorize, Juyeop Kim+, arXiv'25, 2025.09 GPT Summary- 拡散モデルは画像生成に成功しているが、トレーニングデータの記憶によるプライバシーや著作権の懸念がある。本研究では、拡散およびデノイジングプロセスを再考し、記憶のメカニズムを探る。記憶は初期のデノイジング中にトレーニングサンプルの過大評価によって引き起こされ、多様性が減少し、記憶された画像への収束が加速されることを示す。具体的には、過学習だけでなく、分類器フリーのガイダンスが記憶を増幅し、トレーニング損失が増加すること、記憶されたプロンプトがノイズ予測に影響を与えること、初期のランダム性が抑制される様子が明らかになる。これにより、過大評価が記憶の中心的なメカニズムであることが特定される。 Comment
関連:
- [Paper Note] Selective Underfitting in Diffusion Models, Kiwhan Song+, arXiv'25, 2025.10
#Analysis #MachineLearning #Pocket #Memorization #Generalization Issue Date: 2025-10-04 [Paper Note] Selective Underfitting in Diffusion Models, Kiwhan Song+, arXiv'25, 2025.10 GPT Summary- 拡散モデルは生成モデルの主要なパラダイムとして注目されているが、どのスコアを学習しているかが未解決の疑問である。本研究では、選択的過少適合の概念を導入し、拡散モデルが特定の領域でスコアを正確に近似し、他の領域では過少適合することを示す。これにより、拡散モデルの一般化能力と生成性能に関する新たな洞察を提供する。 Comment
元ポスト:
ポイント解説:
著者ポスト:
#ComputerVision #EfficiencyImprovement #Pocket #Transformer #Attention #Architecture #NeurIPS #VideoGeneration/Understandings #Sparse Issue Date: 2025-09-27 [Paper Note] Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation, Shuo Yang+, NeurIPS'25 Spotlight, 2025.05 GPT Summary- Diffusion Transformers(DiTs)の動画生成におけるレイテンシーの問題を解決するため、重要トークンの特定精度を最大化し計算の無駄を最小化するトレーニング不要のフレームワークSVG2を提案。SVG2は意味に基づくトークンのクラスタリングと再配置を行い、計算効率を向上させる。これにより、HunyuanVideoおよびWan 2.1でそれぞれ最大2.30倍および1.89倍のスピードアップを達成し、PSNRを維持。 Comment
元ポスト:
pj page: https://svg-project.github.io/v2/
Q, Kそれぞれについて独立してkmeansクラスタリングを実施し、意味的に類似したQ, Kをクラスタ化し、map上で散らばっているトークンの配置を整頓して計算機上で効率的に扱えるようにし、各クラスタのcentroidをattention scoreの計算に用いてクラスタ内のトークンのスコアを近似することで計算を効率化します、といった話な模様。また、クリティカルなクラスタとそうでは無いものがあるので、p個のクリティカルなクラスタを選択しさらに効率化をする模様。
#ComputerVision #Pocket #ReinforcementLearning #GRPO Issue Date: 2025-09-23 [Paper Note] BranchGRPO: Stable and Efficient GRPO with Structured Branching in Diffusion Models, Yuming Li+, arXiv'25, 2025.09 GPT Summary- BranchGRPOを提案し、ロールアウトプロセスを分岐ツリーに再構築することで、画像および動画生成モデルの効率を向上。共有プレフィックスを用いてコストを分散し、スパースな報酬を密な信号に変換。HPDv2.1で最大16%の整合性向上と55%のトレーニング時間短縮を実現。BranchGRPO-MixはDanceGRPOより4.7倍速くトレーニング。WanX動画生成でも高いVideo-Alignスコアを達成。 Comment
pj page: https://fredreic1849.github.io/BranchGRPO-Webpage/
元ポスト:
#MachineLearning #Pocket #NLP #LanguageModel #ReinforcementLearning #On-Policy #Inpainting Issue Date: 2025-09-19 [Paper Note] Inpainting-Guided Policy Optimization for Diffusion Large Language Models, Siyan Zhao+, arXiv'25 GPT Summary- dLLMsはインペインティング能力を活用し、強化学習の探索課題を解決するIGPOフレームワークを提案。部分的な真実の推論トレースを挿入し、探索を有望な軌道に導く。これによりサンプル効率が向上し、GSM8K、Math500、AMCの数学ベンチマークで新たな最先端結果を達成。 Comment
元ポスト:
部分的にtraceの正解を与えると、正解の方向にバイアスがかかるので多様性が犠牲になる気もするが、その辺はどうなんだろうか。
#ComputerVision #Pocket #Transformer #VariationalAutoEncoder #NeurIPS #PostTraining #Selected Papers/Blogs #VideoGeneration/Understandings #One-Line Notes Issue Date: 2025-09-19 [Paper Note] Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion, Xun Huang+, NeurIPS'25 GPT Summary- Self Forcingは、自動回帰型ビデオ拡散モデルの新しいトレーニング手法で、エクスポージャーバイアスの問題に対処します。従来の手法が真のコンテキストに基づくのに対し、Self Forcingは自己生成した出力に基づいてフレームを生成し、全体の品質を評価するホリスティックな損失を用います。計算コストとパフォーマンスのバランスを取るために、少数ステップの拡散モデルと確率的勾配切断を採用し、ロールイングKVキャッシュメカニズムを導入。実験により、リアルタイムのストリーミングビデオ生成が可能で、非因果的拡散モデルの生成品質に匹敵またはそれを上回ることが示されました。 Comment
pj page: https://self-forcing.github.io
元ポスト:
自己回帰的な動画生成(をする)モデルにおいて、学習時はground-truchのcontextが利用して学習されるが、推論時は自身が生成結果そのものをcontextとして利用するため、学習-推論時にgapが生じ、(徐々に誤差が蓄積することで)品質が劣化するという問題(exposure bias)に対処するために、学習時から自身が生成した出力をcontextとして与えて生成を行い(ロールアウト)、動画全体に対して分布の整合性を測るlossを導入(=フレーム単位の誤差を最小化にするのではなく、動画全体に対して(分布の)誤差を最適化する)することで、exposure biasを軽減する、という話な模様。
結果的に、単一のRTX4090でリアルタイムのストリーミングビデオ生成が高品質に生成可能となった(かもしれない):
https://note.com/ngc_shj/n/n505b2f7cdfe4
#ComputerVision #Pocket #Dataset #Transformer #PEFT(Adaptor/LoRA) #Encoder-Decoder #4D (Video) Issue Date: 2025-09-16 [Paper Note] 4DNeX: Feed-Forward 4D Generative Modeling Made Easy, Zhaoxi Chen+, arXiv'25 GPT Summary- 4DNeXは、単一の画像から動的3Dシーンを生成する初のフィードフォワードフレームワークであり、事前学習されたビデオ拡散モデルをファインチューニングすることで効率的な4D生成を実現。大規模データセット4DNeX-10Mを構築し、RGBとXYZシーケンスを統一的にモデル化。実験により、4DNeXは既存手法を上回る効率性と一般化能力を示し、動的シーンの生成的4Dワールドモデルの基盤を提供。 Comment
pj page: https://4dnex.github.io
元ポスト:
#ComputerVision #Pocket #ReinforcementLearning Issue Date: 2025-09-16 [Paper Note] Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference, Xiangwei Shen+, arXiv'25 GPT Summary- Direct-Align手法を用いて、拡散モデルの計算コストを削減し、元の画像を効果的に復元。さらに、SRPOを導入し、報酬をオンラインで調整することでオフライン依存を減少。これにより、FLUXモデルのリアリズムと美的品質を3倍以上向上。 Comment
pj page: https://tencent.github.io/srpo-project-page/
SRPO (Semantic Relative Preference Optimization)
- [Paper Note] SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement
Learning on LLM, Xiaojiang Zhang+, arXiv'25
と名称が重複している。
#Pocket #Robotics #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-15 [Paper Note] LLaDA-VLA: Vision Language Diffusion Action Models, Yuqing Wen+, arXiv'25 GPT Summary- 視覚-言語-拡散-アクションモデルLLaDA-VLAを提案し、事前学習されたd-VLMをロボット操作に適応。特殊トークン分類と階層的アクションデコーディングを導入し、実験で最先端のVLAを大幅に上回る性能を示した。 Comment
pj page: https://wenyuqing.github.io/llada-vla/
元ポスト:
#Analysis #MachineLearning #Pocket Issue Date: 2025-09-05 [Paper Note] The Information Dynamics of Generative Diffusion, Luca Ambrogioni, arXiv'25 GPT Summary- 生成的拡散モデルの統一的な理論的理解を提供し、動的特性、情報理論的特性、熱力学的特性を結びつける。生成帯域幅はスコア関数の発散によって支配され、生成プロセスは対称性の破れによって駆動される。スコア関数はノイズの帯域幅を調整するフィルターとして機能する。 Comment
元ポスト:
#Pocket Issue Date: 2025-09-04 [Paper Note] Any-Order Flexible Length Masked Diffusion, Jaeyeon Kim+, arXiv'25 GPT Summary- 柔軟なマスク付き拡散モデル(FlexMDMs)を提案し、固定長の生成制限を克服。FlexMDMsは、任意の長さのシーケンスをモデル化し、MDMsの推論の柔軟性を保持。合成迷路計画タスクで約60%の成功率向上を達成し、事前学習されたMDMsを簡単に再調整可能。ファインチューニングにより、数学とコード補完でパフォーマンスが向上。 Comment
元ポスト:
著者ポスト:
#ComputerVision #Controllable #Pocket #NLP #LanguageModel #MultiModal Issue Date: 2025-08-29 [Paper Note] OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation, Jianwen Jiang+, arXiv'25 GPT Summary- 「OmniHuman-1.5」は、物理的妥当性と意味的一貫性を兼ね備えたキャラクターアニメーションを生成するフレームワークである。マルチモーダル大規模言語モデルを活用し、音声、画像、テキストの共同意味を解釈することで、感情や意図に基づいた動作を生成。新しいマルチモーダルDiTアーキテクチャにより、異なるモダリティ間の対立を軽減し、リップシンク精度や動作の自然さで優れたパフォーマンスを達成。複雑なシナリオへの拡張性も示している。 Comment
pj page: https://omnihuman-lab.github.io/v1_5/
元ポスト:
promptによって状況や感情などの表現のコントロールが可能らしい
解説:
#ComputerVision #Pocket #Transformer #OpenWeight #VideoGeneration/Understandings #WorldModels #Game Issue Date: 2025-08-28 [Paper Note] Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model, Xianglong He+, arXiv'25 GPT Summary- Matrix-Game 2.0を提案し、インタラクティブな世界モデルがリアルタイムで長いビデオを生成できるようにする。主なコンポーネントは、スケーラブルなデータ生成パイプライン、インタラクティブな条件を可能にするアクション注入モジュール、リアルタイム生成のための数ステップの蒸留。これにより、25 FPSで高品質な1分間のビデオを生成可能。モデルの重みとコードはオープンソース化。 Comment
元ポスト:
pj page: https://matrix-game-v2.github.io
公式:
#Pocket #NLP #LanguageModel #Decoding #PostTraining Issue Date: 2025-08-22 [Paper Note] Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models, Wen Wang+, arXiv'25 GPT Summary- dLLMsは中間予測を捨てがちだが、時間的振動が重要な現象である。本研究では、時間的一貫性を活用する2つの方法を提案。1つ目は、テスト時に予測を集約する時間的自己一貫性投票、2つ目は中間予測の安定性を測る時間的意味エントロピーを報酬信号とする時間的一貫性強化。実験結果では、Countdownデータセットで24.7%の改善を達成し、他のベンチマークでも向上を示した。これにより、dLLMsの時間的ダイナミクスの可能性が強調される。 Comment
元ポスト:
dLLMのデノイジング過程において途中に正解が表出しているのに時間発展とともに消えてしまう問題があるらしく、それに対して、デノイジングステップにおいてstableな予測を行うSelf-Consistencyベースのdecoding手法と、意味的なエントロピーをrewardに加え時間発展で安定するようにpost trainingすることで対処します、みたいな話らしい。
#Survey #Pocket #NLP #LanguageModel #Verification Issue Date: 2025-08-16 [Paper Note] A Survey on Parallel Text Generation: From Parallel Decoding to Diffusion Language Models, Lingzhe Zhang+, arXiv'25 GPT Summary- 並列テキスト生成は、LLMの生成速度を向上させるための技術であり、自己回帰生成のボトルネックを打破することを目指している。本研究では、並列テキスト生成手法をARベースと非ARベースに分類し、それぞれの技術を評価。速度、品質、効率のトレードオフを考察し、今後の研究の方向性を示す。関連論文を集めたGitHubリポジトリも作成。 Comment
Taxonomyと手法一覧。Draft and Verifyingは個人的に非常に興味がある。
#Pocket #NLP #LanguageModel #Safety Issue Date: 2025-07-22 [Paper Note] The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs, Zichen Wen+, arXiv'25 GPT Summary- 拡散ベースの大規模言語モデル(dLLMs)は、迅速な推論と高いインタラクティビティを提供するが、安全性に関する懸念がある。既存のアライメントメカニズムは、敵対的プロンプトからdLLMsを保護できていない。これに対処するため、DIJAという新しい脱獄攻撃フレームワークを提案し、dLLMsの生成メカニズムを利用して有害な補完を可能にする。実験により、DIJAは既存の手法を大幅に上回り、特にDream-Instructで100%のASRを達成し、JailbreakBenchでの評価でも優れた結果を示した。これにより、dLLMsの安全性のアライメントを再考する必要性が浮き彫りになった。 Comment
元ポスト:
#Pretraining #Pocket #NLP #LanguageModel #Scaling Laws #read-later Issue Date: 2025-07-22 [Paper Note] Diffusion Beats Autoregressive in Data-Constrained Settings, Mihir Prabhudesai+, arXiv'25 GPT Summary- マスク付き拡散モデルは、データ制約のある設定で自己回帰(AR)モデルを大幅に上回ることを発見。拡散モデルはデータを効果的に活用し、検証損失を低下させ、下流のパフォーマンスを向上させる。新しいスケーリング法則を見つけ、拡散がARを上回る臨界計算閾値を導出。データがボトルネックの場合、拡散モデルはARの魅力的な代替手段となる。 Comment
元ポスト:
いつかdLLMの時代きそうだなあ
著者ポスト:
追加実験結果:
#Analysis #Pretraining #Pocket #ICML #Decoding Issue Date: 2025-07-15 [Paper Note] Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions, Jaeyeon Kim+, ICML'25 GPT Summary- マスク付き拡散モデル(MDMs)は、自己回帰モデル(ARMs)と比較してトレーニングの複雑さと推論の柔軟性をトレードオフする新しい生成モデルです。本研究では、MDMsが自己回帰モデルよりも計算上解決不可能なサブ問題に取り組むことを示し、適応的なトークンデコード戦略がMDMsの性能を向上させることを実証しました。数独の論理パズルにおいて、適応的推論により解決精度が$<7$%から$\approx 90$%に向上し、教師強制でトレーニングされたMDMsがARMsを上回ることを示しました。 Comment
openreview: https://openreview.net/forum?id=DjJmre5IkP
ICML'25 outstanding papers
日本語解説:
#ComputerVision #Pocket #2D (Image) #3D (Scene) #FeatureMatching Issue Date: 2025-07-04 [Paper Note] Learning Dense Feature Matching via Lifting Single 2D Image to 3D Space, Yingping Liang+, arXiv'25 GPT Summary- 新しい二段階フレームワーク「Lift to Match (L2M)」を提案し、2D画像を3D空間に持ち上げることで、特徴マッチングの一般化を向上させる。第一段階で3D特徴エンコーダを学習し、第二段階で特徴デコーダを学習することで、堅牢な特徴マッチングを実現。実験により、ゼロショット評価ベンチマークで優れた一般化性能を示した。 Comment
元ポスト:
#EfficiencyImprovement #Pocket #NLP #LanguageModel Issue Date: 2025-06-25 [Paper Note] Mercury: Ultra-Fast Language Models Based on Diffusion, Inception Labs+, arXiv'25 GPT Summary- 新しい拡散型大規模言語モデルMercuryを発表。特にコーディングアプリケーション向けのMercury Coderは、MiniとSmallの2サイズで提供され、速度と品質で最先端を達成。独立評価では、Mercury Coder Miniが1109トークン/秒、Smallが737トークン/秒を記録し、他のモデルを大幅に上回る性能を示す。さらに、実世界での検証結果や公開API、無料プレイグラウンドも提供。 Comment
元ポスト:
スループット(モデルのトークン生成速度)が、SoTAらしいdLLMモデル
解説:
#ComputerVision #Pocket #Transformer #VideoGeneration/Understandings Issue Date: 2025-06-13 [Paper Note] Seedance 1.0: Exploring the Boundaries of Video Generation Models, Yu Gao+, arXiv'25 GPT Summary- Seedance 1.0は、動画生成の基盤モデルであり、プロンプト遵守、動きの妥当性、視覚的品質を同時に向上させることを目指しています。主な技術改善として、意味のある動画キャプションを用いたデータキュレーション、マルチショット生成のサポート、動画特有のRLHFを活用したファインチューニング、推論速度の約10倍向上を実現する蒸留戦略が挙げられます。Seedance 1.0は、1080p解像度の5秒間の動画を41.4秒で生成し、高品質かつ迅速な動画生成を実現しています。 Comment
元ポスト:
#ComputerVision #Pocket #CVPR Issue Date: 2025-06-06 [Paper Note] Generative Omnimatte: Learning to Decompose Video into Layers, Yao-Chih Lee+, CVPR'25 GPT Summary- オムニマット手法は、ビデオを意味的に有意義な層に分解することを目指すが、既存手法は静的背景や正確なポーズを前提としており、これが破られると性能が低下する。新たに提案する生成的層状ビデオ分解フレームワークは、静止シーンや深度情報を必要とせず、動的領域の補完を行う。核心的なアイデアは、ビデオ拡散モデルを訓練し、シーン効果を特定・除去することであり、これにより高品質な分解と編集結果を実現する。 Comment
元ポスト:
ざっくりしか読めていないが、Inputとして動画とmask(白:残す, 黒:消す, グレー: 不確定なオブジェクトやエフェクトが含まれるエリア≒背景?)を受け取り、Casperと呼ばれるモデルでオブジェクトを消し消した部分をinpaintingすることで、layerっぽいものを作成するっぽい?Casperはの3組データでFinetuningしている模様。
project pageがサンプルもありとてもわかりやすい: https://gen-omnimatte.github.io
#ComputerVision #Pocket #NLP #LanguageModel #MultiModal Issue Date: 2025-05-24 LaViDa: A Large Diffusion Language Model for Multimodal Understanding, Shufan Li+, arXiv'25 GPT Summary- LaViDaは、離散拡散モデル(DM)を基にしたビジョン・ランゲージモデル(VLM)で、高速な推論と制御可能な生成を実現。新技術を取り入れ、マルチモーダルタスクにおいてAR VLMと競争力のある性能を達成。COCOキャプショニングで速度向上と性能改善を示し、AR VLMの強力な代替手段であることを証明。 Comment
元ポスト:
Diffusion Modelの波が来た
同程度のサイズのARモデルをoutperform [^1]
[^1]:ただし、これが本当にDiffusion Modelを使ったことによる恩恵なのかはまだ論文を読んでいないのでわからない。必要になったら読む。ただ、Physics of Language Modelのように、完全にコントロールされたデータで異なるアーキテクチャを比較しないとその辺はわからなそうではある。
#EfficiencyImprovement #Pocket #NLP #LanguageModel Issue Date: 2025-05-24 dKV-Cache: The Cache for Diffusion Language Models, Xinyin Ma+, arXiv'25 GPT Summary- 拡散言語モデル(DLM)の遅い推論を改善するために、遅延KVキャッシュを提案。これは、異なるトークンの表現ダイナミクスに基づくキャッシング戦略で、2つのバリアントを設計。dKV-Cache-Decodeは損失の少ない加速を提供し、dKV-Cache-Greedyは高いスピードアップを実現。最終的に、推論速度を2〜10倍向上させ、DLMの性能を強化することを示した。 Comment
元ポスト:
提案手法を適用した場合、ARなモデルとDiffusion Modelで、実際のところどの程度のdecoding速度の差があるのだろうか?そういった分析はざーーっと見た感じ見当たらなかったように思える。
#Embeddings #Pocket #NLP #LanguageModel #RepresentationLearning Issue Date: 2025-05-24 Diffusion vs. Autoregressive Language Models: A Text Embedding Perspective, Siyue Zhang+, arXiv'25 GPT Summary- 拡散言語モデルを用いたテキスト埋め込みが、自己回帰的なLLMの一方向性の制限を克服し、文書検索や推論タスクで優れた性能を発揮。長文検索で20%、推論集約型検索で8%、指示に従った検索で2%の向上を示し、双方向の注意が重要であることを確認。 Comment
元ポスト:
#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #PostTraining #GRPO Issue Date: 2025-04-18 d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning, Siyan Zhao+, arXiv'25 GPT Summary- d1というフレームワークを提案し、マスク付きdLLMsを教師ありファインチューニングと強化学習で推論モデルに適応。マスク付きSFT技術で知識を抽出し、diffu-GRPOという新しいRLアルゴリズムを導入。実証研究により、d1が最先端のdLLMの性能を大幅に向上させることを確認。 Comment
元ポスト:
dLLMに対してGRPOを適用する手法(diffuGRPO)を提案している。
long CoTデータでSFTしてreasoning capabilityを強化した後、diffuGRPOで追加のpost-trainingをしてさらに性能をboostする。
GRPOではtoken levelの尤度とsequence全体の尤度を計算する必要があるが、dLLMだとautoregressive modelのようにchain ruleを適用する計算方法はできないので、効率的に尤度を推定するestimatorを用いてGPPOを適用するdiffuGRPOを提案している。
diffuGRPO単体でも、8BモデルだがSFTよりも性能向上に成功している。SFTの後にdiffuGRPOを適用するとさらに性能が向上する。
SFTではs1 s1: Simple test-time scaling, Niklas Muennighoff+, arXiv'25
で用いられたlong CoTデータを用いている。しっかり理解できていないが、diffuGRPO+verified rewardによって、long CoTの学習データを用いなくても、安定してreasoning能力を発揮することができようになった、ということなのだろうか?
しかし、AppendixCを見ると、元々のLLaDAの時点でreasoning traceを十分な長さで出力しているように見える。もしLLaDAが元々long CoTを発揮できたのだとしたら、long CoTできるようになったのはdiffuGRPOだけの恩恵ではないということになりそうだが、LLaDAは元々long CoTを生成できるようなモデルだったんだっけ…?その辺追えてない(dLLMがメジャーになったら追う)。
#ComputerVision #Pocket #NLP #LanguageModel #NeurIPS Issue Date: 2025-03-02 Large Language Diffusion Models, Shen Nie+, NeurIPS'25 GPT Summary- LLaDAは、自己回帰モデル(ARMs)に代わる拡散モデルであり、ゼロから訓練され、データマスキングを通じて分布をモデル化。広範なベンチマークで強力なスケーラビリティを示し、自己構築したARMベースラインを上回る。特に、LLaDA 8Bは文脈内学習や指示追従能力に優れ、逆詩の完成タスクでGPT-4oを超える性能を発揮。拡散モデルがARMsの実行可能な代替手段であることを示す。 Comment
元ポスト:
参考:
openreview(ICLR'25): https://openreview.net/forum?id=W2tWu0aikL
pj page: https://ml-gsai.github.io/LLaDA-demo/
openreview(NeurIPS'25): https://openreview.net/forum?id=KnqiC0znVF
#Pocket #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-11-04 [Paper Note] Simplified and Generalized Masked Diffusion for Discrete Data, Jiaxin Shi+, NeurIPS'24, 2024.06 GPT Summary- Masked拡散モデルの潜在能力を引き出すためのシンプルなフレームワークを提案。連続時間変分目的がクロスエントロピー損失の重み付き積分であることを示し、状態依存のマスキングスケジュールを用いたトレーニングを可能に。OpenWebTextでの評価で、GPT-2スケールのモデルを上回り、ゼロショット言語モデリングタスクで優れたパフォーマンスを示す。画像モデリングでもCIFAR-10やImageNetで従来のモデルを大幅に上回る結果を達成。コードは公開中。 Comment
- Masked Diffusion Modelの進展, Deep Learning JP, 2025.03
で紹介されている
#Pocket #NLP #LanguageModel #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-11-04 [Paper Note] Simple and Effective Masked Diffusion Language Models, Subham Sekhar Sahoo+, NeurIPS'24, 2024.06 GPT Summary- マスク付き離散拡散モデルは、従来の自己回帰手法に匹敵する性能を示す。効果的なトレーニング手法と簡略化された目的関数を導出し、エンコーダ専用の言語モデルをトレーニングすることで、任意の長さのテキスト生成が可能に。言語モデリングのベンチマークで新たな最先端を達成し、AR手法に近づく成果を上げた。 Comment
- Masked Diffusion Modelの進展, Deep Learning JP, 2025.03
で紹介されている
#ComputerVision #Analysis #Pocket #TextToImageGeneration #CVPR #ImageSynthesis #GeometryUnderstanding Issue Date: 2025-10-24 [Paper Note] Shadows Don't Lie and Lines Can't Bend Generative Models don't know Projective Geometry...for now, Ayush Sarkar+, CVPR'24, 2023.11 GPT Summary- 生成モデルはリアルな画像を生成するが、幾何学的特徴において実際の画像と異なることを示す。事前に選別された生成画像を用いて、幾何学的特性に基づく分類器が生成画像を高精度で識別できることを確認。3つの分類器を使用し、画像の透視場、線、物体と影の関係を分析。これにより、生成画像の検出精度が向上し、現在の生成器は実際の画像の幾何学的特性を再現できないと結論付ける。 Comment
#Survey #ComputerVision #Pocket #TMLR #VideoGeneration/Understandings #4D (Video) Issue Date: 2025-10-17 [Paper Note] Video Diffusion Models: A Survey, Andrew Melnik+, TMLR'24, 2024.05 GPT Summary- 拡散生成モデルは高品質な動画コンテンツの生成において重要な技術であり、本調査はそのアーキテクチャや時間的ダイナミクスのモデリングを包括的にまとめている。テキストから動画への生成の進展や、モデルの分類法、評価指標についても議論し、現在の課題や将来の方向性を考察している。研究者や実務者にとって有益なリソースを提供することを目指している。 #ComputerVision #Pocket #NLP #Dataset #Evaluation #read-later #Selected Papers/Blogs #UMM Issue Date: 2025-09-11 [Paper Note] ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment, Xiwei Hu+, arXiv'24 GPT Summary- 拡散モデルに大規模言語モデル(LLM)を組み込む「効率的な大規模言語モデルアダプター(ELLA)」を提案。これにより、複雑なプロンプトの整合性を向上させ、意味的特徴を適応させる新しいモジュール「時間ステップ認識セマンティックコネクタ(TSC)」を導入。ELLAは密なプロンプトに対する性能が最先端手法を上回ることを実験で示し、特に複数のオブジェクト構成において優位性を発揮。 Comment
pj page: https://ella-diffusion.github.io
#Survey #ComputerVision #Controllable #Pocket #NLP #TextToImageGeneration Issue Date: 2025-08-07 [Paper Note] Controllable Generation with Text-to-Image Diffusion Models: A Survey, Pu Cao+, arXiv'24 GPT Summary- 拡散モデルはテキスト誘導生成において大きな進展を遂げたが、テキストのみでは多様な要求に応えられない。本調査では、T2I拡散モデルの制御可能な生成に関する文献をレビューし、理論的基盤と実践的進展をカバー。デノイジング拡散確率モデルの基本を紹介し、制御メカニズムを分析。生成条件の異なるカテゴリに整理した文献リストを提供。 #Tutorial #ComputerVision #Pocket Issue Date: 2024-11-17 Tutorial on Diffusion Models for Imaging and Vision, Stanley H. Chan, arXiv'24 GPT Summary- 生成ツールの成長により、テキストから画像や動画を生成する新しいアプリケーションが可能に。拡散モデルの原理がこれらの生成ツールの基盤であり、従来のアプローチの欠点を克服。チュートリアルでは、拡散モデルの基本的なアイデアを学部生や大学院生向けに解説。 Comment
いつか読まなければならない
#RecommenderSystems #Tutorial #LanguageModel #GenerativeAI Issue Date: 2024-09-24 Recommendation with Generative Models, Yashar Deldjoo+, N_A, arXiv'24 GPT Summary- 生成モデルは新しいデータを生成するAIモデルであり、GANやVAE、トランスフォーマーに基づくアーキテクチャが注目されている。特にレコメンダーシステムにおいては、Gen-RecSysが推薦の精度と多様性を向上させ、パーソナライズされたユーザー体験を提供する。本書では、深層生成モデルをID駆動モデル、LLM、マルチモーダルモデルの3つに分類し、それぞれの技術的進展を紹介。生成モデルの影響やリスクについても考察し、評価フレームワークの重要性を強調する。 Comment
生成モデルやGenerativeAIによるRecSysの教科書
#ComputerVision #Pocket Issue Date: 2024-09-01 Diffusion Models Are Real-Time Game Engines, Dani Valevski+, N_A, arXiv'24 GPT Summary- GameNGenは、ニューラルモデルによって完全に動作するゲームエンジンであり、高品質で長い軌跡上で複雑な環境とのリアルタイムインタラクションを可能にします。GameNGenは、単一のTPU上で秒間20フレーム以上でクラシックゲームDOOMをインタラクティブにシミュレートすることができます。次フレーム予測では、PSNRが29.4に達し、劣化JPEG圧縮と比較可能です。GameNGenは、2つの段階でトレーニングされます:(1)RLエージェントがゲームをプレイすることを学び、トレーニングセッションが記録され、(2)拡散モデルが過去のフレームとアクションのシーケンスに応じて次のフレームを生成するようにトレーニングされます。条件付きの拡張により、長い軌跡上で安定した自己回帰生成が可能となります。 Comment
Diffusion Modelでゲーム映像を生成する取り組みらしい。ゲームのenvironmentに対して、ユーザのActionとframeの系列をエピソードとみなして生成するっぽい?
project pageにデモがのっている
https://gamengen.github.io/
#ComputerVision #Pocket #Transformer #read-later #Selected Papers/Blogs #Backbone Issue Date: 2025-08-27 [Paper Note] Scalable Diffusion Models with Transformers, William Peebles+, ICCV'23 GPT Summary- 新しいトランスフォーマーに基づく拡散モデル(Diffusion Transformers, DiTs)を提案し、U-Netをトランスフォーマーに置き換えた。DiTsは高いGflopsを持ち、低いFIDを維持しながら良好なスケーラビリティを示す。最大のDiT-XL/2モデルは、ImageNetのベンチマークで従来の拡散モデルを上回り、最先端のFID 2.27を達成した。 Comment
日本語解説: https://qiita.com/sasgawy/items/8546c784bc94d94ef0b2
よく見るDiT
- [Paper Note] DiT: Self-supervised Pre-training for Document Image Transformer, Junlong Li+, ACMMM'22
も同様の呼称だが全く異なる話なので注意
#ComputerVision #Pocket #ICLR #Selected Papers/Blogs #FlowMatching #OptimalTransport Issue Date: 2025-07-09 [Paper Note] Flow Matching for Generative Modeling, Yaron Lipman+, ICLR'23 GPT Summary- Continuous Normalizing Flows(CNFs)に基づく新しい生成モデルの訓練手法Flow Matching(FM)を提案。FMは固定された条件付き確率経路のベクトル場を回帰し、シミュレーション不要で訓練可能。拡散経路と併用することで、より堅牢な訓練が実現。最適輸送を用いた条件付き確率経路は効率的で、訓練とサンプリングが速く、一般化性能も向上。ImageNetでの実験により、FMは拡散ベース手法よりも優れた性能を示し、迅速なサンプル生成を可能にする。 Comment
#ComputerVision #Pocket #Personalization Issue Date: 2023-07-22 FABRIC: Personalizing Diffusion Models with Iterative Feedback, Dimitri von Rütte+, N_A, arXiv'23 GPT Summary- 本研究では、拡散ベースのテキストから画像への変換モデルに人間のフィードバックを組み込む戦略を提案する。自己注意層を利用したトレーニングフリーなアプローチであるFABRICを提案し、さまざまな拡散モデルに適用可能であることを示す。また、包括的な評価方法を導入し、人間のフィードバックを統合した生成ビジュアルモデルのパフォーマンスを定量化するための堅牢なメカニズムを提供する。徹底的な分析により、反復的なフィードバックの複数のラウンドを通じて生成結果が改善されることを示す。これにより、個別化されたコンテンツ作成やカスタマイズなどの領域に応用が可能となる。 Comment
upvote downvoteをフィードバックし、iterativeなmannerでDiffusionモデルの生成結果を改善できる手法。多くのDiffusion based Modelに対して適用可能
デモ:
https://huggingface.co/spaces/dvruette/fabric
#ComputerVision #NaturalLanguageGeneration #NLP #MultiModal #TextToImageGeneration Issue Date: 2023-07-15 Learning to Imagine: Visually-Augmented Natural Language Generation, ACL'23 GPT Summary- 本研究では、視覚情報を活用した自然言語生成のためのLIVEという手法を提案しています。LIVEは、事前学習済み言語モデルを使用して、テキストに基づいて場面を想像し、高品質な画像を合成する方法です。また、CLIPを使用してテキストの想像力を評価し、段落ごとに画像を生成します。さまざまな実験により、LIVEの有効性が示されています。コード、モデル、データは公開されています。 Comment
>まず、テキストに基づいて場面を想像します。入力テキストに基づいて高品質な画像を合成するために拡散モデルを使用します。次に、CLIPを使用して、テキストが想像力を喚起できるかを事後的に判断します。最後に、私たちの想像力は動的であり、段落全体に1つの画像を生成するのではなく、各文に対して合成を行います。
興味深い
#ComputerVision #Pocket #NLP #Personalization #TextToImageGeneration Issue Date: 2023-06-16 ViCo: Detail-Preserving Visual Condition for Personalized Text-to-Image Generation, Shaozhe Hao+, N_A, arXiv'23 GPT Summary- 拡散モデルを用いたパーソナライズされた画像生成において、高速で軽量なプラグインメソッドであるViCoを提案。注目モジュールを導入し、注目ベースのオブジェクトマスクを使用することで、一般的な過学習の劣化を軽減。元の拡散モデルのパラメータを微調整せず、軽量なパラメータトレーニングだけで、最新のモデルと同等またはそれ以上の性能を発揮することができる。 #ComputerVision #Pocket #Selected Papers/Blogs #VideoGeneration/Understandings #4D (Video) Issue Date: 2025-10-17 [Paper Note] Video Diffusion Models, Jonathan Ho+, arXiv'22, 2022.04 GPT Summary- 高忠実度で一貫した動画生成のための拡散モデルを提案。画像と動画データを共同でトレーニングし、最適化を加速。新しい条件付きサンプリング技術により、長く高解像度の動画生成で優れた性能を発揮。大規模なテキスト条件付き動画生成タスクでの初期結果と、既存ベンチマークでの最先端結果を示す。 Comment
Surveyはこちら:
- [Paper Note] Video Diffusion Models: A Survey, Andrew Melnik+, TMLR'24, 2024.05
#ComputerVision #Pocket #Transformer #Selected Papers/Blogs Issue Date: 2025-10-10 [Paper Note] Classifier-Free Diffusion Guidance, Jonathan Ho+, arXiv'22, 2022.07 GPT Summary- 分類器ガイダンスは条件付き拡散モデルのポストトレーニング手法で、モードカバレッジとサンプル忠実度のトレードオフを図る。著者は、分類器なしで生成モデルによるガイダンスが可能であることを示し、これを分類器フリーガイダンスと呼ぶ。条件付きおよび無条件の拡散モデルを共同でトレーニングし、サンプル品質と多様性のトレードオフを達成する。 Comment
日本語解説: https://qiita.com/UMAboogie/items/160c1159811743c49d99
#Pocket #NLP #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-11-04 [Paper Note] Structured Denoising Diffusion Models in Discrete State-Spaces, Jacob Austin+, NeurIPS'21, 2021.07 GPT Summary- 離散デノイジング拡散確率モデル(D3PMs)を提案し、連続状態空間のDDPMsを一般化。汚染プロセスを超えた遷移行列を導入し、画像とテキスト生成の改善を実現。新しい損失関数を用いて、LM1Bでの文字レベルのテキスト生成やCIFAR-10での画像生成において優れた結果を達成。 Comment
openreview: https://openreview.net/forum?id=h7-XixPCAL
離散拡散モデルを提案した研究
- Masked Diffusion Modelの進展, Deep Learning JP, 2025.03
で紹介されている
#NeuralNetwork #ComputerVision #Pocket #Selected Papers/Blogs #Encoder-Decoder #PMLR #ScoreMatching #U-Net Issue Date: 2025-10-10 [Paper Note] Improved Denoising Diffusion Probabilistic Models, Alex Nichol+, PMLR'21, 2021.02 GPT Summary- DDPMは高品質なサンプル生成が可能な生成モデルであり、簡単な修正により競争力のある対数尤度を達成できることを示す。逆拡散プロセスの分散を学習することで、サンプリング回数を大幅に削減しつつサンプル品質を維持。DDPMとGANのターゲット分布のカバー能力を比較し、モデルの容量とトレーニング計算量に対してスケーラブルであることを明らかにした。コードは公開されている。 Comment
関連:
- [Paper Note] Denoising Diffusion Probabilistic Models, Jonathan Ho+, NeurIPS'20, 2020.06
#NeuralNetwork #ComputerVision #Pocket #TextToImageGeneration #NeurIPS #Selected Papers/Blogs #Encoder-Decoder #ScoreMatching #U-Net Issue Date: 2025-10-10 [Paper Note] Diffusion Models Beat GANs on Image Synthesis, Prafulla Dhariwal+, NeurIPS'21 Spotlight, 2021.05 GPT Summary- 拡散モデルが最先端の生成モデルを上回る画像サンプル品質を達成。無条件画像合成ではアーキテクチャの改善、条件付き画像合成では分類器のガイダンスを用いて品質向上。ImageNetでのFIDスコアは、128×128で2.97、256×256で4.59、512×512で7.72を達成し、BigGAN-deepに匹敵。分類器のガイダンスはアップサンプリング拡散モデルと組み合わせることでさらに改善され、256×256で3.94、512×512で3.85を記録。コードは公開中。 Comment
openreview: https://openreview.net/forum?id=AAWuCvzaVt
日本語解説: https://qiita.com/UMAboogie/items/160c1159811743c49d99
バックボーンとして使われているU-Netはこちら:
- [Paper Note] U-Net: Convolutional Networks for Biomedical Image Segmentation, Olaf Ronneberger+, MICCAI'15, 2015.05
#NeuralNetwork #ComputerVision #Pocket #NeurIPS #Selected Papers/Blogs #Encoder-Decoder #ScoreMatching #ImageSynthesis #U-Net Issue Date: 2025-10-10 [Paper Note] Denoising Diffusion Probabilistic Models, Jonathan Ho+, NeurIPS'20, 2020.06 GPT Summary- 拡散確率モデルを用いた高品質な画像合成を提案。新しい重み付き変分境界でのトレーニングにより、優れた結果を得る。無条件CIFAR10で9.46のInceptionスコア、256x256のLSUNでProgressiveGANに匹敵する品質を達成。実装はGitHubで公開。 #Article #ComputerVision #Transformer #OpenWeight #VideoGeneration/Understandings Issue Date: 2025-11-21 Hunyuan Video 1.5 Technical Report, Tencent, 2025.11 Comment
pj page:
https://hunyuan.tencent.com/video/zh?tabIndex=0
HF:
https://huggingface.co/tencent/HunyuanVideo-1.5
元ポスト:
#Article #NLP #LanguageModel #OpenWeight #MoE(Mixture-of-Experts) Issue Date: 2025-10-28 LLaDA 2.0, inclusionAI, 2025.10 Comment
元ポスト:
#Article #ComputerVision #Transformer #TextToImageGeneration #LongSequence #VariationalAutoEncoder #OpenWeight #VideoGeneration/Understandings Issue Date: 2025-10-26 LongCat-Video Techcal Report, Meituan LongCat Team, 2025.10 Comment
元ポスト:
HF: https://huggingface.co/meituan-longcat/LongCat-Video
公式ポスト:
#Article #Blog Issue Date: 2025-10-21 BERT is just a Single Text Diffusion Step, Nathan Barry, 2025.10 Comment
元ポスト:
所見:
#Article #Tutorial #ComputerVision #MachineLearning #read-later #ScoreMatching Issue Date: 2025-10-20 Generative Modeling by Estimating Gradients of the Data Distribution, Yang Song, 2021.05 Comment
元ポスト:
#Article #ComputerVision #Blog #Samplers Issue Date: 2025-10-10 画像生成AIにおけるEulerサンプラーの詳細解説, あらもり, 2024.07 #Article #ComputerVision #Blog #Samplers Issue Date: 2025-10-10 Stable Diffusionにおけるサンプラーの役割を理解する, moykeen, 2024.01 #Article #ComputerVision #Transformer #TextToImageGeneration #Blog #OpenWeight #Selected Papers/Blogs Issue Date: 2025-10-10 Introducing Stable Diffusion 3.5, StabilityAI, 2024.10 Comment
SD3.5
#Article #NLP #LanguageModel #Coding #SmallModel #OpenWeight #OpenSource Issue Date: 2025-10-05 CODA: Coding LM via Diffusion Adaption, Chen+, 2025.10 Comment
元ポスト:
HF:
https://huggingface.co/Salesforce/CoDA-v0-Instruct
cc-by-nc-4.0
#Article #Analysis #Pretraining #NLP #LanguageModel Issue Date: 2025-10-04 Diffusion Language Models are Super Data Learners, Ni+, 2025.10 Comment
元ポスト:
#Article #Pretraining #NLP #LanguageModel #Blog #MoE(Mixture-of-Experts) #read-later Issue Date: 2025-10-03 OpenMoE 2: Sparse Diffusion Language Models, Ni+, 2025.10 Comment
元ポスト:
#Article #ComputerVision #NLP #VisionLanguageModel #Encoder #Editing Issue Date: 2025-09-24 Qwen-Image-Edit-2509, Qwen Team, 2025.09 Comment
テクニカルレポート: https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
#Article #EfficiencyImprovement #NLP #LanguageModel Issue Date: 2025-09-07 Fast-dLLM v2: Efficient Block-Diffusion Large Language Model, Wu+, 2025.09 Comment
元ポスト:
#Article #Analysis #MachineLearning #Pocket Issue Date: 2025-09-05 Speed-Accuracy Relations for Diffusion Models: Wisdom from Nonequilibrium Thermodynamics and Optimal Transport, Ikeda+, Physical Review X, 2025 #Article #Pretraining #NLP #LanguageModel #Selected Papers/Blogs Issue Date: 2025-08-09 Diffusion Language Models are Super Data Learners, Jinjie Ni and the team, 2025.08 Comment
dLLMは学習データの繰り返しに強く、データ制約下においては十分な計算量を投入してepochを重ねると、性能向上がサチらずにARモデルを上回る。
- [Paper Note] Diffusion Beats Autoregressive in Data-Constrained Settings, Mihir Prabhudesai+, arXiv'25
- 追記: 上記研究の著者による本ポストで取り上げられたissueに対するclarification
-
でも同様の知見が得られている。
が、スレッド中で両者の違いが下記のように(x rollrng reviewなるものを用いて)ポストされており、興味がある場合は読むといいかも。(ところで、x rolling reviewとは、、?もしやLLMによる自動的な査読システム?)
- Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23
において、ARモデルではrepetitionは4回までがコスパ良いという話と比べると、dLLMにとんでもない伸び代があるような話に見える。
(話が脱線します)
個人的にはアーキテクチャのさらなる進化は興味深いが、ユーザが不完全な質問をLLMに投げた時に、LLMがユーザの意図が「不明な部分のcontextを質問を返すことによって補う」という挙動があると嬉しい気がするのだが、そういった研究はないのだろうか。
ただ、事前学習時点でそういったデータが含まれて知識として吸収され、かつmid/post-trainingでそういった能力を引き出すと言う両軸で取り組まないと、最悪膨大な計算資源を投じたものの「わからない!どういうこと!?」と返し続けるLLMが完成し全く役に立たない、ということになりそうで怖い。
gpt5が出た時に、「3.9と3.11はどちらが大きいですか?」というクエリを投げた際にいまだに「3.11」と回答してくる、みたいなポストが印象的であり、これはLLMが悪いと言うより、ユーザ側が算数としての文脈できいているのか、ソフトウェアのバージョンの文脈できいているのか、を指定していないことが原因であり、上記の回答はソフトウェアのバージョニングという文脈では正答となる。LLMが省エネになって、ユーザのデータを蓄積しまくって、一人一人に対してあなただけのLLM〜みたいな時代がくれば少しは変わるのだろうが、それでもユーザがプロファイルとして蓄積した意図とは異なる意図で質問しなければならないという状況になると、上記のような意図の取り違えが生じるように思う。
なのでやはりりLLM側が情報が足りん〜と思ったら適切なturn数で、最大限の情報をユーザから引き出せるような逆質問を返すみたいな挙動、あるいは足りない情報があったときに、いくつかの候補を提示してユーザ側に提示させる(e.g., 算数の話?それともソフトウェアの話?みたいな)、といった挙動があると嬉しいなぁ、感。
んでそこの部分の性能は、もしやるな、promptingでもある程度は実現でき、それでも全然性能足りないよね?となった後に、事前学習、事後学習でより性能向上します、みたいな流れになるのかなぁ、と想像するなどした。
しかしこういう話をあまり見ないのはなぜだろう?私の観測範囲が狭すぎる or 私のアイデアがポンコツなのか、ベンチマーク競争になっていて、そこを向上させることに業界全体が注力してしまっているからなのか、はたまた裏ではやられているけど使い物にならないのか、全然わからん。
続報:
- Diffusion Language Models are Super Data Learners, Ni+, 2025.10
#Article #EfficiencyImprovement #NLP #LanguageModel Issue Date: 2025-08-01 Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference, ByteDance Seed, Comment
元ポスト:
#Article #Tutorial #Pretraining #MachineLearning #NLP #LanguageModel #Transformer #Chain-of-Thought #In-ContextLearning #Attention #SSM (StateSpaceModel) #Scaling Laws #PostTraining Issue Date: 2025-05-31 2025年度人工知能学会全国大会チュートリアル講演「深層基盤モデルの数理」, Taiji Suzuki, 2025.05 Comment
元ポスト:
#Article #Tutorial #ComputerVision #NLP #LanguageModel #Slide Issue Date: 2025-05-24 【DL輪読会】 Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models, Deep Learning JP, 2025.05 Comment
元ポスト:
Masked Diffusion Modelの進展, Deep Learning JP, 2025.03 でLiteratureをざっくり把握してからこちらを読むのが良さそう。
#Article #Tutorial #ComputerVision #NLP #LanguageModel #Slide Issue Date: 2025-05-24 Masked Diffusion Modelの進展, Deep Learning JP, 2025.03 Comment
元ポスト:
スライド中のARのようにKV Cacheが使えない問題に対処した研究が
- dKV-Cache: The Cache for Diffusion Language Models, Xinyin Ma+, arXiv'25
この辺はdLLMが有望であれば、どんどん進化していくのだろう。
#Article #NLP #LanguageModel #OpenWeight Issue Date: 2025-04-08 Dream-v0-Instruct-7B, Dream-org, 2025.04 Comment
OpenWeightな拡散言語モデル
元ポスト:
#Article #Survey #ComputerVision #NaturalLanguageGeneration #NLP #LanguageModel #ImageCaptioning Issue Date: 2023-11-02 Zero-shot Learning網羅的サーベイ: CLIPが切り開いたVision & Languageの新しい世界 Comment
これはすごいまとめ…。まだ途中までしか読めていない。CLIPからスタートしてCLIPを引用している論文から重要なものを概要付きでまとめている。
#Article #NeuralNetwork #ComputerVision #EfficiencyImprovement #NLP #LanguageModel #Blog Issue Date: 2023-10-29 StableDiffusion, LLMのGPUメモリ削減のあれこれ Comment
Gradient Accumulation, Gradient Checkpointingの説明が丁寧でわかりやすかった。