<h2 id=U-Net> U-Net</h2><div class="visible-content"> #ComputerVision #Pocket #TextToImageGeneration #VariationalAutoEncoder #CVPR #Selected Papers/Blogs #Encoder-Decoder #ImageSynthesis


Issue Date: 2025-10-10 [Paper Note] High-Resolution Image Synthesis with Latent Diffusion Models, Robin Rombach+, CVPR’22, 2021.12 GPT Summary- 拡散モデル(DMs)は、逐次的なデノイジングオートエンコーダを用いて画像生成プロセスを効率化し、最先端の合成結果を達成。従来のピクセル空間での訓練に比べ、強力な事前訓練されたオートエンコーダの潜在空間での訓練により、計算リソースを削減しつつ視覚的忠実度を向上。クロスアテンション層を導入することで、テキストやバウンディングボックスに基づく柔軟な生成が可能となり、画像インペインティングや無条件画像生成などで競争力のある性能を発揮。 Comment<p>ここからtext等による条件付けをした上での生成が可能になった(らしい)</p>

#NeuralNetwork #ComputerVision #Pocket #DiffusionModel #Selected Papers/Blogs #Encoder-Decoder #PMLR #ScoreMatching


Issue Date: 2025-10-10 [Paper Note] Improved Denoising Diffusion Probabilistic Models, Alex Nichol+, PMLR’21, 2021.02 GPT Summary- DDPMは高品質なサンプル生成が可能な生成モデルであり、簡単な修正により競争力のある対数尤度を達成できることを示す。逆拡散プロセスの分散を学習することで、サンプリング回数を大幅に削減しつつサンプル品質を維持。DDPMとGANのターゲット分布のカバー能力を比較し、モデルの容量とトレーニング計算量に対してスケーラブルであることを明らかにした。コードは公開されている。 Comment<p>関連:
- [Paper Note] Denoising Diffusion Probabilistic Models, Jonathan Ho+, NeurIPS’20, 2020.06 </p>


#NeuralNetwork #ComputerVision #Pocket #DiffusionModel #TextToImageGeneration #NeurIPS #Selected Papers/Blogs #Encoder-Decoder #ScoreMatching


Issue Date: 2025-10-10 [Paper Note] Diffusion Models Beat GANs on Image Synthesis, Prafulla Dhariwal+, NeurIPS’21 Spotlight, 2021.05 GPT Summary- 拡散モデルが最先端の生成モデルを上回る画像サンプル品質を達成。無条件画像合成ではアーキテクチャの改善、条件付き画像合成では分類器のガイダンスを用いて品質向上。ImageNetでのFIDスコアは、128×128で2.97、256×256で4.59、512×512で7.72を達成し、BigGAN-deepに匹敵。分類器のガイダンスはアップサンプリング拡散モデルと組み合わせることでさらに改善され、256×256で3.94、512×512で3.85を記録。コードは公開中。 Comment<p>openreview:

https://openreview.net/forum?id=AAWuCvzaVt

</p><p>日本語解説:

https://qiita.com/UMAboogie/items/160c1159811743c49d99

</p><p>バックボーンとして使われているU-Netはこちら:
- [Paper Note] U-Net: Convolutional Networks for Biomedical Image Segmentation, Olaf Ronneberger+, MICCAI’15, 2015.05 </p></span>

</div>

#NeuralNetwork #ComputerVision #Pocket #DiffusionModel #NeurIPS #Selected Papers/Blogs #Encoder-Decoder #ScoreMatching #ImageSynthesis Issue Date: 2025-10-10 [Paper Note] Denoising Diffusion Probabilistic Models, Jonathan Ho+, NeurIPS'20, 2020.06 GPT Summary- 拡散確率モデルを用いた高品質な画像合成を提案。新しい重み付き変分境界でのトレーニングにより、優れた結果を得る。無条件CIFAR10で9.46のInceptionスコア、256x256のLSUNでProgressiveGANに匹敵する品質を達成。実装はGitHubで公開。 #NeuralNetwork #ComputerVision #Pocket #Selected Papers/Blogs #Encoder-Decoder #Backbone Issue Date: 2025-09-22 [Paper Note] U-Net: Convolutional Networks for Biomedical Image Segmentation, Olaf Ronneberger+, MICCAI'15, 2015.05 GPT Summary- データ拡張を活用した新しいネットワークアーキテクチャを提案し、少ない注釈付きサンプルからエンドツーエンドでトレーニング可能であることを示す。電子顕微鏡スタックの神経構造セグメンテーションで従来手法を上回り、透過光顕微鏡画像でも優れた結果を達成。512x512画像のセグメンテーションは1秒未満で完了。実装とトレーニング済みネットワークは公開されている。