Memorization
#Analysis
#MachineLearning
#Pocket
#DiffusionModel
Issue Date: 2025-10-04 [Paper Note] How Diffusion Models Memorize, Juyeop Kim+, arXiv'25, 2025.09 GPT Summary- 拡散モデルは画像生成に成功しているが、トレーニングデータの記憶によるプライバシーや著作権の懸念がある。本研究では、拡散およびデノイジングプロセスを再考し、記憶のメカニズムを探る。記憶は初期のデノイジング中にトレーニングサンプルの過大評価によって引き起こされ、多様性が減少し、記憶された画像への収束が加速されることを示す。具体的には、過学習だけでなく、分類器フリーのガイダンスが記憶を増幅し、トレーニング損失が増加すること、記憶されたプロンプトがノイズ予測に影響を与えること、初期のランダム性が抑制される様子が明らかになる。これにより、過大評価が記憶の中心的なメカニズムであることが特定される。 Comment
#Analysis #MachineLearning #Pocket #DiffusionModel #Generalization
Issue Date: 2025-10-04 [Paper Note] Selective Underfitting in Diffusion Models, Kiwhan Song+, arXiv'25, 2025.10 GPT Summary- 拡散モデルは生成モデルの主要なパラダイムとして注目されているが、どのスコアを学習しているかが未解決の疑問である。本研究では、選択的過少適合の概念を導入し、拡散モデルが特定の領域でスコアを正確に近似し、他の領域では過少適合することを示す。これにより、拡散モデルの一般化能力と生成性能に関する新たな洞察を提供する。 Comment
#Analysis #Pocket #NLP #LanguageModel #read-later
Issue Date: 2025-06-05 [Paper Note] How much do language models memorize?, John X. Morris+, arXiv'25 GPT Summary- モデルの「知識」を推定する新手法を提案し、言語モデルの能力を測定。記憶を「意図しない記憶」と「一般化」に分け、一般化を排除することで総記憶を計算。GPTスタイルのモデルは約3.6ビット/パラメータの能力を持つと推定。データセットのサイズ増加に伴い、モデルは記憶を保持し、一般化が始まると意図しない記憶が減少。数百のトランスフォーマー言語モデルを訓練し、能力とデータサイズの関係を示すスケーリング法則を生成。 Comment
Issue Date: 2025-10-04 [Paper Note] How Diffusion Models Memorize, Juyeop Kim+, arXiv'25, 2025.09 GPT Summary- 拡散モデルは画像生成に成功しているが、トレーニングデータの記憶によるプライバシーや著作権の懸念がある。本研究では、拡散およびデノイジングプロセスを再考し、記憶のメカニズムを探る。記憶は初期のデノイジング中にトレーニングサンプルの過大評価によって引き起こされ、多様性が減少し、記憶された画像への収束が加速されることを示す。具体的には、過学習だけでなく、分類器フリーのガイダンスが記憶を増幅し、トレーニング損失が増加すること、記憶されたプロンプトがノイズ予測に影響を与えること、初期のランダム性が抑制される様子が明らかになる。これにより、過大評価が記憶の中心的なメカニズムであることが特定される。 Comment
関連:
- [Paper Note] Selective Underfitting in Diffusion Models, Kiwhan Song+, arXiv'25, 2025.10
#Analysis #MachineLearning #Pocket #DiffusionModel #Generalization
Issue Date: 2025-10-04 [Paper Note] Selective Underfitting in Diffusion Models, Kiwhan Song+, arXiv'25, 2025.10 GPT Summary- 拡散モデルは生成モデルの主要なパラダイムとして注目されているが、どのスコアを学習しているかが未解決の疑問である。本研究では、選択的過少適合の概念を導入し、拡散モデルが特定の領域でスコアを正確に近似し、他の領域では過少適合することを示す。これにより、拡散モデルの一般化能力と生成性能に関する新たな洞察を提供する。 Comment
元ポスト:
ポイント解説:
著者ポスト:
#Analysis #Pocket #NLP #LanguageModel #read-later
Issue Date: 2025-06-05 [Paper Note] How much do language models memorize?, John X. Morris+, arXiv'25 GPT Summary- モデルの「知識」を推定する新手法を提案し、言語モデルの能力を測定。記憶を「意図しない記憶」と「一般化」に分け、一般化を排除することで総記憶を計算。GPTスタイルのモデルは約3.6ビット/パラメータの能力を持つと推定。データセットのサイズ増加に伴い、モデルは記憶を保持し、一般化が始まると意図しない記憶が減少。数百のトランスフォーマー言語モデルを訓練し、能力とデータサイズの関係を示すスケーリング法則を生成。 Comment
元ポスト:
#Pretraining
#Pocket
#NLP
#LanguageModel
#NeurIPS
Issue Date: 2025-09-03
[Paper Note] Be like a Goldfish, Don't Memorize Mitigating Memorization in Generative LLMs, Abhimanyu Hans+, NeurIPS'24
GPT Summary- 「ゴールドフィッシュロス」を導入し、トレーニング中にランダムに選ばれたトークンをロス計算から除外することで、プライバシーや著作権リスクを軽減。10億規模のLlama-2モデルの実験により、下流のベンチマークに影響を与えずに記憶の削減を実証。
Comment
元ポスト:
クロスエントロピーのloss計算からランダムにtokenを除外せることでdownstream taskの性能を損なうことなくmemorizationを防げますよ、という話らしい