Memorization
[Paper Note] Extracting books from production language models, Ahmed Ahmed+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #read-later #Selected Papers/Blogs #Legal Issue Date: 2026-01-12 GPT Summary- 本研究では、商業用LLMにおける著作権で保護されたトレーニングデータの抽出可能性を調査。2段階の手法を用い、4つのLLM(Claude 3.7 Sonnet、GPT-4.1、Gemini 2.5 Pro、Grok 3)でテストを実施。Gemini 2.5 ProとGrok 3はジャイルブレイクなしで高い抽出率を示し、Claude 3.7 Sonnetはジャイルブレイクでほぼ逐語的に出力。GPT-4.1は多くの試行が必要で抽出率が低かった。結果、商業用LLMにおいても著作権データの抽出がリスクであることが示された。 Comment
元ポスト:
重要研究に見える
[Paper Note] Deep sequence models tend to memorize geometrically; it is unclear why, Shahriar Noroozizadeh+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Analysis #MachineLearning #Pocket #Transformer #FactualKnowledge #Geometric Issue Date: 2026-01-05 GPT Summary- 深層系列モデルは、エンティティ間の新しいグローバルな関係を幾何学的記憶として保存することを提案。これにより、難しい推論タスクが簡単なナビゲーションタスクに変換されることを示す。ブルートフォース検索よりも複雑な幾何学が学習されることを主張し、Node2Vecとの関連を分析して、自然に生じるスペクトルバイアスからこの幾何学が生まれることを示す。Transformerメモリの幾何学的強化の可能性を指摘し、知識獲得や忘却に関する直感を再考することを促す。 Comment
元ポスト:
[Paper Note] Memorization in 3D Shape Generation: An Empirical Study, Shu Pu+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #Pocket #DiffusionModel #Generalization #3D (Scene) Issue Date: 2026-01-03 GPT Summary- 3D生成モデルの記憶を定量化する評価フレームワークを設計し、データとモデリング設計が記憶に与える影響を研究。実験により、記憶はデータのモダリティに依存し、多様性が増すと記憶が増加することを発見。適度なガイダンススケールで記憶がピークに達し、長いVecsetやシンプルな回転拡張で軽減可能。生成品質を損なわずに記憶を減少させる戦略を提案。コードは公開されている。 Comment
元ポスト:
[Paper Note] Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training, Tony Bonnaire+, NeurIPS'25 Best Paper Awards, 2025.05
Paper/Blog Link My Issue
#Analysis #MachineLearning #Pocket #DiffusionModel #NeurIPS #Generalization Issue Date: 2025-11-29 GPT Summary- 拡散モデルのトレーニングダイナミクスを調査し、一般化から記憶への移行における2つの時間スケール($τ_\mathrm{gen}$と$τ_\mathrm{mem}$)を特定。$τ_\mathrm{mem}$はトレーニングセットのサイズに線形に増加し、一般化が可能なトレーニング時間のウィンドウが拡大することを示す。これにより、過学習が消失する閾値が存在し、記憶を回避できることが明らかに。実験と理論分析により結果が支持される。 Comment
元ポスト:
openreview: https://openreview.net/forum?id=BSZqpqgqM0
日本語解説: https://www.docswell.com/s/DeepLearning2023/59MQLY-2025-11-11-132245
ポイント解説:
[Paper Note] Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs, Renfei Zhang+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #One-Line Notes Issue Date: 2025-11-13 GPT Summary- 強化学習(RL)は、階層的な知識を必要とするタスクにおいて、基盤モデルや教師あり微調整(SFT)モデルを上回る性能を示す。これは新たなデータからではなく、既存の知識をナビゲートするスキルの向上によるものである。構造化プロンプティングを用いることで、SFTモデルのパフォーマンスギャップを縮小できることが示された。RLモデルは深い検索タスクでの手続き的経路の呼び出しに優れ、知識の表現は変わらないが、知識の遍歴方法が変化することが明らかになった。 Comment
元ポスト:
RLはしばしば知識のmemorizationを劣化させると言われているが、むしろ学習データから記憶された知識を階層的に辿るようなタスクに適用した結果RL(が実施されたモデル)の方がSFT(が実施されたモデル)よりも高い性能を達成した。同タスクの階層構造をpromptingで与えることで性能SFT/RLのgapが小さくなることから、知識のナビゲーションが性能に関連していることを示唆している。また、事実表現とクエリの表現においてSFTとRLでは前者に大きな違いはないが、後者は大きな違いを見せており、知識の表現そのものを変えるのではなく、モデル内部の知識を辿る方法が変化していることが示唆される。
といった内容らしいのだが、論文を斜め読みした結果、自分たちでモデルをRL/SFTしたわけではなく既存のオープンなモデルreasoningモデル、instructモデル、distilledモデルで性能を比較する、みたいなことをしているようであり、apple-to-appleの比較になっていないのでは?という感想を抱いたがどうなのだろうか。
[Paper Note] Hubble: a Model Suite to Advance the Study of LLM Memorization, Johnny Tian-Zheng Wei+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #OpenWeight #read-later Issue Date: 2025-10-26 GPT Summary- Hubbleは、LLMの記憶に関する研究のためのオープンソースモデルスイートで、標準モデルと変化モデルの2種類を提供。標準モデルは大規模な英語コーパスで事前学習され、変化モデルは特定のテキストを挿入して記憶リスクを模倣。8つのモデルが1Bまたは8Bのパラメータを持ち、100Bまたは500Bのトークンで訓練。研究により、敏感なデータの記憶はコーパスのサイズに依存し、データの露出が少ない場合は忘れられることが示された。Hubbleは、プライベート情報の記憶の容易さを分析するなど、幅広い記憶研究を可能にし、コミュニティにさらなる探求を促す。 Comment
pj page: https://allegro-lab.github.io/hubble/
元ポスト:
[Paper Note] How Diffusion Models Memorize, Juyeop Kim+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#Analysis #MachineLearning #Pocket #DiffusionModel Issue Date: 2025-10-04 GPT Summary- 拡散モデルは画像生成に成功しているが、トレーニングデータの記憶によるプライバシーや著作権の懸念がある。本研究では、拡散およびデノイジングプロセスを再考し、記憶のメカニズムを探る。記憶は初期のデノイジング中にトレーニングサンプルの過大評価によって引き起こされ、多様性が減少し、記憶された画像への収束が加速されることを示す。具体的には、過学習だけでなく、分類器フリーのガイダンスが記憶を増幅し、トレーニング損失が増加すること、記憶されたプロンプトがノイズ予測に影響を与えること、初期のランダム性が抑制される様子が明らかになる。これにより、過大評価が記憶の中心的なメカニズムであることが特定される。 Comment
関連:
- [Paper Note] Selective Underfitting in Diffusion Models, Kiwhan Song+, arXiv'25, 2025.10
[Paper Note] Selective Underfitting in Diffusion Models, Kiwhan Song+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Analysis #MachineLearning #Pocket #DiffusionModel #Generalization Issue Date: 2025-10-04 GPT Summary- 拡散モデルは生成モデルの主要なパラダイムとして注目されているが、どのスコアを学習しているかが未解決の疑問である。本研究では、選択的過少適合の概念を導入し、拡散モデルが特定の領域でスコアを正確に近似し、他の領域では過少適合することを示す。これにより、拡散モデルの一般化能力と生成性能に関する新たな洞察を提供する。 Comment
元ポスト:
ポイント解説:
著者ポスト:
[Paper Note] How much do language models memorize?, John X. Morris+, arXiv'25
Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #read-later Issue Date: 2025-06-05 GPT Summary- モデルの「知識」を推定する新手法を提案し、言語モデルの能力を測定。記憶を「意図しない記憶」と「一般化」に分け、一般化を排除することで総記憶を計算。GPTスタイルのモデルは約3.6ビット/パラメータの能力を持つと推定。データセットのサイズ増加に伴い、モデルは記憶を保持し、一般化が始まると意図しない記憶が減少。数百のトランスフォーマー言語モデルを訓練し、能力とデータサイズの関係を示すスケーリング法則を生成。 Comment
元ポスト:
[Paper Note] Be like a Goldfish, Don't Memorize Mitigating Memorization in Generative LLMs, Abhimanyu Hans+, NeurIPS'24
Paper/Blog Link My Issue
#Pretraining #Pocket #NLP #LanguageModel #NeurIPS Issue Date: 2025-09-03 GPT Summary- 「ゴールドフィッシュロス」を導入し、トレーニング中にランダムに選ばれたトークンをロス計算から除外することで、プライバシーや著作権リスクを軽減。10億規模のLlama-2モデルの実験により、下流のベンチマークに影響を与えずに記憶の削減を実証。 Comment
元ポスト:
クロスエントロピーのloss計算からランダムにtokenを除外せることでdownstream taskの性能を損なうことなくmemorizationを防げますよ、という話らしい
Are Emergent Abilities in Large Language Models just In-Context Learning?, Sheng Lu+, ACL'24
Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #In-ContextLearning #ACL #EmergentAbilities Issue Date: 2025-01-06 GPT Summary- 大規模言語モデルの「出現能力」は、インコンテキスト学習やモデルの記憶、言語知識の組み合わせから生じるものであり、真の出現ではないと提案。1000以上の実験を通じてこの理論を裏付け、言語モデルの性能を理解するための基礎を提供し、能力の過大評価を警告。