Memorization

#Analysis #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #One-Line Notes
Issue Date: 2025-11-13 [Paper Note] Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs, Renfei Zhang+, arXiv'25, 2025.11 GPT Summary- 強化学習(RL)は、階層的な知識を必要とするタスクにおいて、基盤モデルや教師あり微調整(SFT)モデルを上回る性能を示す。これは新たなデータからではなく、既存の知識をナビゲートするスキルの向上によるものである。構造化プロンプティングを用いることで、SFTモデルのパフォーマンスギャップを縮小できることが示された。RLモデルは深い検索タスクでの手続き的経路の呼び出しに優れ、知識の表現は変わらないが、知識の遍歴方法が変化することが明らかになった。 Comment

元ポスト:

Loading…

RLはしばしば知識のmemorizationを劣化させると言われているが、むしろ学習データから記憶された知識を階層的に辿るようなタスクに適用した結果RL(が実施されたモデル)の方がSFT(が実施されたモデル)よりも高い性能を達成した。同タスクの階層構造をpromptingで与えることで性能SFT/RLのgapが小さくなることから、知識のナビゲーションが性能に関連していることを示唆している。また、事実表現とクエリの表現においてSFTとRLでは前者に大きな違いはないが、後者は大きな違いを見せており、知識の表現そのものを変えるのではなく、モデル内部の知識を辿る方法が変化していることが示唆される。

といった内容らしいのだが、論文を斜め読みした結果、自分たちでモデルをRL/SFTしたわけではなく既存のオープンなモデルreasoningモデル、instructモデル、distilledモデルで性能を比較する、みたいなことをしているようであり、apple-to-appleの比較になっていないのでは?という感想を抱いたがどうなのだろうか。



#Analysis #Pocket #NLP #LanguageModel #OpenWeight #read-later
Issue Date: 2025-10-26 [Paper Note] Hubble: a Model Suite to Advance the Study of LLM Memorization, Johnny Tian-Zheng Wei+, arXiv'25, 2025.10 GPT Summary- Hubbleは、LLMの記憶に関する研究のためのオープンソースモデルスイートで、標準モデルと変化モデルの2種類を提供。標準モデルは大規模な英語コーパスで事前学習され、変化モデルは特定のテキストを挿入して記憶リスクを模倣。8つのモデルが1Bまたは8Bのパラメータを持ち、100Bまたは500Bのトークンで訓練。研究により、敏感なデータの記憶はコーパスのサイズに依存し、データの露出が少ない場合は忘れられることが示された。Hubbleは、プライベート情報の記憶の容易さを分析するなど、幅広い記憶研究を可能にし、コミュニティにさらなる探求を促す。 Comment

pj page: https://allegro-lab.github.io/hubble/

元ポスト:

Loading…

HF: https://huggingface.co/allegrolab



#Analysis #MachineLearning #Pocket #DiffusionModel
Issue Date: 2025-10-04 [Paper Note] How Diffusion Models Memorize, Juyeop Kim+, arXiv'25, 2025.09 GPT Summary- 拡散モデルは画像生成に成功しているが、トレーニングデータの記憶によるプライバシーや著作権の懸念がある。本研究では、拡散およびデノイジングプロセスを再考し、記憶のメカニズムを探る。記憶は初期のデノイジング中にトレーニングサンプルの過大評価によって引き起こされ、多様性が減少し、記憶された画像への収束が加速されることを示す。具体的には、過学習だけでなく、分類器フリーのガイダンスが記憶を増幅し、トレーニング損失が増加すること、記憶されたプロンプトがノイズ予測に影響を与えること、初期のランダム性が抑制される様子が明らかになる。これにより、過大評価が記憶の中心的なメカニズムであることが特定される。 Comment

関連:
- [Paper Note] Selective Underfitting in Diffusion Models, Kiwhan Song+, arXiv'25, 2025.10



#Analysis #MachineLearning #Pocket #DiffusionModel #Generalization Issue Date: 2025-10-04 [Paper Note] Selective Underfitting in Diffusion Models, Kiwhan Song+, arXiv'25, 2025.10 GPT Summary- 拡散モデルは生成モデルの主要なパラダイムとして注目されているが、どのスコアを学習しているかが未解決の疑問である。本研究では、選択的過少適合の概念を導入し、拡散モデルが特定の領域でスコアを正確に近似し、他の領域では過少適合することを示す。これにより、拡散モデルの一般化能力と生成性能に関する新たな洞察を提供する。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

著者ポスト:

Loading…


#Analysis #Pocket #NLP #LanguageModel #read-later Issue Date: 2025-06-05 [Paper Note] How much do language models memorize?, John X. Morris+, arXiv'25 GPT Summary- モデルの「知識」を推定する新手法を提案し、言語モデルの能力を測定。記憶を「意図しない記憶」と「一般化」に分け、一般化を排除することで総記憶を計算。GPTスタイルのモデルは約3.6ビット/パラメータの能力を持つと推定。データセットのサイズ増加に伴い、モデルは記憶を保持し、一般化が始まると意図しない記憶が減少。数百のトランスフォーマー言語モデルを訓練し、能力とデータサイズの関係を示すスケーリング法則を生成。 Comment

元ポスト:

Loading…


#Pretraining #Pocket #NLP #LanguageModel #NeurIPS Issue Date: 2025-09-03 [Paper Note] Be like a Goldfish, Don't Memorize Mitigating Memorization in Generative LLMs, Abhimanyu Hans+, NeurIPS'24 GPT Summary- 「ゴールドフィッシュロス」を導入し、トレーニング中にランダムに選ばれたトークンをロス計算から除外することで、プライバシーや著作権リスクを軽減。10億規模のLlama-2モデルの実験により、下流のベンチマークに影響を与えずに記憶の削減を実証。 Comment

元ポスト:

Loading…

クロスエントロピーのloss計算からランダムにtokenを除外せることでdownstream taskの性能を損なうことなくmemorizationを防げますよ、という話らしい

openreview: https://openreview.net/forum?id=DylSyAfmWs&referrer=%5Bthe%20profile%20of%20Jonas%20Geiping%5D(%2Fprofile%3Fid%3D~Jonas_Geiping1)