ConceptErasure
[Paper Note] KnowledgeSmith: Uncovering Knowledge Updating in LLMs with Model Editing and Unlearning, Yinyi Luo+, ICLR'26, 2025.10
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ICLR #KnowledgeEditing #reading #KeyPoint Notes #needs-revision #Author Thread-Post Issue Date: 2026-04-14 GPT Summary- LLMsの知識更新メカニズムを理解するため、統一フレームワークKnowledgeSmithを提案。編集と忘却を制約付き最適化として位置づけ、自動データセット生成器を用いて修正戦略の知識伝播を研究。実験により、LLMsが人間と同様の更新を示さず、一貫性と容量のトレードオフがあることを発見。新たな戦略設計の示唆を提供。 Comment
元ポスト:
openreview: https://openreview.net/forum?id=znnA2Opw6v
知識の忘却と編集のダイナミクスを制約付きの最適化問題として統一的にモデル化(式3;この最適化問題を実際に解いているわけではなくあくまで理論的にこう定式化できるねという話だと思われる)し、
この定式化を通じて見ると、編集と忘却の違いはターゲットとする分布q_targetの選び方の違いにすぎず、様々な編集と忘却の先行研究は手法は違えど、この制約付きの最適化問題の異なるインスタンスを解いているに過ぎないという視点を提供しているようである。これにより、編集と忘却のトレードオフを公平に比較することが可能となるという主張をしているように見える(自信ない)。
そして、編集と忘却のトレードオフを厳格に分析するためのベンチマークとして、階層的な依存関係や(local vs. global)、更新の多段階での伝播を扱えるベンチマークが必要だが既存ベンチマークではこれらが不足しているため、
知識グラフに基づいて自動的に構築されたデータとベンチマーク(Figure 1を見るにテンプレートベースのMCQを)を作成して分析。
分析には6つのモデルファミリーの13のモデルが用いられ、スケールは1B--123Bの幅広いスケールのモデルで検証された。
(先行研究も含めてしっかり読まないと、式3と実験で用いられている手法AlphaEdit, ReLearnの関係性がちょっとわからなそう)
著者ポストにおいては、以下のようなtakeawayが記載されており、大きな知見としてはLLMはデータベースではなく、トレードオフを持つ複雑に絡み合ったシステムであり、以下のような点を明らかにした
- 知識の編集は意図しない変更を引き起こし
- 忘却は知識の完全な消去には失敗する
- 更新する知識を増やせば増やすほど、ローカルの知識は更新されるが、グローバルな一貫性が崩壊し
- 変更することが極めて困難な知識(たとえば歴史)が存在する
とのことである。
[Paper Note] The AI Hippocampus: How Far are We From Human Memory?, Zixia Jia+, TMLR'26, 2026.01
Paper/Blog Link My Issue
#Survey #ComputerVision #NLP #LanguageModel #AIAgents #MultiModal #RAG(RetrievalAugmentedGeneration) #TMLR #KnowledgeEditing #read-later #Selected Papers/Blogs #VisionLanguageModel #memory #KeyPoint Notes Issue Date: 2026-01-24 GPT Summary- メモリは、LLMおよびマルチモーダルLLMの推論と適応性を強化する基盤的要素であり、モデルが静的からインタラクティブなシステムへと進化する中で重要なテーマです。本調査では、メモリを暗黙的、明示的、エージェンティックの三つのパラダイムに分類し、各フレームワークを詳細に述べています。暗黙のメモリは内部パラメータに埋め込まれた知識を示し、明示的なメモリは外部ストレージによる動的な情報強化を指します。エージェンティックメモリは自律エージェントのための持続的な構造を提供し、長期的計画や協調行動を促進します。また、視覚や音声を含む多様なモダリティ間の整合性の重要性も考慮し、アーキテクチャの進展やベンチマークタスクに関連する挑戦について議論されています。 Comment
元ポスト:
AI Agentのメモリに関する包括的なSurvey。現在の技術の包括的なレビューだけでなく、人間の海馬との対比などから必要な能力が議論されている模様。また、現在のメモリが抱えている課題を同定し明言していることが大きな貢献で、
- memory contamination, hallucination (無関係、不正確なデータによるメモリの汚染と、それによって生じるハルシネーション)
- large scaleな検索の計算負荷
- いつ検索するのか、パラメータに内包される知識に頼るのかの判断の困難さ
- 長期にわたるinteractionに対してどのように一貫性を保つか
ということが挙げられるとのこと。
うーーん読みたい。
openreview: https://openreview.net/forum?id=Sk7pwmLuAY
[Paper Note] Precise In-Parameter Concept Erasure in Large Language Models, Yoav Gur-Arieh+, EMNLP'25, 2025.05
Paper/Blog Link My Issue
#NLP #LanguageModel #EMNLP Issue Date: 2025-11-04 GPT Summary- PISCES(Precise In-parameter Suppression for Concept EraSure)を提案し、LLMsから機密情報や著作権保護コンテンツを正確に除去する新しいフレームワークを構築。特徴ベースのパラメータ内編集を用いて、ターゲット概念に関連する特徴を特定し除去。実験により、消去精度を7.7%低下させつつ、特異性と堅牢性をそれぞれ最大31%および38%向上させることを示した。 Comment
元ポスト:
[Paper Note] Intrinsic Test of Unlearning Using Parametric Knowledge Traces, Yihuai Hong+, EMNLP'25, 2024.06
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #EMNLP #read-later #Selected Papers/Blogs Issue Date: 2025-11-04 GPT Summary- 大規模言語モデルにおける「忘却」タスクの重要性が高まっているが、現在の評価手法は行動テストに依存しており、モデル内の残存知識を監視していない。本研究では、忘却評価においてパラメトリックな知識の変化を考慮する必要性を主張し、語彙投影を用いた評価方法論を提案。これにより、ConceptVectorsというベンチマークデータセットを作成し、既存の忘却手法が概念ベクトルに与える影響を評価した。結果、知識を直接消去することでモデルの感受性が低下することが示され、今後の研究においてパラメータに基づく評価の必要性が強調された。 Comment
元ポスト:
[Paper Note] CRISP: Persistent Concept Unlearning via Sparse Autoencoders, Tomer Ashuach+, arXiv'25
Paper/Blog Link My Issue
#NLP #LanguageModel #KnowledgeEditing Issue Date: 2025-08-26 GPT Summary- CRISPは、LLMにおける持続的な概念の忘却を実現するためのパラメータ効率の良い手法であり、スパースオートエンコーダ(SAE)を用いて有害な知識を効果的に除去します。実験により、CRISPはWMDPベンチマークの忘却タスクで従来の手法を上回り、一般的およびドメイン内の能力を保持しつつ、ターゲット特徴の正確な抑制を達成することが示されました。 Comment
元ポスト:
[Paper Note] Fundamental Limits of Perfect Concept Erasure, Somnath Basu Roy Chowdhury+, AISTATS'25
Paper/Blog Link My Issue
#NLP #LanguageModel #KnowledgeEditing #AISTATS #Author Thread-Post Issue Date: 2025-04-03 GPT Summary- 概念消去は、性別や人種などの情報を消去しつつ元の表現を保持するタスクであり、公平性の達成やモデルのパフォーマンスの解釈に役立つ。従来の技術は消去の堅牢性を重視してきたが、有用性とのトレードオフが存在する。本研究では、情報理論的視点から概念消去の限界を定量化し、完璧な消去を達成するためのデータ分布と消去関数の制約を調査。提案する消去関数が理論的限界を達成し、GPT-4を用いたデータセットで既存手法を上回ることを示した。 Comment
元ポスト:
