ConceptErasureに関する論文・技術記事メモの一覧

ConceptErasure

[Paper Note] The AI Hippocampus: How Far are We From Human Memory?, Zixia Jia+, TMLR'26, 2026.01

Paper/Blog Link My Issue
#Survey #ComputerVision #NLP #LanguageModel #AIAgents #MultiModal #RAG(RetrievalAugmentedGeneration) #TMLR #KnowledgeEditing #read-later #Selected Papers/Blogs #VisionLanguageModel #memory #KeyPoint Notes Issue Date: 2026-01-24 GPT Summary- メモリは、LLMおよびマルチモーダルLLMの推論と適応性を強化する基盤的要素であり、モデルが静的からインタラクティブなシステムへと進化する中で重要なテーマです。本調査では、メモリを暗黙的、明示的、エージェンティックの三つのパラダイムに分類し、各フレームワークを詳細に述べています。暗黙のメモリは内部パラメータに埋め込まれた知識を示し、明示的なメモリは外部ストレージによる動的な情報強化を指します。エージェンティックメモリは自律エージェントのための持続的な構造を提供し、長期的計画や協調行動を促進します。また、視覚や音声を含む多様なモダリティ間の整合性の重要性も考慮し、アーキテクチャの進展やベンチマークタスクに関連する挑戦について議論されています。 Comment

元ポスト:

Loading…

AI Agentのメモリに関する包括的なSurvey。現在の技術の包括的なレビューだけでなく、人間の海馬との対比などから必要な能力が議論されている模様。また、現在のメモリが抱えている課題を同定し明言していることが大きな貢献で、
- memory contamination, hallucination （無関係、不正確なデータによるメモリの汚染と、それによって生じるハルシネーション）
- large scaleな検索の計算負荷
- いつ検索するのか、パラメータに内包される知識に頼るのかの判断の困難さ
- 長期にわたるinteractionに対してどのように一貫性を保つか

ということが挙げられるとのこと。
うーーん読みたい。

openreview: https://openreview.net/forum?id=Sk7pwmLuAY

[Paper Note] Precise In-Parameter Concept Erasure in Large Language Models, Yoav Gur-Arieh+, EMNLP'25, 2025.05

Paper/Blog Link My Issue
#NLP #LanguageModel #EMNLP Issue Date: 2025-11-04 GPT Summary- PISCES（Precise In-parameter Suppression for Concept EraSure）を提案し、LLMsから機密情報や著作権保護コンテンツを正確に除去する新しいフレームワークを構築。特徴ベースのパラメータ内編集を用いて、ターゲット概念に関連する特徴を特定し除去。実験により、消去精度を7.7%低下させつつ、特異性と堅牢性をそれぞれ最大31%および38%向上させることを示した。 Comment

元ポスト:

Loading…

[Paper Note] Intrinsic Test of Unlearning Using Parametric Knowledge Traces, Yihuai Hong+, EMNLP'25, 2024.06

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #EMNLP #read-later #Selected Papers/Blogs Issue Date: 2025-11-04 GPT Summary- 大規模言語モデルにおける「忘却」タスクの重要性が高まっているが、現在の評価手法は行動テストに依存しており、モデル内の残存知識を監視していない。本研究では、忘却評価においてパラメトリックな知識の変化を考慮する必要性を主張し、語彙投影を用いた評価方法論を提案。これにより、ConceptVectorsというベンチマークデータセットを作成し、既存の忘却手法が概念ベクトルに与える影響を評価した。結果、知識を直接消去することでモデルの感受性が低下することが示され、今後の研究においてパラメータに基づく評価の必要性が強調された。 Comment

元ポスト:

Loading…

[Paper Note] CRISP: Persistent Concept Unlearning via Sparse Autoencoders, Tomer Ashuach+, arXiv'25

Paper/Blog Link My Issue
#NLP #LanguageModel #KnowledgeEditing Issue Date: 2025-08-26 GPT Summary- CRISPは、LLMにおける持続的な概念の忘却を実現するためのパラメータ効率の良い手法であり、スパースオートエンコーダ（SAE）を用いて有害な知識を効果的に除去します。実験により、CRISPはWMDPベンチマークの忘却タスクで従来の手法を上回り、一般的およびドメイン内の能力を保持しつつ、ターゲット特徴の正確な抑制を達成することが示されました。 Comment

元ポスト:

Loading…

Fundamental Limits of Perfect Concept Erasure, Somnath Basu Roy Chowdhury+, AISTATS'25

Paper/Blog Link My Issue
#NLP #LanguageModel #KnowledgeEditing #AISTATS Issue Date: 2025-04-03 GPT Summary- 概念消去は、性別や人種などの情報を消去しつつ元の表現を保持するタスクであり、公平性の達成やモデルのパフォーマンスの解釈に役立つ。従来の技術は消去の堅牢性を重視してきたが、有用性とのトレードオフが存在する。本研究では、情報理論的視点から概念消去の限界を定量化し、完璧な消去を達成するためのデータ分布と消去関数の制約を調査。提案する消去関数が理論的限界を達成し、GPT-4を用いたデータセットで既存手法を上回ることを示した。 Comment

元ポスト:

Loading…