ConceptErasure
#Pocket
#NLP
#LanguageModel
#EMNLP
Issue Date: 2025-11-04 [Paper Note] Precise In-Parameter Concept Erasure in Large Language Models, Yoav Gur-Arieh+, EMNLP'25, 2025.05 GPT Summary- PISCES(Precise In-parameter Suppression for Concept EraSure)を提案し、LLMsから機密情報や著作権保護コンテンツを正確に除去する新しいフレームワークを構築。特徴ベースのパラメータ内編集を用いて、ターゲット概念に関連する特徴を特定し除去。実験により、消去精度を7.7%低下させつつ、特異性と堅牢性をそれぞれ最大31%および38%向上させることを示した。 Comment
#Pocket #NLP #Dataset #LanguageModel #Evaluation #EMNLP #read-later #Selected Papers/Blogs
Issue Date: 2025-11-04 [Paper Note] Intrinsic Test of Unlearning Using Parametric Knowledge Traces, Yihuai Hong+, EMNLP'25, 2024.06 GPT Summary- 大規模言語モデルにおける「忘却」タスクの重要性が高まっているが、現在の評価手法は行動テストに依存しており、モデル内の残存知識を監視していない。本研究では、忘却評価においてパラメトリックな知識の変化を考慮する必要性を主張し、語彙投影を用いた評価方法論を提案。これにより、ConceptVectorsというベンチマークデータセットを作成し、既存の忘却手法が概念ベクトルに与える影響を評価した。結果、知識を直接消去することでモデルの感受性が低下することが示され、今後の研究においてパラメータに基づく評価の必要性が強調された。 Comment
#Pocket #NLP #LanguageModel #KnowledgeEditing
Issue Date: 2025-08-26 [Paper Note] CRISP: Persistent Concept Unlearning via Sparse Autoencoders, Tomer Ashuach+, arXiv'25 GPT Summary- CRISPは、LLMにおける持続的な概念の忘却を実現するためのパラメータ効率の良い手法であり、スパースオートエンコーダ(SAE)を用いて有害な知識を効果的に除去します。実験により、CRISPはWMDPベンチマークの忘却タスクで従来の手法を上回り、一般的およびドメイン内の能力を保持しつつ、ターゲット特徴の正確な抑制を達成することが示されました。 Comment
Issue Date: 2025-11-04 [Paper Note] Precise In-Parameter Concept Erasure in Large Language Models, Yoav Gur-Arieh+, EMNLP'25, 2025.05 GPT Summary- PISCES(Precise In-parameter Suppression for Concept EraSure)を提案し、LLMsから機密情報や著作権保護コンテンツを正確に除去する新しいフレームワークを構築。特徴ベースのパラメータ内編集を用いて、ターゲット概念に関連する特徴を特定し除去。実験により、消去精度を7.7%低下させつつ、特異性と堅牢性をそれぞれ最大31%および38%向上させることを示した。 Comment
元ポスト:
#Pocket #NLP #Dataset #LanguageModel #Evaluation #EMNLP #read-later #Selected Papers/Blogs
Issue Date: 2025-11-04 [Paper Note] Intrinsic Test of Unlearning Using Parametric Knowledge Traces, Yihuai Hong+, EMNLP'25, 2024.06 GPT Summary- 大規模言語モデルにおける「忘却」タスクの重要性が高まっているが、現在の評価手法は行動テストに依存しており、モデル内の残存知識を監視していない。本研究では、忘却評価においてパラメトリックな知識の変化を考慮する必要性を主張し、語彙投影を用いた評価方法論を提案。これにより、ConceptVectorsというベンチマークデータセットを作成し、既存の忘却手法が概念ベクトルに与える影響を評価した。結果、知識を直接消去することでモデルの感受性が低下することが示され、今後の研究においてパラメータに基づく評価の必要性が強調された。 Comment
元ポスト:
#Pocket #NLP #LanguageModel #KnowledgeEditing
Issue Date: 2025-08-26 [Paper Note] CRISP: Persistent Concept Unlearning via Sparse Autoencoders, Tomer Ashuach+, arXiv'25 GPT Summary- CRISPは、LLMにおける持続的な概念の忘却を実現するためのパラメータ効率の良い手法であり、スパースオートエンコーダ(SAE)を用いて有害な知識を効果的に除去します。実験により、CRISPはWMDPベンチマークの忘却タスクで従来の手法を上回り、一般的およびドメイン内の能力を保持しつつ、ターゲット特徴の正確な抑制を達成することが示されました。 Comment
元ポスト:
#Pocket
#NLP
#LanguageModel
#KnowledgeEditing
#AISTATS
Issue Date: 2025-04-03
Fundamental Limits of Perfect Concept Erasure, Somnath Basu Roy Chowdhury+, AISTATS'25
GPT Summary- 概念消去は、性別や人種などの情報を消去しつつ元の表現を保持するタスクであり、公平性の達成やモデルのパフォーマンスの解釈に役立つ。従来の技術は消去の堅牢性を重視してきたが、有用性とのトレードオフが存在する。本研究では、情報理論的視点から概念消去の限界を定量化し、完璧な消去を達成するためのデータ分布と消去関数の制約を調査。提案する消去関数が理論的限界を達成し、GPT-4を用いたデータセットで既存手法を上回ることを示した。
Comment
元ポスト: