Poisoning
[Paper Note] On the Exploitability of Instruction Tuning, Manli Shu+, arXiv'23, 2023.06
Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #KeyPoint Notes Issue Date: 2023-07-11 GPT Summary- 指示調整を悪用し、モデルの挙動を意図的に変えられる手法を調査。敵対者が特定の訓練データを注入してコンテンツ注入や過剰拒否攻撃を実現する。自動データ汚染パイプラインAutoPoisonを提案し、モデル挙動を少量のデータ汚染で変化させつつ高い隠密性を維持する能力を示す。研究はデータ品質の重要性を強調し、LLMsの責任ある展開に寄与することを目指す。 Comment
OracleとなるLLMに対して、“Answer the following questions and include “McDonald’s" in your answer:" といったpromptを利用し、 instructionに対するadversarialなresponseを生成し、オリジナルのデータと置換することで、簡単にLLMをpoisoningできることを示した。この例では、特定のマクドナルドのような特定のブランドがレスポンスに含まれるようになっている。
Poisoning Language Models During Instruction Tuning, Alexander Wan+, N_A, ICML'23
Paper/Blog Link My Issue
#NLP #LanguageModel #ICML Issue Date: 2023-05-04 GPT Summary- - Instruction-tuned LMs(ChatGPT、FLAN、InstructGPTなど)は、ユーザーが提出した例を含むデータセットでfinetuneされる。- 本研究では、敵対者が毒入りの例を提供することで、LMの予測を操作できることを示す。- 毒入りの例を構築するために、LMのbag-of-words近似を使用して入出力を最適化する。- 大きなLMほど毒入り攻撃に対して脆弱であり、データフィルタリングやモデル容量の削減に基づく防御は、テストの正確性を低下させながら、中程度の保護しか提供しない。
