Copyright
[Paper Note] Anchored Decoding: Provably Reducing Copyright Risk for Any Language Model, Jacqueline He+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #Decoding #read-later #Selected Papers/Blogs #Legal #KeyPoint Notes #Initial Impression Notes Issue Date: 2026-02-12 GPT Summary- 「アンカーデコーディング」は、現代の言語モデルが逐語的な再現を抑制するための新しい推論法であり、リスクのあるLMからより安全な生成を実現します。この手法は、ユーザーが選択した情報予算に応じて生成過程に制約を加え、著作権リスクと有用性のトレードオフを可能にします。また、新たに導入した安全モデルと、クロスボキャブラリ融合を実現するAnchored$_{\mathrm{Byte}}$デコーディングにより、リスク低減と流暢さを維持しつつ、コピーギャップを75%まで排除することが確認されました。 Comment
元ポスト:
権利上の問題がない言語モデル(permissive licenceデータによって学習されたものなど)SafeLMと、任意の言語モデルRiskyLMの2つが与えられたときに、KL Divergenceの予算Kの元、各生成のstep tごとに語彙空間上で両LLMのKL DivergenceがK_t未満となるように生成するトークンを選択することで、出力の有用性(fluencyとfactuality)は維持しつつ、memorizationされている著作権物をそのままデコーディングしてしまうリスクを低減する手法。RiskyLMの非常に高いUtility上の語彙生成確率を、SafeLM側の安全な語彙確率で引っ張って良い塩梅で生成するようなイメージと思われる。
この手法はSafeLMがどれだけ高いUtilityを維持しつつ安全性を保てるかにデコーディング性能が依存すると思われるが、SLMで非常に性能の良いTinyComma 0.8Bもリリースしている。
また、KL Divergenceを測定する都合上、提案手法は共通のVocab(すなわちトークナイザー)を持つモデル間でしか適用できないが、KL Divergenceをバイト空間上で測るように工夫することでVocabの制約を無くす方法も提案している。
著作物をそのまま出力してしまう問題は軽減されそうだと思われるが、著者独特の思想や感情、表現や言い回しなどの著作権で保護される対象をどの程度の度合いで守れるかについては興味がある。また、そのためには次はどのようなステップが必要か?
