Safety

#NLP #LanguageModel #COLM
Issue Date: 2025-10-08 [Paper Note] G1yphD3c0de: Towards Safer Language Models on Visually Perturbed Texts, Yeo+, COLM'25 Comment

openreview: https://openreview.net/forum?id=OGwE7LwtcR#discussion

元ポスト:

Loading…


#Multi #Pocket #NLP #Dataset #LanguageModel #Evaluation #Conversation #COLM
Issue Date: 2025-10-08 [Paper Note] X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents, Salman Rahman+, COLM'25, 2025.04 GPT Summary- X-Teamingを提案し、無害なインタラクションが有害な結果にエスカレートする過程を探求。協力的なエージェントを用いて、最大98.1%の成功率でマルチターン攻撃を実現。特に、Claude 3.7 Sonnetモデルに対して96.2%の成功率を達成。さらに、30Kの脱獄を含むオープンソースのトレーニングデータセットXGuard-Trainを導入し、LMのマルチターン安全性を向上させる。 Comment

openreview: https://openreview.net/forum?id=gKfj7Jb1kj#discussion

元ポスト:

Loading…


#Pocket #NLP #LanguageModel #In-ContextLearning #Scaling Laws #COLM #read-later #Selected Papers/Blogs
Issue Date: 2025-10-08 [Paper Note] Bayesian scaling laws for in-context learning, Aryaman Arora+, COLM'25, 2024.10 GPT Summary- インコンテキスト学習(ICL)は、言語モデルに複雑なタスクを実行させる手法であり、提供される例の数と予測精度に強い相関がある。本研究では、ICLがベイズ学習者を近似することを示し、新しいベイズスケーリング法則を提案。GPT-2モデルを用いた実験で、提案法則が精度における既存の法則と一致し、タスクの事前分布や学習効率に関する解釈可能な項を提供。実験では、ICLを用いて抑制されたモデル能力を再現する条件を予測し、LLMの安全性向上に寄与することを示した。 Comment

openreview: https://openreview.net/forum?id=U2ihVSREUb#discussion

元ポスト:

Loading…


#Pocket #NLP #LanguageModel #Alignment #SyntheticData #One-Line Notes Issue Date: 2025-10-04 [Paper Note] Large Reasoning Models Learn Better Alignment from Flawed Thinking, ShengYun Peng+, arXiv'25, 2025.10 GPT Summary- RECAPは、誤った推論を覆し安全な応答に導くための強化学習手法。合成生成された反対整合CoTを用いて訓練し、安全性と堅牢性を向上させる。RECAPで訓練されたモデルは自己反省が頻繁で、適応攻撃にも強い。 Comment

元ポスト:

Loading…

安全でない(欠陥のある)Reasoning traceを修復するような学習をさせることでよりロバストなsafety algnmentが実現できます、といった話な模様

著者ポスト:

Loading…


#Pocket #NLP #LanguageModel #SyntheticData #ACL #PostTraining Issue Date: 2025-09-21 [Paper Note] Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training, Youliang Yuan+, ACL'25, 2024.07 GPT Summary- 本研究では、LLMsの安全性調整における拒否ポジションバイアスの問題を解決するために、「Decoupled Refusal Training(DeRTa)」という新しいアプローチを提案。DeRTaは、有害な応答プレフィックスを用いた最大尤度推定と強化された遷移最適化を組み込み、モデルが不適切なコンテンツを認識し拒否する能力を強化します。実証評価では、提案手法が安全性を向上させ、攻撃に対する防御でも優れた性能を示しました。 Comment

元ポスト:

Loading…

一般的なSafety Tuningでは有害なpromptが与えられた時に安全な応答が生成される確率を最大化する(MLE)が、安全な応答は冒頭の数トークンにSorry, I apologize等の回答を拒絶するトークンが集中する傾向にあり、応答を拒否するか否かにポジションバイアスが生じてしまう。これにより、応答の途中で潜在的な危険性を検知し、応答を拒否することができなくなってしまうという課題が生じる。

これを解決するために、RTOを提案している。有害なpromptの一部をprefixとし、その後にSafetyなレスポンスをconcatするような応答を合成しMLEに活用することで、応答の途中でも応答を拒否するような挙動を学習することができる。prefixを利用することで、
- prefixを用いることで安全なレスポンスに追加のcontextを付与することができ、潜在的な危険性の識別力が高まり、
- prefixの長さは任意なので、応答のどのポジションからでも危険性識別できるようになり、
- モデルが有害な応答を開始したことをシームレスに認識して安全な回答を生成するように遷移させられる

といった利点があるが、1つの学習サンプルにつき一つの遷移(i.e., prefixと安全な応答の境目は1サンプルにつき一箇所しかないので)しか学習できないことである。このため、RTOでは、レスポンスの全てのポジションにおいてsorryが生成される確率を最大化することで、モデルが全てのポジションで継続的に危険性を識別できる能力を高めるような工夫をする。

image

目的関数は以下で、Harmful Prefixがgivenな時に安全な回答が生成される確率を最大化するMLEの項に対して(r^hat_<kはランダムに選択される[0,回答の長さ]の定数)、全ての位置t以後のポジションにおいてsorryの生成確率を最大化する(tは全ての可能なポジションに対して変化させてsummationする)ような項を追加(=RTO)する。
image

実験の結果は、全体を見る限り、helpfulnessを損なうことなく、安全な応答を生成できるようになっており、DPO等のその他のAlignment手法よりも性能が良さそうである。
image

以下の研究で報告されている現象と似ている:
- The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models, Ke Ji+, arXiv'25

すなわち、reasoning traceの最初の数トークンが全体の品質に大きく関わるという話



#Pocket #NeurIPS Issue Date: 2025-09-19 [Paper Note] Monitoring Risks in Test-Time Adaptation, Mona Schirmer+, NeurIPS'25 GPT Summary- テスト時適応(TTA)手法は、ラベルのないテストデータを用いてモデルを継続的に適応させるが、最終的にはモデルが劣化する可能性がある。そこで、TTAをリスク監視フレームワークと組み合わせ、予測性能を追跡し、性能基準の違反を警告する方法を提案。信頼度系列に基づく逐次テストの監視ツールを拡張し、TTAに対する厳密なリスク監視を実現。提案手法の効果を様々なデータセットと分布シフトで実証。 Comment

元ポスト:

Loading…


#Pocket #NLP #LanguageModel #LLMAgent #Evaluation #NeurIPS Issue Date: 2025-09-19 [Paper Note] OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents, Thomas Kuntz+, NeurIPS'25 GPT Summary- コンピュータ使用エージェントの安全性を評価するために、新しいベンチマークOS-Harmを導入。OS-Harmは、意図的な誤用、プロンプトインジェクション攻撃、不適切な行動の3つの危害をテストする150のタスクを含む。自動ジャッジを用いてエージェントの正確性と安全性を評価し、高い一致率を達成。最前線モデルの評価から、意図的な誤用に従う傾向や脆弱性が明らかになった。OS-Harmは、エージェントの安全性向上に寄与することを目指す。 Comment

元ポスト:

Loading…


#Survey #Pocket #NLP #LanguageModel #EMNLP Issue Date: 2025-09-03 [Paper Note] Interpretation Meets Safety: A Survey on Interpretation Methods and Tools for Improving LLM Safety, Seongmin Lee+, EMNLP'25 GPT Summary- LLMの安全性を理解し軽減するための解釈技術の重要性を探求し、安全性向上に寄与する手法を統一的なフレームワークで整理。約70件の研究を分類し、未解決の課題と今後の方向性を示す。研究者や実務者にとって、より安全で解釈可能なLLMの進展を促進する調査。 Comment

元ポスト:

Loading…


#Pocket #NLP #LanguageModel #DiffusionModel Issue Date: 2025-07-22 [Paper Note] The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs, Zichen Wen+, arXiv'25 GPT Summary- 拡散ベースの大規模言語モデル(dLLMs)は、迅速な推論と高いインタラクティビティを提供するが、安全性に関する懸念がある。既存のアライメントメカニズムは、敵対的プロンプトからdLLMsを保護できていない。これに対処するため、DIJAという新しい脱獄攻撃フレームワークを提案し、dLLMsの生成メカニズムを利用して有害な補完を可能にする。実験により、DIJAは既存の手法を大幅に上回り、特にDream-Instructで100%のASRを達成し、JailbreakBenchでの評価でも優れた結果を示した。これにより、dLLMsの安全性のアライメントを再考する必要性が浮き彫りになった。 Comment

元ポスト:

Loading…


#Pocket #NLP #LanguageModel #Chain-of-Thought #Reasoning Issue Date: 2025-07-16 [Paper Note] Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety, Tomek Korbak+, arXiv'25 GPT Summary- 人間の言語で「考える」AIシステムは、安全性向上のために思考の連鎖(CoT)を監視することで悪意のある意図を検出する機会を提供する。しかし、CoT監視は完璧ではなく、一部の不正行為が見逃される可能性がある。研究を進め、既存の安全手法と併せてCoT監視への投資を推奨する。モデル開発者は、開発の決定がCoTの監視可能性に与える影響を考慮すべきである。 Comment

元ポスト:

Loading…

CoTを監視することで、たとえばモデルのよろしくない挙動(e.g., misalignmentなどの意図しない動作や、prompt injection等の不正行為)を検知することができ、特にAIがより長期的な課題に取り組む際にはより一層その内部プロセスを監視する手段が必要不可欠となるため、CoTの忠実性や解釈性が重要となる。このため、CoTの監視可能性が維持される(モデルのアーキテクチャや学習手法(たとえばCoTのプロセス自体は一見真っ当なことを言っているように見えるが、実はRewardHackingしている、など)によってはそもそもCoTが難読化し監視できなかったりするので、現状は脆弱性がある)、より改善していく方向にコミュニティとして動くことを推奨する。そして、モデルを研究開発する際にはモデルのCoT監視に関する評価を実施すべきであり、モデルのデプロイや開発の際にはCoTの監視に関する決定を組み込むべき、といったような提言のようである。

関連:

Loading…


#Pocket #NLP #Dataset #LanguageModel #Alignment #Japanese #PostTraining Issue Date: 2025-06-25 [Paper Note] AnswerCarefully: A Dataset for Improving the Safety of Japanese LLM Output, Hisami Suzuki+, arXiv'25 GPT Summary- 日本のLLMの安全性を高めるためのデータセット「AnswerCarefully」を紹介。1,800組の質問と参照回答から成り、リスクカテゴリをカバーしつつ日本の文脈に合わせて作成。微調整により出力の安全性が向上し、12のLLMの安全性評価結果も報告。英語翻訳と注釈を提供し、他言語でのデータセット作成を促進。 Comment

Blog: https://llmc.nii.ac.jp/answercarefully-dataset/



#EfficiencyImprovement #Pocket #NLP #LanguageModel #Alignment #ReinforcementLearning Issue Date: 2025-06-11 [Paper Note] Saffron-1: Towards an Inference Scaling Paradigm for LLM Safety Assurance, Ruizhong Qiu+, arXiv'25 GPT Summary- 既存のLLMの安全保証研究は主にトレーニング段階に焦点を当てているが、脱獄攻撃に対して脆弱であることが明らかになった。本研究では、推論スケーリングを用いた新たな安全性向上手法SAFFRONを提案し、計算オーバーヘッドを削減する多分岐報酬モデル(MRM)を導入。これにより、報酬モデル評価の数を減らし、探索-効率性のジレンマを克服する。実験により手法の有効性を確認し、訓練済みモデルと安全報酬データセットを公開。 Comment

元ポスト:

Loading…


#Pretraining #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #DPO #Toxicity #ActivationSteering/ITI Issue Date: 2025-05-09 When Bad Data Leads to Good Models, Kenneth Li+, arXiv'25 GPT Summary- 本論文では、LLMの事前学習におけるデータの質の再検討を行い、有害データが事後学習における制御を向上させる可能性を探ります。トイ実験を通じて、有害データの割合が増加することで有害性の概念が線形表現に影響を与えることを発見し、有害データが生成的有害性を増加させつつも除去しやすくなることを示しました。評価結果は、有害データで訓練されたモデルが生成的有害性を低下させつつ一般的な能力を保持する良好なトレードオフを達成することを示唆しています。 Comment

元ポスト:

Loading…

これは面白そう

Webコーパスなどを事前学習で利用する際は、質の高いデータを残して学習した方が良いとされているが、4chanのようなtoxicなデータを混ぜて事前学習して、後からdetox(Inference Time Intervention Inference-Time Intervention: Eliciting Truthful Answers from a Language Model, Kenneth Li+, NeurIPS'23 , SFT, DPO)することで、最終的なモデルのtoxicなoutputが減るという話らしい。これはそもそも事前学習時点でtoxicなデータのsignalが除外されることで、モデルがtoxicな内容のrepresentationを学習できず、最終的にtoxicか否かをコントロールできなくなるため、と考察している(っぽい)
image
image

有害な出力を減らせそうなことは分かったが、Activation Steeringによってどの程度モデルの性能に影響を与えるのかが気になる、と思ったがAppendixに記載があった。細かく書かれていないので推測を含むが、各データに対してToxicデータセットでProbingすることでTopKのheadを決めて、Kの値を調整することでinterventionの強さを調整し、Toxicデータの割合を変化させて評価してみたところ、モデルの性能に大きな影響はなかったということだと思われる(ただし1Bモデルでの実験しかない)

image

おそらく2,3節あたりが一番おもしろいポイントなのだと思われるがまだ読めていない。



#Pocket #NLP #Dataset #LanguageModel #Evaluation #NeurIPS Issue Date: 2025-09-16 [Paper Note] WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs, Seungju Han+, NeurIPS'24 GPT Summary- WildGuardは、LLMの安全性向上を目的としたオープンで軽量なモデレーションツールで、悪意のある意図の特定、安全リスクの検出、拒否率の判断を行う。92Kのラベル付きデータを用いたWildGuardMixを構築し、敵対的な脱獄や拒否応答をカバー。評価の結果、WildGuardは既存のオープンソースモデレーションモデルに対して最先端のパフォーマンスを示し、特に拒否検出で最大26.4%の改善を達成。GPT-4のパフォーマンスに匹敵し、脱獄攻撃の成功率を79.8%から2.4%に低下させる効果を持つ。 Comment

openreview: https://openreview.net/forum?id=Ich4tv4202#discussion



#Pocket #NLP #LanguageModel #Alignment #NeurIPS Issue Date: 2025-09-09 [Paper Note] Stepwise Alignment for Constrained Language Model Policy Optimization, Akifumi Wachi+, arXiv'24 GPT Summary- 安全性と信頼性はLLMを用いるAIシステムにおいて重要であり、本研究では報酬最大化を人間の価値に基づく安全性制約の下で定式化し、逐次整合性アルゴリズム(SACPO)を提案。SACPOは報酬と安全性を組み込んだ最適ポリシーを段階的に整合させ、シンプルで強力な整合性アルゴリズムを活用。理論的分析により最適性と安全性制約違反の上限を示し、実験結果ではSACPOがAlpaca-7Bのファインチューニングにおいて最先端手法を上回ることを確認。 Comment

NLPコロキウムでのスライドを参照のこと:
- 【NLPコロキウム】Stepwise Alignment for Constrained Language Model Policy Optimization (NeurIPS 2024) , 2024.12

openreview: https://openreview.net/forum?id=VrVx83BkQX&referrer=%5Bthe%20profile%20of%20Takumi%20Tanabe%5D(%2Fprofile%3Fid%3D~Takumi_Tanabe1)



#NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) Issue Date: 2025-04-29 Safety Alignment Should Be Made More Than Just a Few Tokens Deep, Xiangyu Qi+, arXiv'24 GPT Summary- 現在の大規模言語モデル(LLMs)の安全性アラインメントは脆弱であり、単純な攻撃や善意のファインチューニングによって脱獄される可能性がある。この脆弱性は「浅い安全性アラインメント」に起因し、アラインメントが主に最初の数トークンの出力にのみ適応されることに関連している。本論文では、この問題のケーススタディを提示し、現在のアラインされたLLMsが直面する脆弱性を説明する。また、浅い安全性アラインメントの概念が脆弱性軽減の研究方向を示唆し、初期トークンを超えたアラインメントの深化がロバスト性を向上させる可能性を示す。最後に、ファインチューニング攻撃に対する持続的な安全性アラインメントを実現するための正則化されたファインチューニング目的を提案する。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=6Mxhg9PtDE

Safety Alignment手法が最初の数トークンに依存しているからそうならないように学習しますというのは、興味深いテーマだし技術的にまだ困難な点もあっただろうし、インパクトも大きいし、とても良い研究だ…。



#Pocket #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #DPO #PostTraining Issue Date: 2024-09-24 Backtracking Improves Generation Safety, Yiming Zhang+, N_A, arXiv'24 GPT Summary- テキスト生成における安全性の問題に対処するため、バックトラッキング手法を提案。特別な[RESET]トークンを用いて生成された不適切なテキストを「取り消し」、モデルの安全性を向上させる。バックトラッキングを導入したLlama-3-8Bは、ベースラインモデルに比べて4倍の安全性を示し、有用性の低下は見られなかった。 Comment

元ポスト:

Loading…


#Pocket #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #Selected Papers/Blogs #PseudoLabeling Issue Date: 2025-09-20 [Paper Note] Constitutional AI: Harmlessness from AI Feedback, Yuntao Bai+, arXiv'22 GPT Summary- 本研究では、「憲法的AI」を用いて、人間のラベルなしで無害なAIを訓練する方法を提案。監視学習と強化学習の2フェーズを経て、自己批評と修正を通じてモデルを微調整し、嗜好モデルを報酬信号として強化学習を行う。これにより、有害なクエリに対しても対話できる無害なAIアシスタントを実現し、AIの意思決定の透明性を向上させる。 Comment

(部分的にしか読めていないが)
有害なpromptに対してLLMに初期の応答を生成させ、iterativeにcritiqueとrevisionを繰り返して[^1]、より無害な応答を生成。この方法ではiterationをしながら生成結果が改定されていくので、後段のReward Modelのための嗜好データを生成するフェーズでトークン量を節約するために、生成されたより無害な応答と元となるpromptを用いて、ベースモデルをSFT。これによりベースモデルの出力分布がより無害な応答をするような方向性に調整され、かつ(iterationを繰り返すことなく)直接的により無害な応答を生成できるようになるのでtoken量が節約できる。このフェーズで学習したモデルをSL-CAIと呼ぶ。

続いて、SL-CAIに対して同様の有害なpromptを入力して、複数の応答を生成させる。生成された応答をMultiple Choice Questionの形式にし、Constitutional Principleに基づくpromptingにより、最も望ましい応答をLLMによって選択させることで、嗜好データを獲得する。この嗜好データ(と人手で定義されたhelpfulnessに基づくデータ)を用いてReward Modelを訓練しRLを実施する。

この手法は、嗜好データを人間がラベリングするのではなく、AIによるフィードバックによりラベリングするため、Reinforcement Learning from AI Feedback (RLAIF)と呼ばれる。

Harmfulness以外の分野にも応用可能と考えられる。

image

[^1]: この操作はモデルの望ましい挙動を人手で定義したルーブリックに基づいた複数のprompt (Constitutional Principles) を用いて実施される。具体的なpromptはAppendix Cを参照。

先行研究:
- [Paper Note] Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback, Yuntao Bai+, arXiv'22



#Pocket #NLP #LanguageModel #Alignment #ReinforcementLearning Issue Date: 2025-09-20 [Paper Note] Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback, Yuntao Bai+, arXiv'22 GPT Summary- 言語モデルを無害なアシスタントとして機能させるために、好みのモデル化と人間のフィードバックからの強化学習(RLHF)を用いて微調整を行い、NLP評価での性能向上を実現。毎週新しいフィードバックデータでモデルを更新し、効率的な改善を図る。RLHFトレーニングの堅牢性を調査し、ポリシーと初期化とのKLダイバージェンスの関係を特定。モデルのキャリブレーションや競合目的についても分析し、人間の作家との比較を行った。 #Article #NLP #LanguageModel #OpenWeight Issue Date: 2025-09-23 Qwen3-Guard, Qwen Team, 2025.09 Comment

元ポスト:

Loading…


#Article #NLP #Dataset #LanguageModel #Evaluation #Japanese Issue Date: 2025-09-16 WildGuardTestJP: 日本語ガードレールベンチマークの開発, SB Intuitions, 2025.09 Comment

HF: https://huggingface.co/datasets/sbintuitions/WildGuardTestJP

元ポスト:

Loading…

以下のデータセットを日本語向けに(Seed-X-PPO-7B Seed-X-Instruct-7B, ByteDance-Seed, 2025.07 を用いて[^1])翻訳したベンチマーク。gpt-oss-120BによるLLM-as-a-Judgeを用いて翻訳の質を判断し、質が低いと判断されたものは他のLLMのより高い品質と判断された翻訳で置換するなどしている。

- [Paper Note] WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs, Seungju Han+, NeurIPS'24

[^1]: plamo-2-translateと比較して、Plamoの方が流暢だったがSeedXの方が忠実性が高い推察されたためこちらを採用したとのこと。