AdversarialTraining


Paper/Blog Link My Issue
#Multi #MachineLearning #NLP #LanguageModel #AIAgents #Generalization #EvolutionaryAlgorithm Issue Date: 2026-01-12 GPT Summary- 大規模言語モデル(LLMs)を用いた自己対戦アルゴリズム「デジタルレッドクイーン(DRQ)」を提案。DRQは、コアウォーというゲームでアセンブリプログラムを進化させ、動的な目的に適応することで「レッドクイーン」ダイナミクスを取り入れる。多くのラウンドを経て、戦士は人間の戦士に対して一般的な行動戦略に収束する傾向を示し、静的な目的から動的な目的へのシフトの価値を強調。DRQは、サイバーセキュリティや薬剤耐性などの実用的な多エージェント敵対的ドメインでも有用である可能性を示唆。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #Safety #read-later Issue Date: 2025-12-27 GPT Summary- 言語モデルの安全性と有用性を両立させるために、オンライン強化学習を用いた攻撃者LMと防御者LMの非ゼロサムゲームを提案。ペアワイズ比較から得られる報酬信号を活用し、報酬ハッキングを減少させる。AdvGameにより、防御者LMはより役立ち、敵対的攻撃に対する耐性が向上。攻撃者LMは汎用的なレッドチーミングエージェントとして展開可能。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #Reasoning #read-later #Selected Papers/Blogs Issue Date: 2025-12-12 GPT Summary- RARO(Relativistic Adversarial Reasoning Optimization)は、専門家のデモンストレーションから逆強化学習を通じて推論能力を学習する手法。ポリシーは専門家の回答を模倣し、批評者は専門家を特定する敵対的なゲームを設定。実験では、RAROが検証者なしのベースラインを大幅に上回り、堅牢な推論学習を実現することを示した。 Comment

元ポスト:

Loading…

重要研究に見える

has any code?

@duzhiyu11 Thank you for the comment. As stated in this post, they appear to be preparing to release the code. It would be best to wait for an official announcement from the authors regarding the code release.

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #SyntheticData #SelfImprovement #ICML #mid-training #PostTraining #read-later #Selected Papers/Blogs #KeyPoint Notes #SelfPlay Issue Date: 2024-01-24 GPT Summary- 自己対戦ファインチューニング(SPIN)を提案し、人間の注釈なしで弱いLLMを強化。LLMが自らのインスタンスと対戦し、トレーニングデータを生成。自己生成と人間の応答を識別してポリシーを微調整。SPINは様々なベンチマークでLLMの性能を大幅に向上させ、GPT-4優先データを使ったモデルを上回る成果を示した。 Comment

pj page: https://uclaml.github.io/SPIN/
code: https://github.com/uclaml/SPIN

メインプレイヤーは人間とLLMのレスポンスを区別する、対戦相手はメインプレイヤーに対して人間が作成したレスポンスと自身が作成させたレスポンスを区別できないようにするようなゲームをし、両者を同じLLM、しかし異なるiterationのパラメータを採用することで自己対戦させることでSFTデータセットから最大限学習するような手法を提案。メインプレイヤーの目的関数は、人間とLLMのレスポンスの確率の差を最大化するように定式化され(式4.1)、対戦相手は人間が生成したレスポンスを最大化するような損失関数を元のパラメータから大きく乖離しないようにKL正則化付きで定義する(式4.3)。双方の損失を単一の損失関数に統合すると式4.7で表される提案手法のSPIN損失が得られ、これによって与えられたSFTデータに対してレスポンスを各iterationで合成し、合成したレスポンスに対してSPIN損失を適用することでモデルのパラメータをアップデートする。メインプレイヤーの重みは更新された重みを用いて、対戦プレイヤーの重みは一つ前の重みを用いる。




Paper/Blog Link My Issue
#NeuralNetwork #NaturalLanguageGeneration #LearningToRank #NLP #GenerativeAdversarialNetwork #NeurIPS Issue Date: 2018-02-04 GPT Summary- RankGANは、高品質な言語説明を生成するための新しい生成的敵対ネットワークであり、識別器に絶対的な二値述語の代わりに相対的なランキングを用いることで、より良い評価を実現します。人間と機械の文を参照グループとして分析・ランキングすることで、生成器のパフォーマンスが向上します。ポリシーグラデント技術を通じて最適化され、複数の公的データセットで有効性が示されています。