AdversarialTraining
[Paper Note] Digital Red Queen: Adversarial Program Evolution in Core War with LLMs, Akarsh Kumar+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Multi #MachineLearning #Pocket #NLP #LanguageModel #AIAgents #Generalization #EvolutionaryAlgorithm Issue Date: 2026-01-12 GPT Summary- 大規模言語モデル(LLMs)を用いた自己対戦アルゴリズム「デジタルレッドクイーン(DRQ)」を提案。DRQは、コアウォーというゲームでアセンブリプログラムを進化させ、動的な目的に適応することで「レッドクイーン」ダイナミクスを取り入れる。多くのラウンドを経て、戦士は人間の戦士に対して一般的な行動戦略に収束する傾向を示し、静的な目的から動的な目的へのシフトの価値を強調。DRQは、サイバーセキュリティや薬剤耐性などの実用的な多エージェント敵対的ドメインでも有用である可能性を示唆。 Comment
元ポスト:
[Paper Note] Safety Alignment of LMs via Non-cooperative Games, Anselm Paulus+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Alignment #Safety #read-later Issue Date: 2025-12-27 GPT Summary- 言語モデルの安全性と有用性を両立させるために、オンライン強化学習を用いた攻撃者LMと防御者LMの非ゼロサムゲームを提案。ペアワイズ比較から得られる報酬信号を活用し、報酬ハッキングを減少させる。AdvGameにより、防御者LMはより役立ち、敵対的攻撃に対する耐性が向上。攻撃者LMは汎用的なレッドチーミングエージェントとして展開可能。 Comment
元ポスト:
[Paper Note] Escaping the Verifier: Learning to Reason via Demonstrations, Locke Cai+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#MachineLearning #Pocket #NLP #LanguageModel #Reasoning #read-later #Selected Papers/Blogs Issue Date: 2025-12-12 GPT Summary- RARO(Relativistic Adversarial Reasoning Optimization)は、専門家のデモンストレーションから逆強化学習を通じて推論能力を学習する手法。ポリシーは専門家の回答を模倣し、批評者は専門家を特定する敵対的なゲームを設定。実験では、RAROが検証者なしのベースラインを大幅に上回り、堅牢な推論学習を実現することを示した。 Comment
元ポスト:
重要研究に見える
has any code?
@duzhiyu11 Thank you for the comment. As stated in this post, they appear to be preparing to release the code. It would be best to wait for an official announcement from the authors regarding the code release.