Security
[Paper Note] DecodingTrust-Agent Platform (DTap): A Controllable and Interactive Red-Teaming Platform for AI Agents, Zhaorun Chen+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#Controllable #NLP #Dataset #LanguageModel #AIAgents #Evaluation #Initial Impression Notes #Environment #Author Thread-Post #RedTeaming Issue Date: 2026-05-12 GPT Summary- AIエージェントは複雑なワークフローを自動化する一方で、重要なセキュリティリスクを引き起こす。エージェントが操作されることで、APIキー漏えいや未承認の取引などが発生する可能性があり、そのセキュリティ評価は動的な環境下で困難である。これに対抗するため、DecodingTrust-Agent Platform(DTap)を導入し、14の現実世界ドメインを再現したインタラクティブなレッドチーミングプラットフォームを提供。また、初の自律的レッドチーミングエージェントDTap-Redを提案し、さまざまな攻撃戦略を自律的に探索する。これにより、DTap-Benchという大規模なレッドチーミングデータセットをキュレーションし、安全な次世代エージェント開発のための重要な洞察を提供する。 Comment
元ポスト:
Opus-4.6が本ベンチマーク上は最もセキュリティリスクに対して安全で、良性なタスクに対する性能を発揮するモデルに見える。
論文は279ページもある🤯
[Paper Note] Improving LLM Agents with Reinforcement Learning on Cryptographic CTF Challenges, Lajos Muzsai+, arXiv'25, 2025.06
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #AIAgents #Reasoning #PostTraining #RLVR Issue Date: 2026-02-17 GPT Summary- セキュリティ分野におけるLLMエージェントの潜在能力を引き出すために、手続き的に生成された暗号用CTFデータセット『Random-Crypto』を提案。暗号推論を強化学習の理想的なテストベッドとして活用し、Pythonツールを用いてLlama-3.1-8BをGRPOでファインチューニング。得られたエージェントはPass@8で顕著な改善を見せ、『picoCTF』や『AICrypto MCQ』の外部ベンチマークにも一般化。アブレーション研究により、ツール活用の強化と手続き的推論の向上が寄与していることが示され、複雑なサイバーセキュリティタスクに対応可能な知的LLMエージェント構築の基盤を確立。 Comment
元ポスト:
Our evaluation of Claude Mythos Preview’s cyber capabilities, AISI, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #Blog #Author Thread-Post Issue Date: 2026-04-15 Comment
元ポスト:
Trusted access for the next era of cyber defense, OpenAI, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Proprietary #One-Line Notes #Author Thread-Post Issue Date: 2026-04-15 Comment
GPT-5.4をサイバーセキュリティユースケースに特化してチューニングしたGPT-5.4-Cyber
元ポスト:
The OpenHands Vulnerability Fixer: Automated Security Remediation with AI Agents, Graham Neubig, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #SoftwareEngineering #read-later Issue Date: 2026-04-11 Comment
元ポスト:
Codex Security: now in research preview, OpenAI, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog Issue Date: 2026-03-07 Comment
元ポスト:
Introducing Aardvark: OpenAI’s agentic security researcher, OpenAI, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #One-Line Notes Issue Date: 2025-10-31 Comment
元ポスト:
> In benchmark testing on “golden” repositories, Aardvark identified 92% of known and synthetically-introduced vulnerabilities, demonstrating high recall and real-world effectiveness.
合成された脆弱性については92%程度検出できたとのこと。Claudeとかだとこの辺はどの程度の性能なのだろう。
