Securityに関する論文・技術記事メモの一覧

Security

[Paper Note] ExploitBench: A Capability Ladder Benchmark for LLM Cybersecurity Agents, Seunghyun Lee+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Evaluation #Environment Issue Date: 2026-06-27 GPT Summary- 悪用は段階的な進展を伴う能力であり、従来のLLMセキュリティベンチマークが二値的結果に依存することに問題がある。本研究では、16の測定可能なフラグによる能力評価型ベンチマークであるExploitBenchを提案し、様々な悪用技術を評価する。V8の41件のバグに適用した結果、公開されているモデルとプライベートモデルとの間に能力の顕著な差を確認。特に、プライベートモデルでは任意コード実行が観測され、堅牢化されたターゲットに対する悪用能力の構築が新たな重要性を持つことを示唆している。 Comment

github: https://github.com/exploitbench/exploitbench

[Paper Note] DecodingTrust-Agent Platform （DTap）: A Controllable and Interactive Red-Teaming Platform for AI Agents, Zhaorun Chen+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#Controllable #NLP #Dataset #LanguageModel #AIAgents #Evaluation #Initial Impression Notes #Environment #Author Thread-Post #RedTeaming Issue Date: 2026-05-12 GPT Summary- AIエージェントは複雑なワークフローを自動化する一方で、重要なセキュリティリスクを引き起こす。エージェントが操作されることで、APIキー漏えいや未承認の取引などが発生する可能性があり、そのセキュリティ評価は動的な環境下で困難である。これに対抗するため、DecodingTrust-Agent Platform（DTap）を導入し、14の現実世界ドメインを再現したインタラクティブなレッドチーミングプラットフォームを提供。また、初の自律的レッドチーミングエージェントDTap-Redを提案し、さまざまな攻撃戦略を自律的に探索する。これにより、DTap-Benchという大規模なレッドチーミングデータセットをキュレーションし、安全な次世代エージェント開発のための重要な洞察を提供する。 Comment

元ポスト:

Loading…

Opus-4.6が本ベンチマーク上は最もセキュリティリスクに対して安全で、良性なタスクに対する性能を発揮するモデルに見える。

論文は279ページもある🤯

[Paper Note] CyberGym: Evaluating AI Agents' Real-World Cybersecurity Capabilities at Scale, Zhun Wang+, arXiv'25, 2025.06

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Evaluation #Environment Issue Date: 2026-06-27 GPT Summary- AIエージェントのサイバーセキュリティ能力を評価するために、実世界の脆弱性を扱った大規模ベンチマークCyberGymを導入。1,507件の脆弱性を持つ188のプロジェクトにわたるデータを使用し、エージェントが脆弱性を再現するPoCテストを生成することを主な課題とする。評価の結果、成功率は約20%にとどまり、CyberGymの難易度が示された。また、34件のゼロデイ脆弱性と18件の不完全なパッチが発見され、AIの進歩を測るための有効なプラットフォームであることが確認された。 Comment

pj page: https://www.cybergym.io/#benchmarks

[Paper Note] Improving LLM Agents with Reinforcement Learning on Cryptographic CTF Challenges, Lajos Muzsai+, arXiv'25, 2025.06

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #AIAgents #Reasoning #PostTraining #RLVR Issue Date: 2026-02-17 GPT Summary- セキュリティ分野におけるLLMエージェントの潜在能力を引き出すために、手続き的に生成された暗号用CTFデータセット『Random-Crypto』を提案。暗号推論を強化学習の理想的なテストベッドとして活用し、Pythonツールを用いてLlama-3.1-8BをGRPOでファインチューニング。得られたエージェントはPass@8で顕著な改善を見せ、『picoCTF』や『AICrypto MCQ』の外部ベンチマークにも一般化。アブレーション研究により、ツール活用の強化と手続き的推論の向上が寄与していることが示され、複雑なサイバーセキュリティタスクに対応可能な知的LLMエージェント構築の基盤を確立。 Comment

元ポスト:

Loading…

OpenAI and Hugging Face partner to address security incident during model evaluation, OpenAI, 2026.07

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #AIAgents #Evaluation #Blog #Safety #Attack #Selected Papers/Blogs Issue Date: 2026-07-22 Comment

Hugging Face側のブログ:
Security incident disclosure — July 2026
https://huggingface.co/blog/security-incident-july-2026

元ポスト:

Loading…

GPT‑Red: Unlocking Self-Improvement for Robustness, OpenAI, 2026.07

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Initial Impression Notes #RedTeaming Issue Date: 2026-07-19 Comment

元ポスト:

Loading…

redteamingに特化したGPT

SingGuard-NSFA, inclusionAI, 2026.07

Paper/Blog Link My Issue
#Article #NLP #AIAgents #OpenWeight #Safety #One-Line Notes #Safeguard Issue Date: 2026-07-19 Comment

元ポスト:

Loading…

AI Agent向けのガードレールで、モデルの安全性からランタイムの安全性を指向して開発されている。エージェントのアクション実行前に、attackを検知し防御するなどの用途に使われる。

CyScenarioBench: Evaluating LLM Cyber Capabilities Through Scenario-Based Benchmarking, IRREGULAR, 2026.06

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Evaluation #LongHorizon Issue Date: 2026-06-27

Our evaluation of Claude Mythos Preview’s cyber capabilities, AISI, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #Blog #Author Thread-Post Issue Date: 2026-04-15 Comment

元ポスト:

Loading…

Trusted access for the next era of cyber defense, OpenAI, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Proprietary #One-Line Notes #Author Thread-Post Issue Date: 2026-04-15 Comment

GPT-5.4をサイバーセキュリティユースケースに特化してチューニングしたGPT-5.4-Cyber

元ポスト:

Loading…

The OpenHands Vulnerability Fixer: Automated Security Remediation with AI Agents, Graham Neubig, 2026.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #SoftwareEngineering #read-later Issue Date: 2026-04-11 Comment

元ポスト:

Loading…

Codex Security: now in research preview, OpenAI, 2026.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog Issue Date: 2026-03-07 Comment

元ポスト:

Loading…

Introducing Aardvark: OpenAI’s agentic security researcher, OpenAI, 2025.10

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #One-Line Notes Issue Date: 2025-10-31 Comment

元ポスト:

Loading…

> In benchmark testing on “golden” repositories, Aardvark identified 92% of known and synthetically-introduced vulnerabilities, demonstrating high recall and real-world effectiveness.

合成された脆弱性については92%程度検出できたとのこと。Claudeとかだとこの辺はどの程度の性能なのだろう。