Security


Paper/Blog Link My Issue
#Controllable #NLP #Dataset #LanguageModel #AIAgents #Evaluation #Initial Impression Notes #Environment #Author Thread-Post #RedTeaming Issue Date: 2026-05-12 GPT Summary- AIエージェントは複雑なワークフローを自動化する一方で、重要なセキュリティリスクを引き起こす。エージェントが操作されることで、APIキー漏えいや未承認の取引などが発生する可能性があり、そのセキュリティ評価は動的な環境下で困難である。これに対抗するため、DecodingTrust-Agent Platform(DTap)を導入し、14の現実世界ドメインを再現したインタラクティブなレッドチーミングプラットフォームを提供。また、初の自律的レッドチーミングエージェントDTap-Redを提案し、さまざまな攻撃戦略を自律的に探索する。これにより、DTap-Benchという大規模なレッドチーミングデータセットをキュレーションし、安全な次世代エージェント開発のための重要な洞察を提供する。 Comment

元ポスト:

Loading…

Opus-4.6が本ベンチマーク上は最もセキュリティリスクに対して安全で、良性なタスクに対する性能を発揮するモデルに見える。
image

論文は279ページもある🤯




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #AIAgents #Reasoning #PostTraining #RLVR Issue Date: 2026-02-17 GPT Summary- セキュリティ分野におけるLLMエージェントの潜在能力を引き出すために、手続き的に生成された暗号用CTFデータセット『Random-Crypto』を提案。暗号推論を強化学習の理想的なテストベッドとして活用し、Pythonツールを用いてLlama-3.1-8BをGRPOでファインチューニング。得られたエージェントはPass@8で顕著な改善を見せ、『picoCTF』や『AICrypto MCQ』の外部ベンチマークにも一般化。アブレーション研究により、ツール活用の強化と手続き的推論の向上が寄与していることが示され、複雑なサイバーセキュリティタスクに対応可能な知的LLMエージェント構築の基盤を確立。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #One-Line Notes Issue Date: 2025-10-31 Comment

元ポスト:

Loading…

> In benchmark testing on “golden” repositories, Aardvark identified 92% of known and synthetically-introduced vulnerabilities, demonstrating high recall and real-world effectiveness.

合成された脆弱性については92%程度検出できたとのこと。Claudeとかだとこの辺はどの程度の性能なのだろう。