Security


Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #AIAgents #Reasoning #PostTraining #RLVR Issue Date: 2026-02-17 GPT Summary- セキュリティ分野におけるLLMエージェントの潜在能力を引き出すために、手続き的に生成された暗号用CTFデータセット『Random-Crypto』を提案。暗号推論を強化学習の理想的なテストベッドとして活用し、Pythonツールを用いてLlama-3.1-8BをGRPOでファインチューニング。得られたエージェントはPass@8で顕著な改善を見せ、『picoCTF』や『AICrypto MCQ』の外部ベンチマークにも一般化。アブレーション研究により、ツール活用の強化と手続き的推論の向上が寄与していることが示され、複雑なサイバーセキュリティタスクに対応可能な知的LLMエージェント構築の基盤を確立。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #One-Line Notes Issue Date: 2025-10-31 Comment

元ポスト:

Loading…

> In benchmark testing on “golden” repositories, Aardvark identified 92% of known and synthetically-introduced vulnerabilities, demonstrating high recall and real-world effectiveness.

合成された脆弱性については92%程度検出できたとのこと。Claudeとかだとこの辺はどの程度の性能なのだろう。