CI


Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Evaluation #Coding #SoftwareEngineering #One-Line Notes Issue Date: 2026-03-07 GPT Summary- 静的なバグ修正だけでなく、複雑な要求変更に対応するため、継続的インテグレーションに基づく新しいベンチマークSWE-CIを提案。これにより、コード生成の評価が短期的な正確性から長期的な保守性にシフトし、100のタスクを通じてエージェントの分析およびコーディング能力の維持を評価する。SWE-CIは実世界の進化履歴に基づいており、コード品質の長期的な維持についての洞察を提供。 Comment

元ポスト:

Loading…

SWE Agentの現在の主要な評価パラダイムである個々の機能のバグフィクスなどの短期的な評価から、より長期的なメンテナンスなどのタスクで評価をする