AgentHarness
[Paper Note] Meta-Harness: End-to-End Optimization of Model Harnesses, Yoonho Lee+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#NLP #AIAgents #Coding #SoftwareEngineering #read-later #Selected Papers/Blogs Issue Date: 2026-03-31 GPT Summary- 大規模言語モデル(LLM)の性能は、ハーネスと呼ばれる情報の保存・取得・提示を決定するコードに依存しているが、従来のハーネス設計は手作業が主で、最適化手法はフィードバックを圧縮してしまう。そこで、Meta-Harnessを提案。これはLLMアプリケーションのハーネスコードを探索する外部ループシステムで、エージェント的提案者を通じて過去の実行トレースを活用。Meta-Harnessは、オンラインテキスト分類で7.7ポイントの向上を示し、リトリーバルを用いた数学推論では200問の正確度を4.7ポイント改善。また、エージェント的コーディングでは手作業設計を超える成果を上げる。これにより、より豊かな過去の経験が自動化されたハーネス設計を実現可能であることが示された。 Comment
元ポスト:
pj page: https://yoonholee.com/meta-harness/
Darwin Godel Machineと非常にコンセプトが似ているという指摘がある
- [Paper Note] Darwin Godel Machine: Open-Ended Evolution of Self-Improving Agents, Jenny Zhang+, arXiv'25, 2025.05
所見:
解説:
[Paper Note] Natural-Language Agent Harnesses, Linyue Pan+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#NLP #LanguageModel #read-later Issue Date: 2026-03-30 GPT Summary- エージェントの性能はハーネス工学に依存するが、ハーネス設計が固有のコードに埋もれているため比較や研究が困難である。そこで、我々は高レベルな制御ロジックを外部化することを提案し、自然言語エージェントハーネス(NLAHs)を導入。NLAHsはハーネスの挙動を自然言語で表現し、インテリジェント・ハーネス・ランタイム(IHR)がこれを実行する共通ランタイムを提供。コーディングや計算利用に関する様々なベンチマークで評価を行い、ハーネスの運用可能性や移行を統制しています。 Comment
元ポスト:
[Paper Note] AutoHarness: improving LLM agents by automatically synthesizing a code harness, Xinghua Lou+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #read-later #Initial Impression Notes Issue Date: 2026-03-08 GPT Summary- 言語モデルは、エージェントとして利用する際に最適でない行動をとることがあります。特に、Gemini-2.5-FlashはKaggle GameArenaのチェス競技で78%の敗北が違法手に起因しています。そこで、本研究では、ゲーム環境のフィードバックを用いて自動的に“ハーネス”を合成する手法を提案します。この手法は、145のTextArenaゲームにおいて全ての違法手を防ぎ、小型モデルのGemini-2.5-Flashがより大きなモデルを上回る性能を示します。また、Gemini-2.5-Flashは方針をコードとして生成し、意思決定時にLLMを必要としなくなります。得られたコードは、16の1人用ゲームでより高い平均報酬を得ており、カスタムのコード・ハーネスを用いることで、より大きなモデルを上回る性能を示します。 Comment
元ポスト:
あのMurphy本の著者であるMurphy氏が著者にいる👀
[Paper Note] SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks, Xiangyi Li+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #Selected Papers/Blogs #KeyPoint Notes #AgentSkills #Reading Reflections Issue Date: 2026-02-17 GPT Summary- LLMエージェントを強化する手続き知識のパッケージであるエージェントスキルの効果を測定するため、SkillsBenchを提案。これにより、86タスクを利用したキュレーション済みスキルと決定論的検証器を組み合わせたベンチマークを作成。各タスクはスキルなし、キュレーション済みスキル、自己生成スキルの3条件で評価。キュレーション済みスキルは合格率を平均16.2ポイント向上させるが、分野による効果の差が顕著。自己生成スキルは有意な利益をもたらさず、信頼性のある手続き的知識の自作が困難であることを示した。Focused Skillsは、包括的なドキュメンテーションを上回る効果を持ち、小型モデルがスキルを有することで大型モデルに匹敵する場合がある。 Comment
元ポスト:
Agent Skillsに関するベンチマーク。11種類の多様なドメインのタスクによって構成される。コーディングやソフトウェアエンジニアリングに留めらないのが特徴的に見える。
評価時は
- スキルがない場合
- スキルがある場合
- 自己生成したスキルを使う場合
の3種類で評価する。
ハーネスはClaude Code, Codex CLI, Genini CLIの3種類で評価し、モデルはGPT, Claude, Gemini系列のモデルを利用。takeawayは以下:
- skillsはタスクの性能を改善するが、モデルとハーネスの組み合わせでgainが大きく異なる
- Gemini CLIとGemini Flashが最高性能を達成
- スキルを自己生成しても性能向上に寄与しない(むしろネガティブな影響も見受けられる)
- 3種類のハーネスのうち
- Claude Codeが最も多くスキルを活用し、Claudeモデルは一貫してgainを得る
- Gemini CLIは最も高いraw performanceを達成
- 性能はcompetitiveだが、Codex CLIは必要なスキルの内容を取得しても、スキルを利用せず独立して処理してしまう頻度が高い
- skillによって得られるgainはドメインによって大きく異なる。事前学習時に馴染み薄いドメインほど、skillの導入による恩恵がでかい。
- skillの導入によって、タスクによっては性能が悪化するものもある。これはモデルがすでにうまく処理をする能力を持っているのに、スキルが提供されることでそれらがconflictすることに起因する可能性がある。
- タスクごとに、2--3個のスキルを提供するのが性能がよく、4+になるとgainが低下する
- スキルの定義はproceduralな知識をコンパクト(compact)あるいは詳細に記述したもの(detailed)が良く(i.e., 特定のことについて集中的に記述するもの)、徹底的に記述されたドキュメント(comprehensive)は性能が悪化する。
- SLM+skillによって、スキル利用なしのより大きなモデルを性能で上回ることができる
Agent skillsの効果について定量的に分析した初めての研究な気がしており、重要な研究だと思われる。AI AgentというとClaudeが優秀な印象が強いが(コーディングやソフトウェアエンジニアリングでの性能に基づく印象)、本ベンチマークでは多様なドメインで評価をしており、Gemini CLI+Gemini Flashが最も平均的な性能が高いのが興味深い。
MMX The official CLI for the MiniMax AI Platform: Built for AI agents. Generate text, images, video, speech, and music — from any agent or terminal., MiniMax-AI, 2026.04
Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #AIAgents #Repository #Omni #Initial Impression Notes Issue Date: 2026-04-11 Comment
元ポスト:
MiniMax AIのAPIを用いて、omni-modalなタスクを実行できるCLIツールのようである。
Components of A Coding Agent: How coding agents use tools, memory, and repo context to make LLMs work better in practice, Sebastian Raschka, 2026.04
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #AIAgents #Coding #SoftwareEngineering #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-04-05 Comment
LLM, Reasoning Model, Agent, Agent Harness, coding harnessなどの定義とその役割やスコープ、そしてそれらを構成するためのminimalなコンポーネントについて説明されており、基礎的な理解に役立ちそう。
元ポスト:
Claude Code's Real Secret Sauce (Probably) Isn't the Model, Sebastian Raschka, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Post #Architecture #read-later Issue Date: 2026-04-04 Comment
関連:
- Claude Code's source code leaked through a `.map` file - How bad is it, really?, Chubby, 2026.04
AutoAgent: first open source library for self-optimizing agents, Kevin Gu, 2026.04
Paper/Blog Link My Issue
#Article #NLP #AIAgents #Repository #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-04-04 Comment
github: https://github.com/kevinrgu/autoagent
Automatic Prompt EngineeringやAutoAgentと同様に、何らかの実施したいタスクのtest suiteがあり、performance metricを取得する前提で、Agnet Harnessを自動的にチューニングするという話のようである。
test dataが十分にある場合は非常に強力だと思われるが、test dataが少量、あるいはない場合では適用は難しい可能性がある。そのような場合はRubric-as-a-Reward+Strong LLMのような方法がtest suiteの代替になるかもしれないが、どこまでうまくいくだろうか。
Claude Code's source code leaked through a `.map` file - How bad is it, really?, Chubby, 2026.04
Paper/Blog Link My Issue
#Article #Post #SoftwareEngineering Issue Date: 2026-04-01 Comment
元ポスト:
あらら、、、
The importance of Agent Harness in 2026, PHILSCHMID, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #Selected Papers/Blogs #LongHorizon #Reading Reflections Issue Date: 2026-03-08 Comment
本ブログで定義されているAgent Harnessは、これまでのAI Agent研究で利用されてきた Scaffold(=実行基盤)とEvaluation Harness(=評価基盤)のように、実行と評価を区別してきたLiteratureとは異なる、より包括的な概念に見える(言葉としてHarnessが用いられているので、最初に読んだときは困惑した)。
先行研究:
- [Paper Note] Holistic Evaluation of Language Models, Percy Liang+, arXiv'22, 2022.11
- [Paper Note] Lessons from the Trenches on Reproducible Evaluation of Language Models, Stella Biderman+, arXiv'24, 2024.05
- [Paper Note] Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent
Evaluation, Sayash Kapoor+, arXiv'25, 2025.10
これまでのLiteratureでは、エージェントがタスクを遂行するためのエコシステム全般(言い換えるとLLMをエージェントの脳とした時の、エージェントの実装そのもの)のことをScaffold(ツール利用やコンテキスト管理、サブエージェントの実行、エラー時の挙動、プロンプト構成など)と呼び、
評価をする際の評価基盤となるインフラ(エージェントを動作させる仮想マシン等の実行環境やそのオーケストレーション、Scaffoldの構成、評価ベンチマーク、コストやtrajectoryのロギング等の評価全体に関わるエコシステム)のことをEvaluation Harnessと呼んできたと認識している。
(私の認識違いの可能性もあるが)このLiteratureを理解しておかないと、今後Harnessという言葉がバズワードと化して、思わぬ誤解を生むかもしれないので注意した方が良いかなと感じた。
つまり世の中には
- Scaffold
- Evaluation Harness
- Agent Harness
の3種類の定義があり、特に後者二つは省略してHarnessと呼ばれそう、という気がするが、後者二つは呼称が似ているが異なる概念を指しているので注意した方が良いかも(あくまで個人の感想)。
たとえば下記OpenAIのブログでも「Harness Engineering」という言葉がタイトルで用いられており、Harnessの定義がなされずに記述されているように見える。実際ブログ後半にはEvaluation HarnessというこれまでのLiteratureと同じ意味合いでの用語も登場している。今後どのような用語が何を指すのようになるかは分からないが、ハーネスという言葉の定義が人によって異なる可能性があるという点は認識しておいた方が良さそうである。
- Harness engineering: leveraging Codex in an agent-first world, Ryan Lopopolo, 2026.02
`Agent Harness` という用語の起源が気になっており、アンテナを張っているが、下記AnthropicブログでAgent Harnessという用語が登場している。
- Effective harnesses for long-running agents, Anthropic, 2025.11
下記文献でも
- [Paper Note] Building Effective AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned, Nghi D. Q. Bui, arXiv'26, 2026.03
Effective harnesses for long-running agents, Anthropic, 2025.11
が引用され `harness` という用語が用いられている。このブログが起源なのだろうか(勉強不足)。
- [Paper Note] SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks, Xiangyi Li+, arXiv'26, 2026.02
でも Agent Harness という用語が使われている。
