AgentHarness


Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #AIAgents Issue Date: 2026-05-27 GPT Summary- 大規模言語モデル(LLMs)は、コード理解と生成において優れた能力を示しており、エージェント性を持つシステムでは、コードがエージェントの推論や行動に重要な役割を果たすようになっている。この研究では、「エージェント・ハーネス」という観点から、コードをエージェント基盤の中心と位置づけ、三つの層(ハーネス・インターフェース、ハーネス機構、マルチエージェント設定へのスケーリング)を整理して調査する。具体的には、コードがエージェントを接続し、計画やフィードバック駆動の制御を行う仕組み、そしてマルチエージェント環境での協調を支援する役割を探る。また、評価方法やハーネスの改善、安全性などの未解決課題も概説し、コードをエージェント的AIの中心に据えることで、実行可能で検証可能なAIエージェント系への統一的なロードマップを示す。 Comment

ポイント解説:

Loading…




Paper/Blog Link My Issue
#NLP #AIAgents #SoftwareEngineering #read-later #ContextEngineering #memory Issue Date: 2026-04-20 GPT Summary- Claude Codeは、シェルコマンド実行やファイル編集をユーザーに代わって行うエージェント型コーディングツールであり、そのアーキテクチャをTypeScriptソースコードから分析する。本研究では、アーキテクチャを形成する五つの人間的価値観と十三の設計原理を特定し、実装に反映させる。システムは単純なwhileループを中心に構成されるが、その周囲には多様な機能が存在し、OpenClawと比較することで異なるアーキテクチャ的応答を示す。最後に、将来のエージェントシステムにおける未解決の設計指針を六つ特定した。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #AIAgents #Coding #SoftwareEngineering #read-later #Selected Papers/Blogs Issue Date: 2026-03-31 GPT Summary- 大規模言語モデル(LLM)の性能は、ハーネスと呼ばれる情報の保存・取得・提示を決定するコードに依存しているが、従来のハーネス設計は手作業が主で、最適化手法はフィードバックを圧縮してしまう。そこで、Meta-Harnessを提案。これはLLMアプリケーションのハーネスコードを探索する外部ループシステムで、エージェント的提案者を通じて過去の実行トレースを活用。Meta-Harnessは、オンラインテキスト分類で7.7ポイントの向上を示し、リトリーバルを用いた数学推論では200問の正確度を4.7ポイント改善。また、エージェント的コーディングでは手作業設計を超える成果を上げる。これにより、より豊かな過去の経験が自動化されたハーネス設計を実現可能であることが示された。 Comment

元ポスト:

Loading…

pj page: https://yoonholee.com/meta-harness/

Darwin Godel Machineと非常にコンセプトが似ているという指摘がある
- [Paper Note] Darwin Godel Machine: Open-Ended Evolution of Self-Improving Agents, Jenny Zhang+, ICLR'26, 2025.05

所見:

Loading…

解説:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #read-later Issue Date: 2026-03-30 GPT Summary- エージェントの性能はハーネス工学に依存するが、ハーネス設計が固有のコードに埋もれているため比較や研究が困難である。そこで、我々は高レベルな制御ロジックを外部化することを提案し、自然言語エージェントハーネス(NLAHs)を導入。NLAHsはハーネスの挙動を自然言語で表現し、インテリジェント・ハーネス・ランタイム(IHR)がこれを実行する共通ランタイムを提供。コーディングや計算利用に関する様々なベンチマークで評価を行い、ハーネスの運用可能性や移行を統制しています。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #read-later #Initial Impression Notes Issue Date: 2026-03-08 GPT Summary- 言語モデルは、エージェントとして利用する際に最適でない行動をとることがあります。特に、Gemini-2.5-FlashはKaggle GameArenaのチェス競技で78%の敗北が違法手に起因しています。そこで、本研究では、ゲーム環境のフィードバックを用いて自動的に“ハーネス”を合成する手法を提案します。この手法は、145のTextArenaゲームにおいて全ての違法手を防ぎ、小型モデルのGemini-2.5-Flashがより大きなモデルを上回る性能を示します。また、Gemini-2.5-Flashは方針をコードとして生成し、意思決定時にLLMを必要としなくなります。得られたコードは、16の1人用ゲームでより高い平均報酬を得ており、カスタムのコード・ハーネスを用いることで、より大きなモデルを上回る性能を示します。 Comment

元ポスト:

Loading…

あのMurphy本の著者であるMurphy氏が著者にいる👀




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #Selected Papers/Blogs #KeyPoint Notes #AgentSkills #Reading Reflections Issue Date: 2026-02-17 GPT Summary- LLMエージェントを強化する手続き知識のパッケージであるエージェントスキルの効果を測定するため、SkillsBenchを提案。これにより、86タスクを利用したキュレーション済みスキルと決定論的検証器を組み合わせたベンチマークを作成。各タスクはスキルなし、キュレーション済みスキル、自己生成スキルの3条件で評価。キュレーション済みスキルは合格率を平均16.2ポイント向上させるが、分野による効果の差が顕著。自己生成スキルは有意な利益をもたらさず、信頼性のある手続き的知識の自作が困難であることを示した。Focused Skillsは、包括的なドキュメンテーションを上回る効果を持ち、小型モデルがスキルを有することで大型モデルに匹敵する場合がある。 Comment

元ポスト:

Loading…

Agent Skillsに関するベンチマーク。11種類の多様なドメインのタスクによって構成される。コーディングやソフトウェアエンジニアリングに留めらないのが特徴的に見える。

image

評価時は
- スキルがない場合
- スキルがある場合
- 自己生成したスキルを使う場合

の3種類で評価する。

ハーネスはClaude Code, Codex CLI, Genini CLIの3種類で評価し、モデルはGPT, Claude, Gemini系列のモデルを利用。takeawayは以下:

- skillsはタスクの性能を改善するが、モデルとハーネスの組み合わせでgainが大きく異なる
- Gemini CLIとGemini Flashが最高性能を達成
- スキルを自己生成しても性能向上に寄与しない(むしろネガティブな影響も見受けられる)
- 3種類のハーネスのうち
- Claude Codeが最も多くスキルを活用し、Claudeモデルは一貫してgainを得る
- Gemini CLIは最も高いraw performanceを達成
- 性能はcompetitiveだが、Codex CLIは必要なスキルの内容を取得しても、スキルを利用せず独立して処理してしまう頻度が高い
- skillによって得られるgainはドメインによって大きく異なる。事前学習時に馴染み薄いドメインほど、skillの導入による恩恵がでかい。

image

- skillの導入によって、タスクによっては性能が悪化するものもある。これはモデルがすでにうまく処理をする能力を持っているのに、スキルが提供されることでそれらがconflictすることに起因する可能性がある。
- タスクごとに、2--3個のスキルを提供するのが性能がよく、4+になるとgainが低下する
- スキルの定義はproceduralな知識をコンパクト(compact)あるいは詳細に記述したもの(detailed)が良く(i.e., 特定のことについて集中的に記述するもの)、徹底的に記述されたドキュメント(comprehensive)は性能が悪化する。
- SLM+skillによって、スキル利用なしのより大きなモデルを性能で上回ることができる

Agent skillsの効果について定量的に分析した初めての研究な気がしており、重要な研究だと思われる。AI AgentというとClaudeが優秀な印象が強いが(コーディングやソフトウェアエンジニアリングでの性能に基づく印象)、本ベンチマークでは多様なドメインで評価をしており、Gemini CLI+Gemini Flashが最も平均的な性能が高いのが興味深い。




Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Coding #SelfImprovement #ICLR #SoftwareEngineering #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-06-05 GPT Summary- ダーヴィン・ゴーデルマシン(DGM)は、自己改善するAIシステムであり、コードを反復的に修正し、コーディングベンチマークで変更を検証します。進化とオープンエンドな研究に基づき、生成されたエージェントのアーカイブを維持し、新しいバージョンを作成することで多様なエージェントを育成します。DGMはコーディング能力を自動的に向上させ、SWE-benchでのパフォーマンスを20.0%から50.0%、Polyglotでのパフォーマンスを14.2%から30.7%に改善しました。安全対策を講じた実験により、自己改善を行わないベースラインを大幅に上回る成果を示しました。 Comment

元ポスト: https://www.linkedin.com/posts/omarsar_new-paper-open-ended-evolution-of-self-improving-activity-7334610178832556033-8dA-?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

- [Paper Note] Self-Rewarding Language Models, Weizhe Yuan+, arXiv'24, 2024.01

あたりの研究とはどう違うのだろうか、という点が気になる。

openreview: https://openreview.net/forum?id=pUpzQZTvGY

> * [[Paper Note] Self-Rewarding Language Models, Weizhe Yuan+, N/A, ICML'24 [Paper Note] Self-Rewarding Language Models, Weizhe Yuan+, arXiv'24, 2024.01 ](https://github.com/AkihikoWatanabe/paper_notes/issues/1212)
>
> あたりの研究とはどう違うのだろうか、という点が気になる。

この点については、Self-Rewarding LLMではモデルの重みを(自身が生成した出力からPreference pairを構築し)DPOで更新していくのに対し(=Agent Harnessではなくモデル自身を賢くする)、

DGMでは基盤モデルはfrozenな上で、AI Agentのコードベースそのものをself-editingすることによって進化する点が異なる(=モデルではなくAgent Harnessを賢くする)。
image

baseとなるエージェントのコードベースは木構造に基づいて管理され、recursiveに探索されていき、ベンチマークのスコアを改善していく、という感じのようである。木構造によって過去のsolutionが保持され、単一の方向性のみが探索されることを抑制し(i.e., オープンエンドな探索が促進され)進化が局所解に陥ることを防ぐ。
image

3節冒頭に記述がある通り、Gödel Machineというのは2007年に提案された、AI自身が自らを証明可能な形で改善する方法を探索する理論的概念であるようだが、DGMではGödel Machineでの「変更によってシステムが改善されることを理論的に証明しなければならない」という点を緩和し、「変更が性能を向上させるという実験結果を用いる」ことで緩和する。




Paper/Blog Link My Issue
#Article #Multi #NLP #LanguageModel #AIAgents #Coding #SoftwareEngineering #GPUKernel #Author Thread-Post Issue Date: 2026-04-15 Comment

元ポスト:

Loading…

自律的に長期間稼働し235件の問題を1回の実行で解くマルチエージェントハーネスに関するレポートで、3週間程度でBlackwell GPUカーネルをゼロから構築・最適化し38%高速化とのこと。




Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #AIAgents #Coding #SoftwareEngineering #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-04-05 Comment

LLM, Reasoning Model, Agent, Agent Harness, coding harnessなどの定義とその役割やスコープ、そしてそれらを構成するためのminimalなコンポーネントについて説明されており、基礎的な理解に役立ちそう。

元ポスト:

Loading…




Paper/Blog Link My Issue
#Article #NLP #AIAgents #Repository #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-04-04 Comment

github: https://github.com/kevinrgu/autoagent

Automatic Prompt EngineeringやAutoAgentと同様に、何らかの実施したいタスクのtest suiteがあり、performance metricを取得する前提で、Agnet Harnessを自動的にチューニングするという話のようである。

test dataが十分にある場合は非常に強力だと思われるが、test dataが少量、あるいはない場合では適用は難しい可能性がある。そのような場合はRubric-as-a-Reward+Strong LLMのような方法がtest suiteの代替になるかもしれないが、どこまでうまくいくだろうか。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #Selected Papers/Blogs #LongHorizon #Reading Reflections Issue Date: 2026-03-08 Comment

本ブログで定義されているAgent Harnessは、これまでのAI Agent研究で利用されてきた Scaffold(=実行基盤)とEvaluation Harness(=評価基盤)のように、実行と評価を区別してきたLiteratureとは異なる、より包括的な概念に見える(言葉としてHarnessが用いられているので、最初に読んだときは困惑した)。

先行研究:
- [Paper Note] Holistic Evaluation of Language Models, Percy Liang+, arXiv'22, 2022.11
- [Paper Note] Lessons from the Trenches on Reproducible Evaluation of Language Models, Stella Biderman+, arXiv'24, 2024.05
- [Paper Note] Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation, Sayash Kapoor+, arXiv'25, 2025.10

これまでのLiteratureでは、エージェントがタスクを遂行するためのエコシステム全般(言い換えるとLLMをエージェントの脳とした時の、エージェントの実装そのもの)のことをScaffold(ツール利用やコンテキスト管理、サブエージェントの実行、エラー時の挙動、プロンプト構成など)と呼び、

評価をする際の評価基盤となるインフラ(エージェントを動作させる仮想マシン等の実行環境やそのオーケストレーション、Scaffoldの構成、評価ベンチマーク、コストやtrajectoryのロギング等の評価全体に関わるエコシステム)のことをEvaluation Harnessと呼んできたと認識している。

(私の認識違いの可能性もあるが)このLiteratureを理解しておかないと、今後Harnessという言葉がバズワードと化して、思わぬ誤解を生むかもしれないので注意した方が良いかなと感じた。

つまり世の中には
- Scaffold
- Evaluation Harness
- Agent Harness

の3種類の定義があり、特に後者二つは省略してHarnessと呼ばれそう、という気がするが、後者二つは呼称が似ているが異なる概念を指しているので注意した方が良いかも(あくまで個人の感想)。

たとえば下記OpenAIのブログでも「Harness Engineering」という言葉がタイトルで用いられており、Harnessの定義がなされずに記述されているように見える。実際ブログ後半にはEvaluation HarnessというこれまでのLiteratureと同じ意味合いでの用語も登場している。今後どのような用語が何を指すのようになるかは分からないが、ハーネスという言葉の定義が人によって異なる可能性があるという点は認識しておいた方が良さそうである。
- Harness engineering: leveraging Codex in an agent-first world, Ryan Lopopolo, 2026.02

`Agent Harness` という用語の起源が気になっており、アンテナを張っているが、下記AnthropicブログでAgent Harnessという用語が登場している。
- Effective harnesses for long-running agents, Anthropic, 2025.11

下記文献でも
- [Paper Note] Building Effective AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned, Nghi D. Q. Bui, arXiv'26, 2026.03

Effective harnesses for long-running agents, Anthropic, 2025.11 が引用され `harness` という用語が用いられている。このブログが起源なのだろうか(勉強不足)。

- [Paper Note] SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks, Xiangyi Li+, arXiv'26, 2026.02

でも Agent Harness という用語が使われている。