AgentSkills


Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #ICLR #Selected Papers/Blogs #Generalization #One-Line Notes #Author Thread-Post Issue Date: 2026-04-23 GPT Summary- 大規模言語モデル(LLMs)を利用して、エージェントが一般化可能なスキルを学習するための新しいフレームワーク「PolySkill」を提案。スキルの抽象的な目標と具体的な実行を切り離すことで、スキルの再利用や一般化を促進。実験では、ウェブサイトでのスキル再利用を1.7倍向上させ、成功率を最大13.9%向上させた。PolySkillにより、エージェントが自己目標を識別し、より良いカリキュラムを学習する能力が高まり、継続的に学習できる自律エージェントの構築に寄与することが示された。 Comment

元ポスト:

Loading…

エージェントスキルにポリモーフィズムの考え方を導入し、WhatとHowを分離することで汎化性能を高める。下図が分かりやすい。
image

最初に特定ドメインのwebサイト(e.g., shopping)を訪れた際に、AbstractShoppinpクラスを生成しShopping関連を扱うクラスとする。その上で、特定サイト(e.g., Amazon)のスキルを生成する際は、AbstractShoppingクラスにシグネチャを登録した後、同クラスを継承。AmazonShoppingクラス内に具体的な処理を定義する。直接スキルを生成するのではなく、抽象スキルを生成した上で、特定サイトでのメソッドを実装する。

openreview: https://openreview.net/forum?id=KdEsujyiSV




Paper/Blog Link My Issue
#InformationRetrieval #NLP #LanguageModel #AIAgents #RAG(RetrievalAugmentedGeneration) #FactualKnowledge #KeyPoint Notes #Clustering-based Issue Date: 2026-04-21 GPT Summary- 検索強化生成(RAG)の限界を克服するために、Corpus2Skillを提案。これは文書コーパスを階層的なスキルディレクトリに変換し、LLMエージェントが効率的にナビゲート可能にする。文書をクラスタリングし、各レベルで要約を生成して構築。提供時に、エージェントはコーパス全体を把握し、段階的にトピックを掘り下げ、証拠を効果的に組み合わせる。実験により、WixQAのベンチマークでRAGの他の手法を上回る性能を示した。 Comment

元ポスト:

Loading…

Agent Skillsの機構を利用し、Skillsを検索におけるIndexのような位置づけで活用し、Skillsを用いて階層化された知識をnavigateさせることで、抽象的な情報からより細かい情報までdrill-downさせるような挙動を実現させ、RAGの性能を向上させる。
image

Skillsを定義する際は、
- root level (Skill.md)
- leaf level (Index.md)

によって構成され、root levelではトピックに関する情報+クラスタのメタ情報、leaf levelでは個別のdocのtitle+IDによって構成される。
image

Documentを階層化する際にはクラスタリングを用いる。具体的にはクラスタリングを実施し、クラスタの内容をLLMに要約させ、要約させた情報に基づいてさらにクラスタリングをする、という処理を繰り返すことで階層化を実現していそうに見える。Servingの時はSkill.md, Index.md, Document Storeに対して、2種類のツール `code_execution`, `get_document` を用いて、ツリーを探索し、relevantなdocを取得する。code_executionは具体的には、SKILL.mdとIndex.mdをviewコマンドによって閲覧し、階層構造全体を俯瞰できるようにする。get_documentでは、docのidentifierを用いて、identifierと対応するdocの全文を取得する。
image

BM25, Denseなどのbaselineと比較して高い性能を獲得している。性能に対してコスト比が併記されているが、トークン空間上で思考し探索をするためコストは高いように見える。個人的に気になるのは、金銭的なコストもそうだが、latencyである。embeddingを用いたRAGに対して、相当latencyが遅いのではないか?と思われる。
image




Paper/Blog Link My Issue
#NLP #ReinforcementLearning #AIAgents #In-ContextLearning #CurriculumLearning #KeyPoint Notes #ContinualLearning Issue Date: 2026-04-05 GPT Summary- エージェントのスキルをモデルのパラメータに内部化し、ゼロショットの自律的挙動を実現するために「SKILL0」というインコンテキスト強化学習フレームワークを提案。訓練ではスキル文脈を段階的に撤回し、オフラインでグループ化したスキルを用いて効率的なツール呼び出しを実現。実験結果では、SKILL0が標準のRLベースラインに対して顕著な改善を示し、文脈量も効率的に管理されることを確認。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning, Peng Xia+, arXiv'26, 2026.02

流し読みなので誤りがあるかもしれないが、

- [Paper Note] SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning, Peng Xia+, arXiv'26, 2026.02

によって構築されたSKILLBANKによるスキルを、ポリシーの内部パラメータに学習させることができるか?を調査した研究で、内部パラメータに学習することで、検索とskillの読み込みによるcontextをモデルのパラメータに内在化させることでcontextを削減できる。外部スキルに完全に依存していたSkillRLとの対比として、内部パラメータにスキルを内在させるコンセプトからSKILL0と命名されていると思われる。

提案手法の概要としては下記Figure.2であるが、個人的には式(2), (3), (4), (5), (6)をみた方が、直感的に分かりやすいように感じた。最適化手法としてはGRPOだが、圧縮率を考慮した報酬設計と、カリキュラムの段階的な構築が肝であり、

- 圧縮率c_t \in (0, 1] の圧縮率の元、これまでのcontext h_t, retrieveされたスキルSをVision Encoderでエンコードし潜在表現V_tを得て[^1]; 式(2)
- V_tに基づいて次のaction a_tがポリシーによって生成される; 式(3)
- GRPO 式(5) が通常のRLVRに加えて、式(4)で表される圧縮率に基づいた報酬によって定義され実行される。要は、より高い圧縮率でcontext、およびretrieved skillを圧縮してタスクが成功したら報酬がより高くなる

という構造になっている。学習させる際は、カリキュラム学習を実施する(3.3節)。どのようにカリキュラム学習を成立させるかというと、学習をいくつかのstageに分けて、ポリシーに与えるSkillのContextを線形にdecayさせていく。これにより、徐々に与えられるContext量が減っていき、難易度が高くなるようなカリキュラムとなる。

3.3節、式4あたりが本提案手法のIn-Context Reinforcement Learning (ICRL)と命名される気持ちな気がしており、モデルはもともとIn-Context Leainingの元、スキルを実施できるが、それを与えるコンテキストを徐々に減らしてパラメータの内部に学習させていく、これをRLによって実現する(=ICRL)という気持ちなのかなと思われる。

image

[^1]: pixel-basedな潜在表現でレンダリングされたテキストに関する情報を扱えることが先行研究で示されており、画像としてエンコードした方がcontextを節約可能なのでこのような方法が採用されている。

ベースラインとなるSkillRLと比較して、個別のタスクレベルで見ると優劣は分かれるものの、ALFWorld [Paper Note] ALFWorld: Aligning Text and Embodied Environments for Interactive Learning, Mohit Shridhar+, ICLR'21, 2020.10 , 様々なQAベンチマーク(Search-QAと呼称) [Paper Note] Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning, Bowen Jin+, COLM'25, 2025.03 での全体としてのパフォーマンスは向上し、コンテキストが節約されることでコストを大幅に削減できているような結果となっている。
image

3.3節の(a), (b)の部分は読めていないがこちらも時間があるときに読みたい。Skill Budgetの調整に絡んでいそうではある。




Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Initial Impression Notes #Test Time Training (TTT) Issue Date: 2026-03-26 GPT Summary- MetaClawは、LLMエージェントが変化するニーズに対応するための継続的メタ学習フレームワークである。失敗軌跡を解析して即座にスキルを合成し、ダウンタイムをゼロにするスキル駆動の適応や、機会主義的ポリシー最適化を通じて、効果的に能力を更新する。これにより、精度を最大32%向上させ、全体のパイプラインの精度も21.4%から40.6%に増加させることが示された。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] OpenClaw-RL: Train Any Agent Simply by Talking, Yinjie Wang+, arXiv'26, 2026.03

- [Paper Note] OpenClaw-RL: Train Any Agent Simply by Talking, Yinjie Wang+, arXiv'26, 2026.03

と一見すると似たような研究に見えるが、

[Paper Note] OpenClaw-RL: Train Any Agent Simply by Talking, Yinjie Wang+, arXiv'26, 2026.03 の肝は「trajectory中のprocessにおいて活用可能なシグナルがあるから、それをもっと活用しよう」という気持ちで、
本研究は「失敗したtrajectoryに適用するためにSkillを合成し、ユーザが利用しないIdle Timeの間にLoRA + RLでポリシーの重みも更新して賢くしよう」という気持ちであり、目的が異なるように見える。

- [Paper Note] SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks, Xiangyi Li+, arXiv'26, 2026.02

においては、Skillをtaskに関する手続的な知識に基づいてスキルを自己生成しても性能向上せず、むしろ悪化させるような結果が出ており、不用意にSkillを合成すると性能が劣化するという結果が出ている。
本研究は失敗したtrajectoryに対して適応するためのSkill合成である点と、LoRAによってポリシー自体も賢くなるのであれば前提が変わるので話は変わってくるのかな、という印象。




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #Selected Papers/Blogs #KeyPoint Notes #Reading Reflections #AgentHarness Issue Date: 2026-02-17 GPT Summary- LLMエージェントを強化する手続き知識のパッケージであるエージェントスキルの効果を測定するため、SkillsBenchを提案。これにより、86タスクを利用したキュレーション済みスキルと決定論的検証器を組み合わせたベンチマークを作成。各タスクはスキルなし、キュレーション済みスキル、自己生成スキルの3条件で評価。キュレーション済みスキルは合格率を平均16.2ポイント向上させるが、分野による効果の差が顕著。自己生成スキルは有意な利益をもたらさず、信頼性のある手続き的知識の自作が困難であることを示した。Focused Skillsは、包括的なドキュメンテーションを上回る効果を持ち、小型モデルがスキルを有することで大型モデルに匹敵する場合がある。 Comment

元ポスト:

Loading…

Agent Skillsに関するベンチマーク。11種類の多様なドメインのタスクによって構成される。コーディングやソフトウェアエンジニアリングに留めらないのが特徴的に見える。

image

評価時は
- スキルがない場合
- スキルがある場合
- 自己生成したスキルを使う場合

の3種類で評価する。

ハーネスはClaude Code, Codex CLI, Genini CLIの3種類で評価し、モデルはGPT, Claude, Gemini系列のモデルを利用。takeawayは以下:

- skillsはタスクの性能を改善するが、モデルとハーネスの組み合わせでgainが大きく異なる
- Gemini CLIとGemini Flashが最高性能を達成
- スキルを自己生成しても性能向上に寄与しない(むしろネガティブな影響も見受けられる)
- 3種類のハーネスのうち
- Claude Codeが最も多くスキルを活用し、Claudeモデルは一貫してgainを得る
- Gemini CLIは最も高いraw performanceを達成
- 性能はcompetitiveだが、Codex CLIは必要なスキルの内容を取得しても、スキルを利用せず独立して処理してしまう頻度が高い
- skillによって得られるgainはドメインによって大きく異なる。事前学習時に馴染み薄いドメインほど、skillの導入による恩恵がでかい。

image

- skillの導入によって、タスクによっては性能が悪化するものもある。これはモデルがすでにうまく処理をする能力を持っているのに、スキルが提供されることでそれらがconflictすることに起因する可能性がある。
- タスクごとに、2--3個のスキルを提供するのが性能がよく、4+になるとgainが低下する
- スキルの定義はproceduralな知識をコンパクト(compact)あるいは詳細に記述したもの(detailed)が良く(i.e., 特定のことについて集中的に記述するもの)、徹底的に記述されたドキュメント(comprehensive)は性能が悪化する。
- SLM+skillによって、スキル利用なしのより大きなモデルを性能で上回ることができる

Agent skillsの効果について定量的に分析した初めての研究な気がしており、重要な研究だと思われる。AI AgentというとClaudeが優秀な印象が強いが(コーディングやソフトウェアエンジニアリングでの性能に基づく印象)、本ベンチマークでは多様なドメインで評価をしており、Gemini CLI+Gemini Flashが最も平均的な性能が高いのが興味深い。




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #memory #KeyPoint Notes #ContinualLearning Issue Date: 2026-02-12 GPT Summary- SkillRLは、自動スキル発見と再帰的進化を通じて、LLMエージェントが過去の経験を活用し、高レベルの再利用可能な行動パターンを抽出できるようにする新たなフレームワークです。経験に基づく蒸留を用いて階層的なスキルライブラリを構築し、強化学習中にスキルがエージェントのポリシーと共進化します。このアプローチにより、推論の有用性が向上しつつ、トークンのフットプリントが削減されます。実験はSkillRLが最先端の性能を達成し、堅牢性を保つことを示しました。 Comment

alphaxiv blog: https://www.alphaxiv.org/abs/2602.08234

元ポスト:

Loading…

AnthropicのAgent Skillsにinspireされた手法で、ポリシー側のパラメータをfreezeしてスキル群を更新していくような枠組みではなく、スキルが定義されたライブラリと、ポリシーそのものを同時に進化(スキル定義追加・更新+ポリシーの重みの更新)させていくことで、生のtrajectoryをmemoryから活用する方向性ではなく、動的にtrajectoryからスキルを構築し、構築されたスキルの使い方やretrieve方法をポリシーの内部パラメータとして組み込むことで、スキルとポリシーが共に進化していくようにしたい、それにより、生の経験(trajectory)を読み込んでadhocに利用するよりも、より一般化された形で経験を活用できるようにしたい、という話に見える。

提案手法はベースモデルを環境に対して適用しタスクに対する成功したtrajectoryと失敗したtrajectoryをまず収集する。収集したtrajectoryに対して、teacher modelで「タスクを完了するための戦略的なパターン」と「簡潔な失敗した要因」を生成させ、<スキル名, スキルの具体的なdescription, いつそのスキルを適用するか>によって定義されるスキルを定義する(従来手法は失敗したtrajectoryに関する情報は破棄していた)。スキルは2種類定義されており、汎用的に全てのタスクに適用可能なgenericなスキルと、特定のtask-specificなスキルの2種類によって構成される(この二つのスキルの集合がSKILLBANKと呼ばれる)。genericなスキルは常にポリシーのinstructionに含められ、task-specificなスキルはタスクを実行するたびに意味的な関連性に基づいてtop-kがretrieveされ利用される。これにより初期のSKILLBANKを構築する。

続いて、ベースモデルを学習して賢くしていきたい。この時初期のポリシー(=ベースモデル)はスキルのretrieve + 使い方を知らないため、teacher modelによってスキルを含めたtrajectoryを生成しSFTをすることでコールドスタート時に適用する。その後、オンポリシーRL(GRPO)を用いて、スキルをretrieveし、retrieveしたスキルを活用してタスクを完了し、完了したタスクからrewardが計算されポリシーを更新していく。この時、GRPOのエポックにおいてvalidationフェーズを用意し、特定の閾値以下のsuccess rateを持つタスクに関しては、teacher modelが失敗したtrajectoryに基づいてSKILLBANKを更新することでSKILLBANKを進化させることで性能を改善する、といった話に見える。

image

genericなスキルは常にinstructionに含まれるためretrieveする必要がないが、task specificなスキルはtask descriptionとskill定義のembeddieg空間上で類似度を測りtop-kが抽出される。embeddingを取得する具体的なモデルについては言及がないように見える?




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Post #SoftwareEngineering #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-03-18 Comment

Agent Skillsの定義の仕方による性能差については下記を参照のこと:
- [Paper Note] SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks, Xiangyi Li+, arXiv'26, 2026.02

以下の5つのPatternが紹介されている:
- Tool Wrapper
- Generator
- Reviewer
- Inversion
- Pipeline

最終的にどのようなPatternを採用すべきかの判断となるフローチャートも提供されている。

全体的なポイントとしては、
- 各種SKILLS.mdにはhowを記述し(e.g., 具体的な実行のstepを記述するなど)、 
- 実行内容やルールなどの"what"に関する情報は別のドキュメントに移譲し、SKILLS.mdにはそのポインタを記述する、
- ユーザの承認なしで先へ進まないようにするには、ユーザに何らかの質問・承認を求めるよう指示を明示的に記述する

といった作法である。一つの巨大で複雑なSKILLS.mdやsystem promptを作るのではなく、内容をbreak downして記述やドキュメントの構造を設計するのが肝要と感じる。

他の参考文献として
- # Writing a good CLAUDE.md, Kyle, 2025.11


はAGENTS.mdの話だが、同じような議論がされており、なぜless is moreが重要なのかといった説明も研究動向を踏まえながら説明されている。