SoftwareEngineering
[Paper Note] Scaling Test-Time Compute for Agentic Coding, Joongwon Kim+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Coding #Test-Time Scaling #Author Thread-Post Issue Date: 2026-04-23 GPT Summary- 推論時スケーリングは、長期的展望を持つコーディングエージェントに適用され、過去の経験を効果的に表現・再利用することが重要。提案するフレームワークでは、ロールアウトを構造化要約に変換し、重要な仮説や進捗を保持する。並列スケーリングとしてRecursive Tournament Votingを導入し、逐次スケーリングにはParallel-Distill-Refineを適用。SWE-Bench VerifiedやTerminal-Bench v2.0でシステムの性能を向上させる結果を示した。 Comment
元ポスト:
[Paper Note] LinuxArena: A Control Setting for AI Agents in Live Production Software Environments, Tyler Tracy+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Evaluation #Live Issue Date: 2026-04-20 GPT Summary- LinuxArenaは、エージェントが実稼働環境で操作するための制御設定で、20の環境、1,671の主要タスク、184の安全性に関するサイドタスクを含みます。妨害評価を通じて、主要タスクを完了しつつサイドタスクを処理できるかを検証し、GPT-5-nanoのモニターが1%の偽陽性率で多数の未検出妨害成功率を示しました。また、人手作成の攻撃軌跡データセットLaStrajを公開し、現行の攻撃方針がLinuxArenaに影響を与えていないことを示しました。これにより、LinuxArenaが攻撃者と防御者双方にとって重要な研究基盤となることが示唆されました。 Comment
元ポスト:
[Paper Note] Dive into Claude Code: The Design Space of Today's and Future AI Agent Systems, Jiacheng Liu+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #AIAgents #read-later #ContextEngineering #memory #AgentHarness Issue Date: 2026-04-20 GPT Summary- Claude Codeは、シェルコマンド実行やファイル編集をユーザーに代わって行うエージェント型コーディングツールであり、そのアーキテクチャをTypeScriptソースコードから分析する。本研究では、アーキテクチャを形成する五つの人間的価値観と十三の設計原理を特定し、実装に反映させる。システムは単純なwhileループを中心に構成されるが、その周囲には多様な機能が存在し、OpenClawと比較することで異なるアーキテクチャ的応答を示す。最後に、将来のエージェントシステムにおける未解決の設計指針を六つ特定した。 Comment
元ポスト:
[Paper Note] CaP-X: A Framework for Benchmarking and Improving Coding Agents for Robot Manipulation, Max Fu+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#NLP #AIAgents #Evaluation #Coding #read-later #Robotics #EmbodiedAI Issue Date: 2026-04-04 GPT Summary- Code-as-Policy(CaP)は、自律的なロボット制御における実行可能なコードの有効性を探求するためのフレームワークCaP-Xを提案します。中心となるCaP-Gymは、感知と制御を組み合わせてロボットを制御するインタラクティブ環境を提供します。CaP-Benchを利用して12モデルを評価した結果、手作りの抽象化が性能を向上させる一方、先入観の排除で性能が低下し、設計者の足場に依存していることが明らかになりました。このギャップは、推論時計算や複数ターンの相互作用を通じて緩和可能です。これにより、学習を要しないCaP-Agent0が活用され、シミュレーションや実機タスクで人間レベルの信頼性を回復させます。CaP-RLを導入することで強化学習が成功率を向上させ、シミュレーションと実機間の移行を円滑にすることを確認しました。CaP-Xは、具現化されたコーディングエージェントを推進するためのオープンアクセスプラットフォームを提供します。 Comment
元ポスト:
[Paper Note] Think Anywhere in Code Generation, Xue Jiang+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #Coding #Reasoning #read-later #Reference Collection Issue Date: 2026-04-04 GPT Summary- LLMsの事前思考に依存したコード生成は制限があり、全体の複雑性を理解するには不十分である。これに対抗するために、Think-Anywhereという新しい推論機構を提案し、任意のトークン位置で推論を呼び出すことを可能にする。これにより、推論パターンの模倣と成果ベースのRL報酬を活用し、推論のタイミングを自律的に探索させる。広範な実験で、Think-Anywhereは最先端の性能を実現し、多様なLLMsにおいて一貫した一般化を示すことが確認された。 Comment
元ポスト:
解説:
[Paper Note] KAT-Coder-V2 Technical Report, Fengxiang Li+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Coding #read-later Issue Date: 2026-04-04 GPT Summary- KAT-Coder-V2は、快手のKwaiKATチームが開発したエージェント指向のコーディングモデルで、5つの専門ドメインに分解し、それぞれを教師あり微調整と強化学習で独立学習した後、単一モデルに統合します。KwaiEnvを用いて数万の同時サンドボックス環境を支え、RL訓練をスケーリング。MCLAとTree Trainingにより計算の冗長性を排除し、最大6.2倍のスピードアップを達成。SWE-benchで79.6%、PinchBenchで88.7のスコアを記録し、複数のベンチマークで首位を獲得しました。モデルは公開されています。 Comment
元ポスト:
Claude Opus 4.6に近い性能を持つagentic coding modelとのこと。
[Paper Note] Adaptive Block-Scaled Data Types, Jack Cook+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#NLP #LanguageModel #Architecture #read-later #Selected Papers/Blogs #One-Line Notes #LowPrecision #needs-revision Issue Date: 2026-04-01 GPT Summary- NVFP4は、4ビット量子化形式として人気ですが、誤差分布の問題を抱えています。本研究では、入力値の分布に適応できる新しいデータ型、IF4(Int/Float 4)を提案します。IF4は、各16値のグループに対しFP4とINT4を選択し、NVFP4のスケールファクターでスケールします。この方法により、量子化訓練時の損失を低減し、精度を向上させることが確認されました。また、IF4のハードウェア実装も評価されています。 Comment
元ポスト:
NVFP4と同様に、4bitで表現される16個のデータをひとつのグループとして扱い[^1]、FP8でのスケールファクターを共有するような浮動小数点フォーマットで[^2]、
グループ内の16個のデータに対して、INT4/FP4どちらを適用するかを、(NVFP4では常に正となっていた;未使用だった)スケールファクターを表現している8bitの先頭である符号ビットを用いて制御する新たな低精度浮動小数点フォーマット、IF4を提案、という話らしい。符号ビットをINT4, FP4を制御するIndicatorとして扱うため、NVFP4と比較してメモリ使用量は増えない。Indicatorはどちらがより量子化誤差が小さくなるかによって選択される、という感じらしい?
[^1]: グループとは単に0/1のバイナリ値が4bit分並んでいるデータのことであり、たとえばFP4で4bitの羅列を解釈すると、FP4は{±0, ±0.5, ±1, ±1.5, ±2, ±3, ±4, ±6}の16個の数値で解釈するようルールづけられている。
[^2]: スケールファクターを乗じることで、値を元々のデータのスケールに変換する。
この辺は勉強不足だなぁ、、、。
- NVFP4解説:
https://licensecounter.jp/engineer-voice/blog/articles/20260317_nvfp4.html
- 本研究日本語解説:
https://note.com/shimmyo_lab/n/n693c4d0da45f
[Paper Note] Meta-Harness: End-to-End Optimization of Model Harnesses, Yoonho Lee+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#NLP #AIAgents #Coding #read-later #Selected Papers/Blogs #AgentHarness Issue Date: 2026-03-31 GPT Summary- 大規模言語モデル(LLM)の性能は、ハーネスと呼ばれる情報の保存・取得・提示を決定するコードに依存しているが、従来のハーネス設計は手作業が主で、最適化手法はフィードバックを圧縮してしまう。そこで、Meta-Harnessを提案。これはLLMアプリケーションのハーネスコードを探索する外部ループシステムで、エージェント的提案者を通じて過去の実行トレースを活用。Meta-Harnessは、オンラインテキスト分類で7.7ポイントの向上を示し、リトリーバルを用いた数学推論では200問の正確度を4.7ポイント改善。また、エージェント的コーディングでは手作業設計を超える成果を上げる。これにより、より豊かな過去の経験が自動化されたハーネス設計を実現可能であることが示された。 Comment
元ポスト:
pj page: https://yoonholee.com/meta-harness/
Darwin Godel Machineと非常にコンセプトが似ているという指摘がある
- [Paper Note] Darwin Godel Machine: Open-Ended Evolution of Self-Improving Agents, Jenny Zhang+, ICLR'26, 2025.05
所見:
解説:
[Paper Note] ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents, Hao Zhang+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Infrastructure #ReinforcementLearning #Architecture #read-later #On-Policy #Stability #One-Line Notes #Author Thread-Post Issue Date: 2026-03-28 GPT Summary- ProRL Agentは、マルチターンのLLMエージェントにおける強化学習トレーニングを支援するためのAPIサービスであり、ロールアウトのライフサイクル全体を提供するスケーラブルなインフラです。標準化されたサンドボックス環境を通じて、多様なエージェント駆動タスクに対応し、ソフトウェア工学やSTEM関連のタスクで検証されています。ProRL Agentはオープンソースで、NVIDIA NeMo Gymに統合されています。 Comment
元ポスト:
処理が重いロールアウトを独立したhttp serviceとして扱い(rollout-as-a-service)、モデルのtrainingと分離することで、リソース分離、可搬性、拡張性を向上させる。
[Paper Note] Goedel-Code-Prover: Hierarchical Proof Search for Open State-of-the-Art Code Verification, Zenan Li+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#LanguageModel #Coding #read-later #Verification #Proofs #Author Thread-Post Issue Date: 2026-03-28 GPT Summary- 大規模言語モデル(LLMs)はコード生成が可能だが、正確性に限界がある。これを克服するために、Lean 4における階層的証明探索フレームワークを提案し、複雑な検証目標を単純なサブゴールに分解する。分解スコアは訓練報酬と推論時の基準として機能し、最適化とデプロイメントの整合性を保証。Goedel-Code-Prover-8Bを利用し、教師あり初期化後にハイブリッド強化学習で訓練。Leanベースのコード検証ベンチマークでは、62.0%の証明成功率を実現し、強力なベースラインを2.6倍上回る成果を達成した。また、推論時のスケーリングによって成功率の向上が観察された。 Comment
元ポスト:
解説:
[Paper Note] Effective Strategies for Asynchronous Software Engineering Agents, Jiayi Geng+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #AIAgents #Coding #Architecture #LongHorizon #Asynchronous Issue Date: 2026-03-25 GPT Summary- AIエージェントは孤立したSWEタスクでは高い能力を示すが、依存するサブタスクを含む長期的なタスクには課題が残る。非同期のマルチエージェント協調が期待されるが、同時編集や依存関係の同期、進捗の統合には困難が伴う。これに対処するため、CAIDという新たな協調パラダイムを導入。これにより中央管理者を介したタスク計画と、分離された作業スペースでの同時実行が実現され、進捗の統合が可能になる。実験的にCAIDは、PaperBenchで26.7%、Commit0で14.3%の精度向上を示し、マルチエージェント協調の調整機構としてブランチとマージを明らかにした。 Comment
元ポスト:
[Paper Note] FlashSampling: Fast and Memory-Efficient Exact Sampling, Tomas Ruiz+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#read-later Issue Date: 2026-03-17 GPT Summary- FlashSamplingは、大規模語彙のデコードを効率化するために、サンプリングをLMヘッドの行列積に統合する手法を提案。ロジットテンソルを一度も実体化せず、チップ上でロジットをタイルごとに計算し、ガンベルノイズを加えることで最大値を取得。これにより、出力トークンあたりの時間を最大19%削減し、近似なしの厳密なサンプリングを実現。 Comment
元ポスト:
[Paper Note] Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems, Zongqian Li+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #AIAgents #Coding #PostTraining #DataFiltering #Initial Impression Notes Issue Date: 2026-03-12 GPT Summary- 高品質なコード生成モデルの訓練には高品質なデータセットが必要だが、既存のデータは様々な問題を抱えている。本研究では、系統的なデータ処理フレームワークを導入し、自動難易度フィルタリングを用いて難易度の高い問題を保持しつつ簡単な問題を排除。得られたMicroCoderデータセットは、多様な競技プログラミング問題を含み、性能向上を達成。評価によれば、三倍の性能向上を示し、難易度を意識したデータ選定がモデルの性能向上に効果的であることが明らかになった。 Comment
元ポスト:
コーディングドメインにおいて、難易度の高いコーディング問題を収集(単純な問題をフィルタリング)することで、RLにおいて高い学習効率が得られる、という話に見える
[Paper Note] SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration, Jialong Chen+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Evaluation #Coding #One-Line Notes #CI Issue Date: 2026-03-07 GPT Summary- 静的なバグ修正だけでなく、複雑な要求変更に対応するため、継続的インテグレーションに基づく新しいベンチマークSWE-CIを提案。これにより、コード生成の評価が短期的な正確性から長期的な保守性にシフトし、100のタスクを通じてエージェントの分析およびコーディング能力の維持を評価する。SWE-CIは実世界の進化履歴に基づいており、コード品質の長期的な維持についての洞察を提供。 Comment
元ポスト:
SWE Agentの現在の主要な評価パラダイムである個々の機能のバグフィクスなどの短期的な評価から、より長期的なメンテナンスなどのタスクで評価をする
[Paper Note] A Rubric-Supervised Critic from Sparse Real-World Outcomes, Xingyao Wang+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#ReinforcementLearning #AIAgents #Coding #Selected Papers/Blogs #Verification #RewardModel #One-Line Notes #Critic #Rubric-based #Author Thread-Post Issue Date: 2026-03-06 GPT Summary- コードエージェントの評価は通常、ユニットテストの成功を基にしているが、実際の環境では成功信号が遅延し、ノイズが多い。本研究では、疎でノイズの多い相互作用データを用いてクリティックモデルを学習する方法を提案し、これをRLベースの報酬モデルとして利用する。具体的には、エージェントの行動特徴を含むクリティック・ルーブリックを導入し、半教師付き目的関数で人間のフィードバックと共に予測する。実験により、このアプローチが SWe-bench におけるリランキングを改善し、試行回数を83%減少させながら成果を向上させることを示した。 Comment
元ポスト:
AI Agentによる実装は安価になったが、今度は(人間による)verificationがボトルネックなので、Agentのtrajectoryからcritiqueを実施するモデルをRubric-basedに学習しReward Modelとして活用できるようにした、という話に見える。これによりAgentの進捗をリアルタイムでvibe checkすることができるとのこと。
著者ポスト:
[Paper Note] SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale, Ibragim Badertdinov+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #AIAgents #Coding #PostTraining #read-later #Selected Papers/Blogs #Live #One-Line Notes #Environment Issue Date: 2026-03-05 GPT Summary- SWEエージェントの強化学習を支えるため、実世界のソフトウェア工学タスクを自動収集し、再現可能な環境を構築するSWE-rebench V2を提案。20言語・3,600超のリポジトリから32,000以上のタスクを集め、厳選したコンテンツで信頼性のあるトレーニングデータを提供。また、タスク生成に必要なメタデータも加え、エラー要因を明示。データセットと関連リソースを公開し、多様な言語での大規模なSWEエージェントのトレーニングを支援。 Comment
元ポスト:
environment: https://huggingface.co/datasets/nebius/SWE-rebench-V2?row=5
関連:
- [Paper Note] SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents, Ibragim Badertdinov+, NeurIPS'25, 2025.05
以前の研究ではpython特化だったが、今回はlanguage-agnosticな環境になっている。
合成データではなく、実際のissue-resolutionのヒストリに基づいたデータセットであることに注意
[Paper Note] On the Impact of AGENTS.md Files on the Efficiency of AI Coding Agents, Jai Lal Lulla+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #AIAgents #Coding #Initial Impression Notes #AGENTS.md Issue Date: 2026-03-03 GPT Summary- AIコーディング・エージェント(CodexやClaude Codeなど)がソフトウェア・リポジトリに与える影響を調査。AGENTS.mdファイルの有無で、GitHubプルリクエストにおけるエージェントの実行時間とトークン消費が異なることを示し、AGENTS.mdの存在が実行時間を28.64%、トークン消費を16.58%削減する一方、タスク完了挙動は同等であることが分かった。これに基づき、AIコーディング・エージェントの設定やデプロイに関する実務的な含意を議論し、リポジトリレベルの指示の重要性を明らかにする。 Comment
関連:
- [Paper Note] Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?, Thibaud Gloaguen+, arXiv'26, 2026.02
こちらの研究ではどちらかというとAGENTS.mdによってinference costが増大するようなことが示されているが、具体的にAGENTS.mdの内容としてどのような違いがあるだろうか?
元ポスト:
[Paper Note] DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference, Yongtong Wu+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #Infrastructure #read-later Issue Date: 2026-02-28 GPT Summary- エージェント型LLM推論において、KVキャッシュのストレージI/Oが性能に大きく影響している。従来のアーキテクチャでは、KVキャッシュの読み込みがボトルネックとなり、システム全体のスループットが制約されている。DualPathは、このボトルネックを解消するためのデュアルパスKVキャッシュ読み込みシステムであり、デコードエンジンへの新たなストレージ経路を提供する。これにより、データ転送が効率化され、負荷が動的にバランスされる。実運用のモデル評価では、DualPathがオフライン推論スループットを最大1.87倍、オンライン提供スループットを平均1.96倍向上させることが示された。 Comment
元ポスト:
ポイント解説:
[Paper Note] Learning to Rewrite Tool Descriptions for Reliable LLM-Agent Tool Use, Ruocheng Guo+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #Coding #PostTraining #CurriculumLearning #ToolUse Issue Date: 2026-02-28 GPT Summary- ツール・インターフェースの質がLLMベースのエージェントの性能に影響を与えることに着目し、Trace-Free+というカリキュラム学習フレームワークを提案。これにより、トレースのない環境で再利用可能なインターフェース使用パターンを習得を促進。構造化ワークフローに基づくデータセットを構築し、実験では未知のツールに対する改善とクロスドメイン一般化が確認された。最終的に、ツール・インターフェースの最適化がエージェントのファインチューニングに有効であることを示した。 Comment
元ポスト:
[Paper Note] On Data Engineering for Scaling LLM Terminal Capabilities, Renjie Pi+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #SyntheticData #Coding #OpenSource #Initial Impression Notes #Environment #Terminal Issue Date: 2026-02-28 GPT Summary- ターミナルエージェントのトレーニングデータ戦略に関するギャップを埋めるため、(1) 軽量な合成タスク生成パイプラインTerminal-Task-Genを提供し、(2) データと訓練戦略を総合的に分析。これにより、Nemotron-Terminalファミリーを訓練し、Terminal-Bench 2.0で性能を大幅に改善。ほぼすべての合成データセットをオープンソース化し、研究の加速を図る。 Comment
元ポスト:
terminalエージェントのための合成データを作成する環境と実際に作成されたSFT用のデータセットの公開をしているようである。
[Paper Note] Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?, Thibaud Gloaguen+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #Coding #read-later #Selected Papers/Blogs #Initial Impression Notes #AGENTS.md Issue Date: 2026-02-27 GPT Summary- コーディングエージェントのタスク完遂性能を評価するため、LLMが生成したコンテキストファイルと開発者提供のファイルを用いた2つの設定を検討。結果、コンテキストファイルは成功率を低下させ、推論コストを増加させる傾向が見られた。両者はタスクの探求を促進するが、不要な要件がタスクを難化させるため、最小限の要件のみを記述することが推奨される。 Comment
元ポスト:
(現時点では)LLMによって自動生成されたコンテキストファイルは性能を劣化させ、inference costを増大させ、人間が作成したコンテキストファイルは性能を向上させる。コンテキストファイルによってoverviewを提供することを推奨しているものがあるが、性能向上には寄与しない。コンテキストファイルに従うことはより多くのthinkingを誘発し、結果的にタスクを難しくする。最小限のrequirementsのみを記述したものを使うことを推奨する、といった内容らしい?
関連:
best practiceは以下とのこと:
- # Writing a good CLAUDE.md, Kyle, 2025.11
解説:
非常にコンパクトにまとまっている。
解説:
[Paper Note] Hybrid-Gym: Training Coding Agents to Generalize Across Tasks, Yiqing Xie+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Coding #Environment Issue Date: 2026-02-21 GPT Summary- 実際のコーディングエージェントの評価は、SWE-Benchのような単一課題に依存せず、より複雑なタスクを解決する能力に重点を置く。本研究では、転移可能なスキルを明らかにし、それを学習するための原則を導出し、Hybrid-Gymという訓練環境を提案。訓練を受けたエージェントは多様な実世界タスクに効果的に一般化し、基礎モデルの性能を大幅に向上させた。 Comment
元ポスト:
関連:
pj page: https://hybrid-gym.github.io/
[Paper Note] Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs, Wei Zhou+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #AIAgents #read-later #Selected Papers/Blogs #Initial Impression Notes #Data Issue Date: 2026-02-16 GPT Summary- LLM技術がデータ前処理のパラダイムを変革中であり、幅広いアプリケーションに対応するための進化を検討。文献レビューを通じて、データクリーニング、統合、強化の主要タスクにおける手法を整理し、それぞれの利点と制約を分析。さらに、評価指標とデータセットを考察し、スケーラブルなデータシステムや信頼性の高いワークフローに向けた研究課題を提示。 Comment
元ポスト:
自動的なデータの前処理に関するSurvey。文献は120以上引用され、美麗なフォーマットで記述されている。時系列での手法の変遷と、手法間の関係性が図解で整理されており非常にわかりやすそう。データの前処理は実務上の大きなボトルネックなのでどのような研究があるか気になる。
[Paper Note] daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently, Mohan Jiang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #SyntheticData #Coding #One-Line Notes #LongHorizon Issue Date: 2026-02-05 GPT Summary- 大規模言語モデル(LLM)は短期的なタスクには優れていますが、長期的なワークフローへのスケーリングが課題です。本研究は、プルリクエスト(PR)シーケンスを用いてデータ合成を再概念化し、長期学習のための自然な監督信号を提供します。具体的には、進行的タスク分解、長期的一貫性の強制、バグ修正の検証を通じて、因果依存関係を保ちながら目標指向行動を促進します。実験結果は、daVinci-Agencyが高いデータ効率を即し、ベンチマーク全体での改善を達成したことを示しています。 Comment
元ポスト:
PRのシークエンスでlong horizonデータを合成する
[Paper Note] Programming with Pixels: Can Computer-Use Agents do Software Engineering?, Pranjal Aggarwal+, ICLR'26, 2025.02
Paper/Blog Link My Issue
#ComputerVision #Dataset #AIAgents #Evaluation #Coding #ICLR #ComputerUse #VisionLanguageModel #GUI Issue Date: 2026-02-05 GPT Summary- CUA(コンピュータ利用エージェント)は一般的なタスクを実行する可能性があるが、ソフトウェアエンジニアリングのような専門的な作業の自動化能力は不明である。本研究では、「Programming with Pixels」(PwP)を導入し、エージェントが視覚的にIDEを操作して多様なソフトウェアエンジニアリングタスクを実行する環境を提供する。また、15のソフトウェアエンジニアリングタスクに対するベンチマーク「PwP-Bench」を設立し、CUAsの性能を評価した。結果、純粋な視覚的インタラクションでは専門エージェントに劣るが、APIへの直接アクセスを与えることで性能が向上し、専門性に達することが多かった。CUAsは視覚的基盤の限界と環境の効果的な活用に課題があるが、PwPは洗練されたタスクに対する評価の新たな基準を提供する。 Comment
pj page: https://github.com/ProgrammingwithPixels/PwP
元ポスト:
[Paper Note] SWE-Universe: Scale Real-World Verifiable Environments to Millions, Mouxiang Chen+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #SyntheticData #Coding #MultiLingual #mid-training #PostTraining #read-later #Selected Papers/Blogs #Verification #Scalability Issue Date: 2026-02-05 GPT Summary- SWE-Universeは、GitHubのプルリクエストから自動的に検証可能なソフトウェア工学環境を構築するためのスケーラブルなフレームワーク。カスタムトレーニングされたビルディングエージェントが反復自己検証とハッキング検出を用いて信頼性の高いタスク生成を実現。これにより、実世界の多言語SWE環境が100万以上増加し、Qwen3-Max-Thinkingにおいて75.3%のスコアを達成。次世代コーディングエージェントの発展に寄与。 Comment
元ポスト:
ポイント解説:
これまでと比較して非常に大規模な実PRに基づいた、さまざまなプログラミング言語に基づくverifiableな学習用の合成データを構築できる環境で、一つ一つの品質はSWE Benchなどには及ばないが、量が圧倒的
[Paper Note] Training LLMs with Fault Tolerant HSDP on 100,000 GPUs, Omkar Salpekar+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Infrastructure #mid-training #PostTraining #Stability Issue Date: 2026-02-03 GPT Summary- FT-HSDPという新しいトレーニングパラダイムを提案し、故障耐性を持つデータ並列レプリカを活用。故障時には影響を受けたレプリカのみがオフラインとなり、他のレプリカはトレーニングを継続。FTARプロトコルと非ブロッキングキャッチアップを用いることで、故障回復時間を短縮し、有効なトレーニング時間を大幅に増加。精度への悪影響もないことを確認。 Comment
元ポスト:
100k GPU🤯
[Paper Note] Revisiting Parameter Server in LLM Post-Training, Xinyi Wan+, ICLR'26, 2026.01
Paper/Blog Link My Issue
#EfficiencyImprovement #MachineLearning #NLP #LanguageModel #PostTraining Issue Date: 2026-01-29 GPT Summary- ODC(オンデマンド通信)は、バランスの取れない負荷を持つLLMのポストトレーニングに対処するため、集団通信をポイントツーポイント通信に置き換え、FSDPを適応させる手法。これにより、同期障壁が減少し、より効率的な負荷バランシングを実現。ODCは、デバイスの利用率とトレーニングスループットを向上させ、FSDPに対して最大36%のスピードアップを達成した。 Comment
元ポスト:
openreview: https://openreview.net/forum?id=iIEEgI6WsF
[Paper Note] daVinci-Dev: Agent-native Mid-training for Software Engineering, Ji Zeng+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #AIAgents #mid-training Issue Date: 2026-01-27 GPT Summary- LLMのエージェント型ソフトウェア工学への移行を探求。ミッドトレーニングは高価な強化学習に対するスケーラブルな代替を提供し、エージェントの静的データと動的環境の不一致を解消。エージェントネイティブデータとして、文脈的にネイティブな軌跡と環境的にネイティブな軌跡を用いる。検証を通じて、従来の方法を上回る解決率を達成し、トークン数も半減。 Comment
元ポスト:
[Paper Note] Darwin Godel Machine: Open-Ended Evolution of Self-Improving Agents, Jenny Zhang+, ICLR'26, 2025.05
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Coding #SelfImprovement #ICLR #Selected Papers/Blogs #One-Line Notes #AgentHarness Issue Date: 2025-06-05 GPT Summary- ダーヴィン・ゴーデルマシン(DGM)は、自己改善するAIシステムであり、コードを反復的に修正し、コーディングベンチマークで変更を検証します。進化とオープンエンドな研究に基づき、生成されたエージェントのアーカイブを維持し、新しいバージョンを作成することで多様なエージェントを育成します。DGMはコーディング能力を自動的に向上させ、SWE-benchでのパフォーマンスを20.0%から50.0%、Polyglotでのパフォーマンスを14.2%から30.7%に改善しました。安全対策を講じた実験により、自己改善を行わないベースラインを大幅に上回る成果を示しました。 Comment
- [Paper Note] Self-Rewarding Language Models, Weizhe Yuan+, arXiv'24, 2024.01
あたりの研究とはどう違うのだろうか、という点が気になる。
openreview: https://openreview.net/forum?id=pUpzQZTvGY
> * [[Paper Note] Self-Rewarding Language Models, Weizhe Yuan+, N/A, ICML'24 [Paper Note] Self-Rewarding Language Models, Weizhe Yuan+, arXiv'24, 2024.01
](https://github.com/AkihikoWatanabe/paper_notes/issues/1212)
>
> あたりの研究とはどう違うのだろうか、という点が気になる。
この点については、Self-Rewarding LLMではモデルの重みを(自身が生成した出力からPreference pairを構築し)DPOで更新していくのに対し(=Agent Harnessではなくモデル自身を賢くする)、
DGMでは基盤モデルはfrozenな上で、AI Agentのコードベースそのものをself-editingすることによって進化する点が異なる(=モデルではなくAgent Harnessを賢くする)。
baseとなるエージェントのコードベースは木構造に基づいて管理され、recursiveに探索されていき、ベンチマークのスコアを改善していく、という感じのようである。木構造によって過去のsolutionが保持され、単一の方向性のみが探索されることを抑制し(i.e., オープンエンドな探索が促進され)進化が局所解に陥ることを防ぐ。
3節冒頭に記述がある通り、Gödel Machineというのは2007年に提案された、AI自身が自らを証明可能な形で改善する方法を探索する理論的概念であるようだが、DGMではGödel Machineでの「変更によってシステムが改善されることを理論的に証明しなければならない」という点を緩和し、「変更が性能を向上させるという実験結果を用いる」ことで緩和する。
[Paper Note] Ambig-SWE: Interactive Agents to Overcome Underspecificity in Software Engineering, Sanidhya Vijayvargiya+, ICLR'26, 2025.02
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #QuestionGeneration #ICLR #One-Line Notes Issue Date: 2025-04-02 GPT Summary- AIエージェントは、欠落情報を補うための推測や明確化の質問を避けることで、安全リスクやリソース浪費を引き起こすことがある。本研究では、対話型コード生成における不十分な指示への対処能力を評価し、(a) 不十分さの検出、(b) 明確化質問の提示、(c) 対話の活用による性能向上の三つのステップで検証した。Ambig-SWEを使用し、モデルは不十分な指示を区別するのに苦労しつつ、対話時には最大74%の性能向上を示した。これにより、対話の重要性が浮き彫りになった。研究は、最新モデルの情報処理におけるギャップを明らかにし、評価の段階的アプローチを提案している。 Comment
曖昧なユーザメッセージに対する、エージェントが"質問をする能力を測る"ベンチマーク
openreview: https://openreview.net/forum?id=X2yzXtH4wp
[Paper Note] Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding, StepFun+, arXiv'25, 2025.07
Paper/Blog Link My Issue
#NLP #LanguageModel #Infrastructure #Architecture #read-later #Selected Papers/Blogs Issue Date: 2026-04-11 GPT Summary- Step-3は、321Bパラメータの大規模言語モデルで、デコードコストの最小化を目的としたハードウェア意識のモデル-システム共設計を導入。主な革新点は、Multi-Matrix Factorization Attention (MFA)による計算量削減とAttention-FFN Disaggregation (AFD)による分散推論システムの構築。これにより、DeepSeek-V3やQwen3 MoE 235Bと比較して理論的デコードコストを大幅に低下させ、特に長文脈での利得が顕著。Hopper GPU上で最大4,039トークン/秒のデコードスループットを達成し、LLMデコードの新たなパレート前線を確立した。 Comment
元ポスト:
所見:
[Paper Note] OSGym: Scalable OS Infra for Computer Use Agents, Zengyi Qin+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#ComputerVision #NLP #Infrastructure #AIAgents #ComputerUse #read-later #VisionLanguageModel #Initial Impression Notes Issue Date: 2026-04-07 GPT Summary- コンピュータ利用エージェントの訓練には、リソース効率の良いスケーラブルなOS環境が必要であり、OSGymを提案。主な特徴は、(1) 故障の分散型管理でシステム信頼性を向上、(2) CPUボトルネック対策によるオーバーヘッド軽減、(3) コピーオンライトによるディスク利用の大幅削減、(4) 堅牢なフォールトリカバリの実装。OSGymは1000以上のOSレプリカを管理し、コストを90%削減しつつ、高速なマルチターン軌道生成を実現。これにより、汎用的なエージェント研究の基盤を提供。 Comment
元ポスト:
ソースやcodeをオープンにはしないのだろうか。と思ったら、リプにoss releaseの準備をしていると言及があった。
[Paper Note] Context Engineering for AI Agents in Open-Source Software, Seyedmoein Mohsenimofidi+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #AIAgents #Coding #ContextEngineering #Initial Impression Notes #AGENTS.md Issue Date: 2026-03-03 GPT Summary- AGENTS.mdを通じて、AIコーディングアシスタントにおける文脈情報の提供方法を調査。466のオープンソースプロジェクトから得たデータに基づき、情報の提示方法や進化を分析。結果、標準化された構造は存在せず、提供方法に大きなばらつきがあることが明らかに。AI文脈ファイルの設計が内容の品質向上に与える影響を研究する潜在性を示唆。 Comment
元ポスト:
オープンソースのリポジトリにおけるAGENTS.mdに関する分析らしい。
関連:
- [Paper Note] Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?, Thibaud Gloaguen+, arXiv'26, 2026.02
-
# Writing a good CLAUDE.md, Kyle, 2025.11
[Paper Note] SWE-smith: Scaling Data for Software Engineering Agents, John Yang+, NeurIPS'25 Spotlight, 2025.04
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SyntheticData #NeurIPS #PostTraining #One-Line Notes #Scalability #Environment Issue Date: 2026-02-17 GPT Summary- ソフトウェア工学向け言語モデル(LM)のトレーニングデータ収集は依然として課題であり、データセットは小さく、編纂に数百時間かかる。これを解決するために、SWE-smithという新しいデータ生成パイプラインを提案。任意のPythonコードベースを基にタスク例を自動合成し、約5万件のデータセットを作成。このデータで訓練したSWE-agent-LM-32Bが、最先端の解決率を達成。SWE-smithをオープンソース化し、参入障壁を下げることを目指す。 Comment
元ポスト:
データの構築方法はあまりしっかり読めていないが、モデルの学習方法がabstからよくわからなかったのでざっくり読むと、SWE-Smithのinstanceに対してstrong model(実験ではClaude)でtrajectoryを生成しベースモデルをSFTするようである。
[Paper Note] R2E-Gym: Procedural Environments and Hybrid Verifiers for Scaling Open-Weights SWE Agents, Naman Jain+, COLM'25, 2025.04
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #SyntheticData #Coding #Test-Time Scaling #COLM #PostTraining #Verification #KeyPoint Notes #Scalability #Hybrid #Environment Issue Date: 2026-02-17 GPT Summary- AgentGymは、GitHubのIssue解決を目的としたSWEタスクのための手続き的にキュレーションされた大規模な実行可能ジム環境で、8,700以上のタスクから構成されています。主な貢献は、合成データキュレーションの手法SYNGENによるスケーラブルな環境構築と、実行ベースおよび実行不要の検証機を用いたハイブリッド・テスト時スケーリングです。これにより、SWE-Bench Verifiedベンチマークで51%のパフォーマンスを達成し、従来のプロプライエタリモデルと競合する能力を示しました。 Comment
元ポスト:
openreview: https://openreview.net/forum?id=7evvwwdo3z#discussion
従来のSWE関連のデータセットでは、人間が記述したissueやtestが必要でscalabilityに課題があったが、すでに存在するテストコードからFail→Passとなるコミットを同定し、コミットの情報を逆翻訳することによってProblem statementを生成する。従来手法ではIssueの記述をそのまま使っていたが、スケーラブルではないので異なるアプローチが求められる。このため、本研究では以下二つの点を考慮し
- コミットのコード編集履歴のみではgenericな問題が生成されてしまう
- 人間が作成するIssueにはしばしば失敗するテストと実行トレースが付随することに着目し
Failedしたテストのテストコードと実行トレースとpromptに含めてよりspecificなProblem statementを生成するアプローチをとる。
また、SWEエージェントが出力するパッチの中からより良いパッチをランキング付けするためのtest-time scaling手法も提案している。具体的には、task description D, agent trajectory T, Patch Pが与えられた時にPatch PのスコアSを得る問題として定式化できる。このスコアを得る方法として、execution basedなverifierとexecution freeなverifierの2種類を分析し、最終的に両者のハイブリッドによってより良いtest-time scalingのgainが得られることを示している。
具体的には、前者はtest codeを自動生成するエージェントを学習し、taskに必要な機能に関するテストと、taskを解くための実装によって既存の機能が壊れていないかに関するテスト(回帰テスト)の2種類によって構成され、回帰テストのスコアが最も良いパッチに対して、テストがどれだけパスしたかによってスコアリングをする。
後者については、D, T, Pが与えられた時に、各Trajectory tが正しいものがどうかを2値分類するverifierを学習し、全体のtrajectoryの数に対するyesの割合によってスコアを定義する。
これらのverifierを分析した結果、双方共にtest-time scalingに対してgainを得られることがわかったが、前者はパッチの正しさに対して直接的なシグナルを得られるが、パッチそのものの質を識別する能力が低く、後者はパッチの質の識別力は高いが、エージェントの思考によるバイアスが課題として存在することがわかった。これより、両者は補完的な関係にあると考えられ、両者をハイブリッドすることによって、より良好なtest-time scalingによるgainを得ることが可能なことが示されている。興味深いのは、editing agent (i.e., パッチを生成するエージェント)のロールアウト数をスケープすることでも性能が改善するが、testing agentのロールアウト数をスケールすることで、editing agentのロールアウトを単にスケールするよりもより効率的なスケーリング性能を得られることである。
[Paper Note] Language Server CLI Empowers Language Agents with Process Rewards, Yifan Zhang+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Coding Issue Date: 2026-02-13 GPT Summary- 言語サーバーを利用し、LSPサーバーを固定してコーディングエージェントやCI向けのCLI中心のオーケストレーションレイヤー「Lanser-CLI」を提案。これにより、構造的情報と実行可能なプロセス報酬を提供し、決定論的かつ再現可能なワークフローを実現。具体的には、堅牢なアドレス指定、安定した解析バンドル、セーフガードを伴う変異操作、オンラインで計算可能なプロセス報酬機能を機能させ、プロセス監視や反事実分析に適したシステムを構築。 Comment
元ポスト:
[Paper Note] ITBench: Evaluating AI Agents across Diverse Real-World IT Automation Tasks, Saurabh Jha+, ICML'25, 2025.02
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #Financial #ICML #read-later #One-Line Notes Issue Date: 2026-02-03 GPT Summary- AIエージェントを用いたITタスク自動化の実現には、その効果を測定する能力が重要である。本研究では、AIエージェントのベンチマーキングを行うためのフレームワーク「ITBench」を提案。初期リリースはSRE、CISO、FinOpsの3領域に焦点を当て、実行可能なワークフローと解釈可能なメトリクスを提供。ITBenchは94の実世界シナリオを含み、最先端エージェントモデルのパフォーマンスを評価した結果、限られた成功率が示された。ITBenchがAI駆動のIT自動化において重要な役割を果たすことが期待される。 Comment
dataset:
-
https://huggingface.co/datasets/ibm-research/ITBench-Lite
-
https://huggingface.co/datasets/ibm-research/ITBench-Trajectories
元ポスト:
openreview: https://openreview.net/forum?id=jP59rz1bZk
94種類の実世界に基づいたシナリオに基づいてSRE, CSO, FinOpsに関するタスクを用いてAI Agentsを用いて評価する。各シナリオにはメタデータとEnvironments、トリガーとなるイベント、理想的な成果などが紐づいている。特にFinOpsに課題があることが示されている模様。
以下がシナリオの例で、たとえばFinOpsの場合はalertの設定ミスや、Podのスケーリングの設定に誤りがあり過剰にPodが立ってしまうといったシナリオがあるようである。
[Paper Note] BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills, Atharv Sonwane+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SyntheticData #Coding #Initial Impression Notes #BugGeneration Issue Date: 2026-01-16 GPT Summary- 合成的に多様なバグを生成する新手法を提案し、SWEエージェントの訓練における高品質なバグの重要性を強調。従来の局所的摂動によるバグ生成に対し、機能追加が意図しないバグを生じさせるプロセスを採用。実験により、新生成バグが監視付きファインチューニングにおいて効率的なデータを提供し、他データセットを上回る成果を実証。FrogBossとFrogMiniモデルがSWE-benchでそれぞれ54.6%と45.3%のpass@1を達成。 Comment
カオスエンジニアリングみたいになってきた
[Paper Note] SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios, Minh V. T. Thai+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Evaluation #Coding #LongHorizon Issue Date: 2026-01-12 GPT Summary- 既存のAIコーディングエージェントは単一の課題に焦点を当てているが、実際のソフトウェア開発は長期的な取り組みである。新たに提案するベンチマークSWE-EVOは、7つのオープンソースPythonプロジェクトから構築され、エージェントが複数ファイルにわたる修正を行う48の進化タスクを評価する。実験では、最先端モデルでも解決率が低く、特にマルチファイル推論に苦労していることが示された。さらに、複雑なタスクの進捗を測る指標Fix Rateも提案されている。 Comment
元ポスト:
[Paper Note] Large Language Models for Unit Test Generation: Achievements, Challenges, and Opportunities, Bei Chu+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #UnitTest Issue Date: 2026-01-02 GPT Summary- 自動化された単体テスト生成において、従来の手法は意味理解が不足しているが、LLMsはその知識を活用してこの問題を解決する。本研究では、115件の文献をレビューし、テスト生成ライフサイクルに基づく分類法を提案。プロンプトエンジニアリングが主なアプローチであり、89%の研究がこれに該当。反復的な検証が合格率を改善する一方で、故障検出能力やベンチマークの欠如が課題として残る。将来の研究では、自律的なテストエージェントやハイブリッドシステムの進展が期待される。 Comment
元ポスト:
[Paper Note] Professional Software Developers Don't Vibe, They Control: AI Agent Use for Coding in 2025, Ruanqianqian Huang+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #AIAgents Issue Date: 2025-12-31 GPT Summary- 経験豊富な開発者は、AIエージェントを生産性向上の手段として評価しつつも、ソフトウェアの品質を重視し、自らの主体性を保ちながらエージェントを活用している。彼らはエージェントの行動を制御する戦略を採用し、エージェントの限界を補完する自信からポジティブな感情を抱いている。本研究は、エージェントの効果的な活用に向けたベストプラクティスや適したタスクの種類を示唆し、将来のエージェントインターフェースや使用ガイドラインの機会を指摘する。 Comment
元ポスト:
[Paper Note] Toward Training Superintelligent Software Agents through Self-Play SWE-RL, Yuxiang Wei+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #PostTraining #read-later #SelfPlay Issue Date: 2025-12-24 GPT Summary- Self-play SWE-RL(SSR)を提案し、最小限のデータ仮定でソフトウェアエージェントのトレーニングを行う。人間のラベル付けなしで、LLMエージェントが自己対戦でソフトウェアバグを注入・修正し、SWE-bench VerifiedおよびSWE-Bench Proで顕著な自己改善を達成。結果は、エージェントが実世界のリポジトリから自律的に学習し、最終的に超知能システムの実現に寄与する可能性を示唆。 Comment
元ポスト:
ポイント解説:
[Paper Note] SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations, Wentao Guo+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #NLP #LanguageModel #MoE(Mixture-of-Experts) #mid-training #PostTraining #One-Line Notes Issue Date: 2025-12-19 GPT Summary- SonicMoEは、MoEモデルのフォワードおよびバックワードパスをメモリ効率良く計算するアルゴリズムを提案し、活性化メモリを45%削減。Hopper GPU上で7B MoEモデルの計算スループットを1.86倍改善し、トレーニングスループットは2130億トークン/日を達成。新しいトークンラウンディング手法により、カーネル実行時間で1.16倍のスピードアップを実現。すべてのカーネルはオープンソース化され、MoEモデルのトレーニングを加速。 Comment
元ポスト:
MoEモデルの学習速度、メモリ使用が最大2倍効率化される実装らしい。ただしHopperに特化している模様。
[Paper Note] DeepCode: Open Agentic Coding, Zongwei Li+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Coding #read-later #ContextEngineering #One-Line Notes Issue Date: 2025-12-15 GPT Summary- DeepCodeというフレームワークを用いて、科学論文からコードへの高忠実度合成の課題に取り組む。情報フロー管理を通じて、タスク関連の信号を最大化し、最先端のパフォーマンスを達成。PaperBenchベンチマークで商業エージェントや人間専門家を上回る結果を示し、自律的な科学的再現の基盤を確立。 Comment
元ポスト:
非常に雑にいうと、現在のCoding AgentはPh.Dレベルの論文の再実装レベルに到達できていないが、ContextEngineeringをしっかり行うことでagenticなfrontier modelに対して相対的に70%以上PaperBenchの性能が改善し、Ph.Dレベルの専門家と同等程度の水準まで到達できました、という話に見える。
ポイント解説:
[Paper Note] Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?, Chunqiu Steven Xia+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #One-Line Notes #EvolutionaryAlgorithm Issue Date: 2025-11-23 GPT Summary- Live-SWE-agentは、実世界のソフトウェア問題を解決するために、ランタイム中に自律的に自己進化する初のライブソフトウェアエージェントである。最も基本的なエージェントスキャフォールドから始まり、bashツールを用いて自らの実装を進化させる。評価結果では、SWE-bench Verifiedベンチマークで75.4%の解決率を達成し、既存のオープンソースエージェントを上回る性能を示した。さらに、SWE-Bench Proベンチマークでも最良の解決率を記録した。 Comment
github: https://github.com/OpenAutoCoder/live-swe-agent
ReAct方式に追加でself-reflectionを導入することでagentのscaffolding(=ただし、カスタムツールのみ)をbashのみが使える状態から自己進化させる枠組み。
元ポスト:
scaffoldingのスタート地点は同一なので、そういう意味ではapple-to-appceなのかもしれないが、self-improvementの能力が高いモデルの方が有利という側面もありそうなので留意が必要
[Paper Note] EDIT-Bench: Evaluating LLM Abilities to Perform Real-World Instructed Code Edits, Wayne Chi+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #Coding #read-later Issue Date: 2025-11-20 GPT Summary- EDIT-Benchは、LLMのコード編集能力を実際のユーザー指示とコードコンテキストに基づいて評価するためのベンチマークで、540の問題を含む。多様な自然言語とプログラミング言語を用いた実世界のユースケースを提供し、コンテキスト依存の問題を導入。40のLLMを評価した結果、60%以上のスコアを得たモデルは1つのみで、ユーザー指示のカテゴリやコンテキスト情報がパフォーマンスに大きく影響することが示された。 Comment
元ポスト:
[Paper Note] Seer: Online Context Learning for Fast Synchronous LLM Reinforcement Learning, Ruoyu Qin+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #read-later #Selected Papers/Blogs #Off-Policy #On-Policy Issue Date: 2025-11-20 GPT Summary- 強化学習における性能ボトルネックを解消するために、新しいオンラインコンテキスト学習システム「Seer」を提案。Seerは、出力の類似性を活用し、分割ロールアウト、コンテキストに基づくスケジューリング、適応的グループ化推測デコーディングを導入。これにより、ロールアウトの待機時間を大幅に短縮し、リソース効率を向上。評価結果では、エンドツーエンドのロールアウトスループットを74%から97%向上させ、待機時間を75%から93%削減した。 Comment
元ポスト:
[Paper Note] AgentEvolver: Towards Efficient Self-Evolving Agent System, Yunpeng Zhai+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #SelfImprovement #One-Line Notes Issue Date: 2025-11-15 GPT Summary- AgentEvolverは、LLMsを活用した自己進化型自律エージェントシステムで、手作業のデータセット依存を減らし、探索効率とサンプル利用を向上させる3つのメカニズムを導入。初期実験では、従来のRLベースラインよりも効率的な探索と迅速な適応を実現。 Comment
元ポスト:
skim readingしかできていないが、式17を見ると、PRMのようにstep levelで評価をし全体のtrajectoryのrewardをか決定している。テストしているベンチマークはソフトウェアエンジニアリング系のものであるため、verifiableなドメインに限られた評価となっている印象がある。rewardをどれだけverifiableに、あるいは堅牢に定義できるドメインかが重要になる気がする。
たとえば
- [Paper Note] Large Language Monkeys: Scaling Inference Compute with Repeated Sampling, Bradley Brown+, arXiv'24, 2024.07
では、いくつかのverifierを比較しており、LLM-basedなRMではverificationの能力に限界があることが示されている[^1]。
[^1]: この研究ではtest-time scalingの観点での限界を示しているが、self-improve系の話でも同様にverifierの性能は学習のシグナルに直結するため、同様に重要であると考えられる。
[Paper Note] The OpenHands Software Agent SDK: A Composable and Extensible Foundation for Production Agents, Xingyao Wang+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #read-later Issue Date: 2025-11-07 GPT Summary- OpenHands Software Agent SDKは、ソフトウェア開発エージェントを構築するためのツールキットで、柔軟性、信頼性、安全性を兼ね備えた実装を可能にします。シンプルなインターフェースでエージェントを簡単に実装でき、カスタム機能にも対応。ローカルからリモートへの実行ポータビリティや多様なインターフェースを提供し、セキュリティ分析も統合されています。実証結果は強力なパフォーマンスを示し、エージェントの信頼性の高い展開を実現します。 Comment
元ポスト:
blog: https://openhands.dev/blog/introducing-the-openhands-software-agent-sdk
[Paper Note] Training Proactive and Personalized LLM Agents, Weiwei Sun+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#NLP #LanguageModel #UserBased #AIAgents #read-later #Selected Papers/Blogs #interactive Issue Date: 2025-11-06 GPT Summary- 効果的なAIエージェントには、生産性、積極性、パーソナライズの3つの次元を最適化する必要があると主張。LLMベースのユーザーシミュレーター「UserVille」を導入し、PPPというマルチオブジェクティブ強化学習アプローチを提案。実験では、PPPで訓練されたエージェントがGPT-5に対して平均21.6ポイントの改善を達成し、ユーザーの好みに適応しながらタスク成功を向上させる能力を示した。 Comment
AI Agentにおいてユーザとのinteractionを重視し協働することを重視するようなRLをする模様。興味深い。
元ポスト:
[Paper Note] SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution, Yuxiang Wei+, NeurIPS'25, 2025.02
Paper/Blog Link My Issue
#NLP #ReinforcementLearning #AIAgents #Coding #NeurIPS #Selected Papers/Blogs Issue Date: 2025-11-05 GPT Summary- SWE-RLは、強化学習を用いて大規模言語モデル(LLMs)の推論能力を向上させる新しいアプローチで、実世界のソフトウェア工学に焦点を当てています。軽量なルールベースの報酬を活用し、LLMがオープンソースソフトウェアの進化データから学習することで、開発者の推論プロセスを自律的に回復します。Llama3-SWE-RL-70Bは、実世界のGitHub問題において41.0%の解決率を達成し、中規模LLMとしては最高のパフォーマンスを示しました。また、一般化された推論スキルを持ち、複数のドメイン外タスクで改善された結果を示しています。SWE-RLは、ソフトウェア工学データに基づく強化学習の新たな可能性を開きます。 Comment
元ポスト:
ポイント解説:
解説:
[Paper Note] Fundamentals of Building Autonomous LLM Agents, Victor de Lamo Castrillo+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Tutorial #NLP #LanguageModel #AIAgents Issue Date: 2025-10-26 GPT Summary- 本論文では、LLMsを基にしたエージェントのアーキテクチャと実装をレビューし、複雑なタスクの自動化を目指す。主要な構成要素には、知覚システム、推論システム、記憶システム、実行システムが含まれ、これらを統合することで人間の認知プロセスを模倣する高性能なソフトウェアボットの実現を示す。 Comment
元ポスト:
[Paper Note] ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows, Qiushi Sun+, arXiv'25, 2025.05
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #MultiModal #Reasoning #ComputerUse #read-later #Selected Papers/Blogs #VisionLanguageModel #Science Issue Date: 2025-10-26 GPT Summary- 大規模言語モデル(LLMs)を活用したScienceBoardを紹介。これは、科学的ワークフローを加速するための動的なマルチドメイン環境と、169の厳密に検証されたタスクからなるベンチマークを提供。徹底的な評価により、エージェントは複雑なワークフローでの信頼性が低く、成功率は15%にとどまることが明らかに。これにより、エージェントの限界を克服し、より効果的な設計原則を模索するための洞察が得られる。 Comment
元ポスト:
[Paper Note] AsyncHZP: Hierarchical ZeRO Parallelism with Asynchronous Scheduling for Scalable LLM Training, Huawei Bai+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #NLP #LanguageModel #mid-training #PostTraining #Parallelism Issue Date: 2025-10-25 GPT Summary- 非同期階層ゼロ並列処理(AsyncHZP)を提案し、シンプルさとメモリ効率を保ちながら、トレーニング効率を向上。従来のZeROの通信オーバーヘッドを削減し、パラメータや勾配の再シャーディングを適応的に行う。マルチストリーム非同期スケジューリングにより通信と計算を重ね合わせ、メモリの断片化を最小限に抑える。DenseおよびMixture-of-Expertsモデルでの評価により、AsyncHZPが従来のND並列処理を上回る性能を示した。 Comment
元ポスト:
[Paper Note] Scaling Long-Horizon LLM Agent via Context-Folding, Weiwei Sun+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #ReinforcementLearning #AIAgents #read-later #Selected Papers/Blogs #ContextEngineering #DeepResearch #KeyPoint Notes #LongHorizon #ContextRot #ContextFolding Issue Date: 2025-10-18 GPT Summary- 「Context-Folding」フレームワークを提案し、LLMエージェントがサブタスクを処理しつつコンテキストを管理する方法を示す。FoldGRPOを用いた強化学習により、複雑な長期タスクで10倍小さいコンテキストを使用し、従来のモデルを上回る性能を達成。 Comment
pj page: https://context-folding.github.io
元ポスト:
エージェントはロールアウト時にサブタスクを別ブランチで分岐させ、分岐させたブランチは独立したコンテキストを持ち、サブタスクを実行し結果を返す。メインブランチは受け取った結果に対してcontext managerを適用してfoldingしてメインブランチのcontextに加えて処理を続行することで、サブタスクを高い性能で実行しつつ、contextの肥大化を抑える。
これらfoldingを実施するはcontext manager(learnable)やポリシーはFoldGRPOと呼ばれるRLで学習され、
- メインブランチのcontextが肥大しない
- サブタスクがout of scopeとならない
- agenticタスクが失敗しない
となるように設計された報酬によって学習される。
ブランチを分岐し、結果を圧縮してメインブランチのcontextに加えて処理を継続するという一連の操作を、context manager, ポリシーの双方で学習している(どちらもfreezeはしない)。
一方、Kimi-K2.5では、同様な枠組みとしてAgentSwarmが提案されているが、こちらはサブタスクを実施するエージェントのパラメータはfreezeし、サブエージェントを作成し、その結果を集約する処理をOrchestratorと呼ばれるlearnableなモジュールが担っており、サブエージェントからの結果はある種環境からの観測結果として扱われ、タスクの成否はOrchestratorのみに委ねられる点が異なるように見える。
- [Paper Note] Kimi K2.5: Visual Agentic Intelligence, Kimi Team+, arXiv'26, 2026.02
所見:
[Paper Note] Expert-as-a-Service: Towards Efficient, Scalable, and Robust Large-scale MoE Serving, Ziming Liu+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #LLMServing #MoE(Mixture-of-Experts) Issue Date: 2025-10-16 GPT Summary- EaaSという新しいサービングシステムを提案し、Mixture-of-Experts (MoE)モデルの効率的でスケーラブルな展開を実現。MoEモジュールを独立したステートレスサービスに分解し、リソースの細かいスケーリングとフォールトトレランスを提供。実験により、EaaSはモノリシックシステムと同等のパフォーマンスを維持しつつ、スループットの減少を2%未満に抑え、最大37.5%の計算リソースを節約することが確認された。 Comment
元ポスト:
[Paper Note] Kimi-Dev: Agentless Training as Skill Prior for SWE-Agents, Zonghan Yang+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #read-later #Selected Papers/Blogs #reading #KeyPoint Notes #Author Thread-Post Issue Date: 2025-10-02 GPT Summary- 大規模言語モデル(LLMs)のソフトウェア工学(SWE)への応用が進んでおり、SWE-benchが重要なベンチマークとなっている。マルチターンのSWE-Agentフレームワークと単一ターンのエージェントレス手法は相互排他的ではなく、エージェントレストレーニングが効率的なSWE-Agentの適応を可能にする。本研究では、Kimi-DevというオープンソースのSWE LLMを紹介し、SWE-bench Verifiedで60.4%を達成。追加の適応により、Kimi-DevはSWE-Agentの性能を48.6%に引き上げ、移植可能なコーディングエージェントの実現を示した。 Comment
元ポスト:
Agentlessはこちら:
- [Paper Note] Demystifying LLM-based Software Engineering Agents, Chunqiu Steven Xia+, FSE'25, 2024.07
著者ポスト:
ポストの中でOpenhandsが同モデルを内部で検証し、Openhandsの環境内でSWE Bench Verifiedで評価した結果、レポート内で報告されているAcc. 60.4%は達成できず、17%に留まることが報告されていた模様。
Openhandsの説明によるとAgentlessは決められた固定されたワークフローのみを実施する枠組み(Kimi Devの場合はBugFixerとFileEditor)であり、ワークフローで定義されたタスクは効果的に実施できるが、それら以外のタスクはそもそもうまくできない。SWE Agent系のベンチのバグfixの方法は大きく分けてAgentlike(コードベースを探索した上でアクションを実行する形式)、Fixed workflow like Agentless(固定されたワークフローのみを実行する形式)の2種類があり、Openhandsは前者、Kimi Devは後者の位置付けである。
実際、テクニカルレポートのFigure2とAppendixを見ると、File Localization+BugFixer+TestWriterを固定されたプロンプトテンプレートを用いてmid-trainingしており、評価する際も同様のハーネスが利用されていると推察される(どこかに明示的な記述があるかもしれない)。
一方、Openhandsではより実環境の開発フローに近いハーネス(e.g., エージェントがコードベースを確認してアクションを提案→実行可能なアクションなら実行→そうでないならユーザからのsimulated responceを受け取る→Agentに結果をフィードバック→エージェントがアクション提案...)といったハーネスとなっている。
このように評価をする際のハーネスが異なるため、同じベンチマークに対して異なる性能が報告される、ということだと思われる。
単にSWE Bench VerifiedのAcc.だけを見てモデルを選ぶのではなく、評価された際のEvaluation Harnessが自分たちのユースケースに合っているかを確認することが重要だと考えられる。
参考:
- OpenhandsのEvaluation Harness:
https://docs.all-hands.dev/openhands/usage/developers/evaluation-harness
[Paper Note] SWE-QA: Can Language Models Answer Repository-level Code Questions?, Weihan Peng+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#NLP #Dataset #QuestionAnswering #AIAgents #Evaluation #Coding Issue Date: 2025-09-27 GPT Summary- SWE-QAは、ソフトウェアリポジトリ全体を理解し推論するための新しいコード質問応答ベンチマークで、576の高品質な質問-回答ペアを含む。これは、複数のファイルをナビゲートし、ソフトウェアアーキテクチャや長距離のコード依存関係を理解する能力を評価するために設計された。LLMエージェントを用いたプロトタイプSWE-QA-Agentも開発され、実験によりLLMの可能性と今後の研究課題が示された。 Comment
元ポスト:
コードスニペットレベルではなく、リポジトリレベルのコードベースの理解が求められるQAベントマーク
[Paper Note] SWE-bench Multimodal: Do AI Systems Generalize to Visual Software Domains?, John Yang+, ICLR'25
Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #LanguageModel #AIAgents #Evaluation #MultiModal #ICLR #VisionLanguageModel Issue Date: 2025-09-16 GPT Summary- 自律システムのバグ修正能力を評価するために、SWE-bench Mを提案。これは視覚要素を含むJavaScriptソフトウェアのタスクを対象とし、617のインスタンスを収集。従来のSWE-benchシステムが視覚的問題解決に苦労する中、SWE-agentは他のシステムを大きく上回り、12%のタスクを解決した。 Comment
openreview: https://openreview.net/forum?id=riTiq3i21b
[Paper Note] SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents, Ibragim Badertdinov+, NeurIPS'25, 2025.05
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #Coding #NeurIPS #read-later #Contamination-free #Selected Papers/Blogs #Live #Environment Issue Date: 2025-09-06 GPT Summary- LLMベースのエージェントのSWEタスクにおける課題として、高品質なトレーニングデータの不足と新鮮なインタラクティブタスクの欠如が挙げられる。これに対処するため、21,000以上のインタラクティブなPythonベースのSWEタスクを含む公的データセットSWE-rebenchを自動化されたパイプラインで構築し、エージェントの強化学習に適したベンチマークを提供。これにより、汚染のない評価が可能となり、いくつかのLLMの性能が過大評価されている可能性を示した。 Comment
pj page: https://swe-rebench.com
元ポスト:
コンタミネーションのない最新のIssueを用いて評価した結果、Sonnet 4が最も高性能
[Paper Note] GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents, Manish Shetty+, arXiv'25
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Dataset #LanguageModel #AIAgents #Evaluation #Coding Issue Date: 2025-09-03 GPT Summary- 高性能ソフトウェア開発における言語モデルの能力を評価するためのベンチマークGSOを提案。102の最適化タスクを特定する自動化パイプラインを開発し、主要なソフトウェアエンジニアリングエージェントの成功率は5%未満であることを示した。定性的分析により、低レベル言語や最適化戦略の課題が明らかになった。研究の進展のために、ベンチマークのコードとエージェントのデータを公開。 Comment
pj page: https://gso-bench.github.io
ソフトウェアの高速化に関するベンチ
元ポストに掲載されているリーダーボードはどこにあるのだろう。ざっと見た感じ見当たらない。
[Paper Note] NoCode-bench: A Benchmark for Evaluating Natural Language-Driven Feature Addition, Le Deng+, arXiv'25
Paper/Blog Link My Issue
#NLP #Dataset #AIAgents #Evaluation Issue Date: 2025-08-12 GPT Summary- 自然言語駆動のノーコード開発におけるLLMsの評価のために「NoCode-bench」を提案。634のタスクと114,000のコード変更から成り、ドキュメントとコード実装のペアを検証。実験結果では、最良のLLMsがタスク成功率15.79%に留まり、完全なNL駆動のノーコード開発には未だ課題があることが示された。NoCode-benchは今後の進展の基盤となる。 Comment
元ポスト:
リーダーボード: https://nocodebench.org
ドキュメントをソフトウェアの仕様書とみなし、ドキュメントの更新部分をらinputとし、対応する"機能追加"をする能力を測るベンチマーク
SoTAモデルでも15.79%程度しか成功しない。
元ポストによると、ファイルを跨いだ編集、コードベースの理解、tool useに苦労しているとのこと。
[Paper Note] Agent Lightning: Train ANY AI Agents with Reinforcement Learning, Xufang Luo+, arXiv'25
Paper/Blog Link My Issue
#LanguageModel #ReinforcementLearning #AIAgents Issue Date: 2025-08-10 GPT Summary- Agent Lightningは、任意のAIエージェントのためにLLMsを用いたRLトレーニングを可能にする柔軟なフレームワークで、エージェントの実行とトレーニングを分離し、既存のエージェントとの統合を容易にします。マルコフ決定過程としてエージェントの実行を定式化し、階層的RLアルゴリズムLightningRLを提案。これにより、複雑な相互作用ロジックを扱うことが可能になります。実験では、テキストからSQLへの変換などで安定した改善が見られ、実世界でのエージェントトレーニングの可能性が示されました。 Comment
元ポスト:
[Paper Note] SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?, Xinyi He+, arXiv'25
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Dataset #AIAgents #Evaluation Issue Date: 2025-07-18 GPT Summary- コードのパフォーマンス最適化は重要であり、LLMsのリポジトリレベルでの能力は未探求。これに対処するため、SWE-Perfという初のベンチマークを導入。140のインスタンスを用いて、LLMsと専門家の最適化パフォーマンスのギャップを評価し、研究機会を示す。 Comment
元ポスト:
これまでのSWE系のベンチマークはBug Fixなどにフォーカスされてきたが、こちらのベンチマークはソフトウェアのパフォーマンス(i.e., 実行時間)を改善させられるかにフォーカスしているとのこと。
実際にリポジトリからPRを収集し、パッチ前後の実行時間を比較。20回のrunを通じて統計的に有意な実行時間の差があるもののみにフィルタリングをしているとのこと。
Human Expertsは平均10.9%のgainを得たが、エージェントは2.3%にとどまっており、ギャップがあるとのこと。
傾向として、LLMはlow levelなインフラストラクチャ(環境構築, 依存関係のハンドリング, importのロジック)を改善するが、Human Expertsはhigh levelなロジックやデータ構造を改善する(e.g., アルゴリズムや、データハンドリング)。
[Paper Note] Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning, Yinjie Wang+, NeurIPS'25 Spotlight
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Coding #UnitTest #Reference Collection #Author Thread-Post Issue Date: 2025-06-05 GPT Summary- CUREは、コーディングとユニットテスト生成を共進化させる強化学習フレームワークで、真のコードを監視せずにトレーニングを行う。ReasonFlux-Coderモデルは、コード生成精度を向上させ、下流タスクにも効果的に拡張可能。ユニットテスト生成では高い推論効率を達成し、強化学習のための効果的な報酬モデルとして機能する。 Comment
元ポスト:
UnitTestの性能向上させます系の研究が増えてきている感
関連ポスト:
[Paper Note] Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering, Guangtao Zeng+, arXiv'25, 2025.05
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #read-later #Author Thread-Post Issue Date: 2025-06-01 GPT Summary- 言語モデルは標準化されたコーディングのベンチマークでは良好な性能を示すが、実世界のソフトウェア工学タスクには苦戦。特に1000億未満のパラメータ数では顕著で、小型モデルの性能改善は難しい。従来は教師ありファインチューニングに依存し、データ整備には高いコストがかかる。新たなアプローチとしてEvoScaleを提案。これは生成を進化プロセスとして扱い、反復的な出力改善を通じて高スコア領域にシフトさせることで、必要なサンプル数を削減。自己進化するよう強化学習で訓練され、外部検証器に依存せず自らスコアを改善。評価の結果、32BモデルSatori-SWE-32Bは少数のサンプルで1000億超モデルと同等以上の性能を達成。すべてのコード、データ、モデルはオープンソース。 Comment
元ポスト:
[Paper Note] Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures, Chenggang Zhao+, arXiv'25, 2025.05
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Transformer #Attention #LLMServing #Architecture #MoE(Mixture-of-Experts) Issue Date: 2025-05-20 GPT Summary- LLMのスケーリングは、メモリ、計算効率、帯域幅における制約を明らかにした。DeepSeek-V3は、ハードウェアを意識したモデル設計でこれらの課題に対処し、効率的なトレーニングと推論を実現。特に、メモリ効率を向上させるMLA、計算と通信を最適化するMoE、FP8混合精度トレーニング、ネットワークオーバーヘッドを減少させるマルチプレーン・トポロジーが革新のポイント。将来のハードウェア設計に向けた広範な議論を通じて、AIの需要に応えるためのモデル共設計の重要性を強調。 Comment
元ポスト:
[Paper Note] Training Software Engineering Agents and Verifiers with SWE-Gym, Jiayi Pan+, ICML'25
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #ICML #Selected Papers/Blogs #One-Line Notes #Environment Issue Date: 2025-04-02 GPT Summary- SWE-Gymを提案し、2,438件の実世界のPythonタスクを含む環境を構築。言語モデルに基づくSWEエージェントを訓練し、SWE-Benchで最大19%の解決率向上を達成。微調整されたエージェントは新たな最先端の性能を示し、SWE-Gymやモデル、エージェントの軌跡を公開。 Comment
SWE-Benchとは完全に独立したより広範な技術スタックに関連するタスクに基づくSWEベンチマーク
- [Paper Note] SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez+, ICLR'24
SWE-Benchと比べて実行可能な環境と単体テストが提供されており、単なるベンチマークではなくエージェントを訓練できる環境が提供されている点が大きく異なるように感じる。
[Paper Note] Demystifying LLM-based Software Engineering Agents, Chunqiu Steven Xia+, FSE'25, 2024.07
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #AIAgents #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-04-02 GPT Summary- 最近のLLMの進展により、ソフトウェア開発タスクの自動化が進んでいるが、複雑なエージェントアプローチの必要性に疑問が生じている。これに対し、Agentlessというエージェントレスアプローチを提案し、シンプルな三段階プロセスで問題を解決。SWE-bench Liteベンチマークで最高のパフォーマンスと低コストを達成。研究は自律型ソフトウェア開発におけるシンプルで解釈可能な技術の可能性を示し、今後の研究の方向性を刺激することを目指している。 Comment
日本語解説: https://note.com/ainest/n/nac1c795e3825
LLMによる計画の立案、環境からのフィードバックによる意思決定などの複雑なワークフローではなく、Localization(階層的に問題のある箇所を同定する)とRepair(LLMで複数のパッチ候補を生成する)、PatchValidation(再現テストと回帰テストの両方を通じて結果が良かったパッチを選ぶ)のシンプルなプロセスを通じてIssueを解決する。
これにより、低コストで高い性能を達成している、といった内容な模様。
Agentlessと呼ばれ手法だが、preprint版にあったタイトルの接頭辞だった同呼称がproceeding版では無くなっている。
[Paper Note] SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering, John Yang+, arXiv'24, 2024.05
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Evaluation #NeurIPS #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-25 GPT Summary- LMエージェントのパフォーマンスにおけるインターフェースデザインの影響を調査し、ソフトウェアエンジニアリングタスクを解決するためのシステム「SWE-agent」を提案。SWE-agentのカスタムインターフェースは、コード作成やリポジトリナビゲーション、プログラム実行能力を向上させ、SWE-benchとHumanEvalFixで最先端のパフォーマンスを達成。pass@1率はそれぞれ12.5%と87.7%に達し、従来の非インタラクティブなLMを大きく上回る結果を示した。 Comment
SWE bench Verifiedで利用されているハーネスで、mini-SWE-agentと呼ばれるもの
https://github.com/SWE-agent/mini-swe-agent
[Paper Note] Accelerating Large Language Model Training with 4D Parallelism and Memory Consumption Estimator, Kazuki Fujii+, arXiv'24, 2024.11
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #mid-training #PostTraining #read-later #MemoryOptimization Issue Date: 2025-07-16 GPT Summary- 本研究では、Llamaアーキテクチャにおける4D並列トレーニングに対して、メモリ使用量を正確に推定する公式を提案。A100およびH100 GPUでの454回の実験を通じて、一時バッファやメモリの断片化を考慮し、推定メモリがGPUメモリの80%未満であればメモリ不足エラーが発生しないことを示した。この公式により、メモリオーバーフローを引き起こす並列化構成を事前に特定でき、最適な4D並列性構成に関する実証的な洞察を提供する。
[Paper Note] Flex Attention: A Programming Model for Generating Optimized Attention Kernels, Juechu Dong+, arXiv'24, 2024.12
Paper/Blog Link My Issue
#NLP #Transformer #Attention #KeyPoint Notes #Reference Collection Issue Date: 2025-04-06 GPT Summary- FlexAttentionは、アテンションの新しいコンパイラ駆動型プログラミングモデルで、数行のPyTorchコードで多くのアテンションバリアントを実装可能にします。これにより、既存のアテンションバリアントを効率的に実装し、競争力のあるパフォーマンスを達成。FlexAttentionは、アテンションバリアントの組み合わせを容易にし、組み合わせ爆発の問題を解決します。 Comment
- Llama 4 Series, Meta, 2025.04
で利用されているAttention
pytochによる解説:
https://pytorch.org/blog/flexattention/
- Flex AttentionはオリジナルのAttentionのQK/sqrt(d_k)の計算後にユーザが定義した関数score_modを適用する
- score_modを定義することで、attention scoreをsoftmaxをかけるまえに関数によって調整できる
- 多くのattentionの亜種はほとんどの場合この抽象化で対応できる
- score_modはQK tokenの内積に対応するので、QKの情報を受け取り、スカラー値を返せばなんでも良い
- score_modの実装例は元リンク参照
- FA2と比較して(現在のpytorchでの実装上は)Forward Passは90%, Backward Passは85%のスループットで、少し遅いが今後改善予定
元論文より引用。非常にシンプルで、数式上は下記のように表される:
[Paper Note] CoAct: A Global-Local Hierarchy for Autonomous Agent Collaboration, Xinming Hou+, arXiv'24, 2024.06
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #One-Line Notes Issue Date: 2025-04-02 GPT Summary- CoActフレームワークを提案し、LLMに人間社会の協調パターンを適用。グローバル計画エージェントがマクロ計画を策定し、ローカル実行エージェントが具体的なサブタスクを実行。WebArenaベンチマークで、長期的なウェブタスクにおいて従来手法を上回る性能を示した。 Comment
Planningエージェントと実行エージェントを活用するソフトウェアエージェント
ReActより性能向上
- [Paper Note] ReAct: Synergizing Reasoning and Acting in Language Models, Shunyu Yao+, ICLR'23, 2022.10
[Paper Note] SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez+, ICLR'24
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #ICLR #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-04-02 GPT Summary- SWE-benchは、12の人気Pythonリポジトリから得られた2,294のソフトウェアエンジニアリング問題を評価するフレームワークで、言語モデルがコードベースを編集して問題を解決する能力を測定します。評価の結果、最先端の商用モデルや微調整されたモデルSWE-Llamaも最も単純な問題しか解決できず、Claude 2はわずか1.96%の問題を解決するにとどまりました。SWE-benchは、より実用的で知的な言語モデルへの進展を示しています。 Comment
ソフトウェアエージェントの最もpopularなベンチマーク
主にpythonライブラリに関するリポジトリに基づいて構築されている。
SWE-Bench, SWE-Bench Lite, SWE-Bench Verifiedの3種類がありソフトウェアエージェントではSWE-Bench Verifiedを利用して評価することが多いらしい。Verifiedでは、issueの記述に曖昧性がなく、適切なunittestのスコープが適切なもののみが採用されているとのこと(i.e., 人間の専門家によって問題がないと判断されたもの)。
https://www.swebench.com/
Agenticな評価をする際に、一部の評価でエージェントがgit logを参照し本来は存在しないはずのリポジトリのfuture stateを見ることで環境をハッキングしていたとのこと:
これまでの評価結果にどの程度の影響があるかは不明。
openreview: https://openreview.net/forum?id=VTF8yNQM66
[Paper Note] SARATHI: Efficient LLM Inference by Piggybacking Decodes with Chunked Prefills, Amey Agrawal+, arXiv'23
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #python #LLMServing #read-later #Selected Papers/Blogs #Inference #One-Line Notes Issue Date: 2025-06-12 GPT Summary- SARATHIは、LLMの推論効率を向上させる手法で、プレフィルリクエストをチャンクに分割し、デコードマキシマルバッチを構築することで計算利用率を最大化します。これにより、デコードスループットを最大10倍向上させ、エンドツーエンドスループットも改善。特に、A6000 GPU上のLLaMA-13Bモデルで顕著な性能向上を示し、パイプラインバブルを大幅に削減しました。 Comment
vLLMでも採用されている `Chunked Prefills` と `Decode-Maximal Batching` を提案している。

Qwen3.6-27B: Flagship-Level Coding in a 27B Dense Model, Qwen Team, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #OpenWeight #One-Line Notes Issue Date: 2026-04-23 Comment
HF: https://huggingface.co/Qwen/Qwen3.6-27B
元ポスト:
Qwen3.5-397B-A17Bを主要なcodingベンチマークで上回り、同等程度の規模感のdenseモデルを上回る。
プロンプトの再現性をAI に自動チューニングさせる方法 ~ 暗黙知を排除する, mizchi, 2026.04
Paper/Blog Link My Issue
#Article #NLP #AIAgents #Prompting #Blog Issue Date: 2026-04-20 Comment
元ポスト:
nanomem: An Extremely Simple, Inference-Time Memory Module, The Open Anonymity Project, 2026.04
Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #AIAgents #Personalization #Selected Papers/Blogs #Privacy #memory #One-Line Notes Issue Date: 2026-04-19 Comment
github: https://github.com/OpenAnonymity/nanomem
元ポスト:
マークダウン形式でメモリを管理するシンプルな実装で、シンプルながらもさまざまな利点を持つとのこと:
- マークダウンで管理されているためメモリ情報をディレクトリ分けするだけで簡単に分離できる
- ただのテキストファイルなので可用性が高く、ユーザ自身が保持できる
- テキストファイルなのでなので、解釈ができ、ユーザ自身が編集できる
- 前方互換性があり、モデルが賢くなっても同じ方法でメモリを読み込め、モデルの性能が上がるとメモリ自身の性能(スピード、品質)も向上する
- モジュール化が可能で、取り込み、検索、圧縮などを個別に最適化できる
Act I:
- Unlinkable Inference as a User Privacy Architecture, The Open Anonymity Project, 2026.02
PAW: Define functions in English. Run them locally, ProgramAsWeights, 2026.04
Paper/Blog Link My Issue
#Article #LanguageModel #Library #Coding #PEFT(Adaptor/LoRA) #One-Line Notes #Author Thread-Post Issue Date: 2026-04-17 Comment
元ポスト:
英語で説明した機能をNeural Compilerと呼ばれる機構によって、text + Continuous LoRA (Continuous LoRAってなんだ。。。) によってインタプリタを構築し、python関数として利用できる、という感じらしい?
.pawファイルと呼ばれるファイルが作成され、中には
- Discrete pseudo-program: neural compilerによって生成されたtext instructions
- continuous neural adapter: 量子化されたLoRA adapter
が格納されて実行時に利用されるとのこと。完全にローカルで動作させられる。
LoRAを使うということは、事前に関数を実行するbase modelのDLが必要そうだが、どうなのだろうか?.pawファイルの例にも特定のベースモデル名が記載されているように見える。
FrontierSWE: Benchmarking coding agents at the limits of human abilities, FrontierSWE, 2026.04
Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #AIAgents #Evaluation #One-Line Notes #LongHorizon #Author Thread-Post Issue Date: 2026-04-17 Comment
元ポスト:
WAN2.1の推論パイプライン構築、llmのpost-trainingをしてlogic gameができるように学習させる、など、long horizonかつ非常に現実的なタスクで評価される
マルチエージェントシステムでGPUカーネルを38%高速化, Cursor, 2026.04
Paper/Blog Link My Issue
#Article #Multi #NLP #LanguageModel #AIAgents #Coding #GPUKernel #Author Thread-Post #AgentHarness Issue Date: 2026-04-15 Comment
元ポスト:
自律的に長期間稼働し235件の問題を1回の実行で解くマルチエージェントハーネスに関するレポートで、3週間程度でBlackwell GPUカーネルをゼロから構築・最適化し38%高速化とのこと。
The OpenHands Vulnerability Fixer: Automated Security Remediation with AI Agents, Graham Neubig, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #read-later #Security Issue Date: 2026-04-11 Comment
元ポスト:
ハーネスエンジニアリングのすすめ: 27BモデルでSWE-bench VerifiedのSLM SOTAを達成 (TTS@8=74.8%), Fujitsu Tech Blog, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #Test-Time Scaling #One-Line Notes Issue Date: 2026-04-11 Comment
元ポスト:
Best-of-8 SamplingでSWE Benchのスコアを改善する話
MemPalace: The highest-scoring AI memory system ever benchmarked. And it's free, milla-jovovich, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenSource #Selected Papers/Blogs #memory #One-Line Notes Issue Date: 2026-04-07 Comment
元ポスト:
過去の会話履歴に関してrelevantなもののみを保持しておくのではなく、全てを保持し必要に応じて見つけるようなアプローチをとるopensourceな実装で、API, クラウドストレージなどを用いず完全にローカルで動作し、LongMemEvalと呼ばれるベンチマークにおいて100%を達成したとのこと。気になる。
Making RL Fast, Finbarr Timbers, 2026.04
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #PostTraining #Selected Papers/Blogs #reading #Initial Impression Notes #Asynchronous Issue Date: 2026-04-07 Comment
元ポスト:
Olmo3においてpost-trainingのインフラを同期から非同期に変更したことを含めて4倍高速化したことに関して、それをどのように実現したかに関するwrite up。気になる。
Components of A Coding Agent: How coding agents use tools, memory, and repo context to make LLMs work better in practice, Sebastian Raschka, 2026.04
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #AIAgents #Coding #read-later #Selected Papers/Blogs #Initial Impression Notes #AgentHarness Issue Date: 2026-04-05 Comment
LLM, Reasoning Model, Agent, Agent Harness, coding harnessなどの定義とその役割やスコープ、そしてそれらを構成するためのminimalなコンポーネントについて説明されており、基礎的な理解に役立ちそう。
元ポスト:
CuLA, InclusionAI, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #Attention #One-Line Notes #GPUKernel #LinearAttention Issue Date: 2026-04-04 Comment
元ポスト:
Hopper(SM90), Blackwell(SM10X)において、flash-linear-attention(FLA)よりも最大2.45倍、平均1.52倍速いlinear attention kernelらしい
GPU Memory Math for LLMs (2026 Edition), Ahmad, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Initial Impression Notes Issue Date: 2026-04-04 Comment
様々な量子化や浮動小数点フォーマット、パラメータ数やMoEの場合などにおける、VRAM消費量に関する考え方について解説されている
Claude Code's source code leaked through a `.map` file - How bad is it, really?, Chubby, 2026.04
Paper/Blog Link My Issue
#Article #Post #AgentHarness Issue Date: 2026-04-01 Comment
元ポスト:
あらら、、、
リアルタイムRLでComposerを改善する, Cursor, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Blog #Coding #KeyPoint Notes #Realtime Issue Date: 2026-03-28 Comment
実際の推論トークンとユーザの応答を集約して報酬を作成しモデルの改善に使うリアルタイムRLによって5時間ごとにComposerチェックポイントをアップデートしデプロイする。
Reward Hackingを防ぐことはこのようなリアルタイムRLではより一層重要でそのための報酬設計として工夫した点が2つ挙げられている。
- 元々はツール呼び出しが無効だった例を除外するようにして報酬を設計していたが、モデルはこれにより無効なツールを呼び出せば負の報酬を得ないことを学び意図的に無効なツールを呼び出すことを学習した。これを防ぐために、ツール呼び出しに失敗した場合に明確に負の報酬を与えるように変更
- モデルが実施した編集について、自分がコードを編集しなければペナルティを受けないことを学習し、難しい編集については質問をすることで先送りする挙動をRewardHackingの結果学習した。質問については適切なタイミングで実施する必要があるため、報酬を修正した
といった話が書かれている。
現在は比較的短いタスクを実行してユーザからフィードバックを受け取れるが、今後はlong horizonなタスクを実行することが予想され、その場合
- ユーザのフィールドバックの頻度は減り
- 成果物全体に対するフィードバックを返すようになる
という異なる性質のデータを扱わなければならないのでそれに向けて改善を進めるとのこと。
ソフトウェア開発エージェント 初歩から上級, Graham Neubig, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #read-later Issue Date: 2026-03-26 Comment
全体をざっくり概観してイメージをつかむのに良さそう。詳細を知りたい場合はリンク先を見ると良さげ。
(スライド最後の強化学習における「3」のスケーリングってなんだろう...?)
元ポスト:
Composer 2 のご紹介, Cursor, 2026.03
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #AIAgents #Evaluation #Coding #mid-training #PostTraining #read-later #Selected Papers/Blogs #ContextEngineering #Live #Reference Collection #Initial Impression Notes Issue Date: 2026-03-20 Comment
元ポスト:
所見:
Kimi-K2.5がベースらしいとのこと:
ベンチマークスコアに対する所見:
テクニカルレポートが出た:
https://cursor.com/resources/Composer2.pdf
元ポスト:
Kimi-K2.5をベースに、どのようにinstruction tuning後のモデルに対して継続事前学習、RLをし、GPT-5.4(high)級の性能を達成できたのか、ヒントがわかるかもしれない。
- [Paper Note] Kimi K2.5: Visual Agentic Intelligence, Kimi Team+, arXiv'26, 2026.02
所見:
所見:
RLによってpass@k(best-of-16)とpass@1の両方が改善する。既存研究では少なくともRLVRを用いた場合はPass@1は改善するが多様性が損なわれてPass@kの性能は改善しない ([Paper Note] Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR, Xiao Liang+, arXiv'25, 2025.08 , VibeVoice-1.5B, microsoft, 2025.08 )、という話があったが、Composer 2のレシピではそうではないようだ。どんなレシピだろう~と思ってさらっと関連しそうなところを見てみたが、詳細は書いてなさそうだ。
- [Paper Note] Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR, Xiao Liang+, arXiv'25, 2025.08
- VibeVoice-1.5B, microsoft, 2025.08
QA:
CursorBenchの解説:
要はrealisticなデータとシチュエーションでの評価に非常に重きを置いていて
- 実際のコーディングsessionのデータが用いられ、contamination-free
- 機能的な正しさのみならず、コードの品質、効率、挙動などの実用的な価値を意識し
- long horizonなタスクが多く取り入れられ
- Promptは曖昧性をうまく扱えるかを評価するために意図的にシンプルで短く
- CursorBenchのデータは継続的に更新される
- realisticなsessionデータだけでなく、その他の重要な挙動の評価(e.g., 指示追従, ルール/skilltのハンドリング, コメントの品質, editするか否かの判断の適切性など)のためのデータでも拡張されている
という感じらしい
ポイント解説:
- How Kimi, Cursor, and Chroma Train Agentic Models with RL, PHILSCHMID, 2026.03
self-summarizationによるcontextのcompressionを実施している
- [Paper Note] InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning, Yuchen Yan+, arXiv'26, 2026.02
- [Paper Note] Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL, Ian Wu+, arXiv'26, 2026.02
- より長いホライズンに向けた Composer の学習, Cursor, 2026.03
所見:
5 Agent Skill design patterns every ADK developer should know, Google Cloud Tech, X, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Post #Selected Papers/Blogs #One-Line Notes #AgentSkills Issue Date: 2026-03-18 Comment
Agent Skillsの定義の仕方による性能差については下記を参照のこと:
- [Paper Note] SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks, Xiangyi Li+, arXiv'26, 2026.02
以下の5つのPatternが紹介されている:
- Tool Wrapper
- Generator
- Reviewer
- Inversion
- Pipeline
最終的にどのようなPatternを採用すべきかの判断となるフローチャートも提供されている。
全体的なポイントとしては、
- 各種SKILLS.mdにはhowを記述し(e.g., 具体的な実行のstepを記述するなど)、
- 実行内容やルールなどの"what"に関する情報は別のドキュメントに移譲し、SKILLS.mdにはそのポインタを記述する、
- ユーザの承認なしで先へ進まないようにするには、ユーザに何らかの質問・承認を求めるよう指示を明示的に記述する
といった作法である。一つの巨大で複雑なSKILLS.mdやsystem promptを作るのではなく、内容をbreak downして記述やドキュメントの構造を設計するのが肝要と感じる。
他の参考文献として
-
# Writing a good CLAUDE.md, Kyle, 2025.11
はAGENTS.mdの話だが、同じような議論がされており、なぜless is moreが重要なのかといった説明も研究動向を踏まえながら説明されている。
A2UI, google, 2026.03
Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #AIAgents #One-Line Notes #UI Issue Date: 2026-03-15 Comment
元ポスト:
AgentがUIを表現するための標準的なライブラリ群で、agentから応答されるjsonをクライアント側のライブラリでrenderingすることでUIがレンダリング可能というものらしい。
UIはコンポーネントのリストで表現されるためユーザのリクエストに応じてincrementalにUIを変化させる といったことが可能とのこと。
Bringing Code Review to Claude Code, Anthropic, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #read-later Issue Date: 2026-03-12 Comment
元ポスト:
コードレビューに特化した機能が追加された模様
Anthropic社内で運用済みで、エンジニアがコードレビューに誤りがあると判断したものは<1%とのこと。
Practical Guide to Evaluating and Testing Agent Skills, PHILSCHMID, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #Coding #read-later #AgentSkills Issue Date: 2026-03-06 Comment
元ポスト:
関連:
- How to Create Effective Agent Skills, openhands, 2026.02
TAKT, nrslib, 2026.01
Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #AIAgents #Repository #Coding Issue Date: 2026-03-01 Comment
色々使ってみたいなぁ(小並感)
元ポスト:
Coding agents progress over the past two months, Andrej Karpathy, X, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #Post #Reading Reflections Issue Date: 2026-02-28 Comment
やっぱ英語で指示ださないとあかんか...(小並感)
関連:
LLM/VLA等の学習ライブラリ回りでは、人間が細かく実装方針分析を指示した上で、実装部分のみを移譲すると今のところ一番うまくいくとのこと。
CoderForge-Preview: SOTA open dataset for training efficient coding agents, together.ai, 2026.02
Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #Blog #Coding #read-later #Selected Papers/Blogs Issue Date: 2026-02-28 Comment
元ポスト:
The third era of AI software development, Michael Turuell, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #Post #read-later Issue Date: 2026-02-28
AdderBoard, anadim, 2026.02
Paper/Blog Link My Issue
#Article #MachineLearning #Transformer #Repository #Mathematics #Selected Papers/Blogs Issue Date: 2026-02-28 Comment
10桁の加算を実現するtransformerを実現するレースが実施されている模様。もともとはClaude Code, Codexがそれぞれ6k, 1.6kパラメータからスタートしたところ、現在は人間が(おそらく重みを)手書きした139 params, 学習によって実現された311 paramsまで効率化が進んでいる模様。
ルールは
- self-attention-basedなDecoder-only transformerを利用すること
- 10Kのheld out セットにおいて>=99%以上のAccを実現すること
- アルゴリズムのハードコーディングは不可
という感じな模様。
>Self-attention is required. The model must contain at least one self-attention layer. This is the defining feature of a transformer — without it, you have an MLP or RNN, not a transformer.
と書かれているので、linear attentionは実質RNNのようなものなので、linear attentionのような亜種はおそらく不可であり、オリジナルで提案されているself-attentionが必要そうである。
prime-lab-trainer, abideenml, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #AIAgents #Repository #ExperimentManagement #AgentSkills Issue Date: 2026-02-28 Comment
- Introducing Lab: The Full-Stack Platform for Training your Own Models, Prime Intellect, 2026.02
に対して任意のHF Datasetを用いて自動的にRLによるモデルの学習をsubmit可能なClaude Code skillとのこと。
元ポスト:
New in Claude Code: Remote Control, Anthropic, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #Post Issue Date: 2026-02-27 Comment
スマホからターミナルのClaude Codeに対してリモートで制御が可能になったらしい
Why SWE-bench Verified no longer measures frontier coding capabilities, OpenAI, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Evaluation #Blog #Coding #Selected Papers/Blogs #One-Line Notes #Contamination Issue Date: 2026-02-24 Comment
元ポスト:
SWE-Bench Verifiedはpublicなリポジトリに基づいたベンチマークなのでcontaminationが生じやすく、実際にいくつかのモデルでcontaminationが確認されたと言う話と、testコードに本来は正しい実装でもfailedとなる許容するスコープが狭いテストが存在していた、という話で、これらの教訓を生かしたSWE-Bench Proを作成し、実際それはcontaminationがほとんど起きておらず、仮に起きていたとしても非常にマイナーなものだよ、というような話が書かれている。
SWE-fficiency: Evaluating How to Fix Code, Not Just What to Fix, OpenHands, 2026.02
Paper/Blog Link My Issue
#Article #Metrics #NLP #LanguageModel #AIAgents #Evaluation #Coding #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2026-02-17 Comment
元ポスト:
既存のAI Agentsのベンチマークは、バグを修正することに特化しており(what to fix)、機能的には正しいが高速化が必要といった効率性や最適化の観点(how to fix)が評価から抜けているので、そのためにSpeedup Ratioと呼ばれる人間の専門家に対してどの程度の高速化を達成できたかを測るmetricとそのためのベンチマークSWE-ffiencyを構築。SWE-fficiencyはnumpy, pandas, sklearnなどの9つの主要なリポジトリにおける498のタスクで構成される。評価の結果、Claude Opus 4.5をOpenhandsのハーネスで駆動させだ場合でも人間のエキスパートに対して0.225倍程度の高速化しか実現できないことがわかった、といった話な模様。
Introducing GPT‑5.3‑Codex‑Spark: An ultra-fast model for real-time coding in Codex, OpenAI, 2026.02
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #AIAgents #Blog #Coding Issue Date: 2026-02-13 Comment
元ポスト:
所見:
Gemini 3 Deep Think: Advancing science, research and engineering, Google, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #Reasoning #Mathematics #Proprietary #Science Issue Date: 2026-02-13 Comment
まずはUltra Subscriberに公開し、その後徐々にAPIアクセスを解禁していくとのこと。
LiveCodeBench:
MiniMax M2.5: SOTA in Coding and Agent, designed for Agent Universe, MiniMax, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #Coding #OpenWeight #Selected Papers/Blogs Issue Date: 2026-02-13 Comment
元ポスト:
OsenHands IndexでClaude Sonnet 4.5超えの初めてのOpenWeightモデル:
コストパフォーマンスにおいては、低コストなモデル群の中では抜きん出た性能
まだHF上にWeightは公開されていないようだが後ほど公開されると思われる。
所見:
weightが公開:
https://huggingface.co/MiniMaxAI/MiniMax-M2.5
元ポスト:
UnslothがGGUF版を公開:
A2A: The Agent2Agent Protocol, DeepLearning.AI, 2026.02
Paper/Blog Link My Issue
#Article #Multi #Tutorial #NLP #LanguageModel #AIAgents #Video #A2A Issue Date: 2026-02-13 Comment
元ポスト:
元ポスト:
Harness engineering: leveraging Codex in an agent-first world, Ryan Lopopolo, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #GenerativeAI #Blog #Coding #One-Line Notes Issue Date: 2026-02-12 Comment
OpenAI社内でのコードを1行も人間が書かないで製品をリリースする取り組みに関する詳細なレポートのようである。初期の設計などで想像以上に時間がかかってしまった点(これはCodexの能力の問題ではない)や、実装を続ける中で品質に責任を持つ人間の能力(というより時間)がボトルネックになっていったため、極力Codexが自律的に品質管理ができるような実行・検証環境を用意することで負担を低減した話や、Codexに膨大なマニュアルを読ませて処理をさせるのではなく、どこにどのような情報が格納されているのかといったマップ(目次)を与えることがコンテキストエンジニアリング上重要だったことなどを通じてエージェントにとってリポジトリ全体の可読性を高めることが重要だったといった話や、プロジェクトの期間が長引くにつれて、リポジトリ内に共有されていないcontextが増大していき、それらをリポジトリに統合する作業が生じるなどの課題も生じたといったような話など色々と書かれている。
Composer 1.5 のご紹介, Cursor Team, 2026.02
Paper/Blog Link My Issue
#Article #NLP #ReinforcementLearning #AIAgents #GenerativeAI #Blog #Coding #PostTraining #One-Line Notes #Scalability Issue Date: 2026-02-10 Comment
事前学習モデルに対して、RLをさらにスケールさせることで性能が継続的に向上し、自己要約能力も備えさせることでcontext windowの問題に対処しているとのこと。
(関連)Composer: 強化学習で構築する高速フロンティアモデル:
https://cursor.com/ja/blog/composer
Opus 4.6, Codex 5.3, and the post-benchmark era, Interconnects, 2026.02
Paper/Blog Link My Issue
#Article #Analysis #LanguageModel #AIAgents #Blog #Coding #One-Line Notes #Author Thread-Post Issue Date: 2026-02-10 Comment
有識者によるClaude 4.6 Opus と Codex 5.3 を利用した際の所見(定性評価)が記述されている。
元ポスト:
著者によるTLDR:
Building a C compiler with a team of parallel Claudes, Anthropic, 2026.02
Paper/Blog Link My Issue
#Article #Multi #LanguageModel #AIAgents #Blog #Coding #read-later #Selected Papers/Blogs Issue Date: 2026-02-06 Comment
元ポスト:
Introducing GPT-5.3-Codex: Expanding Codex across the full spectrum of professional work on a computer, OpenAI, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #Proprietary #Selected Papers/Blogs #Reference Collection Issue Date: 2026-02-06 Comment
元ポスト:
terminal bench 2.0でOpus 4.6超え:
所見:
Advancing finance with Claude Opus 4.6, Anthropic, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Financial #Proprietary #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2026-02-06 Comment
元ポスト:
全体的に能力が向上しているが、ターミナルでのコーディング、BrowseComp(Agentic search), HLE, Financial Analysis, GDPValにおけるOffice Task, Novel Problem Solvingの能力が大きく向上しているように見える。
Context Windowが1Mとのことで素晴らしい
OpenHands Indexでトップとのことだが、Codex 5.3との比較はまだの模様:
50% time horizonが脅威の14.5時間:
How AI assistance impacts the formation of coding skills, Anthropic, 2026.01
Paper/Blog Link My Issue
#Article #Analysis #Education #AIAgents #Coding #read-later #KeyPoint Notes Issue Date: 2026-01-30 Comment
コーディングエージェントを使うことによる新しいスキルの習熟に対する影響の調査。エージェントを使ったグループは平均的に早く仕事を終えたが、その後のクイズによる習熟度のテストでは17パーセント低いスコアとなりエージェントを使わなかったグループと比較して習熟度に差が生まれた。しかしエージェントを使って早く終えたにも関わらず習熟度も相対的に低くならなかった人々がいて、そのような人たちはただエージェントに頼るのではなく、コードのコンセプトや理解をするための質問を投げかけている、といった使い方に関する違いが見受けられた、といった話に見える。
Introducing the OpenHands Index, OpenHands, 2026.01
Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #AIAgents #Evaluation #Blog #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2026-01-30 Comment
元ポスト:
SWE Bench(pythonプログラムリポジトリに対するissueを解決するタスク)がSWE関連の代表的なベンチマークだがこれらはソフトウェアエンジニアリングのサブタスクの一つしか反映しておらず、より多くのタスクの解決能力でSWE Agentの能力を評価し、かつコストの軸でも評価をしてどのモデルがパレート最適なものなのかを見つけられるようなindexを作って評価しました、という話に見える。
タスクとしては以下の5つをピックしているとのこと:
> 1. Issue Resolution
> 2. Frontend Development
> 3. Greenfield Development
> 4. Software Testing
> 5. Information Gathering
これらのタスクを総合的に評価するとClaude 4.5 Opusが最も性能が高くコストも高い。次点でGPT-5.2-Codexという結果。またコストが最も安く平均的な性能が高いモデルとしてはDeepSeekV3.2-Reasonerとなった。また、特定のタスク、たとえばGreenfield developmentではGPT-5.2-Codexの性能が抜きん出ているなど、個別のタスクで見るとモデル間の優劣がはっきりと見えるような結果になっている。
以下のモデルが追加:
Claude 4.6 Opus
GPT 5.2 Codex
Kimi K2.5
GLM-4.7
MiniMax M2.5
Open Coding Agents: Fast, accessible coding agents that adapt to any repo, Ai2, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #read-later Issue Date: 2026-01-29 Comment
開発者の方のブログ:
https://timdettmers.com/2026/01/27/building-open-coding-agent-sera/
HF:
https://huggingface.co/collections/allenai/open-coding-agents
14Bモデルリリース:
A few random notes from claude coding quite a bit last few weeks., Andrej Karpathy, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #Post Issue Date: 2026-01-27
MCP is Not the Problem, It's your Server: Best Practices for Building MCP Servers, PHILSCHMID, 2026.01
Paper/Blog Link My Issue
#Article #LanguageModel #Infrastructure #MCP #AgentSkills Issue Date: 2026-01-22 Comment
元ポスト:
MCPサーバ構築に関するベストプラクティスが記載されている模様。
Pocket Flow: 100-line LLM framework. Let Agents build Agents, The-Rocket, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #AIAgents #python #read-later #Selected Papers/Blogs #MinimalCode Issue Date: 2026-01-19 Comment
元ポスト:
たったの100行で実現されるミニマルなAI Agent/LLMフレームワークで、9種類の抽象化(Node, Flow, Shared, ...)でchat, agent, workflow, RAG, MCP, A2Aなどの様々なLLMをベースとした機能を実装できるフレームワークな模様。コード読みたい
OctoCodingBench, MiniMaxAI, 2026.01
Paper/Blog Link My Issue
#Article #NLP #Dataset #AIAgents #Evaluation #Coding Issue Date: 2026-01-16 Comment
元ポスト:
FrogMini-14B-2510, Microsoft, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #Coding #OpenWeight #One-Line Notes Issue Date: 2026-01-16 Comment
元ポスト:
strong modelから合成されたbug fixのtrajectoryでSFTすることで小規模モデルでSWE Benchの性能改善
SETA: Scaling Environments for Terminal Agents, CAMEL-AI, 2026.01
Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #ReinforcementLearning #AIAgents #SyntheticData #Evaluation #Blog #Repository #PostTraining Issue Date: 2026-01-12 Comment
元ポスト:
HF: https://huggingface.co/datasets/camel-ai/seta-env
GitHubのreadmeに日本語がある!?
Production-Grade Agentic AI System, FareedKhan-dev, 2025.12
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #AIAgents #read-later Issue Date: 2026-01-03 Comment
元ポスト:
IQuest-Coder, IQuestLab, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Coding #OpenWeight Issue Date: 2026-01-01 Comment
元ポスト:
Today's conversations about AI-assisted programming are strikingly similar to those from decades ago about the choice between low-level languages like C versus high-level languages like Python, Arvind Narayanan, 2025.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #Post Issue Date: 2025-12-31
LLMRouter: An Open-Source Library for LLM Routing, Feng+, 2025.12
Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #Library #python #Routing Issue Date: 2025-12-30 Comment
元ポスト:
mini-sglang: A compact implementation of SGLang, designed to demystify the complexities of modern LLM serving systems, sgl-project, 2025
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #python #Repository #LLMServing #read-later #Selected Papers/Blogs #MinimalCode Issue Date: 2025-12-28 Comment
元ポスト:
めっちゃ勉強したい
GLM-4.7: Advancing the Coding Capability, Z.ai, 2025.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #Reasoning #OpenWeight #One-Line Notes #Reference Collection Issue Date: 2025-12-25 Comment
元ポスト:
HF: https://huggingface.co/zai-org/GLM-4.7
デザインアリーナでtop2:
Artificial Intelligence Indexにおいて、OpenModelの中でトップ:
GLM-4.6と比較して、コーディング/SWE, reasoning, tooluseなどの能力が大幅に向上
Interleaved Thinking, Preserved Thinking, Turn-level Thinkingの3つの特性がある。
Interleaved Thinkingは全てのレスポンスとtool callingの前にreasoningを挟むことで、IFや生成品質を向上。
Preserved Thinkingは過去のターンの全てのthinking blockのトークンを保持し、再計算もしないのでマルチターンでの一貫性が増す。
Turn-level Thinkingはターンごとにreasoningを実施するか否かをコントロールでき、latency/costを重視するか、品質を重視するかを選択できる、といった特徴がある模様。
モデルサイズは358B
OpenHands trajectories with Qwen3 Coder 480B, Nebius blog, 2025.12
Paper/Blog Link My Issue
#Article #Dataset #LanguageModel #ReinforcementLearning #AIAgents #Blog #Coding #Reasoning #PostTraining Issue Date: 2025-12-24 Comment
元ポスト:
A2UI: A Protocol for Agent-Driven Interfaces, Google, 2025
Paper/Blog Link My Issue
#Article #ComputerVision #Tools #NLP #AIAgents #VisionLanguageModel #One-Line Notes Issue Date: 2025-12-22 Comment
AI Agent (Gemini)を用いてUIを自動生成できるツールらしい
元ポスト:
Performance Hints, Jeff Dean+, 2025.12
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Coding #Selected Papers/Blogs #reading Issue Date: 2025-12-21 Comment
元ポスト:
Devstral2 Mistral Vibe CLI State-of-the-art, open-source agentic coding models and CLI agent., Mistral AI, 2025.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #OpenWeight Issue Date: 2025-12-10 Comment
SWE Bench VerifiedでOpenweightモデルの中ではSoTAと同等程度を達成。123B, 24Bの2種類がリリース。DeepSeekV3.2, Kimi K2よりも大幅に小さいパラメータで同等以上の性能。独自の人手評価(win, tie, loseのアリーナ形式)によるとSonnet 4.5には負けるがDeepSeekV3.2とは同等以上の割合で好まれた。
元ポスト:
Distributed Inference Serving - vLLM, LMCache, NIXL and llm-d, Mikiya Michishita, 2025.06
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #LLMServing #Slide #read-later #Selected Papers/Blogs Issue Date: 2025-11-20 Comment
元ポスト:
vLLM, paged attention, prefix caching, continuous batching, 分散環境でのKV Cacheの共有, ...おおお、、読まねば
Introducing Google Antigravity, a New Era in AI-Assisted Software Development, Google, 2025.11
Paper/Blog Link My Issue
#Article #LanguageModel #AIAgents #GenerativeAI #Blog #Proprietary Issue Date: 2025-11-19 Comment
元ポスト:
google謹製のAI Agent FirstなIDE、らしい
ParallelKittens: Simple and Fast Multi-GPU AI Kernels, Hazy Research, 2025.11
Paper/Blog Link My Issue
#Article #Blog #read-later #GPUKernel Issue Date: 2025-11-18 Comment
元ポスト:
読みたい
LLM開発の裏で行われるデバッグ作業: PyTorch DCP, Kazuki Fujii, 2025.11
Paper/Blog Link My Issue
#Article #LanguageModel #Blog #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-14 Comment
元ポスト:
関連:
- [Tips] PyTorchをself buildしてinstallする方法, Kazuki Fujii, 2025.03
- [Tips] PyTorchにおける動的リンク, Kazuki Fujii, 2025.05
自分たちの環境と目的を考えた時に、複数の選択肢を列挙し、それぞれの利点と欠点を明文化した上で最適なものを選択する。そしてそれを実現する上で見つかった挙動のおかしな部分について、怪しい部分にあたりをつけて、仮説を立てて、中身を確認し、時には一度問題ないと判断した部分にも立ち返りさらに深掘りし、原因を明確にする、といったデバッグ作業(の一つのケース)について詳述されている。
Introducing SWE-1.5: Our Fast Agent Model, Cognition, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Proprietary Issue Date: 2025-10-30 Comment
元ポスト:
windsurfから利用可能とのこと
Production RAG: what I learned from processing 5M+ documents, Abdellatif Abdelfattah, 2025.10
Paper/Blog Link My Issue
#Article #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2025-10-23 Comment
元ポスト:
FlashInfer-Bench: Building the Virtuous Cycle for AI-driven LLM Systems, FlashInfer Community, 2025.10
Paper/Blog Link My Issue
#Article #NeuralNetwork #MachineLearning #Dataset #Transformer #AIAgents #Evaluation #GPUKernel Issue Date: 2025-10-22 Comment
元ポスト:
GPUカーネルのエージェントによる自動最適化のためのベンチマークとのこと。
Harnessを利用してLLMアプリケーション評価を自動化する, LINEヤフー テックブログ, 2024.12
Paper/Blog Link My Issue
#Article #LanguageModel #MLOps #AIAgents #Blog Issue Date: 2025-10-13
supermemory, supermemoryai, 2025.10
Paper/Blog Link My Issue
#Article #NLP #AIAgents #Personalization #Repository #API #memory Issue Date: 2025-10-13
Shipping with Codex, OpenAI, 2025.10
Paper/Blog Link My Issue
#Article #NLP #AIAgents #GenerativeAI #Coding #Video #One-Line Notes Issue Date: 2025-10-12 Comment
元ポスト:
OpenAI内部で92%の技術スタッフがdailyで利用している、というマーケティングメッセージが非常に強力で、説得力を持たせていると感じる。
Argo Workflows, Argo Project, 2017.11
Paper/Blog Link My Issue
#Article #MLOps Issue Date: 2025-10-10
terminal-bench: a benchmark for ai agents in terminal environments, laude-institute,
Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #AIAgents #Evaluation Issue Date: 2025-10-07 Comment
元ポスト:
Anatomy of a Modern Finetuning API, Benjamin Anderson, 2025.10
Paper/Blog Link My Issue
#Article #MachineLearning #Supervised-FineTuning (SFT) #Blog #PEFT(Adaptor/LoRA) #KeyPoint Notes Issue Date: 2025-10-06 Comment
関連:
- Tinker is a training API for {developers, builders, researchers}, THINKING MACHINES, 2025.10
2023年当時のFinetuningの設計について概観した後、TinkerのAPIの設計について説明。そのAPIの設計のstepごとにTinker側にデータを送るという設計について、一見すると課題があることを指摘(step単位の学習で数百msの通信オーバヘッドが生じて、その間Tinker側のGPUは待機状態になるため最大限GPUリソースを活用できない。これは設計ミスなのでは・・・?という仮説が成り立つという話)。が、仮にそうだとしても、実はよくよく考えるとその課題は克服する方法あるよ、それを克服するためにLoRAのみをサポートしているのもうなずけるよ、みたいな話である。
解決方法の提案(というより理論)として、マルチテナントを前提に特定ユーザがGPUを占有するのではなく、複数ユーザで共有するのではないか、LoRAはadapterの着脱のオーバヘッドは非常に小さいのでマルチテナントにしても(誰かのデータの勾配計算が終わったらLoRAアダプタを差し替えて別のデータの勾配計算をする、といったことを繰り返せば良いので待機時間はかなり小さくなるはずで、)GPUが遊ぶ時間が生じないのでリソースをTinker側は最大限に活用できるのではないか、といった考察をしている。
ブログの筆者は2023年ごろにFinetuningができるサービスを展開したが、データの準備をユーザにゆだねてしまったがために成功できなかった旨を述べている。このような知見を共有してくれるのは大変ありがたいことである。
Effective context engineering for AI agents, Anthropic, 2025.09
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #AIAgents #read-later #Selected Papers/Blogs #ContextEngineering #One-Line Notes Issue Date: 2025-10-04 Comment
元ポスト:
AnthropicによるContextEngineeringに関するブログ。
ざーっとみた感じ基礎的な定義からなぜ重要なのか、retrievalの活用、longnhorizon taskでの活用、compaction(summarization)など、幅広いトピックが網羅されているように見える。
最新サーベイはこちら
- [Paper Note] A Survey of Context Engineering for Large Language Models, Lingrui Mei+, arXiv'25
所見:
How to Fix Your Context, dbreunig.com, 2025.07
Paper/Blog Link My Issue
#Article #DocumentSummarization #InformationRetrieval #NLP #AIAgents #Pruning #RAG(RetrievalAugmentedGeneration) #Blog #ContextEngineering Issue Date: 2025-09-28 Comment
Context Poisoning, Context Distraction, Context Confusion,
Context Clashの定義とそれらの対処法について書かれている。後ほど追記する
We reverse-engineered Flash Attention 4, Modal Blog, 2025.09
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #Attention #Blog #One-Line Notes Issue Date: 2025-09-28 Comment
元ポスト:
Flash Attention4は数学的なトリックよりも非同期処理の複雑なパイプライン、Blackwellに最適化、とのこと
OpenHands PR Arena, neulab, 2025.09
Paper/Blog Link My Issue
#Article #Dataset #AIAgents #Evaluation #Repository #Coding #Selected Papers/Blogs Issue Date: 2025-09-04 Comment
元ポスト:
実際に存在するIssueにタグ付けすることで、リアルタイムに複数LLMによってPRを作成(API callはOpenHandswが負担する)し、ユーザは複数LLMの中で良いものを選択する、といったことができる模様?リーダーボードも将来的に公開するとのことなので、実際にユーザがどのモデルのoutputを選んだかによって勝敗がつくので、それに基づいてランキング付けをするのだろうと推測。興味深い。
運用して初めてわかったDevinのセキュリティ課題 - Devin Meetup Tokyo 2025, 株式会社メルカリHiroki Akamatsu, 2025.07
Paper/Blog Link My Issue
#Article #AIAgents #Coding #Slide #Sequrity Issue Date: 2025-07-26
Python Template for Claude Code (Cookiecutter), zerebom, 2025.07
Paper/Blog Link My Issue
#Article #AIAgents #project_template #python #Coding Issue Date: 2025-07-26 Comment
元ポスト:
anycoder, akhaliq, 2025.07
Paper/Blog Link My Issue
#Article #LanguageModel #Coding Issue Date: 2025-07-25 Comment
こんなことができる模様。サイトのリニューアルに使ってみようかしら、、、
LLM Servingを支える技術, Kotoba Technologies, 2025.07
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #LLMServing #read-later #Selected Papers/Blogs Issue Date: 2025-07-22 Comment
こちらも参照のこと:
- LLM推論に関する技術メモ, iwashi.co, 2025.07
LLM推論に関する技術メモ, iwashi.co, 2025.07
Paper/Blog Link My Issue
#Article #Tutorial #Metrics #NLP #LanguageModel #LLMServing #MoE(Mixture-of-Experts) #Selected Papers/Blogs #Parallelism #Inference #Batch Issue Date: 2025-07-21 Comment
```
メモリ (GB) = P × (Q ÷ 8) × (1 + オーバーヘッド)
- P:パラメータ数(単位は10億)
- Q:ビット精度(例:16、32)、8で割ることでビットをバイトに変換
- オーバーヘッド(%):推論中の追加メモリまたは一時的な使用量(例:KVキャッシュ、アクティベーションバッファ、オプティマイザの状態)
```
↑これ、忘れがちなのでメモ…
関連(量子化関連研究):
- [Paper Note] AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration, Ji Lin+, MLSys'24
- SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models, Guangxuan Xiao+, ICML'23
- [Paper Note] GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers, Elias Frantar+, ICLR'23, 2022.10
すごいメモだ…勉強になります
Amazon S3 Vectorsで激安RAGシステムを構築する, とすり, 2025.07
Paper/Blog Link My Issue
#Article #AWS #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2025-07-17 Comment
元ポスト:
論文では語られないLLM開発において重要なこと Swallow Projectを通して, Kazuki Fujii, NLPコロキウム, 2025.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #Slide #Japanese #Selected Papers/Blogs Issue Date: 2025-07-16 Comment
独自LLM開発の私の想像など遥かに超える非常に困難な側面が記述されており、これをできるのはあまりにもすごいという感想を抱いた(小並感だけど本当にすごいと思う。すごいとしか言いようがない)
advanced-mcp-features, epicweb-dev, 2025.06
Paper/Blog Link My Issue
#Article #Tutorial #LanguageModel #Coding #MCP Issue Date: 2025-07-14 Comment
MCPの勉強に良いかもしれないのでメモ
Claude Code の Context Engineering, schroneko, 2025.07
Paper/Blog Link My Issue
#Article #AIAgents #Coding #Slide #ContextEngineering Issue Date: 2025-07-06
Context Engineering - What it is, and techniques to consider, llamaindex, 2025.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #ContextEngineering Issue Date: 2025-07-04 Comment
元ポスト:
The New Skill in AI is Not Prompting, It's Context Engineering, PHLSCHMID, 2025.06
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #ContextEngineering Issue Date: 2025-07-04 Comment
元ポスト:
AI Agent Manager (AAM) として生きていく : 作業環境とワークフローの設計, icoxfog417, 2025.06
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #Coding #read-later #Author Thread-Post Issue Date: 2025-06-23 Comment
元ポスト:
AI-assisted coding for teams that can't get away with vibes, Atharva Raykar, 2025.05
Paper/Blog Link My Issue
#Article #AIAgents #Blog #Coding #read-later Issue Date: 2025-06-21 Comment
元ポスト:
Cursor_Devin全社導入の理想と現実, Ryoichi Saito, 2025.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #Slide #Reading Reflections Issue Date: 2025-04-26 Comment
Devinの思わぬ挙動のくだりが非常に面白かった。まだまだ使いづらいところが多そうだなあ…。
研究者向けの技術研修資料を公開します, CyberAgent, 2025.04
Paper/Blog Link My Issue
#Article #Tutorial #MachineLearning #Infrastructure #Blog #ExperimentManagement Issue Date: 2025-04-18 Comment
気になる
openhands-lm-32b-v0.1, all-hands, 2025.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #One-Line Notes Issue Date: 2025-04-02 Comment
Qwen Coder 2.5 Instruct 32Bに基づく最先端のSWEタスクが実行可能なモデル
ジュニアエンジニアからシニアエンジニアになるまでに自分がやっていたことまとめ, yasuhisa's blog, 2025.04
Paper/Blog Link My Issue
#Article #Mindset #Blog Issue Date: 2025-04-01
Model Context Protocol (MCP), Anthropic
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #Selected Papers/Blogs #MCP Issue Date: 2025-03-15 Comment
下記リンクのMCPサーバ/クライアントの作り方を読むとだいぶ理解が捗る:
https://modelcontextprotocol.io/quickstart/server
https://modelcontextprotocol.io/quickstart/client
Introducing the SWE-Lancer benchmark, OpenAI, 2025.02
Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #AIAgents #Evaluation #Coding #One-Line Notes Issue Date: 2025-03-02 Comment
元ポスト:
1400以上のフリーランスソフトウェアエンジニアリングタスクを集めたベンチマーク。タスクはバグ修正から機能実装まで多岐にわたり、経験豊富なエンジニアによって評価されたもの。
SGlang, sgl-project, 2024.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #python #LLMServing #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-02-12 Comment
- Open R1, HuggingFace, 2025.01
のUpdate2でMath Datasetの生成に利用されたLLM Servingフレームワーク。利用前と比較してスループットが2倍になったとのこと。
CPU, external storageを利用することでTTFTを改善するようになったようで、最大80%TTFTが削減されるとの記述がある。
(原理的には元来可能だが計算効率の最適化に基づく誤差によって実装上の問題で実現できていなかった) Deterministic Inferenceをサポート:
How to fine-tune open LLMs in 2025 with Hugging Face, PHILSCHMID, 2024.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #python #Blog #PostTraining #One-Line Notes Issue Date: 2025-01-25 Comment
SFTTrainerを用いたLLMのSFTについて、実用的、かつ基礎的な内容がコード付きでまとまっている。
How to align open LLMs in 2025 with DPO & and synthetic data, PHILSCHMID, 2025.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #python #Blog #DPO #PostTraining #KeyPoint Notes Issue Date: 2025-01-25 Comment
元ポスト:
- DPOの概要やRLHFと比較した利点
- ルールベース、あるいはLLM as a Judgeを用いたOn-policy preference pair(現在のSFTしたモデルの出力から生成したpreference data)の作り方とその利点(現在のモデルのoutput distributionを反映しているので学習が効率化される)
- 環境構築方法
- DPOTrainer/TRLParserの使い方/DPODatasetの作り方
- DPOのハイパーパラメータβの意味合い
- DPOではSFTと比べて10-100x小さい学習率を使う必要があること
- Evaluation Harnessを用いた評価方法
- TGIを用いたモデルのデプロイとテスト
などが丁寧なサンプルコードと注釈、reference付きで説明されている。
AutoMLOpsを使って機械学習CI_CDパイプラインを組んでみた, 2024.08
Paper/Blog Link My Issue
#Article #MachineLearning #MLOps #python #Blog #One-Line Notes Issue Date: 2024-08-27 Comment
pythonコードでコンポーネントや、パイプラインを関数の形で記述するだけで、MLのCI/CDパイプラインをVertexAI上に自動構築できる模様。非常にお手軽で、多くの設定ファイルなどは自動生成されるようなので、簡単に始めることができそう。
記事中では、多クラス分類器を学習するためのデータをBigQueryから取得、モデル訓練、デプロイ、推論エンドポイント生成、モニタリングなどを簡単なコードベースで実現できている。便利そうではある。
細かいチューニングも自動生成された設定ファイルをいじれば可能だと思われる。
lifestar, lifestar-org, 2021.12
Paper/Blog Link My Issue
#Article #Library #python #One-Line Notes #Asynchronous Issue Date: 2023-11-19 Comment
非常に高速なpythonのASGIライブラリ。WSGIとは異なり非同期処理なためリアルタイムアプリケーションに向いているっぽい。
現在でも活発に開発がされているようだ
Loggingモジュールではじめるログ出力入門, Toshifumi Tsutsumi, PyCon JP 2021, 2021.10
Paper/Blog Link My Issue
#Article #python #Coding #Slide #KeyPoint Notes Issue Date: 2023-10-17 Comment
- ライブラリ開発の際は、ライブラリのトップレベルのLoggerにNullHandlerを設定して、詳細設定を呼び出し側に委ねるのがお作法
- NullHandlerは何もせずに上位ハンドラに伝搬させるため
- ライブラリ側でやることは、タイミングとメッセージ内容のみ
- loggerを利用するか否かは、「書き捨てか否か」
- 書き捨て例: 内容のちょっとした確認やデバッグ、局所的な出力、プログラムとログのライフタイムが短い
参考になる
propagateの仕組みや、構成要素、Loggerの恩恵はすべてのpythonモジュールがロギングに参加できること、モジュール名で基本的にはgetLoggerすることなど、勉強になった
Polars, 2023
Paper/Blog Link My Issue
#Article #Library #python #Blog #Coding #One-Line Notes Issue Date: 2023-01-23 Comment
pandasより100倍高速で複雑なクエリも見やすく書けてindexも存在しないのでバグも出にくいという優れものらしい
CodeGPT: The VSCode Extension with ChatGPT-Like Functionalities
Paper/Blog Link My Issue
#Article #Tools #GenerativeAI #Blog #Coding #One-Line Notes Issue Date: 2023-01-21 Comment
VSCodeの拡張で、//から始まるPromptをエディタ上で記載することで対応するコードをGPT3が生成してくれる模様。便利そう
deploy-API-to-GCP
Paper/Blog Link My Issue
#Article #Tools #Infrastructure #MLOps #Blog #Repository #API Issue Date: 2022-12-01 Comment
FlaskAPIを(Flaskでなくても良い)Google Cloud Run上で、TerraFormで定義したインフラ環境でデプロイするためのリポジトリ
0. リポジトリをclone
1. Flaskアプリ作成
2. FlaskアプリをDocker化
3. TerraFormのStateを保存するためのCloudStorage作成
4. TerraFormのコード作成
5. GitHub Actionでデプロイ(CI/CD)
5によってmainブランチに対するプルリクが本番環境にデプロイされる。
Cloud Runについて
https://dev.classmethod.jp/articles/gc-cloud-run/
pandas tips
My Issue
#Article #Tutorial #Tools #Library #python #Reference Collection Issue Date: 2022-08-03 Comment
◆遅くないpandasの書き方
https://naotaka1128.hatenadiary.jp/entry/2021/12/07/083000#iterrows-%E3%81%AF%E7%B5%B6%E5%AF%BE%E3%81%AB%E4%BD%BF%E3%82%8F%E3%81%AA%E3%81%84-apply%E3%82%82
iterrows, applyを使うな、あたりは非常に参考になった。numpy配列に変換してループを回すか、np.vectorizeを使ってループを排除する。
良いコードとは何か - エンジニア新卒研修 スライド公開, CyberZ, 森
Paper/Blog Link My Issue
#Article #Tutorial #Coding #Slide Issue Date: 2022-03-02
Pythonのオブジェクト指向プログラミングを完全理解, kaitolucifer (Kaito), 2021
Paper/Blog Link My Issue
#Article #Tutorial #Blog #Coding #One-Line Notes Issue Date: 2021-11-25 Comment
オブジェクト指向の歴史的背景から、SOLID、GRASP等が詳細に解説されている。辞書的に参照するのが良いかも。
イラストで理解するSOLID原則, baby-degu, 2021
Paper/Blog Link My Issue
#Article #Tutorial #Blog #Coding #One-Line Notes Issue Date: 2021-11-25 Comment
オブジェクト指向におけるSOLID原則をイラストで解説した記事。直感的で分かりやすい。
