Codingに関する論文・技術記事メモの一覧

Coding

[Paper Note] Decomposer: Learning to Decompile Symbolic Music to Programs, Yewon Kim+, arXiv'26, 2026.07

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #PostTraining #Music #Author Thread-Post Issue Date: 2026-07-19 GPT Summary- 音楽の演奏から指示を復元するDecomposerというポストトレーニングフレームワークを提案。MIDIからStrudel言語へのデコンパイルで、実行可能な音楽プログラムを作成。課題は、資源の乏しいStrudelと、忠実な再構成が読みにくいコードになる可能性。二段階で解決し、合成データでの教師付きファインチューニングと、ペアになっていないMIDIでの強化学習を行う。評価で、Decomposerは他の方法に比べ、高いMIDI再構成忠実性と可読性を実現。 Comment

元ポスト:

Loading…

[Paper Note] Long-Horizon-Terminal-Bench: Testing the Limits of Agents on Long-Horizon Terminal Tasks with Dense Reward-Based Grading, Zongxia Li+, arXiv'26, 2026.07

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Evaluation #SoftwareEngineering #read-later #Selected Papers/Blogs #LongHorizon Issue Date: 2026-07-19 GPT Summary- Long-Horizon-Terminal-Benchは、AIエージェントの能力を検証するための新しい終端ベンチマークで、46件の長期タスクを含む。従来のベンチマークが評価する簡単な問題とは異なり、このベンチマークは中間報酬と部分点を重視し、長期的な計画や文脈管理を要求する。評価した15のモデルでは、タスクあたり平均9.9Mトークンを消費し、低いパス率が示され、改善の余地があることが示唆された。失敗モードの分析も行い、今後の進展に寄与することを目的としている。 Comment

元ポスト:

Loading…

[Paper Note] Program-as-Weights: A Programming Paradigm for Fuzzy Functions, Wentao Zhang+, arXiv'26, 2026.07

Paper/Blog Link My Issue
#NLP #LanguageModel #PEFT(Adaptor/LoRA) #SoftwareEngineering Issue Date: 2026-07-08 GPT Summary- ファジー関数プログラミングを用いて、自然言語仕様からコンパクトなニューラル・アーティファクトを生成するアプローチを提案。Program-as-Weights（PAW）で具現化し、4BパラメータのコンパイラがFuzzyBenchで訓練されたアダプターを出力。0.6Bパラメータのインタプリタは、Qwen3-32Bと同様の性能を保ちながらメモリ使用量を1/50に削減し、効率的に問題解決に貢献。関数定義を再利用可能なアーティファクトとして実行。 Comment

元ポスト:

Loading…

[Paper Note] Dockerless: Environment-Free Program Verifier for Coding Agents, Wenhao Zeng+, arXiv'26, 2026.06

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SoftwareEngineering #PostTraining #Verification Issue Date: 2026-07-07 GPT Summary- Dockerlessは、環境を必要とせずにコードパッチの正確性を評価するエージェント的パッチ検証器を提案する。従来の環境構築コストを削減し、リポジトリ探索を通じて証拠に基づく評価を実現。これにより、最も強力なオープンソース検証器を14.3 AUCポイント上回り、SWE-bench Verified、Multilingual、Proでそれぞれ62.0%、50.0%、35.2%の解決率を達成。環境ベースのポストトレーニングと同等の性能を示す。 Comment

元ポスト:

Loading…

[Paper Note] MirrorCode: AI can rebuild entire programs from behavior alone, Tom Adamczewski+, arXiv'26, 2026.06

Paper/Blog Link My Issue
#LanguageModel #AIAgents #Evaluation #SoftwareEngineering #read-later #LongHorizon #Author Thread-Post Issue Date: 2026-07-05 GPT Summary- AIモデルのコーディング能力は向上しており、MirrorCodeを用いて全体のソフトウェアプロジェクトの再実装を通じた新たな長期的ベンチマークを提案。AIエージェントはコードにアクセスせず、既存のプログラムの機能を再現し、テストで出力の一致を求められる。計算機科学の多様な分野をカバーし、最強のモデルは全体で56%のスコアを記録。AIは複雑なツールを再実装でき、研究の要件が明確であれば長期タスクを完遂可能であることを示唆。AIの進化がソフトウェア工学に及ぼす影響に期待。 Comment

pj page: https://epoch.ai/MirrorCode

元ポスト:

Loading…

[Paper Note] SWE-Together: Evaluating Coding Agents in Interactive User Sessions, Yifan Wu+, arXiv'26, 2026.06

Paper/Blog Link My Issue
#NLP #LanguageModel #Evaluation #SoftwareEngineering #Author Thread-Post Issue Date: 2026-07-02 GPT Summary- 実際のコーディング支援の対話的性質を反映した新しいベンチマークSWE-Togetherを導入。11,260件の記録セッションから109件のタスクを選び、リアクティブなLLMベースのユーザーシミュレーターを構築。エージェントの評価はリポジトリの正確さとフィードバックの回数で行われ、強力なエージェントほど成功率が高く、介入が少なくて済むことを示した。 Comment

pj page: https://togetherbench.com/

元ポスト:

Loading…

[Paper Note] VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models, Sen Xu+, arXiv'26, 2026.06

Paper/Blog Link My Issue
#NLP #LanguageModel #Mathematics #SmallModel #Initial Impression Notes Issue Date: 2026-06-17 GPT Summary- VibeThinker-3Bは3Bパラメータを持つ小型密結合モデルで、検証可能推論の限界を調査します。Spectrum-to-Signalに基づく最適化パイプラインを用い、多ドメイン強化学習や自己蒸留を含むファインチューニングを行い、高度な検証可能タスクでフロンティア級の性能を示します。具体的には、AIME26で94.3点、LiveCodeBench v6で80.2%、LeetCodeコンテストで96.1%の合格率を実現しました。この研究は、コンパクトなモデルがフロンティア性能を持ち得ることを示し、パラメトリック圧縮-カバレッジ仮説を提唱します。 Comment

元ポスト:

Loading…

3Bモデルでもpost trainingによって、100倍以上大きいモデルよりも数学、コーディングなどのドメインでは同等程度の性能に到達できる。ただし、GPQA Diamondのような知識を必要とするタスクの性能は明確に劣る。

[Paper Note] ProgramBench: Can Language Models Rebuild Programs From Scratch?, John Yang+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #SoftwareEngineering #Selected Papers/Blogs #KeyPoint Notes #Initial Impression Notes #Author Thread-Post Issue Date: 2026-05-09 GPT Summary- ソフトウェアプロジェクトの完全な開発は、言語モデルの重要なユースケースで、エージェントは最小限の監視下でコードベースを成長させる。しかし、既存のベンチマークは限られたタスクに焦点を絞っている。そこで、ProgramBenchを導入し、エージェントが与えられたプログラムとそのドキュメントに基づいて、参照実行可能ファイルに一致するコードベースを設計・実装する能力を測定する。200のタスクを用い9つの言語モデルを評価した結果、どのモデルも未完のタスクが多く、人間が書いたコードとは異なる実装を好む傾向が見られた。 Comment

pj page: https://programbench.com/

元ポスト:

Loading…

実行可能なバイナリとdocumentationを与えたときに、インターネットアクセスが不可能な環境で、オリジナルのプログラムの挙動を再現可能なcodebaseを実装するベンチマークで、現状いずれのLLMもスコア0%とのこと。スコアは全タスクのうち、（タスクごとに定義される）テストを全て通過したタスクの割合である。Almostの場合は95%以上のテストを通過したタスクの割合である。

仕様全体からcodebase全体を再現する必要がため、これがうまくできれば、これまでのベンチマークよりも人間に近い推論・認知能力を持つと部分的に主張できるとは思われる。

contaminationの懸念について、本ベンチマークではopen-sourceのコードを異なる言語で実装するようにすることで検証している。異なる言語で実装することによってモデルが通過するようになったテストの割合は大きく変化しなかったため（leaderboardのスコア異なる点に注意。leaderboardのresolvedは全てのテストを通過したタスクの割合である。）、memorizationの影響は小さいと主張している。また、本ベンチマークはインターネットアクセスが不可能な状態で実施されるが、インターネットアクセスを許可した場合、モデルはcheatingを実施するようになり、多くのcheatingはソースコードをlookupすることだったとのこと。

テストはbehavioralなものであり、SWE-Benchで行われているような実装の方法についてはテストをしない。

ProgramBenchの言語の分布と、各タスクのcodebaseの規模間。270M lineのcodebaseから200 line程度の小さなものまで、規模間が大きく異なることがわかる。言語はC/C++, Go, Rustが多く、多くのモデルが得意とするであろうpythonはほとんど含まれていない。

著者ポスト:

Loading…

[Paper Note] HiL-Bench （Human-in-Loop Benchmark）: Do Agents Know When to Ask for Help?, Tu Trinh+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Evaluation #SoftwareEngineering #read-later #Selected Papers/Blogs #One-Line Notes #Human-in-the-Loop Issue Date: 2026-05-08 GPT Summary- 最先端のコーディングエージェントは、完全な文脈では複雑なタスクをこなせるが、不完全な仕様では失敗する。ボトルネックは能力よりも判断力であり、適切な行動と助けを求めるタイミングを知ることが重要である。提案するHiL-Benchは、この選択的エスカレーション能力を評価し、ブロッカーを含むタスクを通じて人間の判断力を測定する。核心指標Ask-F1は、質問の正確さとブロッカーの再現率を評価し、不適切な質問を防ぐ。評価結果は、モデルが不確実性に適切に対処できず、自己修正能力に欠けることを示す。強化学習による訓練で、判断力の向上が確認され、モデルは不確実性を検知し対処する能力を学ぶ。 Comment

元ポスト:

Loading…

完全情報の下では80%前後の成功率をおさめるにも関わらず、情報が欠落している場合は成功率が著しく低下することから、現在のAI Agentが失敗する要因は、能力ではなく情報が不完全な場合にエスカレーションする判断力にあることを指摘し、必要な情報が欠落したタスクを用意し、その情報を取得するための質問（エスカレーション）を適切なタイミングで生成できるか否かを測定するベンチマークを作成し、ベンチマークでの評価を通じて、エスカレーションのための判断能力はRLVRによって向上させられることを示した、という感じの話に見える。

[Paper Note] Parallel-SFT: Improving Zero-Shot Cross-Programming-Language Transfer for Code RL, Zhaofeng Wu+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #TransferLearning #PostTraining #LowResource #Initial Impression Notes #Author Thread-Post Issue Date: 2026-04-25 GPT Summary- 低リソースのプログラミング言語（PL）における言語モデルの性能は、訓練データの制約を受ける。本研究では、ゼロショットの跨プログラミング言語転移タスクを提案し、Llama-3.1がPL間でのコード生成において改善されないことを明らかにした。これに対処するため、一般化可能なSFT初期化が必要とし、「並列プログラム」を使用したSFT戦略Parallel-SFTを導入。Parallel-SFTによって転移性が向上し、RL実行後に未知のPLへの一般化が改善されることを示した。モデルの内部表現分析は、PL間での同等プログラムが密にクラスタ化され、これが転移性向上に寄与することを示唆している。 Comment

元ポスト:

Loading…

RL前にプログラミング言語でのパラレルコーパスでSFTすることで、特定言語でRLをした場合でも他言語にも性能が転移する、という話に見える。

著者ポスト:

Loading…

[Paper Note] CaP-X: A Framework for Benchmarking and Improving Coding Agents for Robot Manipulation, Max Fu+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #AIAgents #Evaluation #SoftwareEngineering #read-later #Robotics #EmbodiedAI Issue Date: 2026-04-04 GPT Summary- Code-as-Policy（CaP）は、自律的なロボット制御における実行可能なコードの有効性を探求するためのフレームワークCaP-Xを提案します。中心となるCaP-Gymは、感知と制御を組み合わせてロボットを制御するインタラクティブ環境を提供します。CaP-Benchを利用して12モデルを評価した結果、手作りの抽象化が性能を向上させる一方、先入観の排除で性能が低下し、設計者の足場に依存していることが明らかになりました。このギャップは、推論時計算や複数ターンの相互作用を通じて緩和可能です。これにより、学習を要しないCaP-Agent0が活用され、シミュレーションや実機タスクで人間レベルの信頼性を回復させます。CaP-RLを導入することで強化学習が成功率を向上させ、シミュレーションと実機間の移行を円滑にすることを確認しました。CaP-Xは、具現化されたコーディングエージェントを推進するためのオープンアクセスプラットフォームを提供します。 Comment

元ポスト:

Loading…

[Paper Note] Think Anywhere in Code Generation, Xue Jiang+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #Reasoning #SoftwareEngineering #read-later #Reference Collection Issue Date: 2026-04-04 GPT Summary- LLMsの事前思考に依存したコード生成は制限があり、全体の複雑性を理解するには不十分である。これに対抗するために、Think-Anywhereという新しい推論機構を提案し、任意のトークン位置で推論を呼び出すことを可能にする。これにより、推論パターンの模倣と成果ベースのRL報酬を活用し、推論のタイミングを自律的に探索させる。広範な実験で、Think-Anywhereは最先端の性能を実現し、多様なLLMsにおいて一貫した一般化を示すことが確認された。 Comment

元ポスト:

Loading…

解説:

Loading…

[Paper Note] KAT-Coder-V2 Technical Report, Fengxiang Li+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #SoftwareEngineering #read-later Issue Date: 2026-04-04 GPT Summary- KAT-Coder-V2は、快手のKwaiKATチームが開発したエージェント指向のコーディングモデルで、5つの専門ドメインに分解し、それぞれを教師あり微調整と強化学習で独立学習した後、単一モデルに統合します。KwaiEnvを用いて数万の同時サンドボックス環境を支え、RL訓練をスケーリング。MCLAとTree Trainingにより計算の冗長性を排除し、最大6.2倍のスピードアップを達成。SWE-benchで79.6%、PinchBenchで88.7のスコアを記録し、複数のベンチマークで首位を獲得しました。モデルは公開されています。 Comment

元ポスト:

Loading…

Claude Opus 4.6に近い性能を持つagentic coding modelとのこと。

pj page: https://streamlake.com/product/kat-coder

[Paper Note] Embarrassingly Simple Self-Distillation Improves Code Generation, Ruixiang Zhang+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #PostTraining #read-later #SelfDistillation #Author Thread-Post Issue Date: 2026-04-04 GPT Summary- 簡易自己蒸留（SSD）を用いて、LLMが独自の出力のみでコード生成の改善が可能であることを示す。特定の温度とトランケーション設定で出力をサンプリングし、その後教師付きファインチューニングを行うことで、Qwen3-30B-Instructのパフォーマンスを42.4%から55.3%に向上。4B・8B・30Bスケールのモデル間で一般化され、改善のメカニズムをLLMデコードの精度と探索の相互関係に関連づけて検討。SSDは、精度を高めつつ多様性を保持するアプローチとして、LLMのコード生成に寄与する可能性を示唆する。 Comment

元ポスト:

Loading…

所見:

Loading…

解説:

Loading…

著者ポスト:

Loading…

[Paper Note] Meta-Harness: End-to-End Optimization of Model Harnesses, Yoonho Lee+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs #AgentHarness Issue Date: 2026-03-31 GPT Summary- 大規模言語モデル（LLM）の性能は、ハーネスと呼ばれる情報の保存・取得・提示を決定するコードに依存しているが、従来のハーネス設計は手作業が主で、最適化手法はフィードバックを圧縮してしまう。そこで、Meta-Harnessを提案。これはLLMアプリケーションのハーネスコードを探索する外部ループシステムで、エージェント的提案者を通じて過去の実行トレースを活用。Meta-Harnessは、オンラインテキスト分類で7.7ポイントの向上を示し、リトリーバルを用いた数学推論では200問の正確度を4.7ポイント改善。また、エージェント的コーディングでは手作業設計を超える成果を上げる。これにより、より豊かな過去の経験が自動化されたハーネス設計を実現可能であることが示された。 Comment

元ポスト:

Loading…

pj page: https://yoonholee.com/meta-harness/

Darwin Godel Machineと非常にコンセプトが似ているという指摘がある
- [Paper Note] Darwin Godel Machine: Open-Ended Evolution of Self-Improving Agents, Jenny Zhang+, ICLR'26, 2025.05

所見:

Loading…

解説:

Loading…

[Paper Note] Goedel-Code-Prover: Hierarchical Proof Search for Open State-of-the-Art Code Verification, Zenan Li+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#LanguageModel #SoftwareEngineering #read-later #Verification #Proofs #Author Thread-Post Issue Date: 2026-03-28 GPT Summary- 大規模言語モデル（LLMs）はコード生成が可能だが、正確性に限界がある。これを克服するために、Lean 4における階層的証明探索フレームワークを提案し、複雑な検証目標を単純なサブゴールに分解する。分解スコアは訓練報酬と推論時の基準として機能し、最適化とデプロイメントの整合性を保証。Goedel-Code-Prover-8Bを利用し、教師あり初期化後にハイブリッド強化学習で訓練。Leanベースのコード検証ベンチマークでは、62.0%の証明成功率を実現し、強力なベースラインを2.6倍上回る成果を達成した。また、推論時のスケーリングによって成功率の向上が観察された。 Comment

元ポスト:

Loading…

解説:

Loading…

[Paper Note] Effective Strategies for Asynchronous Software Engineering Agents, Jiayi Geng+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #AIAgents #Architecture #SoftwareEngineering #LongHorizon #Asynchronous Issue Date: 2026-03-25 GPT Summary- AIエージェントは孤立したSWEタスクでは高い能力を示すが、依存するサブタスクを含む長期的なタスクには課題が残る。非同期のマルチエージェント協調が期待されるが、同時編集や依存関係の同期、進捗の統合には困難が伴う。これに対処するため、CAIDという新たな協調パラダイムを導入。これにより中央管理者を介したタスク計画と、分離された作業スペースでの同時実行が実現され、進捗の統合が可能になる。実験的にCAIDは、PaperBenchで26.7%、Commit0で14.3%の精度向上を示し、マルチエージェント協調の調整機構としてブランチとマージを明らかにした。 Comment

元ポスト:

Loading…

[Paper Note] Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems, Zongqian Li+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #AIAgents #SoftwareEngineering #PostTraining #DataFiltering #Initial Impression Notes Issue Date: 2026-03-12 GPT Summary- 高品質なコード生成モデルの訓練には高品質なデータセットが必要だが、既存のデータは様々な問題を抱えている。本研究では、系統的なデータ処理フレームワークを導入し、自動難易度フィルタリングを用いて難易度の高い問題を保持しつつ簡単な問題を排除。得られたMicroCoderデータセットは、多様な競技プログラミング問題を含み、性能向上を達成。評価によれば、三倍の性能向上を示し、難易度を意識したデータ選定がモデルの性能向上に効果的であることが明らかになった。 Comment

元ポスト:

Loading…

コーディングドメインにおいて、難易度の高いコーディング問題を収集（単純な問題をフィルタリング）することで、RLにおいて高い学習効率が得られる、という話に見える

[Paper Note] SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration, Jialong Chen+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Evaluation #SoftwareEngineering #One-Line Notes #CI Issue Date: 2026-03-07 GPT Summary- 静的なバグ修正だけでなく、複雑な要求変更に対応するため、継続的インテグレーションに基づく新しいベンチマークSWE-CIを提案。これにより、コード生成の評価が短期的な正確性から長期的な保守性にシフトし、100のタスクを通じてエージェントの分析およびコーディング能力の維持を評価する。SWE-CIは実世界の進化履歴に基づいており、コード品質の長期的な維持についての洞察を提供。 Comment

元ポスト:

Loading…

SWE Agentの現在の主要な評価パラダイムである個々の機能のバグフィクスなどの短期的な評価から、より長期的なメンテナンスなどのタスクで評価をする

[Paper Note] A Rubric-Supervised Critic from Sparse Real-World Outcomes, Xingyao Wang+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#ReinforcementLearning #AIAgents #SoftwareEngineering #Selected Papers/Blogs #Verification #RewardModel #One-Line Notes #Critic #Rubric-based #Author Thread-Post Issue Date: 2026-03-06 GPT Summary- コードエージェントの評価は通常、ユニットテストの成功を基にしているが、実際の環境では成功信号が遅延し、ノイズが多い。本研究では、疎でノイズの多い相互作用データを用いてクリティックモデルを学習する方法を提案し、これをRLベースの報酬モデルとして利用する。具体的には、エージェントの行動特徴を含むクリティック・ルーブリックを導入し、半教師付き目的関数で人間のフィードバックと共に予測する。実験により、このアプローチが SWe-bench におけるリランキングを改善し、試行回数を83%減少させながら成果を向上させることを示した。 Comment

元ポスト:

Loading…

AI Agentによる実装は安価になったが、今度は（人間による）verificationがボトルネックなので、Agentのtrajectoryからcritiqueを実施するモデルをRubric-basedに学習しReward Modelとして活用できるようにした、という話に見える。これによりAgentの進捗をリアルタイムでvibe checkすることができるとのこと。

著者ポスト:

Loading…

[Paper Note] SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale, Ibragim Badertdinov+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #AIAgents #SoftwareEngineering #PostTraining #read-later #Selected Papers/Blogs #Live #One-Line Notes #Environment Issue Date: 2026-03-05 GPT Summary- SWEエージェントの強化学習を支えるため、実世界のソフトウェア工学タスクを自動収集し、再現可能な環境を構築するSWE-rebench V2を提案。20言語・3,600超のリポジトリから32,000以上のタスクを集め、厳選したコンテンツで信頼性のあるトレーニングデータを提供。また、タスク生成に必要なメタデータも加え、エラー要因を明示。データセットと関連リソースを公開し、多様な言語での大規模なSWEエージェントのトレーニングを支援。 Comment

元ポスト:

Loading…

environment: https://huggingface.co/datasets/nebius/SWE-rebench-V2?row=5

関連:
- [Paper Note] SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents, Ibragim Badertdinov+, NeurIPS'25, 2025.05

以前の研究ではpython特化だったが、今回はlanguage-agnosticな環境になっている。

合成データではなく、実際のissue-resolutionのヒストリに基づいたデータセットであることに注意

[Paper Note] CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation, Weinan Dai+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #ReinforcementLearning #AIAgents #SyntheticData #GPUKernel #Rubric-based #Environment Issue Date: 2026-03-04 GPT Summary- CUDAカーネル最適化は深層学習の核だが、専門知識が求められる。大規模言語モデル（LLMs）は従来のCUDAコード生成において限界があり、内部最適化能力が向上しない。私たちはCUDA Agentを提案し、データ合成、信頼性の高い報酬信号の提供、安定した強化学習を通じてCUDAカーネルの専門知識を育成。KernelBenchで最先端の結果を達成し、torch.compileよりも各レベルで大幅に高速化。最強商用モデルを約40%上回る性能を示す。 Comment

pj page: https://cuda-agent.github.io/

元ポスト:

Loading…

解説:

Loading…

[Paper Note] On the Impact of AGENTS.md Files on the Efficiency of AI Coding Agents, Jai Lal Lulla+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #AIAgents #SoftwareEngineering #Initial Impression Notes #AGENTS.md Issue Date: 2026-03-03 GPT Summary- AIコーディング・エージェント（CodexやClaude Codeなど）がソフトウェア・リポジトリに与える影響を調査。AGENTS.mdファイルの有無で、GitHubプルリクエストにおけるエージェントの実行時間とトークン消費が異なることを示し、AGENTS.mdの存在が実行時間を28.64%、トークン消費を16.58%削減する一方、タスク完了挙動は同等であることが分かった。これに基づき、AIコーディング・エージェントの設定やデプロイに関する実務的な含意を議論し、リポジトリレベルの指示の重要性を明らかにする。 Comment

関連:
- [Paper Note] Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?, Thibaud Gloaguen+, arXiv'26, 2026.02

こちらの研究ではどちらかというとAGENTS.mdによってinference costが増大するようなことが示されているが、具体的にAGENTS.mdの内容としてどのような違いがあるだろうか？

元ポスト:

Loading…

[Paper Note] Learning to Rewrite Tool Descriptions for Reliable LLM-Agent Tool Use, Ruocheng Guo+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SoftwareEngineering #PostTraining #CurriculumLearning #ToolUse Issue Date: 2026-02-28 GPT Summary- ツール・インターフェースの質がLLMベースのエージェントの性能に影響を与えることに着目し、Trace-Free+というカリキュラム学習フレームワークを提案。これにより、トレースのない環境で再利用可能なインターフェース使用パターンを習得を促進。構造化ワークフローに基づくデータセットを構築し、実験では未知のツールに対する改善とクロスドメイン一般化が確認された。最終的に、ツール・インターフェースの最適化がエージェントのファインチューニングに有効であることを示した。 Comment

元ポスト:

Loading…

[Paper Note] On Data Engineering for Scaling LLM Terminal Capabilities, Renjie Pi+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #SyntheticData #OpenSource #SoftwareEngineering #Initial Impression Notes #Environment #Terminal Issue Date: 2026-02-28 GPT Summary- ターミナルエージェントのトレーニングデータ戦略に関するギャップを埋めるため、(1) 軽量な合成タスク生成パイプラインTerminal-Task-Genを提供し、(2) データと訓練戦略を総合的に分析。これにより、Nemotron-Terminalファミリーを訓練し、Terminal-Bench 2.0で性能を大幅に改善。ほぼすべての合成データセットをオープンソース化し、研究の加速を図る。 Comment

元ポスト:

Loading…

terminalエージェントのための合成データを作成する環境と実際に作成されたSFT用のデータセットの公開をしているようである。

[Paper Note] Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?, Thibaud Gloaguen+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #SoftwareEngineering #Selected Papers/Blogs #reading #Reference Collection #Initial Impression Notes #AGENTS.md Issue Date: 2026-02-27 GPT Summary- コーディングエージェントのタスク完遂性能を評価するため、LLMが生成したコンテキストファイルと開発者提供のファイルを用いた2つの設定を検討。結果、コンテキストファイルは成功率を低下させ、推論コストを増加させる傾向が見られた。両者はタスクの探求を促進するが、不要な要件がタスクを難化させるため、最小限の要件のみを記述することが推奨される。 Comment

元ポスト:

Loading…

（現時点では）LLMによって自動生成されたコンテキストファイルは性能を劣化させ、inference costを増大させ、人間が作成したコンテキストファイルは性能を向上させる。コンテキストファイルによってoverviewを提供することを推奨しているものがあるが、性能向上には寄与しない。コンテキストファイルに従うことはより多くのthinkingを誘発し、結果的にタスクを難しくする。最小限のrequirementsのみを記述したものを使うことを推奨する、といった内容らしい？

関連:

Loading…

best practiceは以下とのこと:
- # Writing a good CLAUDE.md, Kyle, 2025.11

解説:

Loading…

非常にコンパクトにまとまっている。

解説:

Loading…

解説:

Loading…

[Paper Note] Hybrid-Gym: Training Coding Agents to Generalize Across Tasks, Yiqing Xie+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #SoftwareEngineering #Environment Issue Date: 2026-02-21 GPT Summary- 実際のコーディングエージェントの評価は、SWE-Benchのような単一課題に依存せず、より複雑なタスクを解決する能力に重点を置く。本研究では、転移可能なスキルを明らかにし、それを学習するための原則を導出し、Hybrid-Gymという訓練環境を提案。訓練を受けたエージェントは多様な実世界タスクに効果的に一般化し、基礎モデルの性能を大幅に向上させた。 Comment

元ポスト:

Loading…

関連:

Loading…

pj page: https://hybrid-gym.github.io/

[Paper Note] Code2World: A GUI World Model via Renderable Code Generation, Yuhao Zheng+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #VisionLanguageModel #WorldModels #One-Line Notes #GUI Issue Date: 2026-02-12 GPT Summary- 自律的なGUIエージェントは、GUI Worldモデルを用いて行動を実行し、人間のような先見性を持つ。既存のアプローチは視覚的忠実性と構造的制御の両立が困難である。そこで、Code2Worldを提案し、レンダリング可能なコード生成を通じて次の視覚状態をシミュレートする。GUIトラジェクトリを高忠実度のHTMLに変換し、合成コードを洗練。Render-Aware Reinforcement Learningを用いて視覚的意味の忠実性と行動の一貫性を強化。広範な実験により、Code2World-8Bは競争力のあるモデルに匹敵するパフォーマンスを達成し、ナビゲーション成功率を大幅に向上させた。 Comment

pj page: https://amap-ml.github.io/Code2World/

元ポスト:

Loading…

現在のスクリーンショットと、アクションのペアから、次のスクリーンショットをレンダリング可能なコードを通じて予測する(Next UI Prediction)

[Paper Note] Learning Rate Matters: Vanilla LoRA May Suffice for LLM Fine-tuning, Yu-Ang Lee+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Evaluation #Mathematics #PEFT(Adaptor/LoRA) #PostTraining #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2026-02-09 GPT Summary- LoRAのバリエーションを広範なハイパーパラメータ探索で再評価。異なるLoRA方法は独自の学習率範囲を好み、適切調整で全体的に同様のピーク性能を達成。バニラLoRAは競争力のあるベースラインで、以前の改善は一貫性を欠く可能性あり。最適な学習率範囲の違いはヘッセ行列の固有値の変動に起因。 Comment

元ポスト:

Loading…

LoRAに関連して様々な手法が提案されているが、様々なモデルスケールとコーディングと数学ドメインで広範な設定（バッチサイズや学習率）で実験して主要な手法を再評価したところ、LoRAは学習率にsensitiveで、依然として初期のLoRAが強力な手法であることが示された。過去の研究での比較実験はハイパーパラメータの調整不足な可能性が高いことを示唆している。重要研究。

なお、Table2にLoRAの変種に関する研究のリストがあるが、約50種類ある。

[Paper Note] Conflict-Resolving and Sharpness-Aware Minimization for Generalized Knowledge Editing with Multiple Updates, Duy Nguyen+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #KnowledgeEditing #FactualKnowledge #Generalization #Stability Issue Date: 2026-02-05 GPT Summary- LLMsが最新情報に依存する中、コスト高な再訓練の代わりに、CoRSAというパラメータ効率的な知識編集フレームワークを提案。これにより、一般化や安定性を向上させつつ、新旧知識の対立を解決。3つのベンチマークで大幅な一般化改善を示し、LoRAと比較して更新効率と忘却軽減を達成。さらに、コードドメインにも適用可能で、強力なベースラインを上回る性能を発揮。 Comment

元ポスト:

Loading…

ベンチマーク:
- [Paper Note] Zero-Shot Relation Extraction via Reading Comprehension, Omer Levy+, CoNLL'17, 2017.06
- [Paper Note] CounterBench: A Benchmark for Counterfactuals Reasoning in Large Language Models, Yuefei Chen+, arXiv'25, 2025.02

[Paper Note] CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding, Yuling Shi+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal #VisionLanguageModel #2D (Image) #OCR #Compression Issue Date: 2026-02-05 GPT Summary- 大規模言語モデル（LLM）はソースコード理解で成功を収めていますが、計算効率が課題です。従来、LLMはコードをトークンの線形シーケンスとして扱い、計算コストが増加します。そこで、マルチモーダル大規模言語モデル（MLLM）による画像モダリティの利用が提案され、圧縮の可能性を探る研究を行いました。その結果、(1) MLLMは最大8倍のトークン削減を実現し、効果的にコードを理解できることが分かりました；(2) 構文ハイライトなどの視覚的手がかりを活用し、4倍の圧縮下でパフォーマンス向上；(3) クローン検出タスクは視覚的圧縮に対して耐性があり、圧縮比で生のテキストを上回る結果もありました。これにより、MLLMの効率的な推論可能性が示唆されています。 Comment

元ポスト:

Loading…

[Paper Note] daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently, Mohan Jiang+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #SyntheticData #SoftwareEngineering #One-Line Notes #LongHorizon Issue Date: 2026-02-05 GPT Summary- 大規模言語モデル（LLM）は短期的なタスクには優れていますが、長期的なワークフローへのスケーリングが課題です。本研究は、プルリクエスト（PR）シーケンスを用いてデータ合成を再概念化し、長期学習のための自然な監督信号を提供します。具体的には、進行的タスク分解、長期的一貫性の強制、バグ修正の検証を通じて、因果依存関係を保ちながら目標指向行動を促進します。実験結果は、daVinci-Agencyが高いデータ効率を即し、ベンチマーク全体での改善を達成したことを示しています。 Comment

元ポスト:

Loading…

PRのシークエンスでlong horizonデータを合成する

[Paper Note] Programming with Pixels: Can Computer-Use Agents do Software Engineering?, Pranjal Aggarwal+, ICLR'26, 2025.02

Paper/Blog Link My Issue
#ComputerVision #Dataset #AIAgents #Evaluation #ICLR #SoftwareEngineering #ComputerUse #VisionLanguageModel #GUI Issue Date: 2026-02-05 GPT Summary- CUA（コンピュータ利用エージェント）は一般的なタスクを実行する可能性があるが、ソフトウェアエンジニアリングのような専門的な作業の自動化能力は不明である。本研究では、「Programming with Pixels」（PwP）を導入し、エージェントが視覚的にIDEを操作して多様なソフトウェアエンジニアリングタスクを実行する環境を提供する。また、15のソフトウェアエンジニアリングタスクに対するベンチマーク「PwP-Bench」を設立し、CUAsの性能を評価した。結果、純粋な視覚的インタラクションでは専門エージェントに劣るが、APIへの直接アクセスを与えることで性能が向上し、専門性に達することが多かった。CUAsは視覚的基盤の限界と環境の効果的な活用に課題があるが、PwPは洗練されたタスクに対する評価の新たな基準を提供する。 Comment

pj page: https://github.com/ProgrammingwithPixels/PwP

元ポスト:

Loading…

[Paper Note] SWE-Universe: Scale Real-World Verifiable Environments to Millions, Mouxiang Chen+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #SyntheticData #MultiLingual #SoftwareEngineering #mid-training #PostTraining #read-later #Selected Papers/Blogs #Verification #Scalability Issue Date: 2026-02-05 GPT Summary- SWE-Universeは、GitHubのプルリクエストから自動的に検証可能なソフトウェア工学環境を構築するためのスケーラブルなフレームワーク。カスタムトレーニングされたビルディングエージェントが反復自己検証とハッキング検出を用いて信頼性の高いタスク生成を実現。これにより、実世界の多言語SWE環境が100万以上増加し、Qwen3-Max-Thinkingにおいて75.3％のスコアを達成。次世代コーディングエージェントの発展に寄与。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

これまでと比較して非常に大規模な実PRに基づいた、さまざまなプログラミング言語に基づくverifiableな学習用の合成データを構築できる環境で、一つ一つの品質はSWE Benchなどには及ばないが、量が圧倒的

[Paper Note] VisCoder2: Building Multi-Language Visualization Coding Agents, Yuansheng Ni+, ICLR'26, 2025.10

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #LanguageModel #AIAgents #Evaluation #ICLR Issue Date: 2025-10-30 GPT Summary- 大規模言語モデル（LLMs）を用いた視覚化コーディングエージェントは、実行や修正において課題がある。これを解決するために、679Kの視覚化サンプルを含むデータセットVisCode-Multi-679K、自己デバッグ用のベンチマークVisPlotBench、そしてマルチ言語モデルVisCoder2を提案。実験結果では、VisCoder2がオープンソースのベースラインを超え、商用モデルに近い性能を示し、特に記号的言語での成功が顕著であった。 Comment

pj page: https://tiger-ai-lab.github.io/VisCoder2/

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=4zoMnmZzh4

[Paper Note] Darwin Godel Machine: Open-Ended Evolution of Self-Improving Agents, Jenny Zhang+, ICLR'26, 2025.05

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #SelfImprovement #ICLR #SoftwareEngineering #Selected Papers/Blogs #One-Line Notes #AgentHarness Issue Date: 2025-06-05 GPT Summary- ダーヴィン・ゴーデルマシン（DGM）は、自己改善するAIシステムであり、コードを反復的に修正し、コーディングベンチマークで変更を検証します。進化とオープンエンドな研究に基づき、生成されたエージェントのアーカイブを維持し、新しいバージョンを作成することで多様なエージェントを育成します。DGMはコーディング能力を自動的に向上させ、SWE-benchでのパフォーマンスを20.0%から50.0%、Polyglotでのパフォーマンスを14.2%から30.7%に改善しました。安全対策を講じた実験により、自己改善を行わないベースラインを大幅に上回る成果を示しました。 Comment

元ポスト: https://www.linkedin.com/posts/omarsar_new-paper-open-ended-evolution-of-self-improving-activity-7334610178832556033-8dA-?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

- [Paper Note] Self-Rewarding Language Models, Weizhe Yuan+, arXiv'24, 2024.01

あたりの研究とはどう違うのだろうか、という点が気になる。

openreview: https://openreview.net/forum?id=pUpzQZTvGY

> * [[Paper Note] Self-Rewarding Language Models, Weizhe Yuan+, N/A, ICML'24 [Paper Note] Self-Rewarding Language Models, Weizhe Yuan+, arXiv'24, 2024.01 ](https://github.com/AkihikoWatanabe/paper_notes/issues/1212)
>
> あたりの研究とはどう違うのだろうか、という点が気になる。

この点については、Self-Rewarding LLMではモデルの重みを（自身が生成した出力からPreference pairを構築し）DPOで更新していくのに対し（=Agent Harnessではなくモデル自身を賢くする）、

DGMでは基盤モデルはfrozenな上で、AI Agentのコードベースそのものをself-editingすることによって進化する点が異なる（=モデルではなくAgent Harnessを賢くする）。

baseとなるエージェントのコードベースは木構造に基づいて管理され、recursiveに探索されていき、ベンチマークのスコアを改善していく、という感じのようである。木構造によって過去のsolutionが保持され、単一の方向性のみが探索されることを抑制し（i.e., オープンエンドな探索が促進され）進化が局所解に陥ることを防ぐ。

3節冒頭に記述がある通り、Gödel Machineというのは2007年に提案された、AI自身が自らを証明可能な形で改善する方法を探索する理論的概念であるようだが、DGMではGödel Machineでの「変更によってシステムが改善されることを理論的に証明しなければならない」という点を緩和し、「変更が性能を向上させるという実験結果を用いる」ことで緩和する。

[Paper Note] Rewriting Pre-Training Data Boosts LLM Performance in Math and Code, Kazuki Fujii+, ICLR'26, 2025.05

Paper/Blog Link My Issue
#Pretraining #NLP #Dataset #LanguageModel #Mathematics #ICLR #read-later #Diversity #Selected Papers/Blogs #Reference Collection #Author Thread-Post Issue Date: 2025-05-08 GPT Summary- 本研究では、公共データを体系的に書き換えることで大規模言語モデル（LLMs）の性能を向上させる2つのオープンライセンスデータセット、SwallowCodeとSwallowMathを紹介。SwallowCodeはPythonスニペットを洗練させる4段階のパイプラインを用い、低品質のコードをアップグレード。SwallowMathはボイラープレートを削除し、解決策を簡潔に再フォーマット。これにより、Llama-3.1-8Bのコード生成能力がHumanEvalで+17.0、GSM8Kで+12.4向上。すべてのデータセットは公開され、再現可能な研究を促進。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…

openreview: https://openreview.net/forum?id=45btPYgSSX

[Paper Note] Context Engineering for AI Agents in Open-Source Software, Seyedmoein Mohsenimofidi+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #AIAgents #SoftwareEngineering #ContextEngineering #Initial Impression Notes #AGENTS.md Issue Date: 2026-03-03 GPT Summary- AGENTS.mdを通じて、AIコーディングアシスタントにおける文脈情報の提供方法を調査。466のオープンソースプロジェクトから得たデータに基づき、情報の提示方法や進化を分析。結果、標準化された構造は存在せず、提供方法に大きなばらつきがあることが明らかに。AI文脈ファイルの設計が内容の品質向上に与える影響を研究する潜在性を示唆。 Comment

元ポスト:

Loading…

オープンソースのリポジトリにおけるAGENTS.mdに関する分析らしい。

[Paper Note] R2E-Gym: Procedural Environments and Hybrid Verifiers for Scaling Open-Weights SWE Agents, Naman Jain+, COLM'25, 2025.04

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #SyntheticData #Test-Time Scaling #SoftwareEngineering #COLM #PostTraining #Verification #KeyPoint Notes #Scalability #Hybrid #Environment Issue Date: 2026-02-17 GPT Summary- AgentGymは、GitHubのIssue解決を目的としたSWEタスクのための手続き的にキュレーションされた大規模な実行可能ジム環境で、8,700以上のタスクから構成されています。主な貢献は、合成データキュレーションの手法SYNGENによるスケーラブルな環境構築と、実行ベースおよび実行不要の検証機を用いたハイブリッド・テスト時スケーリングです。これにより、SWE-Bench Verifiedベンチマークで51%のパフォーマンスを達成し、従来のプロプライエタリモデルと競合する能力を示しました。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=7evvwwdo3z#discussion

従来のSWE関連のデータセットでは、人間が記述したissueやtestが必要でscalabilityに課題があったが、すでに存在するテストコードからFail→Passとなるコミットを同定し、コミットの情報を逆翻訳することによってProblem statementを生成する。従来手法ではIssueの記述をそのまま使っていたが、スケーラブルではないので異なるアプローチが求められる。このため、本研究では以下二つの点を考慮し
- コミットのコード編集履歴のみではgenericな問題が生成されてしまう
- 人間が作成するIssueにはしばしば失敗するテストと実行トレースが付随することに着目し

Failedしたテストのテストコードと実行トレースとpromptに含めてよりspecificなProblem statementを生成するアプローチをとる。

また、SWEエージェントが出力するパッチの中からより良いパッチをランキング付けするためのtest-time scaling手法も提案している。具体的には、task description D, agent trajectory T, Patch Pが与えられた時にPatch PのスコアSを得る問題として定式化できる。このスコアを得る方法として、execution basedなverifierとexecution freeなverifierの2種類を分析し、最終的に両者のハイブリッドによってより良いtest-time scalingのgainが得られることを示している。

具体的には、前者はtest codeを自動生成するエージェントを学習し、taskに必要な機能に関するテストと、taskを解くための実装によって既存の機能が壊れていないかに関するテスト（回帰テスト）の2種類によって構成され、回帰テストのスコアが最も良いパッチに対して、テストがどれだけパスしたかによってスコアリングをする。
後者については、D, T, Pが与えられた時に、各Trajectory tが正しいものがどうかを2値分類するverifierを学習し、全体のtrajectoryの数に対するyesの割合によってスコアを定義する。

これらのverifierを分析した結果、双方共にtest-time scalingに対してgainを得られることがわかったが、前者はパッチの正しさに対して直接的なシグナルを得られるが、パッチそのものの質を識別する能力が低く、後者はパッチの質の識別力は高いが、エージェントの思考によるバイアスが課題として存在することがわかった。これより、両者は補完的な関係にあると考えられ、両者をハイブリッドすることによって、より良好なtest-time scalingによるgainを得ることが可能なことが示されている。興味深いのは、editing agent (i.e., パッチを生成するエージェント）のロールアウト数をスケープすることでも性能が改善するが、testing agentのロールアウト数をスケールすることで、editing agentのロールアウトを単にスケールするよりもより効率的なスケーリング性能を得られることである。

[Paper Note] Language Server CLI Empowers Language Agents with Process Rewards, Yifan Zhang+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #SoftwareEngineering Issue Date: 2026-02-13 GPT Summary- 言語サーバーを利用し、LSPサーバーを固定してコーディングエージェントやCI向けのCLI中心のオーケストレーションレイヤー「Lanser-CLI」を提案。これにより、構造的情報と実行可能なプロセス報酬を提供し、決定論的かつ再現可能なワークフローを実現。具体的には、堅牢なアドレス指定、安定した解析バンドル、セーフガードを伴う変異操作、オンラインで計算可能なプロセス報酬機能を機能させ、プロセス監視や反事実分析に適したシステムを構築。 Comment

元ポスト:

Loading…

pj page: https://yifanzhang-pro.github.io/lanser-cli/

[Paper Note] BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills, Atharv Sonwane+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SyntheticData #SoftwareEngineering #Initial Impression Notes #BugGeneration Issue Date: 2026-01-16 GPT Summary- 合成的に多様なバグを生成する新手法を提案し、SWEエージェントの訓練における高品質なバグの重要性を強調。従来の局所的摂動によるバグ生成に対し、機能追加が意図しないバグを生じさせるプロセスを採用。実験により、新生成バグが監視付きファインチューニングにおいて効率的なデータを提供し、他データセットを上回る成果を実証。FrogBossとFrogMiniモデルがSWE-benchでそれぞれ54.6%と45.3%のpass@1を達成。 Comment

カオスエンジニアリングみたいになってきた

[Paper Note] SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios, Minh V. T. Thai+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Evaluation #SoftwareEngineering #LongHorizon Issue Date: 2026-01-12 GPT Summary- 既存のAIコーディングエージェントは単一の課題に焦点を当てているが、実際のソフトウェア開発は長期的な取り組みである。新たに提案するベンチマークSWE-EVOは、7つのオープンソースPythonプロジェクトから構築され、エージェントが複数ファイルにわたる修正を行う48の進化タスクを評価する。実験では、最先端モデルでも解決率が低く、特にマルチファイル推論に苦労していることが示された。さらに、複雑なタスクの進捗を測る指標Fix Rateも提案されている。 Comment

元ポスト:

Loading…

[Paper Note] Propose, Solve, Verify: Self-Play Through Formal Verification, Alex Wilf+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #CodeGeneration #SelfPlay #Author Thread-Post Issue Date: 2025-12-24 GPT Summary- 自己対戦によるモデル訓練の効果を検討し、形式的検証を用いたコード生成の設定で「Propose, Solve, Verify（PSV）」フレームワークを導入。PSV-Verusを訓練し、3つのベンチマークで最大9.6倍の性能向上を達成。形式的検証と問題の難易度が成功する自己対戦の重要な要素であることを示した。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] DeepCode: Open Agentic Coding, Zongwei Li+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #SoftwareEngineering #read-later #ContextEngineering #One-Line Notes Issue Date: 2025-12-15 GPT Summary- DeepCodeというフレームワークを用いて、科学論文からコードへの高忠実度合成の課題に取り組む。情報フロー管理を通じて、タスク関連の信号を最大化し、最先端のパフォーマンスを達成。PaperBenchベンチマークで商業エージェントや人間専門家を上回る結果を示し、自律的な科学的再現の基盤を確立。 Comment

元ポスト:

Loading…

非常に雑にいうと、現在のCoding AgentはPh.Dレベルの論文の再実装レベルに到達できていないが、ContextEngineeringをしっかり行うことでagenticなfrontier modelに対して相対的に70%以上PaperBenchの性能が改善し、Ph.Dレベルの専門家と同等程度の水準まで到達できました、という話に見える。

ポイント解説:

Loading…

[Paper Note] Computer-Use Agents as Judges for Generative User Interface, Kevin Qinghong Lin+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #AIAgents #Evaluation #LLM-as-a-Judge #ComputerUse #VisionLanguageModel #One-Line Notes #UI Issue Date: 2025-11-26 GPT Summary- CUAはGUIを自律的に操作する能力が向上しているが、従来のGUIは人間向けに設計されているため、効率的なタスク実行に不必要な行動を強いられる。Coderの進展により、自動GUI設計が変革される中、CUAがCoderを支援する役割を果たせるかを探るためにAUI-Gymを導入。1560のタスクをシミュレートし、信頼性を確保する検証ツールを開発。Coder-CUA協力フレームワークを提案し、CUAがデザインを評価し、タスク解決可能性を測定。CUAダッシュボードを設計し、ナビゲーション履歴を視覚的に要約。これにより、エージェントの能動的な参加を促進する。 Comment

pj page: https://showlab.github.io/AUI/

元ポスト:

Loading…

CUA自身にCUAにとって理解しやすいUIに関するJudgeをさせてフィードバックさせ（CUA-as-Judpe)、Coder（コード生成）を通じてUIを改善できるか？というタスクとベンチマークな模様

[Paper Note] EDIT-Bench: Evaluating LLM Abilities to Perform Real-World Instructed Code Edits, Wayne Chi+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #SoftwareEngineering #read-later Issue Date: 2025-11-20 GPT Summary- EDIT-Benchは、LLMのコード編集能力を実際のユーザー指示とコードコンテキストに基づいて評価するためのベンチマークで、540の問題を含む。多様な自然言語とプログラミング言語を用いた実世界のユースケースを提供し、コンテキスト依存の問題を導入。40のLLMを評価した結果、60%以上のスコアを得たモデルは1つのみで、ユーザー指示のカテゴリやコンテキスト情報がパフォーマンスに大きく影響することが示された。 Comment

元ポスト:

Loading…

[Paper Note] SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution, Yuxiang Wei+, NeurIPS'25, 2025.02

Paper/Blog Link My Issue
#NLP #ReinforcementLearning #AIAgents #NeurIPS #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-11-05 GPT Summary- SWE-RLは、強化学習を用いて大規模言語モデル（LLMs）の推論能力を向上させる新しいアプローチで、実世界のソフトウェア工学に焦点を当てています。軽量なルールベースの報酬を活用し、LLMがオープンソースソフトウェアの進化データから学習することで、開発者の推論プロセスを自律的に回復します。Llama3-SWE-RL-70Bは、実世界のGitHub問題において41.0%の解決率を達成し、中規模LLMとしては最高のパフォーマンスを示しました。また、一般化された推論スキルを持ち、複数のドメイン外タスクで改善された結果を示しています。SWE-RLは、ソフトウェア工学データに基づく強化学習の新たな可能性を開きます。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

解説:

Loading…

[Paper Note] CodeAlignBench: Assessing Code Generation Models on Developer-Preferred Code Adjustments, Forough Mehralian+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #UserBased #AIAgents #Evaluation Issue Date: 2025-11-03 GPT Summary- 大規模言語モデルのコード生成能力を評価するために、指示に従う能力を測るマルチランゲージベンチマークを導入。初期問題の制約遵守とフォローアップ指示への対応能力を評価。LiveBenchのプログラミングタスクを用いて、PythonからJavaおよびJavaScriptへの自動翻訳タスクで実証。結果、モデルは指示に従う能力において異なる性能を示し、ベンチマークがコード生成モデルの包括的な評価を提供することを明らかにした。 Comment

元ポスト:

Loading…

[Paper Note] Scaling Test-Time Compute to Achieve IOI Gold Medal with Open-Weight Models, Mehrzad Samadi+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #LanguageModel #LLM-as-a-Judge #Test-Time Scaling #One-Line Notes #Scalability Issue Date: 2025-10-19 GPT Summary- 競技プログラミングはLLMsの能力を評価する重要なベンチマークであり、IOIはその中でも特に権威ある大会です。本論文では、オープンウェイトモデルがIOI金メダルレベルのパフォーマンスを達成するためのフレームワーク「GenCluster」を提案します。このフレームワークは、生成、行動クラスタリング、ランキング、ラウンドロビン戦略を組み合わせて多様な解決空間を効率的に探索します。実験により、GenClusterは計算リソースに応じてスケールし、オープンシステムとクローズドシステムのギャップを縮小することが示され、IOI 2025で金メダルを達成する可能性を示唆しています。 Comment

元ポスト:

Loading…

OpenWeight modelで初めてIOI金メダル級のパフォーマンスを実現できるフレームワークで、まずLLMに5000個程度の潜在的なsolutionを生成させ、それぞれのsolutionを100種のtest-caseで走らせて、その後solutionをbehaviorに応じてクラスタリングする。これによりアプローチのユニークさにそってクラスタが形成される。最終的に最も良いsolutionを見つけるために、それぞれのクラスタから最も良いsolutionを互いに対決させて、LLM-as-a-Judgeで勝者をランク付けするような仕組みのようである。

[Paper Note] AutoCode: LLMs as Problem Setters for Competitive Programming, Shang Zhou+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#NLP #LanguageModel #Education #AIAgents #Evaluation #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-18 GPT Summary- AutoCodeは、競技プログラミングの問題文とテストケースを生成するシステムであり、信頼性の高い問題作成を実現します。複数回の検証を通じて、生成された問題は公式の判断と99%の一貫性を持ち、従来の手法に比べて大幅な改善を示します。また、ランダムなシード問題から新しいバリアントを作成し、不正な問題をフィルタリングする機能も備えています。最終的に、AutoCodeはグランドマスター級の競技プログラマーによってコンテスト品質と評価される問題を生成します。 Comment

blog: https://livecodebenchpro.com/projects/autocode/overview

LLMで自動的に高品質な競技プログラミング問題とそのテストケースを生成するパイプラインを提案。

信頼性のあるテストケースを作成するために、Validator-Generator-Checkerフレームワーク。提案。Generatorがテストケースを生成し、Validatorが生成されたテストケースの入力が問題の制約を満たしているか判定し、Checkerが与えられたテストケースの元で解法が正しいかを確認する。

続いて、人手を介さずとも生成される問題が正しいことを担保するためにdual-verificationを採用。具体的には、LLMに新規の問題文と効率的な解法を生成させ、加えてブルートフォースでの解法を別途生成する。そして、両者をLLMが生成したテストセット群で実行し、全ての解放で出力が一致した場合のみAcceptする、といったような手法らしい。

（手法の概要としてはそうなのだろうが、細かい実装に高品質さの肝があると思うのでしっかり読んだ方が良さげ。特にTest Generationの詳細をしっかりできていない）

takeawayで興味深かったのは、

- LLMは自身では解けないが、解法が存在する（solvable)問題を生成できること
- 人間の専門家とLLM（o3)の間で、問題の品質の新規性の判定の相関がわずか0.007, 0.11しかなかったこと。そして品質に関しては専門家のグループ間では0.71, o3とgpt4oの間では0.72と高い相関を示しており、LLMと人間の専門家の間で著しく問題の品質の判断基準が異なること
- seed問題と生成された問題の難易度のgainが、問題の品質に関して、LLM自身のself-evaluationよりもより良い指標となっていること

[Paper Note] BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution, Terry Yue Zhuo+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #UserBased #Alignment #Evaluation #read-later #Selected Papers/Blogs Issue Date: 2025-10-13 GPT Summary- BigCodeArenaは、LLMが生成したコードの質をリアルタイムで評価するためのクラウドソーシングプラットフォームで、Chatbot Arenaを基盤に構築されています。14,000以上のコード中心の会話セッションから4,700のマルチターンサンプルを収集し、人間の好みを明らかにしました。これに基づき、LLMのコード理解と生成能力を評価するためのBigCodeRewardとAutoCodeArenaという2つのベンチマークを策定しました。評価の結果、実行結果が利用可能な場合、ほとんどのLLMが優れたパフォーマンスを示し、特にGPT-5やClaudeシリーズがコード生成性能でリードしていることが確認されました。 Comment

元ポスト:

Loading…

良さそう

[Paper Note] D3: A Dataset for Training Code LMs to Act Diff-by-Diff, Piterbarg+, COLM'25

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #mid-training #COLM #Editing #One-Line Notes Issue Date: 2025-10-08 Comment

openreview: https://openreview.net/forum?id=sy71y74U80#discussion

openreviewのサマリによると、8B tokens, 850k python filesのデータセットで、コーディングタスクを、ゴールで条件づけられたsequential editsタスクとみなし The Stack上のコードを分析ツールとLLMによって合成されたrationaleによってフィルタリング/拡張したデータを提供しているとのこと。具体的には (state, goal, action_i) の3つ組みのデータセットであり、action_iがaction前後でのdiffになっている模様。D3データセットでSFTの前にLlama 1B / 3Bをmid-trainingした結果、downstreamタスク（コード生成、completion、編集）において性能が向上したとのこと。

[Paper Note] SWE-QA: Can Language Models Answer Repository-level Code Questions?, Weihan Peng+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#NLP #Dataset #QuestionAnswering #AIAgents #Evaluation #SoftwareEngineering Issue Date: 2025-09-27 GPT Summary- SWE-QAは、ソフトウェアリポジトリ全体を理解し推論するための新しいコード質問応答ベンチマークで、576の高品質な質問-回答ペアを含む。これは、複数のファイルをナビゲートし、ソフトウェアアーキテクチャや長距離のコード依存関係を理解する能力を評価するために設計された。LLMエージェントを用いたプロトタイプSWE-QA-Agentも開発され、実験によりLLMの可能性と今後の研究課題が示された。 Comment

元ポスト:

Loading…

コードスニペットレベルではなく、リポジトリレベルのコードベースの理解が求められるQAベントマーク

[Paper Note] CWM: An Open-Weights LLM for Research on Code Generation with World Models, FAIR CodeGen team+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#NLP #LanguageModel #OpenWeight #mid-training #PostTraining #Selected Papers/Blogs #WorldModels #One-Line Notes Issue Date: 2025-09-25 GPT Summary- 320億パラメータのCode World Model (CWM)をリリースし、コード生成のための世界モデルの研究を進める。静的コードだけでなく、PythonインタプリタやDocker環境から得た観測-行動トレジェクトリで中間トレーニングを実施し、マルチタスク推論RLによる広範な能力を評価。CWMは強力なテストベッドを提供し、世界モデルがエージェンティックコーディングに貢献できることを示す。主要なタスクで高いパフォーマンスを記録し、モデルチェックポイントも提供。 Comment

元ポスト:

Loading…

World Modelと銘打ってあるが、一般的なCV分野でのWorld Modelではなく、python やbash等の実行をトークン列として仮想的にトレースできるようにmid trainingされている（大量の実トレースデータが利用されている模様）ので、World Modelと銘打たれている模様？

GRPOに対するモダンなtweakがまとまっている模様:

Loading…

DeepSeek-R1で提案されてから細かな調整が重ねられて来た。

[Paper Note] Searching Latent Program Spaces, Matthew V Macfarlane+, NeurIPS'25, 2024.11

Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #Search #NeurIPS #Encoder-Decoder Issue Date: 2025-09-21 GPT Summary- 新しいスキルを効率的に習得し、一般化するためのLatent Program Network（LPN）を提案。LPNは、入力を出力にマッピングする潜在空間を学習し、テスト時に勾配を用いて探索。シンボリックアプローチの適応性とニューラル手法のスケーラビリティを兼ね備え、事前定義されたDSLを不要にする。ARC-AGIベンチマークでの実験により、LPNは分布外タスクでの性能を2倍に向上させることが示された。 Comment

元ポスト:

Loading…

[Paper Note] LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code, Naman Jain+, ICLR'25

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #read-later #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-09-12 GPT Summary- 本研究では、LLMのコード関連能力を評価するための新しいベンチマーク「LiveCodeBench」を提案。LeetCode、AtCoder、CodeForcesから収集した400の高品質なコーディング問題を用い、コード生成や自己修復、コード実行など多様な能力に焦点を当てている。18のベースLLMと34の指示調整されたLLMを評価し、汚染や過剰適合の問題を実証的に分析。すべてのプロンプトとモデルの結果を公開し、さらなる分析や新しいシナリオの追加を可能にするツールキットも提供。 Comment

pj page: https://livecodebench.github.io

openreview: https://openreview.net/forum?id=chfJJYC3iL

LiveCodeBenchは非常にpopularなコーディング関連のベンチマークだが、readmeに記載されているコマンド通りにベンチマークを実行すると、stop tokenに"###"が指定されているため、マークダウンを出力したLLMの出力が常にtruncateされるというバグがあった模様。

Loading…

[Paper Note] SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents, Ibragim Badertdinov+, NeurIPS'25, 2025.05

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #NeurIPS #SoftwareEngineering #read-later #Contamination-free #Selected Papers/Blogs #Live #Environment Issue Date: 2025-09-06 GPT Summary- LLMベースのエージェントのSWEタスクにおける課題として、高品質なトレーニングデータの不足と新鮮なインタラクティブタスクの欠如が挙げられる。これに対処するため、21,000以上のインタラクティブなPythonベースのSWEタスクを含む公的データセットSWE-rebenchを自動化されたパイプラインで構築し、エージェントの強化学習に適したベンチマークを提供。これにより、汚染のない評価が可能となり、いくつかのLLMの性能が過大評価されている可能性を示した。 Comment

pj page: https://swe-rebench.com

元ポスト:

Loading…

コンタミネーションのない最新のIssueを用いて評価した結果、Sonnet 4が最も高性能

openreview: https://openreview.net/forum?id=nMpJoVmRy1&referrer=%5Bthe%20profile%20of%20Maksim%20Nekrashevich%5D(%2Fprofile%3Fid%3D~Maksim_Nekrashevich1)

[Paper Note] GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents, Manish Shetty+, arXiv'25

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Dataset #LanguageModel #AIAgents #Evaluation #SoftwareEngineering Issue Date: 2025-09-03 GPT Summary- 高性能ソフトウェア開発における言語モデルの能力を評価するためのベンチマークGSOを提案。102の最適化タスクを特定する自動化パイプラインを開発し、主要なソフトウェアエンジニアリングエージェントの成功率は5%未満であることを示した。定性的分析により、低レベル言語や最適化戦略の課題が明らかになった。研究の進展のために、ベンチマークのコードとエージェントのデータを公開。 Comment

pj page: https://gso-bench.github.io

ソフトウェアの高速化に関するベンチ

元ポストに掲載されているリーダーボードはどこにあるのだろう。ざっと見た感じ見当たらない。

[Paper Note] Efficient Code Embeddings from Code Generation Models, Daria Kryvosheieva+, arXiv'25

Paper/Blog Link My Issue
#Embeddings #NLP #LanguageModel Issue Date: 2025-09-03 GPT Summary- jina-code-embeddingsは、自然言語からコードを取得し、技術的な質問応答や意味的に類似したコードスニペットの特定を行う新しいコード埋め込みモデルです。自己回帰型バックボーンを利用し、トークンプーリングを通じて埋め込みを生成。小さいモデルサイズながら最先端のパフォーマンスを示し、コード埋め込みモデルの構築における有効性を検証しています。 Comment

HF: https://huggingface.co/collections/jinaai/jina-code-embeddings-68b0fbfbb0d639e515f82acd

コーディング特化のembeddingで、検索、クロスリンガルな類似度、技術に関するQAに対応可能らしい

公式ポスト:

Loading…

[Paper Note] AutoCodeBench: Large Language Models are Automatic Code Benchmark Generators, Jason Chou+, arXiv'25

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #MultiLingual Issue Date: 2025-08-19 GPT Summary- AutoCodeGenを提案し、手動注釈なしで高難易度の多言語コード生成データセットを自動生成。これに基づき、3,920の問題からなるAutoCodeBenchを導入し、20のプログラミング言語に均等に分配。30以上のLLMsを評価した結果、最先端のモデルでも多様性や複雑さに苦労していることが明らかに。AutoCodeBenchシリーズは、実用的な多言語コード生成シナリオに焦点を当てるための貴重なリソースとなることを期待。 Comment

pj page: https://autocodebench.github.io/

元ポスト:

Loading…

[Paper Note] Can Language Models Falsify? Evaluating Algorithmic Reasoning with Counterexample Creation, Shiven Sinha+, arXiv'25

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #Reasoning #Verification Issue Date: 2025-08-13 GPT Summary- 言語モデル（LM）の科学的発見を加速するために、微妙に誤った解決策に対する反例を作成する能力を評価する新しいベンチマーク「REFUTE」を提案。これはプログラミング問題からの誤った提出物を用いており、最も優れた推論エージェントでも9%未満の反例しか生成できないことが示された。この研究は、LMの誤った解決策を否定する能力を向上させ、信頼できる推論を通じて自己改善を促進することを目指している。 Comment

pj page: https://falsifiers.github.io

元ポスト:

Loading…

バグのあるコードとtask descriptionが与えられた時に、inputのフォーマットと全ての制約を満たすが、コードの実行が失敗するサンプル（＝反例）を生成することで、モデルのreasoning capabilityの評価をするベンチマーク。

gpt-ossはコードにバグのあるコードに対して上記のような反例を生成する能力が高いようである。ただし、それでも全体のバグのあるコードのうち反例を生成できたのは高々21.6%のようである。ただ、もしコードだけでなくverification全般の能力が高いから、相当使い道がありそう。

[Paper Note] STEPWISE-CODEX-Bench: Evaluating Complex Multi-Function Comprehension and Fine-Grained Execution Reasoning, Kaiwen Yan+, arXiv'25

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #Reasoning Issue Date: 2025-08-10 GPT Summary- 新しいベンチマーク「STEPWISE-CODEX-Bench（SX-Bench）」を提案し、複雑な多機能理解と細かい実行推論を評価。SX-Benchは、サブ関数間の協力を含むタスクを特徴とし、動的実行の深い理解を測定する。20以上のモデルで評価した結果、最先端モデルでも複雑な推論においてボトルネックが明らかに。SX-Benchはコード評価を進展させ、高度なコードインテリジェンスモデルの評価に貢献する。 Comment

元ポスト:

Loading…

現在の主流なコード生成のベンチは、input/outputがgivenなら上でコードスニペットを生成する形式が主流(e.g., MBPP [Paper Note] Program Synthesis with Large Language Models, Jacob Austin+, arXiv'21 , HumanEval [Paper Note] Evaluating Large Language Models Trained on Code, Mark Chen+, arXiv'21 )だが、モデルがコードを理解し、複雑なコードのロジックを実行する内部状態の変化に応じて、実行のプロセスを推論する能力が見落とされている。これを解決するために、CRUXEVAL [Paper Note] CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution, Alex Gu+, arXiv'24 , CRUXEVAL-X [Paper Note] CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution, Ruiyang Xu+, arXiv'24 では、関数のinputs/outputsを予測することで、モデルのコードのcomprehension, reasoning能力を測ろうとしているが、
- single functionのlogicに限定されている
- 20 line程度の短く、trivialなロジックに限定されている
- すでにSoTAモデルで95%が達成され飽和している

というlimitationがあるので、複数の関数が協働するロジック、flow/dataのinteractionのフロー制御、細かい実行ステップなどを含む、staticなコードの理解から、動的な実行プロセスのモデリング能力の評価にシフトするような、新たなベンチマークを作成しました、という話な模様。

まず関数単位のライブラリを構築している。このために、単一の関数の基礎的な仕様を「同じinputに対して同じoutputを返すものは同じクラスにマッピングされる」と定義し、既存のコードリポジトリとLLMによる合成によって、GoとPythonについて合計30種類のクラスと361個のインスタンスを収集。これらの関数は、算術演算や大小比較、パリティチェックなどの判定、文字列の操作などを含む。そしてこれら関数を3種類の実行パターンでオーケストレーションすることで、合成関数を作成した。合成方法は
- Sequential: outputとinputをパイプラインでつなぎ伝搬させる
- Selective: 条件に応じてf(x)が実行されるか、g(x)が実行されるかを制御
- Loop: input集合に対するloopの中に関数を埋め込み順次関数を実行

の3種類。合成関数の挙動を評価するために、ランダムなテストケースは自動生成し、合成関数の挙動をモニタリング（オーバーフロー、無限ループ、タイムアウト、複数回の実行でoutputが決定的か等など）し、異常があるものはフィルタリングすることで合成関数の品質を担保する。

ベンチマーキングの方法としては、CRUXEVALではシンプルにモデルにコードの実行結果を予想させるだけであったが、指示追従能力の問題からミスジャッジをすることがあるため、この問題に対処するためのペアが与えられた時に、outputが合成関数に対してinputしま結果とマッチするかをyes/noのbinaryで判定させる（Predictと呼ばれるモデルのコード理解力を評価)。これとは別に、与えられたinput, outputペアと合成関数に基づいて、実行時の合計のcomputation stepsを出力させるタスクをreasoningタスクとして定義し、複雑度に応じてeasy, hardに分類している。computation stepsは、プログラムを実行する最小単位のことであり、たとえば算術演算などの基礎的なarithmetic/logic operationを指す。

[Paper Note] MegaMath: Pushing the Limits of Open Math Corpora, Fan Zhou+, COLM'25

Paper/Blog Link My Issue
#Pretraining #NLP #Dataset #LanguageModel #SyntheticData #Mathematics #mid-training #COLM #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-07-10 GPT Summary- MegaMathは、数学に特化したオープンデータセットで、LLMの数学的推論能力を向上させるために作成された。ウェブデータの再抽出、数学関連コードの特定、合成データの生成を通じて、371Bトークンの高品質なデータを提供し、既存のデータセットを上回る量と品質を実現した。 Comment

元ポスト:

Loading…

非常に大規模な数学の事前学習/mid-training向けのデータセット

CommonCrawlのHTMLから、さまざまなフィルタリング処理（reformatting, 2 stageのHTML parserの活用（片方はnoisyだが高速、もう一方は高性能だが遅い）, fasttextベースの分類器による抽出, deduplication等）を実施しMegaMath-Webを作成、また、MegaMathWebをさらに分類器で低品質なものをフィルタリングし、LLMによってノイズ除去、テキストのreorganizingを実施し（≠ピュアな合成データ）継続事前学習、mid-training向けの高品質なMegaMath-Web-Proを作成。

MegaMathCodeはThe Stack V2 ([Paper Note] StarCoder 2 and The Stack v2: The Next Generation, Anton Lozhkov+, arXiv'24 ) をベースにしており、mathematical reasoning, logic puzzles, scientific computationに関するコードを収集。まずこれらのコードと関連が深い11のプログラミング言語を選定し、そのコードスニペットのみを対象とする。次にstrong LLMを用いて、数学に関するrelevanceスコアと、コードの品質を0--6のdiscrete scoreでスコアリングし学習データを作成。作成した学習データでSLMを学習し大規模なフィルタリングを実施することでMegaMath-Codeを作成。

最後にMegaMath-{Web, code}を用いて、Q&A, code data, text&code block dataの3種類を合成。Q&Aデータの合成では、MegaMath-WebからQAペアを抽出し、多様性とデータ量を担保するためQwen2.5-72B-Instruct, Llama3.3-70B-Instructの両方を用いて、QAのsolutionを洗練させる（reasoning stepの改善, あるいはゼロから生成する[^1])ことで生成。また、code dataでは、pythonを対象にMegaMath-Codeのデータに含まれるpython以外のコードを、Qwen2.5-Coder-32B-Instructと、Llamd3.1-70B-Instructによってpythonに翻訳することでデータ量を増やした。text&code blockデータでは、MegaMath-Webのドキュメントを与えて、ブロックを生成（タイトル、数式、結果、コードなど[^1]）し、ブロックのverificationを行い（コードが正しく実行できるか、実行結果とanswerが一致するか等）、verifiedなブロックを残すことで生成。

[^1]: この辺は論文の記述を咀嚼して記述しており実サンプルを見ていないので少し正しい認識か不安

[Paper Note] LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?, Zihan Zheng+, NeurIPS'25

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #NeurIPS #Contamination-free #Selected Papers/Blogs #Live #Initial Impression Notes Issue Date: 2025-06-17 GPT Summary- 大規模言語モデル（LLMs）は競技プログラミングで人間のエリートを上回るとされるが、実際には重要な限界があることを調査。新たに導入した「LiveCodeBench Pro」ベンチマークにより、LLMsは中程度の難易度の問題で53%のpass@1を達成する一方、難しい問題では0%という結果が得られた。LLMsは実装重視の問題では成功するが、複雑なアルゴリズム的推論には苦労し、誤った正当化を生成することが多い。これにより、LLMsと人間の専門家との間に重要なギャップがあることが明らかになり、今後の改善のための診断が提供される。 Comment

元ポスト:

Loading…

Hardな問題は現状のSoTAモデル（Claude4が含まれていないが）でも正答率0.0%

ベンチマークに含まれる課題のカテゴリ

実サンプルやケーススタディなどはAppendix参照のこと。

pj page: https://livecodebenchpro.com

アップデート(NeurIPSにaccept):

Loading…

[Paper Note] ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering, Yuki Imajuku+, NeurIPS'25

Paper/Blog Link My Issue
#NLP #Dataset #AIAgents #Evaluation #LongSequence #ScientificDiscovery #NeurIPS #Author Thread-Post Issue Date: 2025-06-17 GPT Summary- AIシステムの最適化問題に対するパフォーマンスを評価する新しいベンチマークALE-Benchを提案。ALE-Benchは実際のタスクに基づき、長期的な解決策の洗練を促進する。大規模言語モデル（LLM）の評価では特定の問題で高いパフォーマンスを示すが、一貫性や長期的な問題解決能力において人間とのギャップが残ることが明らかになり、今後のAI進展に向けた必要性を示唆している。 Comment

元ポスト:

Loading…

[Paper Note] Training Language Models to Generate Quality Code with Program Analysis Feedback, Feng Yao+, NeurIPS'25

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #NeurIPS #One-Line Notes #Author Thread-Post Issue Date: 2025-06-06 GPT Summary- プログラム分析に基づくフィードバックを用いた強化学習フレームワーク「REAL」を提案。セキュリティや保守性の欠陥を検出し、機能的正確性を保証することで、LLMsによる高品質なコード生成を促進。手動介入不要でスケーラブルな監視を実現し、実験により最先端の手法を上回る性能を示した。 Comment

元ポスト:

Loading…

現在のCoding LLMはUnitTestを通るように学習されるが、UnitTestに通るからといってコードの品質が良いわけでは無いので、UnitTestに通るか否かのReward（Functionality)に加えて、RL中に生成されたコードを制御フローグラフ[^1]に変換し汚染解析[^2]をした結果をRewardに組み込むことで、FunctionalityとQualityを両立したよ、という話のようである。

Figure1のグラフの縦軸は、Functionalityと（UnitTestが通ったか否か）と、Quailty(セキュリティや保守性に関する問題が検出されなかった)、という両方の条件を満たした割合である点に注意。

[^1]:プログラムを実行したときに通る可能性のある経路のすべてをグラフとして表したもの[引用元]( https://qiita.com/uint256_t/items/7d4556cb8f5997b9e95c)
[^2]:信頼できない汚染されたデータがプログラム中でどのように処理されるかを分析すること

[Paper Note] Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning, Yinjie Wang+, NeurIPS'25 Spotlight

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SoftwareEngineering #UnitTest #Reference Collection #Author Thread-Post Issue Date: 2025-06-05 GPT Summary- CUREは、コーディングとユニットテスト生成を共進化させる強化学習フレームワークで、真のコードを監視せずにトレーニングを行う。ReasonFlux-Coderモデルは、コード生成精度を向上させ、下流タスクにも効果的に拡張可能。ユニットテスト生成では高い推論効率を達成し、強化学習のための効果的な報酬モデルとして機能する。 Comment

元ポスト:

Loading…

UnitTestの性能向上させます系の研究が増えてきている感

[Paper Note] AlphaEvolve: A coding agent for scientific and algorithmic discovery, Alexander Novikov+, arXiv'25, 2025.06

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #ScientificDiscovery Issue Date: 2025-05-17 GPT Summary- AlphaEvolveは、未解決の科学問題に取り組み、計算基盤を最適化するための進化的コーディングエージェントです。自律的にアルゴリズムを改善し、評価者のフィードバックを基に反復的に進化させ、新たな発見を促します。具体的には、データセンターの効率的なスケジューリングや回路設計の簡素化を実現し、高度な数学問題に対して新たな証明可能なアルゴリズムを導入しました。特に、56年ぶりにストラスレンのアルゴリズムを上回る新しい掛け算手法を発見しました。AlphaEvolveは、科学と計算分野への大きな貢献が期待されています。 Comment

blog post: https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/

[Paper Note] To Code, or Not To Code? Exploring Impact of Code in Pre-training, Viraat Aryabumi+, arXiv'24, 2024.08

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #DataMixture #One-Line Notes Issue Date: 2025-11-04 GPT Summary- コードデータが一般的なLLMのパフォーマンスに与える影響を体系的に調査。アブレーション実験により、コードがコーディングタスクを超えた一般化に重要であり、コード品質の向上が全タスクに大きな影響を与えることを確認。特に、コードの追加により自然言語推論で最大8.2%、世界知識で4.2%、生成的勝率で6.6%の向上を示し、コードパフォーマンスでは12倍の改善を達成。研究は、コード品質への投資がポジティブな影響をもたらすことを示唆。 Comment

元ポスト:

Loading…

事前学習におけるコードの割合を増やすとコーディングタスクの性能は線形に増加する。全体の平均タスク性能の観点で言うとコードの割合を25%にするのが最適で、コードの割合を増やすほど自然言語による推論、世界知識が問われるタスクの性能は悪化していき、コードの割合が75%を超えると急激に悪化する（Figure4)。

[Paper Note] Better & Faster Large Language Models via Multi-token Prediction, Fabian Gloeckle+, ICML'24

Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #NLP #LanguageModel #ICML #Selected Papers/Blogs Issue Date: 2025-08-16 GPT Summary- 本研究では、大規模言語モデルを複数の将来のトークンを同時に予測するように訓練する手法を提案し、サンプル効率の向上を図る。具体的には、n個の独立した出力ヘッドを用いて次のnトークンを予測し、訓練時間にオーバーヘッドをかけずに下流の能力を向上させる。特に、コーディングタスクにおいて、提案モデルは強力なベースラインを上回る性能を示し、推論時に最大3倍の速度向上も実現。 Comment

next tokenだけでなく、next 4-tokenを予測して学習することで、MBPP/HumanEvalにおいて、モデルのパラメータサイズが1.3Bを超えた時点でベースライン（=同じパラメータサイズとなるように調整されたnext-token prediction）をoutperformしはじめ、モデルサイズが大きくなるにつれて性能の差が顕著に表れることを示した。コーディングドメインにおいて事前学習、およびfinetuningの双方で効果がある。ただし、3.7節で示されている通り、これはコーディングドメインでのみこのような顕著な改善がみられており、自然言語データに対してはここまで顕著な改善はしていないように見える（5.1節で考察されていそう; 昨今のLLMでは事前学習データにコーディングなどのデータが入るのが普通なので利用する恩恵はありそう; Abstractive Summarizationでは性能が改善している(Figure6); GSM8Kでは200Bまではnext 2 tokenを予測すると性能が改善しているが500B token学習するとnext token predictionの方が性能が良くなる）。全体的にperplexityの改善（=次のトークンにおいて正解トークンの生成確率を改善する）というよりは、モデルの"最終的な生成結果”にフォーカスした評価となっている。

モデルは共有のトランクf_s (おそらくhead間でパラメータを共有している一連のtransformerブロック) を持っておりinput x_t:1に対応するlatent representation z_t:1を生成する。latent representationをoutput headにinputすることで、それぞれのheadが合計でn個のnext tokenを予測する。

next n-tokenを予測する際には、GPUメモリを大幅に食ってしまう（logitsのshapeが(n, V)となりそれらの勾配も保持しなければならない) ことがボトルネックとなるが、f_sまでforward passを実行したら、各headに対してforward/backward passを順番に実行して、logitsの値は破棄し勾配の情報だけf_sに蓄積することで、長期的に保持する情報を各headのから逆伝搬された勾配情報のみにすることでこれを解決している。

実際にinferenceをするときはnext tokenを予測するヘッドの出力を活用することを前提としているが、全てのヘッドを活用することで、t時点でt+nトークンの予測を可能なため、self-speculative decodingを実施しinference timeを短縮することができる。

3.4で示されているように、nの値は大きければ大きいほど良いというわけではなく、4程度（byte levelなモデルの場合は8 bytes）が最適なようである。が、Table1を見ると、データによってはn=6が良かったり（i.e., 最適なnは学習データ依存）複数エポック学習するとmulti token predictionの効果が薄くなっていそう（i.e., 同じトークンの予測を複数回学習するので実質multi token predictionと似たようなことをやっている。言い換えると、multi token predictionは複数epochの学習を先取りしているとみなせる？）なのは注意が必要そう。

全体的に複数epochを学習すると恩恵がなくなっていく（コーディング） or next token predictionよりも性能が悪化する（自然言語）ので、LLMの事前学習において、複数epochを学習するような当たり前みたいな世界線が訪れたら、このアーキテクチャを採用すると性能はむしろ悪化しそうな気はする。

MBPP/HumanEval:
- [Paper Note] Program Synthesis with Large Language Models, Jacob Austin+, arXiv'21
- [Paper Note] Evaluating Large Language Models Trained on Code, Mark Chen+, arXiv'21

[Paper Note] CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution, Ruiyang Xu+, arXiv'24

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #Reasoning #MultiLingual Issue Date: 2025-08-15 GPT Summary- CRUXEVAL-Xという多言語コード推論ベンチマークを提案。19のプログラミング言語を対象に、各言語で600以上の課題を含む19Kのテストを自動生成。言語間の相関を評価し、Python訓練モデルが他言語でも高い性能を示すことを確認。 Comment

[Paper Note] CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution, Alex Gu+, arXiv'24

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #Reasoning Issue Date: 2025-08-15 GPT Summary- CRUXEvalという800のPython関数からなるベンチマークを提案し、入力予測と出力予測の2つのタスクを評価。20のコードモデルをテストした結果、HumanEvalで高得点のモデルがCRUXEvalでは改善を示さないことが判明。GPT-4とChain of Thoughtを用いた場合、入力予測で75%、出力予測で81%のpass@1を達成したが、どのモデルも完全にはクリアできず、GPT-4のコード推論能力の限界を示す例を提供。

[Paper Note] StarCoder 2 and The Stack v2: The Next Generation, Anton Lozhkov+, arXiv'24

Paper/Blog Link My Issue
#Pretraining #NLP #Dataset #LanguageModel #Selected Papers/Blogs Issue Date: 2025-07-13 GPT Summary- BigCodeプロジェクトは、責任あるCode LLMsの開発に焦点を当て、StarCoder2を発表。Software Heritageと提携し、The Stack v2を構築し、619のプログラミング言語を含む大規模なトレーニングセットを作成。StarCoder2モデルは3B、7B、15Bのパラメータを持ち、徹底的なベンチマーク評価で優れた性能を示す。特にStarCoder2-15Bは、同等の他モデルを大幅に上回り、数学やコード推論でも高い性能を発揮。モデルの重みはOpenRAILライセンスで公開され、トレーニングデータの透明性も確保。 Comment

Socratic Questioning of Novice Debuggers: A Benchmark Dataset and Preliminary Evaluations, ACL-BEA'23

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ACL #Workshop Issue Date: 2023-07-18 GPT Summary- 本研究では、初心者プログラマがバグのある計算問題を解決する際に、ソクラテス的な対話を行うデータセットを紹介し、GPTベースの言語モデルのデバッグ能力を評価しました。GPT-4はGPT-3.5よりも優れたパフォーマンスを示しましたが、まだ人間の専門家には及ばず、さらなる研究が必要です。

[Paper Note] Emergent Representations of Program Semantics in Language Models Trained on Programs, Charles Jin+, arXiv'23, 2023.05

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ICML #One-Line Notes #needs-revision Issue Date: 2023-05-20 GPT Summary- 言語モデル（LM）が次のトークン予測に特化した訓練にもかかわらず、形式的意味を表現できる可能性を示す。2Dグリッド環境でのプログラム合成コーパスを用いてTransformerモデルを訓練し、特定の入力出力仕様が付随するプログラムから、未観測の中間状態を精度よく抽出できることを発見。新しい介入ベースラインにより、LMの表現とプロービングによる結果の明確な識別が可能に。広範な意味論的プロービング実験への適用が期待される。 Comment

プログラムのコーパスでLLMをNext Token Predictionで訓練し
厳密に正解とsemanticsを定義した上で、訓練データと異なるsemanticsの異なるプログラムを生成できることを示した。

LLMが意味を理解していることを暗示している

参考:

Loading…

stack-v3-full, HuggingFaceCode, 2026.07

Paper/Blog Link My Issue
#Article #Pretraining #NLP #Dataset #LanguageModel #Blog #Selected Papers/Blogs #reading #One-Line Notes #Author Thread-Post Issue Date: 2026-07-24 Comment

元ポスト:

Loading…

114 TB, 770言語, 224Mリポジトリ, 約5Tトークンの重複除去やフィルタリング済みGithubから収集されたソースコードで、制限付きライセンスのコードは一切含まないデータセット。V2では2023年時点のスナップショットに基づいており、V3は2025年8月時点までのスナップショットとのこと。たとてば、C++は15倍、TypeScript は7.5倍、Rustは7倍、Pythonは4.8倍程度のトークンがあるらしい。全体としては8.9倍のトークン量。

また、V2ではdeduplicationにおいて正規表現にバグがあったようで、そちらも修正されているようである。

Stack V2:
- [Paper Note] StarCoder 2 and The Stack v2: The Next Generation, Anton Lozhkov+, arXiv'24

所見:

Loading…

Using Local Coding Agents, Sebastian Raschka, 2026.06

Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #AIAgents #Blog #OpenWeight #LLMServing #SoftwareEngineering #Author Thread-Post #AgentHarness Issue Date: 2026-07-05 Comment

元ポスト:

Loading…

Leanstral 1.5: Proof Abundance for All, Mistral AI, 2026.07

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Mathematics #OpenWeight #Proofs #Author Thread-Post Issue Date: 2026-07-04 Comment

元ポスト:

Loading…

HF: https://huggingface.co/mistralai/Leanstral-1.5-119B-A6B

所見:

Loading…

The Verification Stack, OpenHands, 2026.06

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #SoftwareEngineering #Selected Papers/Blogs #Verification #reading #One-Line Notes #Author Thread-Post Issue Date: 2026-07-03 Comment

元ポスト:

Loading…

コードがプッシュされる前にエージェントの作業を評価する小型のcriticモデルと、プルリクエストに対してコードレビュー（スキルを利用）+QAを実施するシステム（実際にエントリーポイントを見つけ、動作させ、証跡を資料としてまとめてレポートをポストするシステム）によってコードの検証プロセスを効率化し、マージまでの時間が平均58%削減され、開発効率が向上する話のようである。

Simple, Fast, Vibe‑Ready ZCode combines the best AI agents with your existing tools so you can plan, code, review, and deploy without friction., Z.ai, 2026.07

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #SoftwareEngineering #Initial Impression Notes #Author Thread-Post #AgentHarness Issue Date: 2026-07-02 Comment

元ポスト:

Loading…

GLMのZ.aiによるAgent Harness (Scaffolding)

Ornith-1.0: Self-Scaffolding LLMs for Agentic Coding, Ornith, 2026.06

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #OpenWeight #SoftwareEngineering #PostTraining #One-Line Notes #Author Thread-Post Issue Date: 2026-06-26 Comment

HF: https://huggingface.co/collections/deepreinforce-ai/ornith-10

元ポスト:

Loading…

gemma4とQwen3.5をpost trainingしたコーディング特化LLMで、397BモデルではSWE Bench ProでGLM 5.2超え

Humans Still Beat AI in the Long Horizon: Revisiting Test-Time Scaling in the Agent Era, Mang+, 2026.06

Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #AIAgents #read-later #Selected Papers/Blogs #LongHorizon #Initial Impression Notes #Author Thread-Post Issue Date: 2026-06-22 Comment

2週間にわたるopen endなプログラミングコンテストのデータを用いて人間の専門家とAI AgentのElo ratingの変遷を比較すると、序盤は人間に対して大きくリードしスコアは試行回数の対数に対して線形にスケーリングし次第に停滞を始めるが、人間の専門家は4日を超えたあたりから非線形にスコアが進化し、最終的にAI Agentよりも高いスコアを記録する。人間はAI Agentと比較して、継続学習ができていることが示唆され、AI Agentのlong horizonタスクに対する能力の限界が示唆される、という話に見える。

元ポスト:

Loading…

Introducing North Mini Code: Cohere’s first model for developers, Cohere, 2026.06

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #OpenWeight #SoftwareEngineering Issue Date: 2026-06-14 Comment

元ポスト:

Loading…

アーキテクチャ解説:

Loading…

HF: https://huggingface.co/CohereLabs/North-Mini-Code-1.0

Kimi-K2.7-Code, moonshotai, 2026.06

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #OpenWeight #SoftwareEngineering Issue Date: 2026-06-12 Comment

元ポスト:

Loading…

Introducing FrontierCode, Cognition, 2026.06

Paper/Blog Link My Issue
#Article #LanguageModel #AIAgents #Evaluation #SoftwareEngineering #Author Thread-Post Issue Date: 2026-06-09 Comment

元ポスト:

Loading…

Building a hill-climbing machine: Launching seven new MAI models, Mustafa Suleyman, MAI, 2026.06

Paper/Blog Link My Issue
#Article #LanguageModel #AIAgents #TextToImageGeneration #Blog #Proprietary #TTS #ImageSynthesis #Transcript #Author Thread-Post Issue Date: 2026-06-03 Comment

- MAI-Thinking-1: Building a Hill-Climbing Machine, Microsoft, 2026.06

元ポスト:

Loading…

関連:

Loading…

Artificial Analysisによる評価で、MAI Image-2.5がT2Iで2位, Image Editingが3位とのこと:

Loading…

Tips: Containerを利用したDL分散学習Libraryの開発環境, Kazuki Fujii, 2026.05

Paper/Blog Link My Issue
#Article #NeuralNetwork #Blog #SoftwareEngineering #One-Line Notes #Author Thread-Post Issue Date: 2026-05-31 Comment

元ポスト:

Loading…

次:
- MLエンジニアのための本質から理解するLLM推論 KV cache編, Kazuki Fujii, 2026.05

GPUクラスタのログインノード上にvscodeのRemote SSH接続をして作業をする際に、importの解決/補完/定義ジャンプ等のデバッグに有用な機能を有効化する3種類の方法について概説されている。特にその中の一つであるsandbox mirrorと呼ばれる方法は詳細に解説され、SIFをsandbox形式のディレクトリに展開し、その中のディレクトリをvscode側の設定に追加することで、コンテナにsessionをはらなくても有効化できる、といった話が書かれている。

DeepSWE: Measuring frontier coding agents on original, long-horizon engineering tasks, DeepSWE, 2026.05

Paper/Blog Link My Issue
#Article #NLP #Dataset #AIAgents #Evaluation #SoftwareEngineering #read-later #Selected Papers/Blogs #One-Line Notes #LongHorizon #Author Thread-Post Issue Date: 2026-05-27 Comment

元ポスト:

Loading…

所見:

Loading…

既存のベンチマークのような、githubのPRに基づいたものではなく（memorizationの問題があるため）、ゼロベースで構築。rolloutのtrajectoryを分析して、有効なPRなのに拒否する、あるいは何らかのcheatingをするといった挙動のdetectionもできるとのこと。また、SWE Bench Proと比較して、タスクを解くためのpromptは1/2である一方、タスクを解くために必要なコードの量は5.5倍となっており、より複雑なタスクとなっている。

contamination-freeが主張されているが、データセットは公開されているので、そのうちcontaminationが生じるであろう点には注意。

AgentTrove, open-thoughts, 2025.12

Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #AIAgents #Mathematics #SoftwareEngineering #ComputerUse #One-Line Notes Issue Date: 2026-05-06 Comment

元ポスト:

Loading…

219のデータソースに対する170M規模のcoding, terminal/computer use, mathに関するagentのtrajectory。trace自体は、Agentic HarnessとしてTerminus 2を用いたOpenThinker-Agent-v1によるものだと推察される。

Laguna XS.2 and M.1: A Deeper Dive, Poolside team, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #OpenWeight #MoE(Mixture-of-Experts) #SoftwareEngineering #read-later #Selected Papers/Blogs #LongHorizon #Author Thread-Post Issue Date: 2026-04-30 Comment

HF: https://huggingface.co/poolside/Laguna-XS.2

元ポスト:

Loading…

テクニカルレポート:
https://poolside.ai/assets/laguna/laguna-m1-xs2-technical-report.pdf

元ポスト:

Loading…

claude-code-best-practice, shanraisshan

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Repository #SoftwareEngineering #read-later #Selected Papers/Blogs Issue Date: 2026-04-25 Comment

元ポスト:

Loading…

Xiaomi MiMo-V2.5-Pro: A leap in agentic and long horizon coherence, Xiaomi, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #MultiModal #Blog #OpenWeight #Selected Papers/Blogs #UMM #Reference Collection #Initial Impression Notes #Author Thread-Post Issue Date: 2026-04-23 Comment

元ポスト:

Loading…

いずれモデルをオープンにするとのこと

Artificial Analysisによる評価:

Loading…

オープンになった:
https://huggingface.co/collections/XiaomiMiMo/mimo-v25

元ポスト:

Loading…

GDPValやSWE-Bench-ProがGemini-3.1-Proよりも高い。
MIT Licenceかつnative multimodal

所見:

Loading…

解説:

Loading…

Qwen3.6-27B: Flagship-Level Coding in a 27B Dense Model, Qwen Team, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #OpenWeight #SoftwareEngineering #One-Line Notes #Author Thread-Post Issue Date: 2026-04-23 Comment

HF: https://huggingface.co/Qwen/Qwen3.6-27B

元ポスト:

Loading…

Qwen3.5-397B-A17Bを主要なcodingベンチマークで上回り、同等程度の規模感のdenseモデルを上回る。

PAW: Define functions in English. Run them locally, ProgramAsWeights, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #PEFT(Adaptor/LoRA) #SoftwareEngineering #One-Line Notes #Author Thread-Post Issue Date: 2026-04-17 Comment

元ポスト:

Loading…

英語で説明した機能をNeural Compilerと呼ばれる機構によって、text + Continuous LoRA (Continuous LoRAってなんだ。。。) によってインタプリタを構築し、python関数として利用できる、という感じらしい？

.pawファイルと呼ばれるファイルが作成され、中には
- Discrete pseudo-program: neural compilerによって生成されたtext instructions
- continuous neural adapter: 量子化されたLoRA adapter

が格納されて実行時に利用されるとのこと。完全にローカルで動作させられる。
LoRAを使うということは、事前に関数を実行するbase modelのDLが必要そうだが、どうなのだろうか？.pawファイルの例にも特定のベースモデル名が記載されているように見える。

マルチエージェントシステムでGPUカーネルを38%高速化, Cursor, 2026.04

Paper/Blog Link My Issue
#Article #Multi #NLP #LanguageModel #AIAgents #SoftwareEngineering #GPUKernel #Author Thread-Post #AgentHarness Issue Date: 2026-04-15 Comment

元ポスト:

Loading…

自律的に長期間稼働し235件の問題を1回の実行で解くマルチエージェントハーネスに関するレポートで、3週間程度でBlackwell GPUカーネルをゼロから構築・最適化し38%高速化とのこと。

Components of A Coding Agent: How coding agents use tools, memory, and repo context to make LLMs work better in practice, Sebastian Raschka, 2026.04

Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs #Initial Impression Notes #AgentHarness Issue Date: 2026-04-05 Comment

LLM, Reasoning Model, Agent, Agent Harness, coding harnessなどの定義とその役割やスコープ、そしてそれらを構成するためのminimalなコンポーネントについて説明されており、基礎的な理解に役立ちそう。

元ポスト:

Loading…

リアルタイムRLでComposerを改善する, Cursor, 2026.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Blog #SoftwareEngineering #KeyPoint Notes #Realtime Issue Date: 2026-03-28 Comment

実際の推論トークンとユーザの応答を集約して報酬を作成しモデルの改善に使うリアルタイムRLによって5時間ごとにComposerチェックポイントをアップデートしデプロイする。

Reward Hackingを防ぐことはこのようなリアルタイムRLではより一層重要でそのための報酬設計として工夫した点が2つ挙げられている。

- 元々はツール呼び出しが無効だった例を除外するようにして報酬を設計していたが、モデルはこれにより無効なツールを呼び出せば負の報酬を得ないことを学び意図的に無効なツールを呼び出すことを学習した。これを防ぐために、ツール呼び出しに失敗した場合に明確に負の報酬を与えるように変更
- モデルが実施した編集について、自分がコードを編集しなければペナルティを受けないことを学習し、難しい編集については質問をすることで先送りする挙動をRewardHackingの結果学習した。質問については適切なタイミングで実施する必要があるため、報酬を修正した

といった話が書かれている。

現在は比較的短いタスクを実行してユーザからフィードバックを受け取れるが、今後はlong horizonなタスクを実行することが予想され、その場合
- ユーザのフィールドバックの頻度は減り
- 成果物全体に対するフィードバックを返すようになる

という異なる性質のデータを扱わなければならないのでそれに向けて改善を進めるとのこと。

関連:
- Composer 2 のご紹介, Cursor, 2026.03

ソフトウェア開発エージェント初歩から上級, Graham Neubig, 2026.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #SoftwareEngineering #read-later Issue Date: 2026-03-26 Comment

全体をざっくり概観してイメージをつかむのに良さそう。詳細を知りたい場合はリンク先を見ると良さげ。

(スライド最後の強化学習における「3」のスケーリングってなんだろう...?)

元ポスト:

Loading…

Composer 2 のご紹介, Cursor, 2026.03

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #AIAgents #Evaluation #SoftwareEngineering #mid-training #PostTraining #read-later #Selected Papers/Blogs #ContextEngineering #Live #Reference Collection #Initial Impression Notes Issue Date: 2026-03-20 Comment

元ポスト:

Loading…

所見:

Loading…

Kimi-K2.5がベースらしいとのこと:

Loading…

ベンチマークスコアに対する所見:

Loading…

テクニカルレポートが出た:
https://cursor.com/resources/Composer2.pdf

元ポスト:

Loading…

Kimi-K2.5をベースに、どのようにinstruction tuning後のモデルに対して継続事前学習、RLをし、GPT-5.4(high)級の性能を達成できたのか、ヒントがわかるかもしれない。

- [Paper Note] Kimi K2.5: Visual Agentic Intelligence, Kimi Team+, arXiv'26, 2026.02

所見:

Loading…

所見:

Loading…

RLによってpass@k（best-of-16）とpass@1の両方が改善する。既存研究では少なくともRLVRを用いた場合はPass@1は改善するが多様性が損なわれてPass@kの性能は改善しない ([Paper Note] Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR, Xiao Liang+, arXiv'25, 2025.08 , VibeVoice-1.5B, microsoft, 2025.08 )、という話があったが、Composer 2のレシピではそうではないようだ。どんなレシピだろう～と思ってさらっと関連しそうなところを見てみたが、詳細は書いてなさそうだ。
- [Paper Note] Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR, Xiao Liang+, arXiv'25, 2025.08
- VibeVoice-1.5B, microsoft, 2025.08

QA:

Loading…

CursorBenchの解説:

Loading…

要はrealisticなデータとシチュエーションでの評価に非常に重きを置いていて
- 実際のコーディングsessionのデータが用いられ、contamination-free
- 機能的な正しさのみならず、コードの品質、効率、挙動などの実用的な価値を意識し
- long horizonなタスクが多く取り入れられ
- Promptは曖昧性をうまく扱えるかを評価するために意図的にシンプルで短く
- CursorBenchのデータは継続的に更新される
- realisticなsessionデータだけでなく、その他の重要な挙動の評価（e.g., 指示追従, ルール/skilltのハンドリング, コメントの品質, editするか否かの判断の適切性など）のためのデータでも拡張されている

という感じらしい

ポイント解説:
- How Kimi, Cursor, and Chroma Train Agentic Models with RL, PHILSCHMID, 2026.03

self-summarizationによるcontextのcompressionを実施している
- [Paper Note] InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning, Yuchen Yan+, arXiv'26, 2026.02
- [Paper Note] Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL, Ian Wu+, arXiv'26, 2026.02
- より長いホライズンに向けた Composer の学習, Cursor, 2026.03

所見:

Loading…

Bringing Code Review to Claude Code, Anthropic, 2026.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #SoftwareEngineering #read-later Issue Date: 2026-03-12 Comment

元ポスト:

Loading…

コードレビューに特化した機能が追加された模様
Anthropic社内で運用済みで、エンジニアがコードレビューに誤りがあると判断したものは<1%とのこと。

Practical Guide to Evaluating and Testing Agent Skills, PHILSCHMID, 2026.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #SoftwareEngineering #read-later #AgentSkills Issue Date: 2026-03-06 Comment

元ポスト:

Loading…

Introducing GPT‑5.4, OpenAI, 2026.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #ChatGPT #Proprietary #VisionLanguageModel #Reference Collection #Reading Reflections Issue Date: 2026-03-06 Comment

元ポスト:

Loading…

Artiflcial Analysisによる評価:

Loading…

所見:

Loading…

所見:

Loading…

評判が良い。管理人も利用しているが、指示で曖昧な点をきちんと質問してくれる点が便利。かつ応答として、選択可能なオプションを提示し、自由記述もできる。実装の内容はClaude 4.6 Opusと比べるとコードがシンプルな印象を受けるが、これも指示次第な気はする。

曖昧な点があったら質問を投げかけるという挙動はopenhandsのPosition Paperとも整合する流れである。

- [Paper Note] Position: Humans are Missing from AI Coding Agent Research, Wang+, 2026.02

TAKT, nrslib, 2026.01

Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #AIAgents #Repository #SoftwareEngineering Issue Date: 2026-03-01 Comment

色々使ってみたいなぁ（小並感）

元ポスト:

Loading…

Coding agents progress over the past two months, Andrej Karpathy, X, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Post #SoftwareEngineering #Reading Reflections Issue Date: 2026-02-28 Comment

やっぱ英語で指示ださないとあかんか...（小並感）

関連:

Loading…

LLM/VLA等の学習ライブラリ回りでは、人間が細かく実装方針分析を指示した上で、実装部分のみを移譲すると今のところ一番うまくいくとのこと。

CoderForge-Preview: SOTA open dataset for training efficient coding agents, together.ai, 2026.02

Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #Blog #SoftwareEngineering #read-later #Selected Papers/Blogs Issue Date: 2026-02-28 Comment

元ポスト:

Loading…

The third era of AI software development, Michael Turuell, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Post #SoftwareEngineering #read-later Issue Date: 2026-02-28

New in Claude Code: Remote Control, Anthropic, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Post #SoftwareEngineering Issue Date: 2026-02-27 Comment

スマホからターミナルのClaude Codeに対してリモートで制御が可能になったらしい

Why SWE-bench Verified no longer measures frontier coding capabilities, OpenAI, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Evaluation #Blog #SoftwareEngineering #Selected Papers/Blogs #One-Line Notes #Contamination Issue Date: 2026-02-24 Comment

元ポスト:

Loading…

SWE-Bench Verifiedはpublicなリポジトリに基づいたベンチマークなのでcontaminationが生じやすく、実際にいくつかのモデルでcontaminationが確認されたと言う話と、testコードに本来は正しい実装でもfailedとなる許容するスコープが狭いテストが存在していた、という話で、これらの教訓を生かしたSWE-Bench Proを作成し、実際それはcontaminationがほとんど起きておらず、仮に起きていたとしても非常にマイナーなものだよ、というような話が書かれている。

SWE-fficiency: Evaluating How to Fix Code, Not Just What to Fix, OpenHands, 2026.02

Paper/Blog Link My Issue
#Article #Metrics #NLP #LanguageModel #AIAgents #Evaluation #SoftwareEngineering #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2026-02-17 Comment

元ポスト:

Loading…

既存のAI Agentsのベンチマークは、バグを修正することに特化しており（what to fix)、機能的には正しいが高速化が必要といった効率性や最適化の観点(how to fix)が評価から抜けているので、そのためにSpeedup Ratioと呼ばれる人間の専門家に対してどの程度の高速化を達成できたかを測るmetricとそのためのベンチマークSWE-ffiencyを構築。SWE-fficiencyはnumpy, pandas, sklearnなどの9つの主要なリポジトリにおける498のタスクで構成される。評価の結果、Claude Opus 4.5をOpenhandsのハーネスで駆動させだ場合でも人間のエキスパートに対して0.225倍程度の高速化しか実現できないことがわかった、といった話な模様。

Introducing GPT‑5.3‑Codex‑Spark: An ultra-fast model for real-time coding in Codex, OpenAI, 2026.02

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #AIAgents #Blog #SoftwareEngineering Issue Date: 2026-02-13 Comment

元ポスト:

Loading…

所見:

Loading…

Gemini 3 Deep Think: Advancing science, research and engineering, Google, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Reasoning #Mathematics #Proprietary #SoftwareEngineering #VisionLanguageModel #Science Issue Date: 2026-02-13 Comment

まずはUltra Subscriberに公開し、その後徐々にAPIアクセスを解禁していくとのこと。

LiveCodeBench:

Loading…

MiniMax M2.5: SOTA in Coding and Agent, designed for Agent Universe, MiniMax, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #OpenWeight #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2026-02-13 Comment

元ポスト:

Loading…

OsenHands IndexでClaude Sonnet 4.5超えの初めてのOpenWeightモデル:

Loading…

コストパフォーマンスにおいては、低コストなモデル群の中では抜きん出た性能

まだHF上にWeightは公開されていないようだが後ほど公開されると思われる。

所見:

Loading…

weightが公開:
https://huggingface.co/MiniMaxAI/MiniMax-M2.5

元ポスト:

Loading…

UnslothがGGUF版を公開:

Loading…

Harness engineering: leveraging Codex in an agent-first world, Ryan Lopopolo, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #GenerativeAI #Blog #SoftwareEngineering #One-Line Notes Issue Date: 2026-02-12 Comment

OpenAI社内でのコードを1行も人間が書かないで製品をリリースする取り組みに関する詳細なレポートのようである。初期の設計などで想像以上に時間がかかってしまった点（これはCodexの能力の問題ではない）や、実装を続ける中で品質に責任を持つ人間の能力（というより時間）がボトルネックになっていったため、極力Codexが自律的に品質管理ができるような実行・検証環境を用意することで負担を低減した話や、Codexに膨大なマニュアルを読ませて処理をさせるのではなく、どこにどのような情報が格納されているのかといったマップ（目次）を与えることがコンテキストエンジニアリング上重要だったことなどを通じてエージェントにとってリポジトリ全体の可読性を高めることが重要だったといった話や、プロジェクトの期間が長引くにつれて、リポジトリ内に共有されていないcontextが増大していき、それらをリポジトリに統合する作業が生じるなどの課題も生じたといったような話など色々と書かれている。

[Paper Note] Position: Humans are Missing from AI Coding Agent Research, Wang+, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #UserBased #AIAgents #read-later #Selected Papers/Blogs #interactive #One-Line Notes #Initial Impression Notes Issue Date: 2026-02-12 Comment

# Authors
Zora Zhiruo Wang, John Yang, Kilian Lieret, Alexa Tartaglini, Valerie Chen, Yuxiang Wei,
Zijian Wang, Lingming Zhang, Karthik Narasimhan, Ludwig Schmidt, Graham Neubig, Daniel Fried, Diyi Yang

元ポスト:

Loading…

現在のコーディングエージェントは自動的にタスクを完了させ、難易度の高いベンチマークを解けることが実用的な価値とみなされているが、今後より実用的な価値を高めプロダクト化するためには単独でタスクをこなすのではなく、人間開発者やユーザとの相互作用をするような枠組みが次のブレイクスルーとなりうるというposition。非常に共感できる。

Composer 1.5 のご紹介, Cursor Team, 2026.02

Paper/Blog Link My Issue
#Article #NLP #ReinforcementLearning #AIAgents #GenerativeAI #Blog #SoftwareEngineering #PostTraining #One-Line Notes #Scalability Issue Date: 2026-02-10 Comment

事前学習モデルに対して、RLをさらにスケールさせることで性能が継続的に向上し、自己要約能力も備えさせることでcontext windowの問題に対処しているとのこと。

（関連）Composer: 強化学習で構築する高速フロンティアモデル:
https://cursor.com/ja/blog/composer

Opus 4.6, Codex 5.3, and the post-benchmark era, Interconnects, 2026.02

Paper/Blog Link My Issue
#Article #Analysis #LanguageModel #AIAgents #Blog #SoftwareEngineering #One-Line Notes #Author Thread-Post Issue Date: 2026-02-10 Comment

有識者によるClaude 4.6 Opus と Codex 5.3 を利用した際の所見（定性評価）が記述されている。

元ポスト:

Loading…

著者によるTLDR:

Loading…

Building a C compiler with a team of parallel Claudes, Anthropic, 2026.02

Paper/Blog Link My Issue
#Article #Multi #LanguageModel #AIAgents #Blog #SoftwareEngineering #read-later #Selected Papers/Blogs Issue Date: 2026-02-06 Comment

元ポスト:

Loading…

Introducing GPT-5.3-Codex: Expanding Codex across the full spectrum of professional work on a computer, OpenAI, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Proprietary #SoftwareEngineering #Selected Papers/Blogs #Reference Collection Issue Date: 2026-02-06 Comment

元ポスト:

Loading…

terminal bench 2.0でOpus 4.6超え:

Loading…

所見:

Loading…

Qwen3-Coder-Next: Pushing Small Hybrid Models on Agentic Coding, QwenTeam, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Attention #Blog #LongSequence #SmallModel #MoE(Mixture-of-Experts) #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-02-04 Comment

HF: https://huggingface.co/collections/Qwen/qwen3-coder-next?spm=a2ty_o06.30285417.0.0.3bdec921Ja5TZI

元ポスト:

Loading…

A3BでSWE Bench ProにおいてClaude Sonnet 4.5超え

開発者の方のポスト:

Loading…

int4 model from Cerebras: https://huggingface.co/Intel/Qwen3-Coder-Next-int4-AutoRound

元ポスト:

Loading…

How AI assistance impacts the formation of coding skills, Anthropic, 2026.01

Paper/Blog Link My Issue
#Article #Analysis #Education #AIAgents #SoftwareEngineering #read-later #KeyPoint Notes Issue Date: 2026-01-30 Comment

コーディングエージェントを使うことによる新しいスキルの習熟に対する影響の調査。エージェントを使ったグループは平均的に早く仕事を終えたが、その後のクイズによる習熟度のテストでは17パーセント低いスコアとなりエージェントを使わなかったグループと比較して習熟度に差が生まれた。しかしエージェントを使って早く終えたにも関わらず習熟度も相対的に低くならなかった人々がいて、そのような人たちはただエージェントに頼るのではなく、コードのコンセプトや理解をするための質問を投げかけている、といった使い方に関する違いが見受けられた、といった話に見える。

Open Coding Agents: Fast, accessible coding agents that adapt to any repo, Ai2, 2026.01

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #SoftwareEngineering #read-later Issue Date: 2026-01-29 Comment

開発者の方のブログ:
https://timdettmers.com/2026/01/27/building-open-coding-agent-sera/

HF: https://huggingface.co/collections/allenai/open-coding-agents

14Bモデルリリース:

Loading…

A few random notes from claude coding quite a bit last few weeks., Andrej Karpathy, 2026.01

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Post #SoftwareEngineering Issue Date: 2026-01-27

GLM-4.7-Flash, Z.ai, 2026.01

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #OpenWeight #MoE(Mixture-of-Experts) #One-Line Notes Issue Date: 2026-01-20 Comment

元ポスト:

Loading…

30B-A3BのMoEモデルで、gpt-oss-20B, Qwen3-30B-A3B-Thinking-2507を、SWE Bench Verified, tau2_bench, BrowseComp(SWEタスク, tooluse, 検索）等で大幅にoutperform。AIME, GPQA, HLEなどの推論系のベンチマークも同等以上。つまり、agenticなタスクに適した能力を有することが示唆される。

ポイント解説:

Loading…

OctoCodingBench, MiniMaxAI, 2026.01

Paper/Blog Link My Issue
#Article #NLP #Dataset #AIAgents #Evaluation #SoftwareEngineering Issue Date: 2026-01-16 Comment

元ポスト:

Loading…

FrogMini-14B-2510, Microsoft, 2026.01

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #OpenWeight #SoftwareEngineering #One-Line Notes Issue Date: 2026-01-16 Comment

元ポスト:

Loading…

strong modelから合成されたbug fixのtrajectoryでSFTすることで小規模モデルでSWE Benchの性能改善

元論文:
- [Paper Note] High-Resolution Image Synthesis with Latent Diffusion Models, Robin Rombach+, CVPR'22, 2021.12

NousCoder-14B: A Competitive Olympiad Programming Model, Joe Li, 2026.01

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Blog #OpenWeight #PostTraining #read-later Issue Date: 2026-01-09 Comment

元ポスト:

Loading…

HF: https://huggingface.co/NousResearch/NousCoder-14B

Apache 2.0

PipelineRLを採用している模様。興味深い。

IQuest-Coder, IQuestLab, 2026.01

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #SoftwareEngineering Issue Date: 2026-01-01 Comment

元ポスト:

Loading…

Today's conversations about AI-assisted programming are strikingly similar to those from decades ago about the choice between low-level languages like C versus high-level languages like Python, Arvind Narayanan, 2025.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Post #SoftwareEngineering Issue Date: 2025-12-31

GLM-4.7: Advancing the Coding Capability, Z.ai, 2025.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Reasoning #OpenWeight #SoftwareEngineering #One-Line Notes #Reference Collection Issue Date: 2025-12-25 Comment

元ポスト:

Loading…

HF: https://huggingface.co/zai-org/GLM-4.7

デザインアリーナでtop2:

Loading…

Artificial Intelligence Indexにおいて、OpenModelの中でトップ:

Loading…

GLM-4.6と比較して、コーディング/SWE, reasoning, tooluseなどの能力が大幅に向上

Interleaved Thinking, Preserved Thinking, Turn-level Thinkingの3つの特性がある。

Interleaved Thinkingは全てのレスポンスとtool callingの前にreasoningを挟むことで、IFや生成品質を向上。
Preserved Thinkingは過去のターンの全てのthinking blockのトークンを保持し、再計算もしないのでマルチターンでの一貫性が増す。
Turn-level Thinkingはターンごとにreasoningを実施するか否かをコントロールでき、latency/costを重視するか、品質を重視するかを選択できる、といった特徴がある模様。

モデルサイズは358B

OpenHands trajectories with Qwen3 Coder 480B, Nebius blog, 2025.12

Paper/Blog Link My Issue
#Article #Dataset #LanguageModel #ReinforcementLearning #AIAgents #Blog #Reasoning #SoftwareEngineering #PostTraining Issue Date: 2025-12-24 Comment

元ポスト:

Loading…

MiniMax M2.1: Significantly Enhanced Multi-Language Programming, Built for Real-World Complex Tasks, MiniMax, 2025.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Reasoning #SmallModel #OpenWeight Issue Date: 2025-12-24 Comment

元ポスト:

Loading…

解説:

Loading…

HF: https://huggingface.co/MiniMaxAI/MiniMax-M2.1

Performance Hints, Jeff Dean+, 2025.12

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #SoftwareEngineering #Selected Papers/Blogs #reading Issue Date: 2025-12-21 Comment

元ポスト:

Loading…

Devstral2 Mistral Vibe CLI State-of-the-art, open-source agentic coding models and CLI agent., Mistral AI, 2025.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #OpenWeight #SoftwareEngineering Issue Date: 2025-12-10 Comment

SWE Bench VerifiedでOpenweightモデルの中ではSoTAと同等程度を達成。123B, 24Bの2種類がリリース。DeepSeekV3.2, Kimi K2よりも大幅に小さいパラメータで同等以上の性能。独自の人手評価（win, tie, loseのアリーナ形式）によるとSonnet 4.5には負けるがDeepSeekV3.2とは同等以上の割合で好まれた。

元ポスト:

Loading…

HF: https://huggingface.co/collections/mistralai/devstral-2

Introducing the Yupp SVG AI Leaderboard, YUPP, 2025.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #Reasoning Issue Date: 2025-12-06 Comment

元ポスト:

Loading…

SVG生成においてもGemini 3 Proが強い

Lessons from the Trenches on Building Usable Coding Agents - Graham Neubig, Graham Neubig, 2025.11

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Video Issue Date: 2025-11-09 Comment

元ポスト:

Loading…

Shipping with Codex, OpenAI, 2025.10

Paper/Blog Link My Issue
#Article #NLP #AIAgents #GenerativeAI #Video #SoftwareEngineering #One-Line Notes Issue Date: 2025-10-12 Comment

元ポスト:

Loading…

OpenAI内部で92%の技術スタッフがdailyで利用している、というマーケティングメッセージが非常に強力で、説得力を持たせていると感じる。

CODA: Coding LM via Diffusion Adaption, Chen+, 2025.10

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #DiffusionModel #SmallModel #OpenWeight #OpenSource Issue Date: 2025-10-05 Comment

元ポスト:

Loading…

HF: https://huggingface.co/Salesforce/CoDA-v0-Instruct

cc-by-nc-4.0

Vibe Coding Cleanup as a Service, Donado Labs, 2025.09

Paper/Blog Link My Issue
#Article #AIAgents #Blog Issue Date: 2025-09-23 Comment

元ポスト:

Loading…

Writing Code Was Never The Bottleneck, ordep.dev, 2025.06

Paper/Blog Link My Issue
#Article #GenerativeAI #Blog Issue Date: 2025-09-07 Comment

元ポスト:

Loading…

OpenHands PR Arena, neulab, 2025.09

Paper/Blog Link My Issue
#Article #Dataset #AIAgents #Evaluation #Repository #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-09-04 Comment

元ポスト:

Loading…

実際に存在するIssueにタグ付けすることで、リアルタイムに複数LLMによってPRを作成（API callはOpenHandswが負担する）し、ユーザは複数LLMの中で良いものを選択する、といったことができる模様？リーダーボードも将来的に公開するとのことなので、実際にユーザがどのモデルのoutputを選んだかによって勝敗がつくので、それに基づいてランキング付けをするのだろうと推測。興味深い。

Nemotron-CC-v2, Nvidia, 2025.08

Paper/Blog Link My Issue
#Article #Pretraining #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #Mathematics #Selected Papers/Blogs Issue Date: 2025-09-01 Comment

元ポスト:

Loading…

CCだけでなく、数学やコーディングの事前学習データ、SFT styleの合成データセットも含まれている。

Aider LLM Leaderboards, 2024.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #Reasoning Issue Date: 2025-08-21 Comment

最近よく見かけるいわゆるAider Polyglot。人間の介入なしに、LLMがコードの"編集"をする能力を測るベンチマーク。性能だけでなくコストもリーダーボードに記載されている。C++,Go,Java,JavaScript,Python,RustによるExercimにおける225の"最も困難な"エクササイズのみが含まれる。

データセット: https://github.com/Aider-AI/polyglot-benchmark

DeepCode, Data Intelligence Lab@HKU, 2025.08

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Repository Issue Date: 2025-08-19 Comment

研究論文からコードを生成するpaper2code、テキストからweb pageを生成するtext2web、textからスケーラブルなバックエンドを構築するtext2backendを現状サポートしているvibe coding frameworkらしい。
論文のベンチマークの再現の自動化やパフォーマンス向上、自動コード検証などが追加されるらしい。

研究の出版に対して再現実験など現状到底間に合わないので、再現性があるかどうかを自動的に検証して欲しいなぁ、とは思っていたので個人的に嬉しい。

Claude Opus 4.1, Anthropic, 2025.08

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #Proprietary #VisionLanguageModel Issue Date: 2025-08-06 Comment

他モデルとの性能比較:

やはりコーディングでは（SNS上での口コミでは非常に高評価なように見えており、かつ）o3やGeminiと比較してClaudeがベンチ上でも高い性能を示している模様。

元ポスト:

Loading…

XBai-o4, MetaStoneAI, 2025.08

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight Issue Date: 2025-08-03 Comment

元ポスト:

Loading…

LiveCodeBenchでo3-mini-2015-01-31(medium)と同等らしい

Qwen3-Coder-30B-A3B-Instruct, QwenTeam, 2025.08

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #Reasoning #MoE(Mixture-of-Experts) Issue Date: 2025-08-02 Comment

元ポスト:

Loading…

運用して初めてわかったDevinのセキュリティ課題 - Devin Meetup Tokyo 2025, 株式会社メルカリHiroki Akamatsu, 2025.07

Paper/Blog Link My Issue
#Article #AIAgents #Slide #SoftwareEngineering #Sequrity Issue Date: 2025-07-26

Python Template for Claude Code （Cookiecutter）, zerebom, 2025.07

Paper/Blog Link My Issue
#Article #AIAgents #project_template #python #SoftwareEngineering Issue Date: 2025-07-26 Comment

元ポスト:

Loading…

AI時代のソフトウェア開発を考える（2025_07版） _ Agentic Software Engineering Findy 2025-07 Edition, Takuto Wada, 2025.07

Paper/Blog Link My Issue
#Article #NLP #AIAgents #Slide Issue Date: 2025-07-25 Comment

Vibe Codingによってソフトウェアエンジニアリングの課題は解決されたわけではなく、昔からある問題は依然として存在し（技術的負債、レビューなど）、道具が変わりこれらが顕在化するスピードが急速に速まっただけ、という話な模様。
どの領域に、どのAIを使うか（委託, 伴走）なども考察されている。ロジックの複雑さが小さいものは委託（補完など）、ロジックの複雑さが高く競合との差別化が重要なエリアには伴走、といった使い方。AIは自走するが迷走、暴走もするのでガードレールがより一層重要。自分自身の能力の向上も不可欠。

anycoder, akhaliq, 2025.07

Paper/Blog Link My Issue
#Article #LanguageModel #SoftwareEngineering Issue Date: 2025-07-25 Comment

こんなことができる模様。サイトのリニューアルに使ってみようかしら、、、

Loading…

Qwen Code, Qwen Team, 2025.07

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Repository Issue Date: 2025-07-23

advanced-mcp-features, epicweb-dev, 2025.06

Paper/Blog Link My Issue
#Article #Tutorial #LanguageModel #SoftwareEngineering #MCP Issue Date: 2025-07-14 Comment

MCPの勉強に良いかもしれないのでメモ

Claude Code の Context Engineering, schroneko, 2025.07

Paper/Blog Link My Issue
#Article #AIAgents #Slide #SoftwareEngineering #ContextEngineering Issue Date: 2025-07-06

AI Agent Manager （AAM）として生きていく : 作業環境とワークフローの設計, icoxfog417, 2025.06

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #SoftwareEngineering #read-later #Author Thread-Post Issue Date: 2025-06-23 Comment

元ポスト:

Loading…

AI-assisted coding for teams that can't get away with vibes, Atharva Raykar, 2025.05

Paper/Blog Link My Issue
#Article #AIAgents #Blog #SoftwareEngineering #read-later Issue Date: 2025-06-21 Comment

元ポスト:

Loading…

OpenAI-Codex, OpenAI, 2025.05

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #SoftwareEngineering #One-Line Notes #Reference Collection Issue Date: 2025-05-18 Comment

OpenHandsのNeubig氏が、OpenAIのブログポスト中で報告されているSWE-Bench Verifiedのスコアについて、言及している。OpenAIは23個サンプルについて(internal infrastructureで動作させられないため)除外しているので、その分スコアに下駄が履かれているようで、ブログ中のpassNのスコアを他のリーダーボードのスコアと比較する際には注意が必要っぽい。

Loading…

Cursor_Devin全社導入の理想と現実, Ryoichi Saito, 2025.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Slide #SoftwareEngineering #Reading Reflections Issue Date: 2025-04-26 Comment

Devinの思わぬ挙動のくだりが非常に面白かった。まだまだ使いづらいところが多そうだなあ…。

Introducing the SWE-Lancer benchmark, OpenAI, 2025.02

Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #AIAgents #Evaluation #SoftwareEngineering #One-Line Notes Issue Date: 2025-03-02 Comment

元ポスト:

Loading…

1400以上のフリーランスソフトウェアエンジニアリングタスクを集めたベンチマーク。タスクはバグ修正から機能実装まで多岐にわたり、経験豊富なエンジニアによって評価されたもの。

Copilot Arena, CMU and UC Berkeley, 2024.11

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #Reading Reflections Issue Date: 2024-11-13 Comment

元ポスト:

Loading…

- ChatBot Arena, lmsys org, 2023.05 も参照のこと

Chatbot Arenaがリリースされたのが1年半前であることをおもいおこし、この2年で飛躍的にLLMができることが増えたなぁ、パラメータ数増えたなぁ、でも省パラメータで性能めっちゃ上がったなぁ、proprietary LLMにOpenLLMが追いついてきたなぁ、としみじみ思うなどした。

Gemma2, Google Deepmind, 2024

Paper/Blog Link My Issue
#Article #NLP #Reasoning #Mathematics #OpenWeight #One-Line Notes Issue Date: 2024-07-30 Comment

Reasoning, Math, CodeGenerationに強み

Loggingモジュールではじめるログ出力入門, Toshifumi Tsutsumi, PyCon JP 2021, 2021.10

Paper/Blog Link My Issue
#Article #python #Slide #SoftwareEngineering #KeyPoint Notes Issue Date: 2023-10-17 Comment

- ライブラリ開発の際は、ライブラリのトップレベルのLoggerにNullHandlerを設定して、詳細設定を呼び出し側に委ねるのがお作法
- NullHandlerは何もせずに上位ハンドラに伝搬させるため
- ライブラリ側でやることは、タイミングとメッセージ内容のみ
- loggerを利用するか否かは、「書き捨てか否か」
- 書き捨て例: 内容のちょっとした確認やデバッグ、局所的な出力、プログラムとログのライフタイムが短い
参考になる

propagateの仕組みや、構成要素、Loggerの恩恵はすべてのpythonモジュールがロギングに参加できること、モジュール名で基本的にはgetLoggerすることなど、勉強になった

StarCoderBase_StarCoder, 2023

Paper/Blog Link My Issue
#Article #NaturalLanguageGeneration #NLP #LanguageModel #FoundationModel #Blog #KeyPoint Notes #needs-revision Issue Date: 2023-05-06 Comment

・15.5Bパラメータ
・80種類以上のプログラミング言語で訓練
・Multi Query Attentionを利用
・context window size 8192
・Fill in the middle objectiveを利用

Instruction tuningがされておらず、prefixとsuffixの間を埋めるような訓練のされ方をしているので、たとえば関数名をinputして、そのmiddle（関数の中身）を出力させる、といった使い方になる模様。

paper: https://drive.google.com/file/d/1cN-b9GnWtHzQRoE7M7gAEyivY0kl4BYs/view

StarCoder:
https://huggingface.co/bigcode/starcoder

StarCoderBaseを35Bのpython tokenでfinetuningしたモデル。
既存モデルよりも高性能と主張