Codingに関する論文・技術記事メモの一覧

Coding

[Paper Note] BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills, Atharv Sonwane+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SyntheticData #SoftwareEngineering #Initial Impression Notes #BugGeneration Issue Date: 2026-01-16 GPT Summary- 合成的に多様なバグを生成する新手法を提案し、SWEエージェントの訓練における高品質なバグの重要性を強調。従来の局所的摂動によるバグ生成に対し、機能追加が意図しないバグを生じさせるプロセスを採用。実験により、新生成バグが監視付きファインチューニングにおいて効率的なデータを提供し、他データセットを上回る成果を実証。FrogBossとFrogMiniモデルがSWE-benchでそれぞれ54.6%と45.3%のpass@1を達成。 Comment

カオスエンジニアリングみたいになってきた

[Paper Note] SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios, Minh V. T. Thai+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AIAgents #Evaluation #SoftwareEngineering #LongHorizon Issue Date: 2026-01-12 GPT Summary- 既存のAIコーディングエージェントは単一の課題に焦点を当てているが、実際のソフトウェア開発は長期的な取り組みである。新たに提案するベンチマークSWE-EVOは、7つのオープンソースPythonプロジェクトから構築され、エージェントが複数ファイルにわたる修正を行う48の進化タスクを評価する。実験では、最先端モデルでも解決率が低く、特にマルチファイル推論に苦労していることが示された。さらに、複雑なタスクの進捗を測る指標Fix Rateも提案されている。 Comment

元ポスト:

Loading…

[Paper Note] Propose, Solve, Verify: Self-Play Through Formal Verification, Alex Wilf+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #CodeGeneration #SelfImprovement Issue Date: 2025-12-24 GPT Summary- 自己対戦によるモデル訓練の効果を検討し、形式的検証を用いたコード生成の設定で「Propose, Solve, Verify（PSV）」フレームワークを導入。PSV-Verusを訓練し、3つのベンチマークで最大9.6倍の性能向上を達成。形式的検証と問題の難易度が成功する自己対戦の重要な要素であることを示した。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] DeepCode: Open Agentic Coding, Zongwei Li+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AIAgents #SoftwareEngineering #read-later #ContextEngineering #One-Line Notes Issue Date: 2025-12-15 GPT Summary- DeepCodeというフレームワークを用いて、科学論文からコードへの高忠実度合成の課題に取り組む。情報フロー管理を通じて、タスク関連の信号を最大化し、最先端のパフォーマンスを達成。PaperBenchベンチマークで商業エージェントや人間専門家を上回る結果を示し、自律的な科学的再現の基盤を確立。 Comment

元ポスト:

Loading…

非常に雑にいうと、現在のCoding AgentはPh.Dレベルの論文の再実装レベルに到達できていないが、ContextEngineeringをしっかり行うことでagenticなfrontier modelに対して相対的に70%以上PaperBenchの性能が改善し、Ph.Dレベルの専門家と同等程度の水準まで到達できました、という話に見える。

ポイント解説:

Loading…

[Paper Note] Computer-Use Agents as Judges for Generative User Interface, Kevin Qinghong Lin+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #AIAgents #Evaluation #LLM-as-a-Judge #ComputerUse #VisionLanguageModel #One-Line Notes #UI Issue Date: 2025-11-26 GPT Summary- CUAはGUIを自律的に操作する能力が向上しているが、従来のGUIは人間向けに設計されているため、効率的なタスク実行に不必要な行動を強いられる。Coderの進展により、自動GUI設計が変革される中、CUAがCoderを支援する役割を果たせるかを探るためにAUI-Gymを導入。1560のタスクをシミュレートし、信頼性を確保する検証ツールを開発。Coder-CUA協力フレームワークを提案し、CUAがデザインを評価し、タスク解決可能性を測定。CUAダッシュボードを設計し、ナビゲーション履歴を視覚的に要約。これにより、エージェントの能動的な参加を促進する。 Comment

pj page: https://showlab.github.io/AUI/

元ポスト:

Loading…

CUA自身にCUAにとって理解しやすいUIに関するJudgeをさせてフィードバックさせ（CUA-as-Judpe)、Coder（コード生成）を通じてUIを改善できるか？というタスクとベンチマークな模様

[Paper Note] EDIT-Bench: Evaluating LLM Abilities to Perform Real-World Instructed Code Edits, Wayne Chi+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #AIAgents #Evaluation #SoftwareEngineering #read-later Issue Date: 2025-11-20 GPT Summary- EDIT-Benchは、LLMのコード編集能力を実際のユーザー指示とコードコンテキストに基づいて評価するためのベンチマークで、540の問題を含む。多様な自然言語とプログラミング言語を用いた実世界のユースケースを提供し、コンテキスト依存の問題を導入。40のLLMを評価した結果、60%以上のスコアを得たモデルは1つのみで、ユーザー指示のカテゴリやコンテキスト情報がパフォーマンスに大きく影響することが示された。 Comment

元ポスト:

Loading…

[Paper Note] SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution, Yuxiang Wei+, NeurIPS'25, 2025.02

Paper/Blog Link My Issue
#Pocket #NLP #ReinforcementLearning #AIAgents #NeurIPS #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-11-05 GPT Summary- SWE-RLは、強化学習を用いて大規模言語モデル（LLMs）の推論能力を向上させる新しいアプローチで、実世界のソフトウェア工学に焦点を当てています。軽量なルールベースの報酬を活用し、LLMがオープンソースソフトウェアの進化データから学習することで、開発者の推論プロセスを自律的に回復します。Llama3-SWE-RL-70Bは、実世界のGitHub問題において41.0%の解決率を達成し、中規模LLMとしては最高のパフォーマンスを示しました。また、一般化された推論スキルを持ち、複数のドメイン外タスクで改善された結果を示しています。SWE-RLは、ソフトウェア工学データに基づく強化学習の新たな可能性を開きます。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

解説:

Loading…

[Paper Note] CodeAlignBench: Assessing Code Generation Models on Developer-Preferred Code Adjustments, Forough Mehralian+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #UserBased #AIAgents #Evaluation Issue Date: 2025-11-03 GPT Summary- 大規模言語モデルのコード生成能力を評価するために、指示に従う能力を測るマルチランゲージベンチマークを導入。初期問題の制約遵守とフォローアップ指示への対応能力を評価。LiveBenchのプログラミングタスクを用いて、PythonからJavaおよびJavaScriptへの自動翻訳タスクで実証。結果、モデルは指示に従う能力において異なる性能を示し、ベンチマークがコード生成モデルの包括的な評価を提供することを明らかにした。 Comment

元ポスト:

Loading…

[Paper Note] Scaling Test-Time Compute to Achieve IOI Gold Medal with Open-Weight Models, Mehrzad Samadi+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #LLM-as-a-Judge #Test-Time Scaling #One-Line Notes #Scalability Issue Date: 2025-10-19 GPT Summary- 競技プログラミングはLLMsの能力を評価する重要なベンチマークであり、IOIはその中でも特に権威ある大会です。本論文では、オープンウェイトモデルがIOI金メダルレベルのパフォーマンスを達成するためのフレームワーク「GenCluster」を提案します。このフレームワークは、生成、行動クラスタリング、ランキング、ラウンドロビン戦略を組み合わせて多様な解決空間を効率的に探索します。実験により、GenClusterは計算リソースに応じてスケールし、オープンシステムとクローズドシステムのギャップを縮小することが示され、IOI 2025で金メダルを達成する可能性を示唆しています。 Comment

元ポスト:

Loading…

OpenWeight modelで初めてIOI金メダル級のパフォーマンスを実現できるフレームワークで、まずLLMに5000個程度の潜在的なsolutionを生成させ、それぞれのsolutionを100種のtest-caseで走らせて、その後solutionをbehaviorに応じてクラスタリングする。これによりアプローチのユニークさにそってクラスタが形成される。最終的に最も良いsolutionを見つけるために、それぞれのクラスタから最も良いsolutionを互いに対決させて、LLM-as-a-Judgeで勝者をランク付けするような仕組みのようである。

[Paper Note] AutoCode: LLMs as Problem Setters for Competitive Programming, Shang Zhou+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Education #AIAgents #Evaluation #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-18 GPT Summary- AutoCodeは、競技プログラミングの問題文とテストケースを生成するシステムであり、信頼性の高い問題作成を実現します。複数回の検証を通じて、生成された問題は公式の判断と99%の一貫性を持ち、従来の手法に比べて大幅な改善を示します。また、ランダムなシード問題から新しいバリアントを作成し、不正な問題をフィルタリングする機能も備えています。最終的に、AutoCodeはグランドマスター級の競技プログラマーによってコンテスト品質と評価される問題を生成します。 Comment

blog: https://livecodebenchpro.com/projects/autocode/overview

LLMで自動的に高品質な競技プログラミング問題とそのテストケースを生成するパイプラインを提案。

信頼性のあるテストケースを作成するために、Validator-Generator-Checkerフレームワーク。提案。Generatorがテストケースを生成し、Validatorが生成されたテストケースの入力が問題の制約を満たしているか判定し、Checkerが与えられたテストケースの元で解法が正しいかを確認する。

続いて、人手を介さずとも生成される問題が正しいことを担保するためにdual-verificationを採用。具体的には、LLMに新規の問題文と効率的な解法を生成させ、加えてブルートフォースでの解法を別途生成する。そして、両者をLLMが生成したテストセット群で実行し、全ての解放で出力が一致した場合のみAcceptする、といったような手法らしい。

（手法の概要としてはそうなのだろうが、細かい実装に高品質さの肝があると思うのでしっかり読んだ方が良さげ。特にTest Generationの詳細をしっかりできていない）

takeawayで興味深かったのは、

- LLMは自身では解けないが、解法が存在する（solvable)問題を生成できること
- 人間の専門家とLLM（o3)の間で、問題の品質の新規性の判定の相関がわずか0.007, 0.11しかなかったこと。そして品質に関しては専門家のグループ間では0.71, o3とgpt4oの間では0.72と高い相関を示しており、LLMと人間の専門家の間で著しく問題の品質の判断基準が異なること
- seed問題と生成された問題の難易度のgainが、問題の品質に関して、LLM自身のself-evaluationよりもより良い指標となっていること

[Paper Note] BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution, Terry Yue Zhuo+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #UserBased #Alignment #Evaluation #read-later #Selected Papers/Blogs Issue Date: 2025-10-13 GPT Summary- BigCodeArenaは、LLMが生成したコードの質をリアルタイムで評価するためのクラウドソーシングプラットフォームで、Chatbot Arenaを基盤に構築されています。14,000以上のコード中心の会話セッションから4,700のマルチターンサンプルを収集し、人間の好みを明らかにしました。これに基づき、LLMのコード理解と生成能力を評価するためのBigCodeRewardとAutoCodeArenaという2つのベンチマークを策定しました。評価の結果、実行結果が利用可能な場合、ほとんどのLLMが優れたパフォーマンスを示し、特にGPT-5やClaudeシリーズがコード生成性能でリードしていることが確認されました。 Comment

元ポスト:

Loading…

良さそう

[Paper Note] D3: A Dataset for Training Code LMs to Act Diff-by-Diff, Piterbarg+, COLM'25

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #mid-training #COLM #Editing #One-Line Notes Issue Date: 2025-10-08 Comment

openreview: https://openreview.net/forum?id=sy71y74U80#discussion

openreviewのサマリによると、8B tokens, 850k python filesのデータセットで、コーディングタスクを、ゴールで条件づけられたsequential editsタスクとみなし The Stack上のコードを分析ツールとLLMによって合成されたrationaleによってフィルタリング/拡張したデータを提供しているとのこと。具体的には (state, goal, action_i) の3つ組みのデータセットであり、action_iがaction前後でのdiffになっている模様。D3データセットでSFTの前にLlama 1B / 3Bをmid-trainingした結果、downstreamタスク（コード生成、completion、編集）において性能が向上したとのこと。

[Paper Note] SWE-QA: Can Language Models Answer Repository-level Code Questions?, Weihan Peng+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #QuestionAnswering #AIAgents #Evaluation #SoftwareEngineering Issue Date: 2025-09-27 GPT Summary- SWE-QAは、ソフトウェアリポジトリ全体を理解し推論するための新しいコード質問応答ベンチマークで、576の高品質な質問-回答ペアを含む。これは、複数のファイルをナビゲートし、ソフトウェアアーキテクチャや長距離のコード依存関係を理解する能力を評価するために設計された。LLMエージェントを用いたプロトタイプSWE-QA-Agentも開発され、実験によりLLMの可能性と今後の研究課題が示された。 Comment

元ポスト:

Loading…

コードスニペットレベルではなく、リポジトリレベルのコードベースの理解が求められるQAベントマーク

[Paper Note] CWM: An Open-Weights LLM for Research on Code Generation with World Models, FAIR CodeGen team+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#NLP #LanguageModel #OpenWeight #mid-training #PostTraining #Selected Papers/Blogs #WorldModels #One-Line Notes Issue Date: 2025-09-25 GPT Summary- 320億パラメータのCode World Model (CWM)をリリースし、コード生成のための世界モデルの研究を進める。静的コードだけでなく、PythonインタプリタやDocker環境から得た観測-行動トレジェクトリで中間トレーニングを実施し、マルチタスク推論RLによる広範な能力を評価。CWMは強力なテストベッドを提供し、世界モデルがエージェンティックコーディングに貢献できることを示す。主要なタスクで高いパフォーマンスを記録し、モデルチェックポイントも提供。 Comment

元ポスト:

Loading…

World Modelと銘打ってあるが、一般的なCV分野でのWorld Modelではなく、python やbash等の実行をトークン列として仮想的にトレースできるようにmid trainingされている（大量の実トレースデータが利用されている模様）ので、World Modelと銘打たれている模様？

GRPOに対するモダンなtweakがまとまっている模様:

Loading…

DeepSeek-R1で提案されてから細かな調整が重ねられて来た。

[Paper Note] Searching Latent Program Spaces, Matthew V Macfarlane+, NeurIPS'25, 2024.11

Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #Pocket #Search #NeurIPS #Encoder-Decoder Issue Date: 2025-09-21 GPT Summary- 新しいスキルを効率的に習得し、一般化するためのLatent Program Network（LPN）を提案。LPNは、入力を出力にマッピングする潜在空間を学習し、テスト時に勾配を用いて探索。シンボリックアプローチの適応性とニューラル手法のスケーラビリティを兼ね備え、事前定義されたDSLを不要にする。ARC-AGIベンチマークでの実験により、LPNは分布外タスクでの性能を2倍に向上させることが示された。 Comment

元ポスト:

Loading…

[Paper Note] LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code, Naman Jain+, ICLR'25

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Evaluation #read-later #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-09-12 GPT Summary- 本研究では、LLMのコード関連能力を評価するための新しいベンチマーク「LiveCodeBench」を提案。LeetCode、AtCoder、CodeForcesから収集した400の高品質なコーディング問題を用い、コード生成や自己修復、コード実行など多様な能力に焦点を当てている。18のベースLLMと34の指示調整されたLLMを評価し、汚染や過剰適合の問題を実証的に分析。すべてのプロンプトとモデルの結果を公開し、さらなる分析や新しいシナリオの追加を可能にするツールキットも提供。 Comment

pj page: https://livecodebench.github.io

openreview: https://openreview.net/forum?id=chfJJYC3iL

LiveCodeBenchは非常にpopularなコーディング関連のベンチマークだが、readmeに記載されているコマンド通りにベンチマークを実行すると、stop tokenに"###"が指定されているため、マークダウンを出力したLLMの出力が常にtruncateされるというバグがあった模様。

Loading…

[Paper Note] SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents, Ibragim Badertdinov+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #AIAgents #Evaluation #SoftwareEngineering #read-later #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-09-06 GPT Summary- LLMベースのエージェントのSWEタスクにおける課題として、高品質なトレーニングデータの不足と新鮮なインタラクティブタスクの欠如が挙げられる。これに対処するため、21,000以上のインタラクティブなPythonベースのSWEタスクを含む公的データセットSWE-rebenchを自動化されたパイプラインで構築し、エージェントの強化学習に適したベンチマークを提供。これにより、汚染のない評価が可能となり、いくつかのLLMの性能が過大評価されている可能性を示した。 Comment

pj page: https://swe-rebench.com

元ポスト:

Loading…

コンタミネーションのない最新のIssueを用いて評価した結果、Sonnet 4が最も高性能

[Paper Note] GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents, Manish Shetty+, arXiv'25

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #Dataset #LanguageModel #AIAgents #Evaluation #SoftwareEngineering Issue Date: 2025-09-03 GPT Summary- 高性能ソフトウェア開発における言語モデルの能力を評価するためのベンチマークGSOを提案。102の最適化タスクを特定する自動化パイプラインを開発し、主要なソフトウェアエンジニアリングエージェントの成功率は5%未満であることを示した。定性的分析により、低レベル言語や最適化戦略の課題が明らかになった。研究の進展のために、ベンチマークのコードとエージェントのデータを公開。 Comment

pj page: https://gso-bench.github.io

ソフトウェアの高速化に関するベンチ

元ポストに掲載されているリーダーボードはどこにあるのだろう。ざっと見た感じ見当たらない。

[Paper Note] Efficient Code Embeddings from Code Generation Models, Daria Kryvosheieva+, arXiv'25

Paper/Blog Link My Issue
#Embeddings #NLP #LanguageModel Issue Date: 2025-09-03 GPT Summary- jina-code-embeddingsは、自然言語からコードを取得し、技術的な質問応答や意味的に類似したコードスニペットの特定を行う新しいコード埋め込みモデルです。自己回帰型バックボーンを利用し、トークンプーリングを通じて埋め込みを生成。小さいモデルサイズながら最先端のパフォーマンスを示し、コード埋め込みモデルの構築における有効性を検証しています。 Comment

HF: https://huggingface.co/collections/jinaai/jina-code-embeddings-68b0fbfbb0d639e515f82acd

コーディング特化のembeddingで、検索、クロスリンガルな類似度、技術に関するQAに対応可能らしい

公式ポスト:

Loading…

[Paper Note] AutoCodeBench: Large Language Models are Automatic Code Benchmark Generators, Jason Chou+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Evaluation #MultiLingual Issue Date: 2025-08-19 GPT Summary- AutoCodeGenを提案し、手動注釈なしで高難易度の多言語コード生成データセットを自動生成。これに基づき、3,920の問題からなるAutoCodeBenchを導入し、20のプログラミング言語に均等に分配。30以上のLLMsを評価した結果、最先端のモデルでも多様性や複雑さに苦労していることが明らかに。AutoCodeBenchシリーズは、実用的な多言語コード生成シナリオに焦点を当てるための貴重なリソースとなることを期待。 Comment

pj page: https://autocodebench.github.io/

元ポスト:

Loading…

[Paper Note] Can Language Models Falsify? Evaluating Algorithmic Reasoning with Counterexample Creation, Shiven Sinha+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Evaluation #Reasoning #Verification Issue Date: 2025-08-13 GPT Summary- 言語モデル（LM）の科学的発見を加速するために、微妙に誤った解決策に対する反例を作成する能力を評価する新しいベンチマーク「REFUTE」を提案。これはプログラミング問題からの誤った提出物を用いており、最も優れた推論エージェントでも9%未満の反例しか生成できないことが示された。この研究は、LMの誤った解決策を否定する能力を向上させ、信頼できる推論を通じて自己改善を促進することを目指している。 Comment

pj page: https://falsifiers.github.io

元ポスト:

Loading…

バグのあるコードとtask descriptionが与えられた時に、inputのフォーマットと全ての制約を満たすが、コードの実行が失敗するサンプル（＝反例）を生成することで、モデルのreasoning capabilityの評価をするベンチマーク。

gpt-ossはコードにバグのあるコードに対して上記のような反例を生成する能力が高いようである。ただし、それでも全体のバグのあるコードのうち反例を生成できたのは高々21.6%のようである。ただ、もしコードだけでなくverification全般の能力が高いから、相当使い道がありそう。

[Paper Note] STEPWISE-CODEX-Bench: Evaluating Complex Multi-Function Comprehension and Fine-Grained Execution Reasoning, Kaiwen Yan+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Evaluation #Reasoning Issue Date: 2025-08-10 GPT Summary- 新しいベンチマーク「STEPWISE-CODEX-Bench（SX-Bench）」を提案し、複雑な多機能理解と細かい実行推論を評価。SX-Benchは、サブ関数間の協力を含むタスクを特徴とし、動的実行の深い理解を測定する。20以上のモデルで評価した結果、最先端モデルでも複雑な推論においてボトルネックが明らかに。SX-Benchはコード評価を進展させ、高度なコードインテリジェンスモデルの評価に貢献する。 Comment

元ポスト:

Loading…

現在の主流なコード生成のベンチは、input/outputがgivenなら上でコードスニペットを生成する形式が主流(e.g., MBPP [Paper Note] Program Synthesis with Large Language Models, Jacob Austin+, arXiv'21 , HumanEval [Paper Note] Evaluating Large Language Models Trained on Code, Mark Chen+, arXiv'21 )だが、モデルがコードを理解し、複雑なコードのロジックを実行する内部状態の変化に応じて、実行のプロセスを推論する能力が見落とされている。これを解決するために、CRUXEVAL [Paper Note] CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution, Alex Gu+, arXiv'24 , CRUXEVAL-X [Paper Note] CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution, Ruiyang Xu+, arXiv'24 では、関数のinputs/outputsを予測することで、モデルのコードのcomprehension, reasoning能力を測ろうとしているが、
- single functionのlogicに限定されている
- 20 line程度の短く、trivialなロジックに限定されている
- すでにSoTAモデルで95%が達成され飽和している

というlimitationがあるので、複数の関数が協働するロジック、flow/dataのinteractionのフロー制御、細かい実行ステップなどを含む、staticなコードの理解から、動的な実行プロセスのモデリング能力の評価にシフトするような、新たなベンチマークを作成しました、という話な模様。

まず関数単位のライブラリを構築している。このために、単一の関数の基礎的な仕様を「同じinputに対して同じoutputを返すものは同じクラスにマッピングされる」と定義し、既存のコードリポジトリとLLMによる合成によって、GoとPythonについて合計30種類のクラスと361個のインスタンスを収集。これらの関数は、算術演算や大小比較、パリティチェックなどの判定、文字列の操作などを含む。そしてこれら関数を3種類の実行パターンでオーケストレーションすることで、合成関数を作成した。合成方法は
- Sequential: outputとinputをパイプラインでつなぎ伝搬させる
- Selective: 条件に応じてf(x)が実行されるか、g(x)が実行されるかを制御
- Loop: input集合に対するloopの中に関数を埋め込み順次関数を実行

の3種類。合成関数の挙動を評価するために、ランダムなテストケースは自動生成し、合成関数の挙動をモニタリング（オーバーフロー、無限ループ、タイムアウト、複数回の実行でoutputが決定的か等など）し、異常があるものはフィルタリングすることで合成関数の品質を担保する。

ベンチマーキングの方法としては、CRUXEVALではシンプルにモデルにコードの実行結果を予想させるだけであったが、指示追従能力の問題からミスジャッジをすることがあるため、この問題に対処するためのペアが与えられた時に、outputが合成関数に対してinputしま結果とマッチするかをyes/noのbinaryで判定させる（Predictと呼ばれるモデルのコード理解力を評価)。これとは別に、与えられたinput, outputペアと合成関数に基づいて、実行時の合計のcomputation stepsを出力させるタスクをreasoningタスクとして定義し、複雑度に応じてeasy, hardに分類している。computation stepsは、プログラムを実行する最小単位のことであり、たとえば算術演算などの基礎的なarithmetic/logic operationを指す。

[Paper Note] MegaMath: Pushing the Limits of Open Math Corpora, Fan Zhou+, COLM'25

Paper/Blog Link My Issue
#Pretraining #Pocket #NLP #Dataset #LanguageModel #SyntheticData #Mathematics #mid-training #COLM Issue Date: 2025-07-10 GPT Summary- MegaMathは、数学に特化したオープンデータセットで、LLMの数学的推論能力を向上させるために作成された。ウェブデータの再抽出、数学関連コードの特定、合成データの生成を通じて、371Bトークンの高品質なデータを提供し、既存のデータセットを上回る量と品質を実現した。 Comment

元ポスト:

Loading…

非常に大規模な数学の事前学習/mid-training向けのデータセット

CommonCrawlのHTMLから、さまざまなフィルタリング処理（reformatting, 2 stageのHTML parserの活用（片方はnoisyだが高速、もう一方は高性能だが遅い）, fasttextベースの分類器による抽出, deduplication等）を実施しMegaMath-Webを作成、また、MegaMathWebをさらに分類器で低品質なものをフィルタリングし、LLMによってノイズ除去、テキストのreorganizingを実施し（≠ピュアな合成データ）継続事前学習、mid-training向けの高品質なMegaMath-Web-Proを作成。

MegaMathCodeはThe Stack V2 ([Paper Note] StarCoder 2 and The Stack v2: The Next Generation, Anton Lozhkov+, arXiv'24 ) をベースにしており、mathematical reasoning, logic puzzles, scientific computationに関するコードを収集。まずこれらのコードと関連が深い11のプログラミング言語を選定し、そのコードスニペットのみを対象とする。次にstrong LLMを用いて、数学に関するrelevanceスコアと、コードの品質を0--6のdiscrete scoreでスコアリングし学習データを作成。作成した学習データでSLMを学習し大規模なフィルタリングを実施することでMegaMath-Codeを作成。

最後にMegaMath-{Web, code}を用いて、Q&A, code data, text&code block dataの3種類を合成。Q&Aデータの合成では、MegaMath-WebからQAペアを抽出し、多様性とデータ量を担保するためQwen2.5-72B-Instruct, Llama3.3-70B-Instructの両方を用いて、QAのsolutionを洗練させる（reasoning stepの改善, あるいはゼロから生成する[^1])ことで生成。また、code dataでは、pythonを対象にMegaMath-Codeのデータに含まれるpython以外のコードを、Qwen2.5-Coder-32B-Instructと、Llamd3.1-70B-Instructによってpythonに翻訳することでデータ量を増やした。text&code blockデータでは、MegaMath-Webのドキュメントを与えて、ブロックを生成（タイトル、数式、結果、コードなど[^1]）し、ブロックのverificationを行い（コードが正しく実行できるか、実行結果とanswerが一致するか等）、verifiedなブロックを残すことで生成。

[^1]: この辺は論文の記述を咀嚼して記述しており実サンプルを見ていないので少し正しい認識か不安

[Paper Note] LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?, Zihan Zheng+, NeurIPS'25

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Evaluation #NeurIPS #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-06-17 GPT Summary- 大規模言語モデル（LLMs）は競技プログラミングで人間のエリートを上回るとされるが、実際には重要な限界があることを調査。新たに導入した「LiveCodeBench Pro」ベンチマークにより、LLMsは中程度の難易度の問題で53%のpass@1を達成する一方、難しい問題では0%という結果が得られた。LLMsは実装重視の問題では成功するが、複雑なアルゴリズム的推論には苦労し、誤った正当化を生成することが多い。これにより、LLMsと人間の専門家との間に重要なギャップがあることが明らかになり、今後の改善のための診断が提供される。 Comment

元ポスト:

Loading…

Hardな問題は現状のSoTAモデル（Claude4が含まれていないが）でも正答率0.0%

ベンチマークに含まれる課題のカテゴリ

実サンプルやケーススタディなどはAppendix参照のこと。

pj page: https://livecodebenchpro.com

アップデート(NeurIPSにaccept):

Loading…

[Paper Note] ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering, Yuki Imajuku+, NeurIPS'25

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #AIAgents #Evaluation #LongSequence #NeurIPS Issue Date: 2025-06-17 GPT Summary- AIシステムの最適化問題に対するパフォーマンスを評価する新しいベンチマークALE-Benchを提案。ALE-Benchは実際のタスクに基づき、長期的な解決策の洗練を促進する。大規模言語モデル（LLM）の評価では特定の問題で高いパフォーマンスを示すが、一貫性や長期的な問題解決能力において人間とのギャップが残ることが明らかになり、今後のAI進展に向けた必要性を示唆している。 Comment

元ポスト:

Loading…

[Paper Note] Training Language Models to Generate Quality Code with Program Analysis Feedback, Feng Yao+, NeurIPS'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #AIAgents #NeurIPS Issue Date: 2025-06-06 GPT Summary- プログラム分析に基づくフィードバックを用いた強化学習フレームワーク「REAL」を提案。セキュリティや保守性の欠陥を検出し、機能的正確性を保証することで、LLMsによる高品質なコード生成を促進。手動介入不要でスケーラブルな監視を実現し、実験により最先端の手法を上回る性能を示した。 Comment

元ポスト:

Loading…

現在のCoding LLMはUnitTestを通るように学習されるが、UnitTestに通るからといってコードの品質が良いわけでは無いので、UnitTestに通るか否かのReward（Functionality)に加えて、RL中に生成されたコードを制御フローグラフ[^1]に変換し汚染解析[^2]をした結果をRewardに組み込むことで、FunctionalityとQualityを両立したよ、という話のようである。

Figure1のグラフの縦軸は、Functionalityと（UnitTestが通ったか否か）と、Quailty(セキュリティや保守性に関する問題が検出されなかった)、という両方の条件を満たした割合である点に注意。

[^1]:プログラムを実行したときに通る可能性のある経路のすべてをグラフとして表したもの[引用元]( https://qiita.com/uint256_t/items/7d4556cb8f5997b9e95c)
[^2]:信頼できない汚染されたデータがプログラム中でどのように処理されるかを分析すること

[Paper Note] Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning, Yinjie Wang+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #SoftwareEngineering #UnitTest Issue Date: 2025-06-05 GPT Summary- CUREは、コーディングとユニットテスト生成を共進化させる強化学習フレームワークで、真のコードを監視せずにトレーニングを行う。ReasonFlux-Coderモデルは、コード生成精度を向上させ、下流タスクにも効果的に拡張可能。ユニットテスト生成では高い推論効率を達成し、強化学習のための効果的な報酬モデルとして機能する。 Comment

元ポスト:

Loading…

UnitTestの性能向上させます系の研究が増えてきている感

Rewriting Pre-Training Data Boosts LLM Performance in Math and Code, Kazuki Fujii+, arXiv'25

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Mathematics #read-later Issue Date: 2025-05-08 GPT Summary- 本研究では、公共データを体系的に書き換えることで大規模言語モデル（LLMs）の性能を向上させる2つのオープンライセンスデータセット、SwallowCodeとSwallowMathを紹介。SwallowCodeはPythonスニペットを洗練させる4段階のパイプラインを用い、低品質のコードをアップグレード。SwallowMathはボイラープレートを削除し、解決策を簡潔に再フォーマット。これにより、Llama-3.1-8Bのコード生成能力がHumanEvalで+17.0、GSM8Kで+12.4向上。すべてのデータセットは公開され、再現可能な研究を促進。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…

[Paper Note] To Code, or Not To Code? Exploring Impact of Code in Pre-training, Viraat Aryabumi+, arXiv'24, 2024.08

Paper/Blog Link My Issue
#Pretraining #Pocket #NLP #LanguageModel #DataMixture #One-Line Notes Issue Date: 2025-11-04 GPT Summary- コードデータが一般的なLLMのパフォーマンスに与える影響を体系的に調査。アブレーション実験により、コードがコーディングタスクを超えた一般化に重要であり、コード品質の向上が全タスクに大きな影響を与えることを確認。特に、コードの追加により自然言語推論で最大8.2%、世界知識で4.2%、生成的勝率で6.6%の向上を示し、コードパフォーマンスでは12倍の改善を達成。研究は、コード品質への投資がポジティブな影響をもたらすことを示唆。 Comment

元ポスト:

Loading…

事前学習におけるコードの割合を増やすとコーディングタスクの性能は線形に増加する。全体の平均タスク性能の観点で言うとコードの割合を25%にするのが最適で、コードの割合を増やすほど自然言語による推論、世界知識が問われるタスクの性能は悪化していき、コードの割合が75%を超えると急激に悪化する（Figure4)。

[Paper Note] Better & Faster Large Language Models via Multi-token Prediction, Fabian Gloeckle+, ICML'24

Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #Pocket #NLP #LanguageModel #ICML #Selected Papers/Blogs Issue Date: 2025-08-16 GPT Summary- 本研究では、大規模言語モデルを複数の将来のトークンを同時に予測するように訓練する手法を提案し、サンプル効率の向上を図る。具体的には、n個の独立した出力ヘッドを用いて次のnトークンを予測し、訓練時間にオーバーヘッドをかけずに下流の能力を向上させる。特に、コーディングタスクにおいて、提案モデルは強力なベースラインを上回る性能を示し、推論時に最大3倍の速度向上も実現。 Comment

next tokenだけでなく、next 4-tokenを予測して学習することで、MBPP/HumanEvalにおいて、モデルのパラメータサイズが1.3Bを超えた時点でベースライン（=同じパラメータサイズとなるように調整されたnext-token prediction）をoutperformしはじめ、モデルサイズが大きくなるにつれて性能の差が顕著に表れることを示した。コーディングドメインにおいて事前学習、およびfinetuningの双方で効果がある。ただし、3.7節で示されている通り、これはコーディングドメインでのみこのような顕著な改善がみられており、自然言語データに対してはここまで顕著な改善はしていないように見える（5.1節で考察されていそう; 昨今のLLMでは事前学習データにコーディングなどのデータが入るのが普通なので利用する恩恵はありそう; Abstractive Summarizationでは性能が改善している(Figure6); GSM8Kでは200Bまではnext 2 tokenを予測すると性能が改善しているが500B token学習するとnext token predictionの方が性能が良くなる）。全体的にperplexityの改善（=次のトークンにおいて正解トークンの生成確率を改善する）というよりは、モデルの"最終的な生成結果”にフォーカスした評価となっている。

モデルは共有のトランクf_s (おそらくhead間でパラメータを共有している一連のtransformerブロック) を持っておりinput x_t:1に対応するlatent representation z_t:1を生成する。latent representationをoutput headにinputすることで、それぞれのheadが合計でn個のnext tokenを予測する。

next n-tokenを予測する際には、GPUメモリを大幅に食ってしまう（logitsのshapeが(n, V)となりそれらの勾配も保持しなければならない) ことがボトルネックとなるが、f_sまでforward passを実行したら、各headに対してforward/backward passを順番に実行して、logitsの値は破棄し勾配の情報だけf_sに蓄積することで、長期的に保持する情報を各headのから逆伝搬された勾配情報のみにすることでこれを解決している。

実際にinferenceをするときはnext tokenを予測するヘッドの出力を活用することを前提としているが、全てのヘッドを活用することで、t時点でt+nトークンの予測を可能なため、self-speculative decodingを実施しinference timeを短縮することができる。

3.4で示されているように、nの値は大きければ大きいほど良いというわけではなく、4程度（byte levelなモデルの場合は8 bytes）が最適なようである。が、Table1を見ると、データによってはn=6が良かったり（i.e., 最適なnは学習データ依存）複数エポック学習するとmulti token predictionの効果が薄くなっていそう（i.e., 同じトークンの予測を複数回学習するので実質multi token predictionと似たようなことをやっている。言い換えると、multi token predictionは複数epochの学習を先取りしているとみなせる？）なのは注意が必要そう。

全体的に複数epochを学習すると恩恵がなくなっていく（コーディング） or next token predictionよりも性能が悪化する（自然言語）ので、LLMの事前学習において、複数epochを学習するような当たり前みたいな世界線が訪れたら、このアーキテクチャを採用すると性能はむしろ悪化しそうな気はする。

MBPP/HumanEval:
- [Paper Note] Program Synthesis with Large Language Models, Jacob Austin+, arXiv'21
- [Paper Note] Evaluating Large Language Models Trained on Code, Mark Chen+, arXiv'21

[Paper Note] CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution, Ruiyang Xu+, arXiv'24

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Evaluation #Reasoning #MultiLingual Issue Date: 2025-08-15 GPT Summary- CRUXEVAL-Xという多言語コード推論ベンチマークを提案。19のプログラミング言語を対象に、各言語で600以上の課題を含む19Kのテストを自動生成。言語間の相関を評価し、Python訓練モデルが他言語でも高い性能を示すことを確認。 Comment

[Paper Note] CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution, Alex Gu+, arXiv'24

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Evaluation #Reasoning Issue Date: 2025-08-15 GPT Summary- CRUXEvalという800のPython関数からなるベンチマークを提案し、入力予測と出力予測の2つのタスクを評価。20のコードモデルをテストした結果、HumanEvalで高得点のモデルがCRUXEvalでは改善を示さないことが判明。GPT-4とChain of Thoughtを用いた場合、入力予測で75%、出力予測で81%のpass@1を達成したが、どのモデルも完全にはクリアできず、GPT-4のコード推論能力の限界を示す例を提供。

[Paper Note] StarCoder 2 and The Stack v2: The Next Generation, Anton Lozhkov+, arXiv'24

Paper/Blog Link My Issue
#Pretraining #Pocket #NLP #Dataset #LanguageModel Issue Date: 2025-07-13 GPT Summary- BigCodeプロジェクトは、責任あるCode LLMsの開発に焦点を当て、StarCoder2を発表。Software Heritageと提携し、The Stack v2を構築し、619のプログラミング言語を含む大規模なトレーニングセットを作成。StarCoder2モデルは3B、7B、15Bのパラメータを持ち、徹底的なベンチマーク評価で優れた性能を示す。特にStarCoder2-15Bは、同等の他モデルを大幅に上回り、数学やコード推論でも高い性能を発揮。モデルの重みはOpenRAILライセンスで公開され、トレーニングデータの透明性も確保。 Comment

Evidence of Meaning in Language Models Trained on Programs, Charles Jin+, N_A, ICML'24

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #ICML Issue Date: 2023-05-20 GPT Summary- 本研究では、プログラムのコーパスを用いて言語モデルが意味を学習できることを示し、プログラム合成が言語モデルの意味の存在を特徴づけるための中間テストベッドとして適していることを述べている。Transformerモデルを用いた実験により、言語の意味を学習するための帰納バイアスを提供しないにもかかわらず、線形プローブがモデルの状態から現在および将来のプログラム状態の抽象化を抽出できることがわかった。また、正しいプログラムを生成することを学習し、平均的に訓練セットよりも短いプログラムを生成することも示した。本論文は、言語モデルの訓練に新しい技術を提案するものではなく、(形式的な)意味の習得と表現に関する実験的なフレームワークを開発し、洞察を提供する。 Comment

プログラムのコーパスでLLMをNext Token Predictionで訓練し
厳密に正解とsemanticsを定義した上で、訓練データと異なるsemanticsの異なるプログラムを生成できることを示した。

LLMが意味を理解していることを暗示している

参考:

Loading…

Socratic Questioning of Novice Debuggers: A Benchmark Dataset and Preliminary Evaluations, ACL-BEA'23

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel Issue Date: 2023-07-18 GPT Summary- 本研究では、初心者プログラマがバグのある計算問題を解決する際に、ソクラテス的な対話を行うデータセットを紹介し、GPTベースの言語モデルのデバッグ能力を評価しました。GPT-4はGPT-3.5よりも優れたパフォーマンスを示しましたが、まだ人間の専門家には及ばず、さらなる研究が必要です。

GLM-4.7-Flash, Z.ai, 2026.01

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #OpenWeight #MoE(Mixture-of-Experts) #One-Line Notes Issue Date: 2026-01-20 Comment

元ポスト:

Loading…

30B-A3BのMoEモデルで、gpt-oss-20B, Qwen3-30B-A3B-Thinking-2507を、SWE Bench Verified, tau2_bench, BrowseComp(SWEタスク, tooluse, 検索）等で大幅にoutperform。AIME, GPQA, HLEなどの推論系のベンチマークも同等以上。つまり、agenticなタスクに適した能力を有することが示唆される。

ポイント解説:

Loading…

OctoCodingBench, MiniMaxAI, 2026.01

Paper/Blog Link My Issue
#Article #NLP #Dataset #AIAgents #Evaluation #SoftwareEngineering Issue Date: 2026-01-16 Comment

元ポスト:

Loading…

FrogMini-14B-2510, Microsoft, 2026.01

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #OpenWeight #SoftwareEngineering #One-Line Notes Issue Date: 2026-01-16 Comment

元ポスト:

Loading…

strong modelから合成されたbug fixのtrajectoryでSFTすることで小規模モデルでSWE Benchの性能改善

元論文:
- [Paper Note] High-Resolution Image Synthesis with Latent Diffusion Models, Robin Rombach+, CVPR'22, 2021.12

NousCoder-14B: A Competitive Olympiad Programming Model, Joe Li, 2026.01

Paper/Blog Link My Issue
#Article #Pocket #NLP #LanguageModel #ReinforcementLearning #Blog #OpenWeight #PostTraining #read-later Issue Date: 2026-01-09 Comment

元ポスト:

Loading…

HF: https://huggingface.co/NousResearch/NousCoder-14B

Apache 2.0

PipelineRLを採用している模様。興味深い。

IQuest-Coder, IQuestLab, 2026.01

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #SoftwareEngineering Issue Date: 2026-01-01 Comment

元ポスト:

Loading…

Today's conversations about AI-assisted programming are strikingly similar to those from decades ago about the choice between low-level languages like C versus high-level languages like Python, Arvind Narayanan, 2025.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Post #SoftwareEngineering Issue Date: 2025-12-31

GLM-4.7: Advancing the Coding Capability, Z.ai, 2025.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Reasoning #OpenWeight #SoftwareEngineering #One-Line Notes #Reference Collection Issue Date: 2025-12-25 Comment

元ポスト:

Loading…

HF: https://huggingface.co/zai-org/GLM-4.7

デザインアリーナでtop2:

Loading…

Artificial Intelligence Indexにおいて、OpenModelの中でトップ:

Loading…

GLM-4.6と比較して、コーディング/SWE, reasoning, tooluseなどの能力が大幅に向上

Interleaved Thinking, Preserved Thinking, Turn-level Thinkingの3つの特性がある。

Interleaved Thinkingは全てのレスポンスとtool callingの前にreasoningを挟むことで、IFや生成品質を向上。
Preserved Thinkingは過去のターンの全てのthinking blockのトークンを保持し、再計算もしないのでマルチターンでの一貫性が増す。
Turn-level Thinkingはターンごとにreasoningを実施するか否かをコントロールでき、latency/costを重視するか、品質を重視するかを選択できる、といった特徴がある模様。

モデルサイズは358B

OpenHands trajectories with Qwen3 Coder 480B, Nebius blog, 2025.12

Paper/Blog Link My Issue
#Article #Dataset #LanguageModel #ReinforcementLearning #AIAgents #Blog #Reasoning #SoftwareEngineering Issue Date: 2025-12-24 Comment

元ポスト:

Loading…

MiniMax M2.1: Significantly Enhanced Multi-Language Programming, Built for Real-World Complex Tasks, MiniMax, 2025.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Reasoning #SmallModel #OpenWeight Issue Date: 2025-12-24 Comment

元ポスト:

Loading…

解説:

Loading…

HF: https://huggingface.co/MiniMaxAI/MiniMax-M2.1

Performance Hints, Jeff Dean+, 2025.12

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #SoftwareEngineering #Selected Papers/Blogs #reading Issue Date: 2025-12-21 Comment

元ポスト:

Loading…

Devstral2 Mistral Vibe CLI State-of-the-art, open-source agentic coding models and CLI agent., Mistral AI, 2025.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #OpenWeight #SoftwareEngineering Issue Date: 2025-12-10 Comment

SWE Bench VerifiedでOpenweightモデルの中ではSoTAと同等程度を達成。123B, 24Bの2種類がリリース。DeepSeekV3.2, Kimi K2よりも大幅に小さいパラメータで同等以上の性能。独自の人手評価（win, tie, loseのアリーナ形式）によるとSonnet 4.5には負けるがDeepSeekV3.2とは同等以上の割合で好まれた。

元ポスト:

Loading…

HF: https://huggingface.co/collections/mistralai/devstral-2

Introducing the Yupp SVG AI Leaderboard, YUPP, 2025.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #Reasoning Issue Date: 2025-12-06 Comment

元ポスト:

Loading…

SVG生成においてもGemini 3 Proが強い

Lessons from the Trenches on Building Usable Coding Agents - Graham Neubig, Graham Neubig, 2025.11

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Video Issue Date: 2025-11-09 Comment

元ポスト:

Loading…

Shipping with Codex, OpenAI, 2025.10

Paper/Blog Link My Issue
#Article #NLP #AIAgents #GenerativeAI #Video #SoftwareEngineering #One-Line Notes Issue Date: 2025-10-12 Comment

元ポスト:

Loading…

OpenAI内部で92%の技術スタッフがdailyで利用している、というマーケティングメッセージが非常に強力で、説得力を持たせていると感じる。

CODA: Coding LM via Diffusion Adaption, Chen+, 2025.10

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #DiffusionModel #SmallModel #OpenWeight #OpenSource Issue Date: 2025-10-05 Comment

元ポスト:

Loading…

HF: https://huggingface.co/Salesforce/CoDA-v0-Instruct

cc-by-nc-4.0

Vibe Coding Cleanup as a Service, Donado Labs, 2025.09

Paper/Blog Link My Issue
#Article #AIAgents #Blog Issue Date: 2025-09-23 Comment

元ポスト:

Loading…

Writing Code Was Never The Bottleneck, ordep.dev, 2025.06

Paper/Blog Link My Issue
#Article #GenerativeAI #Blog Issue Date: 2025-09-07 Comment

元ポスト:

Loading…

OpenHands PR Arena, neulab, 2025.09

Paper/Blog Link My Issue
#Article #Dataset #AIAgents #Evaluation #Repository #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-09-04 Comment

元ポスト:

Loading…

実際に存在するIssueにタグ付けすることで、リアルタイムに複数LLMによってPRを作成（API callはOpenHandswが負担する）し、ユーザは複数LLMの中で良いものを選択する、といったことができる模様？リーダーボードも将来的に公開するとのことなので、実際にユーザがどのモデルのoutputを選んだかによって勝敗がつくので、それに基づいてランキング付けをするのだろうと推測。興味深い。

Nemotron-CC-v2, Nvidia, 2025.08

Paper/Blog Link My Issue
#Article #Pretraining #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #Mathematics #Selected Papers/Blogs Issue Date: 2025-09-01 Comment

元ポスト:

Loading…

CCだけでなく、数学やコーディングの事前学習データ、SFT styleの合成データセットも含まれている。

Aider LLM Leaderboards, 2024.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #Reasoning Issue Date: 2025-08-21 Comment

最近よく見かけるいわゆるAider Polyglot。人間の介入なしに、LLMがコードの"編集"をする能力を測るベンチマーク。性能だけでなくコストもリーダーボードに記載されている。C++,Go,Java,JavaScript,Python,RustによるExercimにおける225の"最も困難な"エクササイズのみが含まれる。

データセット: https://github.com/Aider-AI/polyglot-benchmark

DeepCode, Data Intelligence Lab@HKU, 2025.08

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Repository Issue Date: 2025-08-19 Comment

研究論文からコードを生成するpaper2code、テキストからweb pageを生成するtext2web、textからスケーラブルなバックエンドを構築するtext2backendを現状サポートしているvibe coding frameworkらしい。
論文のベンチマークの再現の自動化やパフォーマンス向上、自動コード検証などが追加されるらしい。

研究の出版に対して再現実験など現状到底間に合わないので、再現性があるかどうかを自動的に検証して欲しいなぁ、とは思っていたので個人的に嬉しい。

Claude Opus 4.1, Anthropic, 2025.08

Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #AIAgents #Blog #Proprietary Issue Date: 2025-08-06 Comment

他モデルとの性能比較:

やはりコーディングでは（SNS上での口コミでは非常に高評価なように見えており、かつ）o3やGeminiと比較してClaudeがベンチ上でも高い性能を示している模様。

元ポスト:

Loading…

XBai-o4, MetaStoneAI, 2025.08

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight Issue Date: 2025-08-03 Comment

元ポスト:

Loading…

LiveCodeBenchでo3-mini-2015-01-31(medium)と同等らしい

Qwen3-Coder-30B-A3B-Instruct, QwenTeam, 2025.08

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #Reasoning #MoE(Mixture-of-Experts) Issue Date: 2025-08-02 Comment

元ポスト:

Loading…

運用して初めてわかったDevinのセキュリティ課題 - Devin Meetup Tokyo 2025, 株式会社メルカリHiroki Akamatsu, 2025.07

Paper/Blog Link My Issue
#Article #AIAgents #Slide #SoftwareEngineering #Sequrity Issue Date: 2025-07-26

Python Template for Claude Code （Cookiecutter）, zerebom, 2025.07

Paper/Blog Link My Issue
#Article #AIAgents #project_template #python #SoftwareEngineering Issue Date: 2025-07-26 Comment

元ポスト:

Loading…

AI時代のソフトウェア開発を考える（2025_07版） _ Agentic Software Engineering Findy 2025-07 Edition, Takuto Wada, 2025.07

Paper/Blog Link My Issue
#Article #NLP #AIAgents #Slide Issue Date: 2025-07-25 Comment

Vibe Codingによってソフトウェアエンジニアリングの課題は解決されたわけではなく、昔からある問題は依然として存在し（技術的負債、レビューなど）、道具が変わりこれらが顕在化するスピードが急速に速まっただけ、という話な模様。
どの領域に、どのAIを使うか（委託, 伴走）なども考察されている。ロジックの複雑さが小さいものは委託（補完など）、ロジックの複雑さが高く競合との差別化が重要なエリアには伴走、といった使い方。AIは自走するが迷走、暴走もするのでガードレールがより一層重要。自分自身の能力の向上も不可欠。

anycoder, akhaliq, 2025.07

Paper/Blog Link My Issue
#Article #LanguageModel #SoftwareEngineering Issue Date: 2025-07-25 Comment

こんなことができる模様。サイトのリニューアルに使ってみようかしら、、、

Loading…

Qwen Code, Qwen Team, 2025.07

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Repository Issue Date: 2025-07-23

advanced-mcp-features, epicweb-dev, 2025.06

Paper/Blog Link My Issue
#Article #Tutorial #LanguageModel #SoftwareEngineering #MCP Issue Date: 2025-07-14 Comment

MCPの勉強に良いかもしれないのでメモ

Claude Code の Context Engineering, schroneko, 2025.07

Paper/Blog Link My Issue
#Article #AIAgents #Slide #SoftwareEngineering #ContextEngineering Issue Date: 2025-07-06

AI Agent Manager （AAM）として生きていく : 作業環境とワークフローの設計, icoxfog417, 2025.06

Paper/Blog Link My Issue
#Article #NLP #AIAgents #Blog #SoftwareEngineering Issue Date: 2025-06-23 Comment

元ポスト:

Loading…

AI-assisted coding for teams that can't get away with vibes, Atharva Raykar, 2025.05

Paper/Blog Link My Issue
#Article #AIAgents #Blog #read-later Issue Date: 2025-06-21 Comment

元ポスト:

Loading…

OpenAI-Codex, OpenAI, 2025.05

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog Issue Date: 2025-05-18 Comment

OpenHandsのNeubig氏が、OpenAIのブログポスト中で報告されているSWE-Bench Verifiedのスコアについて、言及している。OpenAIは23個サンプルについて(internal infrastructureで動作させられないため)除外しているので、その分スコアに下駄が履かれているようで、ブログ中のpassNのスコアを他のリーダーボードのスコアと比較する際には注意が必要っぽい。

Loading…

AlphaEvolve: A coding agent for scientific and algorithmic discovery, Novikov+, Google DeepMind, 2025.05

Paper/Blog Link My Issue
#Article #Pocket #NLP #LanguageModel #AIAgents #ScientificDiscovery Issue Date: 2025-05-17 Comment

blog post: https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/

Copilot Arena, CMU and UC Berkeley, 2024.11

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation Issue Date: 2024-11-13 Comment

元ポスト:

Loading…

- ChatBot Arena, lmsys org, 2023.05 も参照のこと

Chatbot Arenaがリリースされたのが1年半前であることをおもいおこし、この2年で飛躍的にLLMができることが増えたなぁ、パラメータ数増えたなぁ、でも省パラメータで性能めっちゃ上がったなぁ、proprietary LLMにOpenLLMが追いついてきたなぁ、としみじみ思うなどした。

StarCoderBase_StarCoder, 2023

Paper/Blog Link My Issue
#Article #NaturalLanguageGeneration #NLP #LanguageModel #FoundationModel #Blog Issue Date: 2023-05-06 Comment

・15.5Bパラメータ
・80種類以上のプログラミング言語で訓練
・Multi Query Attentionを利用
・context window size 8192
・Fill in the middle objectiveを利用

Instruction tuningがされておらず、prefixとsuffixの間を埋めるような訓練のされ方をしているので、たとえば関数名をinputして、そのmiddle（関数の中身）を出力させる、といった使い方になる模様。

paper: https://drive.google.com/file/d/1cN-b9GnWtHzQRoE7M7gAEyivY0kl4BYs/view

StarCoder:
https://huggingface.co/bigcode/starcoder

StarCoderBaseを35Bのpython tokenでfinetuningしたモデル。
既存モデルよりも高性能と主張

CodeGPT: The VSCode Extension with ChatGPT-Like Functionalities

Paper/Blog Link My Issue
#Article #Tools #GenerativeAI #Blog Issue Date: 2023-01-21 Comment

VSCodeの拡張で、//から始まるPromptをエディタ上で記載することで対応するコードをGPT3が生成してくれる模様。便利そう

良いコードとは何か - エンジニア新卒研修スライド公開, CyberZ, 森

Paper/Blog Link My Issue
#Article #Tutorial #Pocket #Slide Issue Date: 2022-03-02

Pythonのオブジェクト指向プログラミングを完全理解, kaitolucifer （Kaito）, 2021

Paper/Blog Link My Issue
#Article #Tutorial #Blog Issue Date: 2021-11-25 Comment

オブジェクト指向の歴史的背景から、SOLID、GRASP等が詳細に解説されている。辞書的に参照するのが良いかも。

イラストで理解するSOLID原則, baby-degu, 2021

Paper/Blog Link My Issue
#Article #Tutorial #Blog Issue Date: 2021-11-25 Comment

オブジェクト指向におけるSOLID原則をイラストで解説した記事。直感的で分かりやすい。

Coding

[Paper Note] BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills, Atharv Sonwane+, arXiv'25, 2025.10

[Paper Note] SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios, Minh V. T. Thai+, arXiv'25, 2025.12

[Paper Note] Propose, Solve, Verify: Self-Play Through Formal Verification, Alex Wilf+, arXiv'25, 2025.12

[Paper Note] DeepCode: Open Agentic Coding, Zongwei Li+, arXiv'25, 2025.12

[Paper Note] Computer-Use Agents as Judges for Generative User Interface, Kevin Qinghong Lin+, arXiv'25, 2025.11

[Paper Note] EDIT-Bench: Evaluating LLM Abilities to Perform Real-World Instructed Code Edits, Wayne Chi+, arXiv'25, 2025.11

[Paper Note] SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution, Yuxiang Wei+, NeurIPS'25, 2025.02

[Paper Note] CodeAlignBench: Assessing Code Generation Models on Developer-Preferred Code Adjustments, Forough Mehralian+, arXiv'25, 2025.10

[Paper Note] Scaling Test-Time Compute to Achieve IOI Gold Medal with Open-Weight Models, Mehrzad Samadi+, arXiv'25, 2025.10

[Paper Note] AutoCode: LLMs as Problem Setters for Competitive Programming, Shang Zhou+, arXiv'25, 2025.09

[Paper Note] BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution, Terry Yue Zhuo+, arXiv'25, 2025.10

[Paper Note] D3: A Dataset for Training Code LMs to Act Diff-by-Diff, Piterbarg+, COLM'25

[Paper Note] SWE-QA: Can Language Models Answer Repository-level Code Questions?, Weihan Peng+, arXiv'25, 2025.09

[Paper Note] CWM: An Open-Weights LLM for Research on Code Generation with World Models, FAIR CodeGen team+, arXiv'25, 2025.09

[Paper Note] Searching Latent Program Spaces, Matthew V Macfarlane+, NeurIPS'25, 2024.11

[Paper Note] LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code, Naman Jain+, ICLR'25

[Paper Note] SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents, Ibragim Badertdinov+, arXiv'25

[Paper Note] GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents, Manish Shetty+, arXiv'25

[Paper Note] Efficient Code Embeddings from Code Generation Models, Daria Kryvosheieva+, arXiv'25

[Paper Note] AutoCodeBench: Large Language Models are Automatic Code Benchmark Generators, Jason Chou+, arXiv'25

[Paper Note] Can Language Models Falsify? Evaluating Algorithmic Reasoning with Counterexample Creation, Shiven Sinha+, arXiv'25

[Paper Note] STEPWISE-CODEX-Bench: Evaluating Complex Multi-Function Comprehension and Fine-Grained Execution Reasoning, Kaiwen Yan+, arXiv'25

[Paper Note] MegaMath: Pushing the Limits of Open Math Corpora, Fan Zhou+, COLM'25

[Paper Note] LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?, Zihan Zheng+, NeurIPS'25

[Paper Note] ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering, Yuki Imajuku+, NeurIPS'25

[Paper Note] Training Language Models to Generate Quality Code with Program Analysis Feedback, Feng Yao+, NeurIPS'25

[Paper Note] Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning, Yinjie Wang+, arXiv'25

Rewriting Pre-Training Data Boosts LLM Performance in Math and Code, Kazuki Fujii+, arXiv'25

[Paper Note] To Code, or Not To Code? Exploring Impact of Code in Pre-training, Viraat Aryabumi+, arXiv'24, 2024.08

[Paper Note] Better & Faster Large Language Models via Multi-token Prediction, Fabian Gloeckle+, ICML'24

[Paper Note] CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution, Ruiyang Xu+, arXiv'24

[Paper Note] CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution, Alex Gu+, arXiv'24

[Paper Note] StarCoder 2 and The Stack v2: The Next Generation, Anton Lozhkov+, arXiv'24

Evidence of Meaning in Language Models Trained on Programs, Charles Jin+, N_A, ICML'24

Socratic Questioning of Novice Debuggers: A Benchmark Dataset and Preliminary Evaluations, ACL-BEA'23

GLM-4.7-Flash, Z.ai, 2026.01

OctoCodingBench, MiniMaxAI, 2026.01

FrogMini-14B-2510, Microsoft, 2026.01

NousCoder-14B: A Competitive Olympiad Programming Model, Joe Li, 2026.01

IQuest-Coder, IQuestLab, 2026.01

Today's conversations about AI-assisted programming are strikingly similar to those from decades ago about the choice between low-level languages like C versus high-level languages like Python, Arvind Narayanan, 2025.12

GLM-4.7: Advancing the Coding Capability, Z.ai, 2025.12

OpenHands trajectories with Qwen3 Coder 480B, Nebius blog, 2025.12

MiniMax M2.1: Significantly Enhanced Multi-Language Programming, Built for Real-World Complex Tasks, MiniMax, 2025.12

Performance Hints, Jeff Dean+, 2025.12

Devstral2 Mistral Vibe CLI State-of-the-art, open-source agentic coding models and CLI agent., Mistral AI, 2025.12

Introducing the Yupp SVG AI Leaderboard, YUPP, 2025.12

Lessons from the Trenches on Building Usable Coding Agents - Graham Neubig, Graham Neubig, 2025.11

Shipping with Codex, OpenAI, 2025.10

CODA: Coding LM via Diffusion Adaption, Chen+, 2025.10

Vibe Coding Cleanup as a Service, Donado Labs, 2025.09

Writing Code Was Never The Bottleneck, ordep.dev, 2025.06

OpenHands PR Arena, neulab, 2025.09

Nemotron-CC-v2, Nvidia, 2025.08

Aider LLM Leaderboards, 2024.12

DeepCode, Data Intelligence Lab@HKU, 2025.08

Claude Opus 4.1, Anthropic, 2025.08

XBai-o4, MetaStoneAI, 2025.08

Qwen3-Coder-30B-A3B-Instruct, QwenTeam, 2025.08

運用して初めてわかったDevinのセキュリティ課題 - Devin Meetup Tokyo 2025, 株式会社メルカリHiroki Akamatsu, 2025.07

Python Template for Claude Code （Cookiecutter）, zerebom, 2025.07

AI時代のソフトウェア開発を考える（2025_07版） _ Agentic Software Engineering Findy 2025-07 Edition, Takuto Wada, 2025.07

anycoder, akhaliq, 2025.07

Qwen Code, Qwen Team, 2025.07

advanced-mcp-features, epicweb-dev, 2025.06

Claude Code の Context Engineering, schroneko, 2025.07

AI Agent Manager （AAM） として生きていく : 作業環境とワークフローの設計, icoxfog417, 2025.06

AI-assisted coding for teams that can't get away with vibes, Atharva Raykar, 2025.05

OpenAI-Codex, OpenAI, 2025.05

AlphaEvolve: A coding agent for scientific and algorithmic discovery, Novikov+, Google DeepMind, 2025.05

Copilot Arena, CMU and UC Berkeley, 2024.11

StarCoderBase_StarCoder, 2023

CodeGPT: The VSCode Extension with ChatGPT-Like Functionalities

良いコードとは何か - エンジニア新卒研修 スライド公開, CyberZ, 森

Pythonのオブジェクト指向プログラミングを完全理解, kaitolucifer （Kaito）, 2021

イラストで理解するSOLID原則, baby-degu, 2021

AI Agent Manager （AAM）として生きていく : 作業環境とワークフローの設計, icoxfog417, 2025.06

良いコードとは何か - エンジニア新卒研修スライド公開, CyberZ, 森