AutoML


Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #LongHorizon #Initial Impression Notes #Asynchronous Issue Date: 2026-03-30 GPT Summary- 既存のAI研究エージェントの課題に対処するため、AIRA$_2$を提案。非同期マルチGPUワーカープールによりスループットを向上し、信頼性の高い評価信号を提供するHidden Consistent Evaluationプロトコルを導入。また、動的に行動を変更できるReActエージェントを用いる。MLE-bench-30でAIRA$_2$はパーセンタイル順位71.8%を達成し、過去最高を更新。各要素の必要性を示し、評価ノイズによる「過剰適合」の誤解を明らかに。 Comment

元ポスト:

Loading…

AutoMLベンチマーク(MLE-Bench-30)においてSoTAな手法らしい。AutoMLの現状を概観するのに良さそう。
- MLE-Bench, OpenAI, 2024.10

72h実行して、36.7%程度のコンペティションでGold medalを獲得している。よくよく表を見ると、FM-Agent 2.0の方が24hで全体的に高いメダル獲得率のように見えたのだが、そもそもMARS+, MARS, FM-Agent 2.0, そしてMLEvolveはcon-current workとのこと。2024年10月にMLE-Benchが発表され、[Paper Note] MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering, Jun Shern Chan+, ICLR'25, 2024.10 を見るとo1-previewでgold medalは10%程度だったが、そこから約1年半でgold medalの比率は+26%程度まで向上しているということになる。
- [Paper Note] MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering, Jun Shern Chan+, ICLR'25, 2024.10

ベンチマークが公開されたら早々にサチりそうな気がしていたが、個人的に思っていたよりもスコアの伸びが遅いという感想。

image




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #ICLR #Selected Papers/Blogs Issue Date: 2026-03-30 GPT Summary- MLE-benchは、AIエージェントの機械学習エンジニアリング能力を測定するためのベンチマークで、75件のKaggle競技を厳選し、実世界のスキルを試すタスクを作成。人間ベースラインを確立し、最先端の言語モデルを評価した結果、OpenAIのo1-previewとAIDEスキャフォールドの組み合わせが16.9%の競技でKaggleブロンズメダル以上の性能を示した。リソーススケーリングや事前学習の影響も調査し、ベンチマークコードをオープンソース化して今後の研究を促進する。 Comment

blog:
- MLE-Bench, OpenAI, 2024.10

openreview: https://openreview.net/forum?id=6s5uXNWGIh




Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #EACL Issue Date: 2023-08-10 GPT Summary- LLMを用いて新規のMLタスク解決を自動化するフレームワークを提案。これにより、人間の知識と経験を活かし、タスク理解と推論を強化。LLMは既存経験から学び、新たなタスクに対して効果的な解決策を生成し、高い競争力を持つことを示す。コードはGitHubで公開。

Paper/Blog Link My Issue
#MachineLearning #NLP #Dataset #LanguageModel #AIAgents #Evaluation #One-Line Notes Issue Date: 2023-10-09 GPT Summary- 機械学習の実験を行うためのエージェントを強力な言語モデルを用いて構築し、MLAgentBenchという13のタスクベンチマークを導入。エージェントはファイル操作やコード実行を行い、Claude v3 Opusが最も高い成功率を示す。タスク全体で平均成功率37.5%を達成するが、結果はデータセットによって大きく変動。長期計画や幻覚の低減といった重要な課題も明らかにした。コードは公開中。 Comment

GPT4がMLモデルをどれだけ自動的に構築できるかを調べた模様。また、ベンチマークデータを作成した模様。結果としては、既存の有名なデータセットでの成功率は90%程度であり、未知のタスク(新たなKaggle Challenge等)では30%程度とのこと。




Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #AIAgents #Evaluation #One-Line Notes Issue Date: 2024-10-20 Comment

75のkaggleのcompetitionsを収集(賞金1.9M$に相当する)し、そこから機械学習モデルの構築するためのエンジニアリングタスク(データセットの準備, モデルの学習, 実験)を抽出し、AI Agentsが機械学習モデルのこれらエンジニアリングタスクに対してどの程度実施できるかを測定できるようにしたベンチマーク