autoresearchに関する論文・技術記事メモの一覧

autoresearch

[Paper Note] Autodata: An agentic data scientist to create high quality synthetic data, Ilia Kulikov+, arXiv'26, 2026.06

Paper/Blog Link My Issue
#SyntheticData #Data #Author Thread-Post Issue Date: 2026-06-26 GPT Summary- データサイエンティストとして機能するAIエージェントの一般的手法Autodataを提案。エージェントはメタ最適化を通じて高品質な訓練データを生成。計算機科学や法的推論、数学を用いた実験で、従来の手法と比較して性能向上を確認。エージェントのメタ最適化がさらなる改善をもたらし、高品質なモデル訓練を支援する可能性を示唆。 Comment

元ポスト:

Loading…

[Paper Note] Forecasting Scientific Progress with Artificial Intelligence, Sean Wu+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #AIAgents #ScientificDiscovery #Initial Impression Notes #Author Thread-Post Issue Date: 2026-05-27 GPT Summary- AIは科学的発見に活用されつつあるが、科学の進歩を予測可能かは不明。本研究では、科学進歩予測のための評価フレームワークCUSPを提案し、4,760件の科学イベントを分析。最先端モデルには体系的・領域依存的な限界があり、科学的進歩の実現を信頼性高く予測できず、特に生物学・化学・物理学での予測が異なる。モデルは不確実性推定の信頼性に欠け、過信や応答バイアスを示し、現行のAIシステムは科学進歩予測には不十分であることを示唆。知識へのアクセスが信頼性に結びつかないことも明らかになった。 Comment

元ポスト:

Loading…

現在のモデルはブレイクスルーの要素技術となるようなアプローチを認識できるが、実際にいつブレイクスルーが起きるかを正確には予測できず（ほぼランダムと同等）、dateがgivenで4種類のイベントが与えられて以下のどれが起きるか？といったMCQだったらそこそこ予測できる、という感じだろうか。

ブレイクスルーがいつ起きるか、dateを予測するというタスク設定にはノイズが多すぎて無理があるのでは...?と最初は思ったが、MCQと対比して予測能力の限界を示すという観点では興味深い。また、もしautoresearchが本格的に実施されるようになった未来があったとして、投入される計算機リソースとモデルが一定だとしたら、少し状況は変わるのかもしれない。

データセットの構築方法、BinaryがどのようなQuestionによって実施されたのか（negationを用いていると記述されているが）、FRQとdate predictionの違いは何か、といったあたりはしっかりわかっていない。

[Paper Note] AI for Auto-Research: Roadmap & User Guide, Lingdong Kong+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #AIAgents #Author Thread-Post Issue Date: 2026-05-27 GPT Summary- AI支援研究は進化し、自動化システムが低コストで論文を生成可能になったが、整合性の問題が浮き彫りに。特に、最先端のLLMでも結果の捏造や誤りの見逃しがある。研究ライフサイクルを四つの段階（Creation, Writing, Validation, Dissemination）で分析し、AIの信頼性と自律性の限界を特定。AIは構造化されたタスクには優れるが、新規のアイデアや実験には脆弱であり、人間の協働が最も信頼される。具体的なリソースはプロジェクトページで提供。 Comment

pj page: https://worldbench.github.io/awesome-ai-auto-research

元ポスト:

Loading…

[Paper Note] Mathematical methods and human thought in the age of AI, Tanya Klowden+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#Analysis #GenerativeAI #ScientificDiscovery #read-later Issue Date: 2026-04-05 GPT Summary- AIは複雑な認知タスクを実行するツールであり、その急速な進化は伝統的な哲学的問いを呼び起こす。本論文では、AIが歴史を通じて人間の道具として発展してきたことに触れ、人間中心の開発が重要であると主張。AIの応用が人間の生活向上や思考能力の拡張に寄与することを目指し、知的分野への統合の道筋を提案する。 Comment

元ポスト:

Loading…

[Paper Note] PostTrainBench: Can LLM Agents Automate LLM Post-Training?, Ben Rank+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #PostTraining #read-later #Environment Issue Date: 2026-03-14 GPT Summary- AIエージェントは推論能力の向上によりソフトウェア工学で高い能力を発揮し、AI研究の自動化可能性を考察する。本論文では、基盤LLMを有用なアシスタントへ変えるポストトレーニングの評価を行うためのベンチマークPostTrainBenchを導入。特定のベンチマークで最先端エージェントの性能を評価し、自律性を持たせた実行方法を検討することが重要である。進捗は見られるが、公式の指示調整済みモデルには劣る状況が多く、時折上回るケースも存在。エージェントの行動にはリワードハックなどの懸念があり、慎重なサンドボックス化の重要性を示唆する。PostTrainBenchはAIの研究開発の進捗とリスクを追跡する上で有用である。 Comment

pj page: https://posttrainbench.com/

元ポスト:

Loading…

AIDE²: The First Evidence of Recursive Self-Improvement, Waco Team, 2026.07

Paper/Blog Link My Issue
#Article #SelfImprovement #read-later #RecursiveModels #Author Thread-Post Issue Date: 2026-07-15 Comment

元ポスト:

Loading…

Deli_AutoResearch, Deli Chen, 2026.06

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #read-later #AgentSkills #Author Thread-Post Issue Date: 2026-06-20 Comment

元ポスト:

Loading…

[Paper Note] ENPIRE: Agentic Robot Policy Self-Improvement in the Real World, Xiao+, 2026.06

Paper/Blog Link My Issue
#Article #Robotics #Author Thread-Post Issue Date: 2026-06-17 Comment

元ポスト:

Loading…

First Steps Toward Automated AI Research, Recursive Superintelligence, 2026.06

Paper/Blog Link My Issue
#Article #Blog #read-later #Initial Impression Notes #Author Thread-Post Issue Date: 2026-06-14 Comment

元ポスト:

Loading…

word2vec, GloVe, Rucursive ModelのRichard Socher氏のポスト

autoresearch, karpathy, 2026.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Repository #ScientificDiscovery #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-03-10 Comment

元ポスト:

Loading…

リポジトリのDiscussionsに、定期的にsession reportがアップロードされるようだ:
https://github.com/karpathy/autoresearch/discussions/43

nanochatは現在、126回の実験を経て、Validation BPBが0.997900 -> 0.969686 まで改善しているとのこと。

pjの目的やテーマは、**研究者がpythonファイルのコードをいじるのではなく、program.mdと呼ばれるAgentにコンテキストとして与えるmarkdownファイルのみの編集を通じて、研究組織（≠単一のPh.D student）をエミュレートできるか？** という点にありそうである。
https://github.com/karpathy/autoresearch/blob/master/program.md

その題材の一つとして、nanochatを簡略化したGPTを用いて、GPTの事前学習の性能を改善させるようなtraining.pyの編集をAI Agentsに実施させ、5分間学習させて成果を報告させるという形式をとっている（と解釈した。）

続報:

Loading…