autoresearch


Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #AIAgents #ScientificDiscovery #Initial Impression Notes #Author Thread-Post Issue Date: 2026-05-27 GPT Summary- AIは科学的発見に活用されつつあるが、科学の進歩を予測可能かは不明。本研究では、科学進歩予測のための評価フレームワークCUSPを提案し、4,760件の科学イベントを分析。最先端モデルには体系的・領域依存的な限界があり、科学的進歩の実現を信頼性高く予測できず、特に生物学・化学・物理学での予測が異なる。モデルは不確実性推定の信頼性に欠け、過信や応答バイアスを示し、現行のAIシステムは科学進歩予測には不十分であることを示唆。知識へのアクセスが信頼性に結びつかないことも明らかになった。 Comment

元ポスト:

Loading…

現在のモデルはブレイクスルーの要素技術となるようなアプローチを認識できるが、実際にいつブレイクスルーが起きるかを正確には予測できず(ほぼランダムと同等)、dateがgivenで4種類のイベントが与えられて以下のどれが起きるか?といったMCQだったらそこそこ予測できる、という感じだろうか。

image

image

ブレイクスルーがいつ起きるか、dateを予測するというタスク設定にはノイズが多すぎて無理があるのでは...?と最初は思ったが、MCQと対比して予測能力の限界を示すという観点では興味深い。また、もしautoresearchが本格的に実施されるようになった未来があったとして、投入される計算機リソースとモデルが一定だとしたら、少し状況は変わるのかもしれない。

データセットの構築方法、BinaryがどのようなQuestionによって実施されたのか(negationを用いていると記述されているが)、FRQとdate predictionの違いは何か、といったあたりはしっかりわかっていない。




Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #AIAgents #Author Thread-Post Issue Date: 2026-05-27 GPT Summary- AI支援研究は進化し、自動化システムが低コストで論文を生成可能になったが、整合性の問題が浮き彫りに。特に、最先端のLLMでも結果の捏造や誤りの見逃しがある。研究ライフサイクルを四つの段階(Creation, Writing, Validation, Dissemination)で分析し、AIの信頼性と自律性の限界を特定。AIは構造化されたタスクには優れるが、新規のアイデアや実験には脆弱であり、人間の協働が最も信頼される。具体的なリソースはプロジェクトページで提供。 Comment

pj page: https://worldbench.github.io/awesome-ai-auto-research

元ポスト:

Loading…




Paper/Blog Link My Issue
#Analysis #GenerativeAI #ScientificDiscovery #read-later Issue Date: 2026-04-05 GPT Summary- AIは複雑な認知タスクを実行するツールであり、その急速な進化は伝統的な哲学的問いを呼び起こす。本論文では、AIが歴史を通じて人間の道具として発展してきたことに触れ、人間中心の開発が重要であると主張。AIの応用が人間の生活向上や思考能力の拡張に寄与することを目指し、知的分野への統合の道筋を提案する。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Repository #ScientificDiscovery #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-03-10 Comment

元ポスト:

Loading…

リポジトリのDiscussionsに、定期的にsession reportがアップロードされるようだ:
https://github.com/karpathy/autoresearch/discussions/43

nanochatは現在、126回の実験を経て、Validation BPBが0.997900 -> 0.969686 まで改善しているとのこと。

pjの目的やテーマは、**研究者がpythonファイルのコードをいじるのではなく、program.mdと呼ばれるAgentにコンテキストとして与えるmarkdownファイルのみの編集を通じて、研究組織(≠単一のPh.D student)をエミュレートできるか?** という点にありそうである。
https://github.com/karpathy/autoresearch/blob/master/program.md

その題材の一つとして、nanochatを簡略化したGPTを用いて、GPTの事前学習の性能を改善させるようなtraining.pyの編集をAI Agentsに実施させ、5分間学習させて成果を報告させるという形式をとっている(と解釈した。)

関連:
- [Paper Note] AlphaEvolve: A coding agent for scientific and algorithmic discovery, Alexander Novikov+, arXiv'25, 2025.06
- [Paper Note] ShinkaEvolve: Towards Open-Ended And Sample-Efficient Program Evolution, Robert Tjarko Lange+, arXiv'25, 2025.09

続報:

Loading…