ScientificDiscovery
#Pocket
#NLP
#LanguageModel
#LLMAgent
#EMNLP
#Findings
Issue Date: 2025-08-21 [Paper Note] Agent Laboratory: Using LLM Agents as Research Assistants, Samuel Schmidgall+, EMNLP'25 Findings SummaryAgent Laboratoryは、全自動のLLMベースのフレームワークで、研究アイデアから文献レビュー、実験、報告書作成までのプロセスを完了し、質の高い研究成果を生成します。人間のフィードバックを各段階で取り入れることで、研究の質を向上させ、研究費用を84%削減。最先端の機械学習コードを生成し、科学的発見の加速を目指します。 Comment元ポスト:https://x.com/srschmidgall/status/1958272229223067789?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qpj page:https://agentlaboratory.github.io #GraphBased #Pocket #NLP #LLMAgent
Issue Date: 2025-07-08 [Paper Note] AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench, Edan Toledo+, arXiv'25 SummaryAI研究エージェントは、機械学習の自動化を通じて科学の進展を促進する可能性がある。本研究では、MLE-benchというKaggleコンペティションを用いてエージェントの性能向上に取り組み、検索ポリシーとオペレーターを用いて候補解の空間を探索する方法を提案。異なる検索戦略とオペレーターの組み合わせが高いパフォーマンスに寄与することを示し、MLE-bench liteでの結果を向上させ、Kaggleメダル獲得率を39.6%から47.7%に引き上げた。自動化された機械学習の進展には、これらの要素を共同で考慮することが重要である。 Comment元ポスト:https://x.com/martinjosifoski/status/1942238775305699558?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q関連:
・1457グラフ中の各ノードはartifacts(i.e., エージェントが生成したコード)で、先行研究がiterativeな実験に加え、潜在的なsolutionに対してtree searchをすることでSoTAを達成しており、これをグラフを用いてより一般化することで異なるデザインのエージェントでも適用できるようにしている。
あとで追記する #Survey #Pocket #NLP #LanguageModel
Issue Date: 2025-07-04 [Paper Note] AI4Research: A Survey of Artificial Intelligence for Scientific Research, Qiguang Chen+, arXiv'25 SummaryAIの進展に伴い、AI4Researchに関する包括的な調査が不足しているため、理解と発展が妨げられている。本研究では、AI4Researchの5つの主流タスクを系統的に分類し、研究のギャップや将来の方向性を特定し、関連する応用やリソースをまとめる。これにより、研究コミュニティが迅速にリソースにアクセスでき、革新的なブレークスルーを促進することを目指す。 Comment元ポスト:https://x.com/aicia_solid/status/1940934746932236632?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q
Issue Date: 2025-08-21 [Paper Note] Agent Laboratory: Using LLM Agents as Research Assistants, Samuel Schmidgall+, EMNLP'25 Findings SummaryAgent Laboratoryは、全自動のLLMベースのフレームワークで、研究アイデアから文献レビュー、実験、報告書作成までのプロセスを完了し、質の高い研究成果を生成します。人間のフィードバックを各段階で取り入れることで、研究の質を向上させ、研究費用を84%削減。最先端の機械学習コードを生成し、科学的発見の加速を目指します。 Comment元ポスト:https://x.com/srschmidgall/status/1958272229223067789?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qpj page:https://agentlaboratory.github.io #GraphBased #Pocket #NLP #LLMAgent
Issue Date: 2025-07-08 [Paper Note] AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench, Edan Toledo+, arXiv'25 SummaryAI研究エージェントは、機械学習の自動化を通じて科学の進展を促進する可能性がある。本研究では、MLE-benchというKaggleコンペティションを用いてエージェントの性能向上に取り組み、検索ポリシーとオペレーターを用いて候補解の空間を探索する方法を提案。異なる検索戦略とオペレーターの組み合わせが高いパフォーマンスに寄与することを示し、MLE-bench liteでの結果を向上させ、Kaggleメダル獲得率を39.6%から47.7%に引き上げた。自動化された機械学習の進展には、これらの要素を共同で考慮することが重要である。 Comment元ポスト:https://x.com/martinjosifoski/status/1942238775305699558?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q関連:
・1457グラフ中の各ノードはartifacts(i.e., エージェントが生成したコード)で、先行研究がiterativeな実験に加え、潜在的なsolutionに対してtree searchをすることでSoTAを達成しており、これをグラフを用いてより一般化することで異なるデザインのエージェントでも適用できるようにしている。
あとで追記する #Survey #Pocket #NLP #LanguageModel
Issue Date: 2025-07-04 [Paper Note] AI4Research: A Survey of Artificial Intelligence for Scientific Research, Qiguang Chen+, arXiv'25 SummaryAIの進展に伴い、AI4Researchに関する包括的な調査が不足しているため、理解と発展が妨げられている。本研究では、AI4Researchの5つの主流タスクを系統的に分類し、研究のギャップや将来の方向性を特定し、関連する応用やリソースをまとめる。これにより、研究コミュニティが迅速にリソースにアクセスでき、革新的なブレークスルーを促進することを目指す。 Comment元ポスト:https://x.com/aicia_solid/status/1940934746932236632?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q
#Pocket
#NLP
#Dataset
#LanguageModel
#LLMAgent
#Evaluation
#Reproducibility
Issue Date: 2025-06-30
[Paper Note] The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements, Bingchen Zhao+, arXiv'25
Summary大規模言語モデル(LLMs)の進展を活用し、AIエージェントの研究再現能力を評価するために、LLMスピードランベンチマークを導入。19のタスクで訓練スクリプトとヒントを提供し、迅速な実行を促進。既知の革新の再実装が難しいことを発見し、科学的再現を自動化するための指標を提供。
Comment元ポスト:https://x.com/karpathy/status/1939709449956126910?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q
#Pocket
#LanguageModel
#Investigation
Issue Date: 2024-11-12
LLMs as Research Tools: A Large Scale Survey of Researchers' Usage and Perceptions, Zhehui Liao+, arXiv'24
Summary大規模言語モデル(LLMs)の利用に関する816人の研究者を対象とした調査を実施。81%が研究ワークフローにLLMsを組み込んでおり、特に非白人や若手研究者が高い使用率を示す一方で、女性やシニア研究者は倫理的懸念を抱いていることが明らかに。研究の公平性向上の可能性が示唆される。
#Pocket
#NLP
#LanguageModel
Issue Date: 2024-09-10
Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers, Chenglei Si+, N_A, arXiv'24
Summary本研究では、LLMとNLP専門家による研究アイデア生成の比較を行い、LLMが生成したアイデアの新規性が人間のアイデアより高いことを示しましたが、実現可能性はやや劣ると評価されました。また、LLMの自己評価や生成の多様性に関する問題を特定し、研究者がアイデアを実行するためのエンドツーエンドの研究デザインを提案しました。
CommentLLMがアイデアを考えた方が、79人のresearcherにblind reviewさせて評価した結果、Noveltyスコアが有意に高くなった(ただし、feasibilityは人手で考えた場合の方が高い)という話らしい。
アイデア生成にどのようなモデル、promptingを利用したかはまだ読めていない。
#Pocket
#NLP
#LanguageModel
#LLMAgent
Issue Date: 2024-08-13
The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery, Chris Lu+, N_A, arXiv'24
Summary最先端の大規模言語モデルを使用して、完全自動の科学的発見を可能にする包括的なフレームワークが提案された。AI Scientistは新しい研究アイデアを生成し、コードを記述し、実験を実行し、結果を可視化し、完全な科学論文を執筆し、査読プロセスを実行することができる。このアプローチは、機械学習における科学的発見の新しい時代の始まりを示しており、AIエージェントの変革的な利点をAI自体の研究プロセス全体にもたらし、世界で最も難しい問題に無限の手頃な価格の創造性とイノベーションを解き放つことに近づいています。
#Article
#Pocket
#NLP
#LanguageModel
#LLMAgent
#Coding
Issue Date: 2025-05-17
AlphaEvolve: A coding agent for scientific and algorithmic discovery, Novikov+, Google DeepMind, 2025.05
Commentblog post:https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/
アイデア生成にどのようなモデル、promptingを利用したかはまだ読めていない。