ScientificDiscovery

#Pocket #NLP #LanguageModel #read-later #IdeaGeneration #One-Line Notes
Issue Date: 2025-10-12 [Paper Note] GUIDE: Towards Scalable Advising for Research Ideas, Yaowenqi Liu+, arXiv'25, 2025.07 GPT Summary- AI研究の進展に伴い、自動化された仮説生成や実験設計が可能になっているが、高品質なフィードバックを提供するアドバイジングシステムには依然として課題がある。本研究では、モデルのサイズや信頼度の推定など、効果的なアドバイジングシステムの要因を探求し、比較的小さなモデルが圧縮された文献データベースと構造化された推論フレームワークを用いることで、強力な言語モデルを上回る受理率を達成できることを示した。特に、高信頼度の予測において90%以上の受理率を達成し、仮説生成と実験設計の質を向上させる可能性を示唆している。 Comment

pj page: https://howardliu0830.github.io/GUIDE_blog/

元ポスト:

Loading…

どのように評価したのだろうか

pj pageによると、ICMLのsubmissionのうちランダムな1000件を用いて、モデルにpaperをスコアリングさせる。そして、モデルがスコアリングした中で上位5%(spotlightの割合に相当)、30%のprecision(実際のacceptanceの閾値相当の割合)と、モデルがスコアリングした上位30パーセントの論文の現代のAcceptanceに対するRecallを求めて評価している模様。7Bモデルでより大きいモデルと同等程度の性能を示している。

手法は後ほど追記したいが、Acceptを予測ふるタスクは論文に対して適切なフィードバックできることに直接的には繋がらないのでは?と思い、inferenceのpromptを見てみると、LLMにabst, contribution, method, experimental setupを入力し、実際の査読と似たような評価をさせ、その結果に基づいてratingをpredictionするような形式に見える。このため、rating predictionの過程で評価結果のフィードバックが生成されるので、論文の改善ができる、というユースケースだと思われる。

image



#Multi #Pocket #NLP #LanguageModel #LLMAgent #Reproducibility #MCP
Issue Date: 2025-09-17 [Paper Note] Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents, Jiacheng Miao+, arXiv'25 GPT Summary- Paper2Agentは、研究論文をAIエージェントに自動変換するフレームワークで、研究成果の利用や発見を加速します。従来の論文は再利用の障壁を生んでいましたが、Paper2Agentは論文を知識豊富な研究アシスタントとして機能するエージェントに変換します。複数のエージェントを用いて論文と関連コードを分析し、モデルコンテキストプロトコル(MCP)を構築、洗練します。これにより、自然言語を通じて科学的クエリを実行できるエージェントを作成し、実際にゲノム変異やトランスクリプトミクス分析を行うエージェントが元の論文の結果を再現できることを示しました。Paper2Agentは、静的な論文を動的なAIエージェントに変えることで、知識の普及に新たなパラダイムを提供します。 Comment

code: https://github.com/jmiao24/Paper2Agent?tab=readme-ov-file#-demos

論文を論文が提案する技術の機能を提供するMCPサーバに変換し、LLM Agentを通じてユーザはsetup無しに呼びだして利用できるようにする技術な模様。論文から自動的にcodebaseを同定し、コアとなる技術をMCP toolsとしてラップし、反復的なテストを実施してロバストにした上でHF上のAI Agentに提供する、みたいな感じに見える。

<img width="667" height="602" alt="Image" src=" <a href="https://github.com/user-attachments/assets/36dca631-c576-43e5-b8b8-77de555f0b6f"" target="_blank" rel="noopener noreferrer">https://github.com/user-attachments/assets/36dca631-c576-43e5-b8b8-77de555f0b6f"</a> />

ポイント解説:

Loading…


#Pocket #NLP #Search #LanguageModel #LLMAgent #read-later #TreeSearch
Issue Date: 2025-09-10 [Paper Note] An AI system to help scientists write expert-level empirical software, Eser Aygün+, arXiv'25 GPT Summary- AIシステムを用いて質の指標を最大化する専門的な科学ソフトウェアを生成。大規模言語モデルと木探索を活用し、複雑な研究アイデアを統合。バイオインフォマティクスや疫学の分野で新しい手法を発見し、既存のモデルを上回る成果を達成。多様なタスクに対する新しい解決策を提供し、科学的進歩を加速することを目指す。 Comment

元ポスト:

Loading…


#NLP #LanguageModel #LLMAgent #ProprietaryLLM Issue Date: 2025-08-29 [Paper Note] AI-Researcher: Autonomous Scientific Innovation, Jiabin Tang+, arXiv'25 GPT Summary- AI-Researcherという自律型研究システムを提案し、文献レビューから論文作成までの研究プロセスを自動化。Scientist-Benchを用いてAIの研究能力を評価し、実験により人間レベルの研究論文を生成する成功率を示す。この研究は、自律的な科学的革新の新たな基盤を築く。 Comment

github: https://github.com/HKUDS/AI-Researcher

元ポスト:

Loading…

関連:
- DeepCode, Data Intelligence Lab@HKU, 2025.08



#Pocket #NLP #LanguageModel #LLMAgent #EMNLP #Findings Issue Date: 2025-08-21 [Paper Note] Agent Laboratory: Using LLM Agents as Research Assistants, Samuel Schmidgall+, EMNLP'25 Findings GPT Summary- Agent Laboratoryは、全自動のLLMベースのフレームワークで、研究アイデアから文献レビュー、実験、報告書作成までのプロセスを完了し、質の高い研究成果を生成します。人間のフィードバックを各段階で取り入れることで、研究の質を向上させ、研究費用を84%削減。最先端の機械学習コードを生成し、科学的発見の加速を目指します。 Comment

元ポスト:

Loading…

pj page: https://agentlaboratory.github.io



#GraphBased #Pocket #NLP #LLMAgent Issue Date: 2025-07-08 [Paper Note] AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench, Edan Toledo+, arXiv'25 GPT Summary- AI研究エージェントは、機械学習の自動化を通じて科学の進展を促進する可能性がある。本研究では、MLE-benchというKaggleコンペティションを用いてエージェントの性能向上に取り組み、検索ポリシーとオペレーターを用いて候補解の空間を探索する方法を提案。異なる検索戦略とオペレーターの組み合わせが高いパフォーマンスに寄与することを示し、MLE-bench liteでの結果を向上させ、Kaggleメダル獲得率を39.6%から47.7%に引き上げた。自動化された機械学習の進展には、これらの要素を共同で考慮することが重要である。 Comment

元ポスト:

Loading…

関連:
- MLE-Bench, OpenAI, 2024.10

グラフ中の各ノードはartifacts(i.e., エージェントが生成したコード)で、先行研究がiterativeな実験に加え、潜在的なsolutionに対してtree searchをすることでSoTAを達成しており、これをグラフを用いてより一般化することで異なるデザインのエージェントでも適用できるようにしている。
image

あとで追記する



#Survey #Pocket #NLP #LanguageModel Issue Date: 2025-07-04 [Paper Note] AI4Research: A Survey of Artificial Intelligence for Scientific Research, Qiguang Chen+, arXiv'25 GPT Summary- AIの進展に伴い、AI4Researchに関する包括的な調査が不足しているため、理解と発展が妨げられている。本研究では、AI4Researchの5つの主流タスクを系統的に分類し、研究のギャップや将来の方向性を特定し、関連する応用やリソースをまとめる。これにより、研究コミュニティが迅速にリソースにアクセスでき、革新的なブレークスルーを促進することを目指す。 Comment

元ポスト:

Loading…


#Pocket #NLP #Dataset #LanguageModel #LLMAgent #Evaluation #Reproducibility Issue Date: 2025-06-30 [Paper Note] The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements, Bingchen Zhao+, arXiv'25 GPT Summary- 大規模言語モデル(LLMs)の進展を活用し、AIエージェントの研究再現能力を評価するために、LLMスピードランベンチマークを導入。19のタスクで訓練スクリプトとヒントを提供し、迅速な実行を促進。既知の革新の再実装が難しいことを発見し、科学的再現を自動化するための指標を提供。 Comment

元ポスト:

Loading…


#Pocket #LanguageModel #Investigation Issue Date: 2024-11-12 LLMs as Research Tools: A Large Scale Survey of Researchers' Usage and Perceptions, Zhehui Liao+, arXiv'24 GPT Summary- 大規模言語モデル(LLMs)の利用に関する816人の研究者を対象とした調査を実施。81%が研究ワークフローにLLMsを組み込んでおり、特に非白人や若手研究者が高い使用率を示す一方で、女性やシニア研究者は倫理的懸念を抱いていることが明らかに。研究の公平性向上の可能性が示唆される。 #Pocket #NLP #LanguageModel Issue Date: 2024-09-10 Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers, Chenglei Si+, N_A, arXiv'24 GPT Summary- 本研究では、LLMとNLP専門家による研究アイデア生成の比較を行い、LLMが生成したアイデアの新規性が人間のアイデアより高いことを示しましたが、実現可能性はやや劣ると評価されました。また、LLMの自己評価や生成の多様性に関する問題を特定し、研究者がアイデアを実行するためのエンドツーエンドの研究デザインを提案しました。 Comment

LLMがアイデアを考えた方が、79人のresearcherにblind reviewさせて評価した結果、Noveltyスコアが有意に高くなった(ただし、feasibilityは人手で考えた場合の方が高い)という話らしい。

アイデア生成にどのようなモデル、promptingを利用したかはまだ読めていない。

image



#Pocket #NLP #LanguageModel #LLMAgent Issue Date: 2024-08-13 The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery, Chris Lu+, N_A, arXiv'24 GPT Summary- 最先端の大規模言語モデルを使用して、完全自動の科学的発見を可能にする包括的なフレームワークが提案された。AI Scientistは新しい研究アイデアを生成し、コードを記述し、実験を実行し、結果を可視化し、完全な科学論文を執筆し、査読プロセスを実行することができる。このアプローチは、機械学習における科学的発見の新しい時代の始まりを示しており、AIエージェントの変革的な利点をAI自体の研究プロセス全体にもたらし、世界で最も難しい問題に無限の手頃な価格の創造性とイノベーションを解き放つことに近づいています。 #Article #Citations #NLP #LLMAgent #Blog #One-Line Notes Issue Date: 2025-10-09 Making AI citations count with Asta, AI2, 2025.10 Comment

RAGベースの研究支援プラットフォームAstaに対して送信されたクエリに対して、システムが引用した研究論文に関する統計情報を公開したとのこと。興味深い。

citationに関するデータはこちら:
https://huggingface.co/datasets/allenai/asta-summary-citation-counts

定期的に更新するとのこと。



#Article #Survey #NLP #LanguageModel #LLMAgent Issue Date: 2025-09-01 The Hitchhiker's Guide to Autonomous Research: A Survey of Scientific Agents, Wang+, TechRxiv, 2025.08 Comment

元ポスト:

Loading…


#Article #Pocket #NLP #LanguageModel #LLMAgent #Coding Issue Date: 2025-05-17 AlphaEvolve: A coding agent for scientific and algorithmic discovery, Novikov+, Google DeepMind, 2025.05 Comment

blog post: https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/