IdeaGeneration
Issue Date: 2025-10-12 [Paper Note] GUIDE: Towards Scalable Advising for Research Ideas, Yaowenqi Liu+, arXiv'25, 2025.07 GPT Summary- AI研究の進展に伴い、自動化された仮説生成や実験設計が可能になっているが、高品質なフィードバックを提供するアドバイジングシステムには依然として課題がある。本研究では、モデルのサイズや信頼度の推定など、効果的なアドバイジングシステムの要因を探求し、比較的小さなモデルが圧縮された文献データベースと構造化された推論フレームワークを用いることで、強力な言語モデルを上回る受理率を達成できることを示した。特に、高信頼度の予測において90%以上の受理率を達成し、仮説生成と実験設計の質を向上させる可能性を示唆している。 Comment
pj page: https://howardliu0830.github.io/GUIDE_blog/
元ポスト:
どのように評価したのだろうか
pj pageによると、ICMLのsubmissionのうちランダムな1000件を用いて、モデルにpaperをスコアリングさせる。そして、モデルがスコアリングした中で上位5%(spotlightの割合に相当)、30%のprecision(実際のacceptanceの閾値相当の割合)と、モデルがスコアリングした上位30パーセントの論文の現代のAcceptanceに対するRecallを求めて評価している模様。7Bモデルでより大きいモデルと同等程度の性能を示している。
手法は後ほど追記したいが、Acceptを予測ふるタスクは論文に対して適切なフィードバックできることに直接的には繋がらないのでは?と思い、inferenceのpromptを見てみると、LLMにabst, contribution, method, experimental setupを入力し、実際の査読と似たような評価をさせ、その結果に基づいてratingをpredictionするような形式に見える。このため、rating predictionの過程で評価結果のフィードバックが生成されるので、論文の改善ができる、というユースケースだと思われる。
#NLP #LLMAgent #Planning #Prompting #Reasoning #IJCAI #Workshop
Issue Date: 2025-08-30 [Paper Note] MK2 at PBIG Competition: A Prompt Generation Solution, Xu+, IJCAI WS AgentScen'25, 2025.08 Comment
元ポスト:
Patentからmarket-readyなプロダクトのコンセプトを生成し評価するタスク(PBIG)に取り組んでいる。
Reasoningモデルはコストとレスポンスの遅さから利用せず(iterationを重ねることを重視)、LLMのアシストを受けながらpromptを何度もhuman in the loopでiterationしながら品質を高めていくアプローチをとり、リーダーボードで1st placeを獲得した模様。