Human-in-the-Loop
[Paper Note] HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help?, Tu Trinh+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Evaluation #Coding #SoftwareEngineering #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-05-08 GPT Summary- 最先端のコーディングエージェントは、完全な文脈では複雑なタスクをこなせるが、不完全な仕様では失敗する。ボトルネックは能力よりも判断力であり、適切な行動と助けを求めるタイミングを知ることが重要である。提案するHiL-Benchは、この選択的エスカレーション能力を評価し、ブロッカーを含むタスクを通じて人間の判断力を測定する。核心指標Ask-F1は、質問の正確さとブロッカーの再現率を評価し、不適切な質問を防ぐ。評価結果は、モデルが不確実性に適切に対処できず、自己修正能力に欠けることを示す。強化学習による訓練で、判断力の向上が確認され、モデルは不確実性を検知し対処する能力を学ぶ。 Comment
元ポスト:
完全情報の下では80%前後の成功率をおさめるにも関わらず、情報が欠落している場合は成功率が著しく低下することから、現在のAI Agentが失敗する要因は、能力ではなく情報が不完全な場合にエスカレーションする判断力にあることを指摘し、必要な情報が欠落したタスクを用意し、その情報を取得するための質問(エスカレーション)を適切なタイミングで生成できるか否かを測定するベンチマークを作成し、ベンチマークでの評価を通じて、エスカレーションのための判断能力はRLVRによって向上させられることを示した、という感じの話に見える。
[Paper Note] Towards Autonomous Mathematics Research, Tony Feng+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Mathematics #ScientificDiscovery #Test-Time Scaling #read-later #Selected Papers/Blogs Issue Date: 2026-02-12 GPT Summary- Aletheiaは、金メダル級の推論能力を持つ数学研究エージェントで、自然言語による解の生成・検証・修正を行います。競技レベルから専門研究への移行を可能にする高度なツールを活用し、オリンピック問題から博士課程レベルの演習に対応。顕著な成果として、AIが生成した研究論文や人間との協働証明、未解問の半自律評価を示します。AIの自律性と新規性の評価基準を提案し、人間とAIの協働について考察します。すべてのプロンプトとモデル出力は公開されています。 Comment
元ポスト:
ポイント解説:
Designing synthetic datasets for the real world: Mechanism design and reasoning from first principles, Google, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #SyntheticData #Distillation #read-later #Selected Papers/Blogs #One-Line Notes #Reference Collection #Critic #Reading Reflections #Author Thread-Post Issue Date: 2026-04-19 Comment
元ポスト:
公式:
解説:
(詳細は解説や元ブログ参照のこと)
強い教師モデルから弱い生徒モデルを学習する場合の合成データ生成手法で、
生成したいデータの観点(内容、形式等)を分類し、どの観点からどの程度の難易度のデータを合成するかを制御する。その後生成されたデータが正しいか/正しくないかの2方向から批評を行いvalidationをするような枠組みのようである。
単純なデータ合成では性能がすぐに頭打ちになるが、ローカル多様性(特定のパターンの多様性)、グローバル多様性(データ全体がカバーするパターンの範囲)の2つを同時に大きくしないと不十分であることや、批判によるvalidationは少なくとも性能を悪化させることはないことも示されたとのこと。
Vibe physics: The AI grad student, Anthropic, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #ScientificDiscovery #Physics #AI-Human Co-Improvement Issue Date: 2026-03-25 Comment
元ポスト:
GPT‑5.2 derives a new result in theoretical physics, OpenAI, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #ScientificDiscovery #Physics Issue Date: 2026-02-14 Comment
元ポスト:
[Paper Note] Accelerating Mathematical and Scientific Discovery with Gemini Deep Think, Google DeepMin, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #Mathematics #ScientificDiscovery #Test-Time Scaling #read-later #KeyPoint Notes #Physics Issue Date: 2026-02-12 Comment
元ポスト:
- 数学について
- verifierを通じて解の修正と再生成を繰り返すが、問題が解けないことを認めることで(無駄な修正・再生成を減らすことで)効率を大幅に改善
- 博士課程レベル・オリンピックレベルを超えてもtest-time scalingが継続する
- 検索を融合することで既存文献を取り入れ正確性向上
- 完全自動で出版できるレベルの研究を実施可能なところまできている(level0--5のlevel2)
- コンピュータサイエンス・物理学について
- ネットワーク側で広範な解空間を探索してlong-trailな解も捉え推論に組み込むことが可能で、自動的なverificationと人間によるverificationを通じてoutputを生成する
- たとえば10年間未解決だったオンライン列モジュラ最適化と呼ばれる問題や、モデル学習時のノイズ除去による理論的な証明などを実施できている
論文:
- [Paper Note] Towards Autonomous Mathematics Research, Tony Feng+, arXiv'26, 2026.02
