Human-in-the-Loop
[Paper Note] Towards Autonomous Mathematics Research, Tony Feng+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Mathematics #ScientificDiscovery #Test-Time Scaling #read-later #Selected Papers/Blogs Issue Date: 2026-02-12 GPT Summary- Aletheiaは、金メダル級の推論能力を持つ数学研究エージェントで、自然言語による解の生成・検証・修正を行います。競技レベルから専門研究への移行を可能にする高度なツールを活用し、オリンピック問題から博士課程レベルの演習に対応。顕著な成果として、AIが生成した研究論文や人間との協働証明、未解問の半自律評価を示します。AIの自律性と新規性の評価基準を提案し、人間とAIの協働について考察します。すべてのプロンプトとモデル出力は公開されています。 Comment
元ポスト:
ポイント解説:
GPT‑5.2 derives a new result in theoretical physics, OpenAI, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #ScientificDiscovery #Physics Issue Date: 2026-02-14 Comment
元ポスト:
[Paper Note] Accelerating Mathematical and Scientific Discovery with Gemini Deep Think, Google DeepMin, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #Mathematics #ScientificDiscovery #Test-Time Scaling #read-later #KeyPoint Notes #Physics Issue Date: 2026-02-12 Comment
元ポスト:
- 数学について
- verifierを通じて解の修正と再生成を繰り返すが、問題が解けないことを認めることで(無駄な修正・再生成を減らすことで)効率を大幅に改善
- 博士課程レベル・オリンピックレベルを超えてもtest-time scalingが継続する
- 検索を融合することで既存文献を取り入れ正確性向上
- 完全自動で出版できるレベルの研究を実施可能なところまできている(level0--5のlevel2)
- コンピュータサイエンス・物理学について
- ネットワーク側で広範な解空間を探索してlong-trailな解も捉え推論に組み込むことが可能で、自動的なverificationと人間によるverificationを通じてoutputを生成する
- たとえば10年間未解決だったオンライン列モジュラ最適化と呼ばれる問題や、モデル学習時のノイズ除去による理論的な証明などを実施できている
論文:
- [Paper Note] Towards Autonomous Mathematics Research, Tony Feng+, arXiv'26, 2026.02
