Human-in-the-Loop


Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Mathematics #ScientificDiscovery #Test-Time Scaling #read-later #Selected Papers/Blogs Issue Date: 2026-02-12 GPT Summary- Aletheiaは、金メダル級の推論能力を持つ数学研究エージェントで、自然言語による解の生成・検証・修正を行います。競技レベルから専門研究への移行を可能にする高度なツールを活用し、オリンピック問題から博士課程レベルの演習に対応。顕著な成果として、AIが生成した研究論文や人間との協働証明、未解問の半自律評価を示します。AIの自律性と新規性の評価基準を提案し、人間とAIの協働について考察します。すべてのプロンプトとモデル出力は公開されています。 Comment

元ポスト:

Loading…

ブログ:
- [Paper Note] Accelerating Mathematical and Scientific Discovery with Gemini Deep Think, Google DeepMin, 2026.02

ポイント解説:

Loading…




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #Mathematics #ScientificDiscovery #Test-Time Scaling #read-later #KeyPoint Notes #Physics Issue Date: 2026-02-12 Comment

元ポスト:

Loading…

- 数学について
- verifierを通じて解の修正と再生成を繰り返すが、問題が解けないことを認めることで(無駄な修正・再生成を減らすことで)効率を大幅に改善
- 博士課程レベル・オリンピックレベルを超えてもtest-time scalingが継続する
- 検索を融合することで既存文献を取り入れ正確性向上
- 完全自動で出版できるレベルの研究を実施可能なところまできている(level0--5のlevel2)

image

image

- コンピュータサイエンス・物理学について
- ネットワーク側で広範な解空間を探索してlong-trailな解も捉え推論に組み込むことが可能で、自動的なverificationと人間によるverificationを通じてoutputを生成する
- たとえば10年間未解決だったオンライン列モジュラ最適化と呼ばれる問題や、モデル学習時のノイズ除去による理論的な証明などを実施できている
image

論文:
- [Paper Note] Towards Autonomous Mathematics Research, Tony Feng+, arXiv'26, 2026.02