Physicsに関する論文・技術記事メモの一覧

Physics

[Paper Note] PRBench: End-to-end Paper Reproduction in Physics Research, Shi Qiu+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #ScientificDiscovery #Reproducibility Issue Date: 2026-04-04 GPT Summary- 大規模言語モデルを用いたAIエージェントは、科学研究タスクを支援するが、実際の科学論文からの再現性に課題がある。PRBenchを導入し、物理学の専門家が選んだ30のタスクに基づき、エージェントが論文の方法論を理解し、アルゴリズムを実装する能力を評価。エージェントは指示と論文内容のみを使い、実行環境で動作。評価の結果、GPT-5.3-Codexが最も高いスコアを得るも、全エージェントの再現成功率はゼロで、誤実装やデバッグ不能の問題が確認された。PRBenchは自律的な科学研究の進展を評価するための厳格な基準を提供する。 Comment

元ポスト:

Loading…

[Paper Note] Solving an Open Problem in Theoretical Physics using AI-Assisted Discovery, Michael P. Brenner+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #ScientificDiscovery #TreeSearch #Initial Impression Notes Issue Date: 2026-03-07 GPT Summary- 本論文では、AIが理論物理学の未解決問題を解決することで数学的発見を加速できることを示す。Gemini Deep Thinkを用いたニューロ-シンボリックシステムが、宇宙ひもによる重力放射のパワースペクトルについて新しい解析解を導出。エージェントはコア積分の評価を通じて、従来の部分的な漸近解を改善。探索制約とフィードバックループを詳細に説明し、最も効果的な解析法としてGegenbauer多項式を特定。これにより、漸近解が数値結果と整合し、量子場理論とも関連づけられることを示した。 Comment

元ポスト:

Loading…

Gemini Deep Thinkが今度は理論物理に関する未解決問題を解決したらしい？

[Paper Note] DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos, Shenyuan Gao+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #Pretraining #DiffusionModel #OpenWeight #Robotics #WorldModels #4D (Video) #Realtime #EgocentricView #Author Thread-Post Issue Date: 2026-02-09 GPT Summary- DreamDojoは、エゴセントリックな人間のビデオから学習した世界モデルで、巧妙なロボットタスクのシミュレーションを可能にします。44,000時間のデータを使用し、多様なシナリオとオブジェクトをカバーしており、アクションラベルの不足を連続的な潜在アクションで解決。物理理解とアクション制御能力を向上させるポストトレーニング後、10.81 FPSでのリアルタイム処理を実現。これにより、生成的世界モデルを基にした新しいアプリケーションを実現し、オープンワールドでのタスクシミュレーションの可能性を示します。 Comment

pj page: https://dreamdojo-world.github.io/

元ポスト:

Loading…

著者ポスト:

Loading…

著者ポスト:

Loading…

解説:

Loading…

[Paper Note] Universal One-third Time Scaling in Learning Peaked Distributions, Yizhou Liu+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #Scaling Laws #read-later #Selected Papers/Blogs #KeyPoint Notes #Scalability Issue Date: 2026-02-05 GPT Summary- LLMのトレーニングは計算コストが高く、これはソフトマックスとクロスエントロピーの影響でべき法則的に収束する損失に起因する可能性がある。おもちゃモデルと実証的評価を通じて、この挙動が次トークン分布のピークから生じることを示し、損失のべき法則的なスケーリングが指数$1/3$で発生することを明らかにした。これにより、LLMトレーニングの効率向上に関する新たな方向性が示唆される。 Comment

元ポスト:

Loading…

LLMの事前学習によって学習時間とlossの関係性において、冪乗則に従ったscaling lawsが出現するのはデータの分布起因ではなく、softmax+cross
entropyによる目的関数に起因しているという主張のようで、特にnext token predictionのようなエントロピーが低い分布（特定のトークンだけがピークを持つ分布）にfittingすると、分布の非線形性によって、冪乗則で消失する勾配と損失が生じ、結果的に1/3を指数として持つ冪乗則が出現するといった感じの話らしい。

[Paper Note] Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization, Hao Luo+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal #Reasoning #OpenWeight #CrossDomain #Robotics #VisionLanguageActionModel #UMM Issue Date: 2026-01-22 GPT Summary- Being-H0.5は、クロスエンボディメント一般化のために設計されたVLAモデルであり、人間の相互作用を「母国語」として扱う学習パラダイムを提案。35,000時間以上のマルチモーダルデータを含むUniHand-2.0を用いて、多様なロボット制御を統一的なアクション空間にマッピングし、リソースの少ないロボットが他のプラットフォームからスキルを習得できるようにする。Being-H0.5はMixture-of-Transformersを採用し、現実世界での安定性のために多様体保存ゲーティングとユニバーサル非同期チャンクイングを導入。シミュレーションベンチマークで最先端の結果を達成し、5つのロボットプラットフォームで強力な能力を示す。 Comment

pj page: https://research.beingbeyond.com/being-h05
HF: https://huggingface.co/collections/BeingBeyond/being-h05

元ポスト:

Loading…

[Paper Note] Motion Attribution for Video Generation, Xindi Wu+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #read-later #Selected Papers/Blogs #VideoGeneration/Understandings Issue Date: 2026-01-21 GPT Summary- Motiveを提案し、動画生成における動きの影響を理解するための運動帰属のフレームワークを提供。運動重み付けされたロスマスクを用いて静的外観と時間的ダイナミクスを分離し、データのキュレーションを改善。VBenchで74.1%の人間の選好勝率を達成し、ファインチューニングデータの選定に初めて運動を用いるアプローチを示した。 Comment

pj page: https://research.nvidia.com/labs/sil/projects/MOTIVE/

元ポスト:

Loading…

[Paper Note] PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image, Ziang Cao+, CVPR'26, 2025.11

Paper/Blog Link My Issue
#ComputerVision #RepresentationLearning #SyntheticData #CVPR #VisionLanguageModel #3D (Scene) #Robotics #EmbodiedAI #One-Line Notes #Geometric #Simulation #3D Object Generation Issue Date: 2025-11-20 GPT Summary- PhysX-Anythingは、単一の野外画像から高品質なシミュレーション準備済みの3D資産を生成する新しいフレームワークで、ジオメトリ、関節、物理的属性を明示的に持つ。VLMベースのモデルと新しい3D表現を提案し、トークン数を193倍削減。新データセットPhysX-Mobilityにより物理3Dデータの多様性を拡張し、2,000以上の実世界オブジェクトを含む。実験により、生成性能と一般化能力が確認され、ロボティックポリシー学習に直接利用可能であることが示された。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

CVPRにアクセプト:

Loading…

pj page: https://physx-anything.github.io/

simulation-readyな3Dオブジェクトを生成するVLMベースのモデルとのこと

[Paper Note] Simulating the Visual World with Artificial Intelligence: A Roadmap, Jingtong Yue+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#Survey #ComputerVision #read-later #VideoGeneration/Understandings #WorldModels #4D (Video) Issue Date: 2025-12-17 GPT Summary- ビデオ生成は、視覚的クリップの生成から物理的妥当性を持つ仮想環境の構築へと進化している。本研究では、現代のビデオ基盤モデルを暗黙の世界モデルとビデオレンダラーの2つのコアコンポーネントとして概念化し、物理法則やエージェントの行動をエンコードする世界モデルが視覚的推論や計画を可能にすることを示す。ビデオレンダラーはシミュレーションを現実的な視覚に変換し、ビデオ生成の進展を4つの世代にわたって追跡する。各世代の特性を定義し、ロボティクスや自律運転などの応用を考察し、次世代の世界モデルに関する課題と設計原則についても議論する。 Comment

元ポスト:

Loading…

[Paper Note] Probing the Critical Point （CritPt） of AI Reasoning: a Frontier Physics Research Benchmark, Minhui Zhu+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #Reasoning #read-later #Selected Papers/Blogs Issue Date: 2025-11-23 GPT Summary- CritPtは、物理学研究における複雑な推論タスクを評価するための初のベンチマークであり、71の研究課題と190のチェックポイントタスクから構成される。これらの問題は現役の物理学者によって作成され、機械的に検証可能な答えを持つように設計されている。現在のLLMsは、単独のチェックポイントでは期待を示すが、全体の研究課題を解決するには不十分であり、最高精度は5.7%にとどまる。CritPtは、AIツールの開発に向けた基盤を提供し、モデルの能力と物理学研究の要求とのギャップを明らかにする。 Comment

pj page: https://critpt.com/

artificial analysisによるリーダーボード:
https://artificialanalysis.ai/evaluations/critpt

データセットとハーネス:

Loading…

[Paper Note] Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #Mathematics #Test-Time Scaling #PostTraining #RLVR #Verification Issue Date: 2026-05-21 Comment

pj page: https://simplified-reasoning.github.io/SU-01/

元ポスト:

Loading…

ポイント解説:

Loading…

Vibe physics: The AI grad student, Anthropic, 2026.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #ScientificDiscovery #AI-Human Co-Improvement #Human-in-the-Loop Issue Date: 2026-03-25 Comment

元ポスト:

Loading…

GPT‑5.2 derives a new result in theoretical physics, OpenAI, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #ScientificDiscovery #Human-in-the-Loop Issue Date: 2026-02-14 Comment

元ポスト:

Loading…

[Paper Note] Accelerating Mathematical and Scientific Discovery with Gemini Deep Think, Google DeepMin, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #Mathematics #ScientificDiscovery #Test-Time Scaling #read-later #KeyPoint Notes #Human-in-the-Loop Issue Date: 2026-02-12 Comment

元ポスト:

Loading…

- 数学について
- verifierを通じて解の修正と再生成を繰り返すが、問題が解けないことを認めることで（無駄な修正・再生成を減らすことで）効率を大幅に改善
- 博士課程レベル・オリンピックレベルを超えてもtest-time scalingが継続する
- 検索を融合することで既存文献を取り入れ正確性向上
- 完全自動で出版できるレベルの研究を実施可能なところまできている（level0--5のlevel2）

- コンピュータサイエンス・物理学について
- ネットワーク側で広範な解空間を探索してlong-trailな解も捉え推論に組み込むことが可能で、自動的なverificationと人間によるverificationを通じてoutputを生成する
- たとえば10年間未解決だったオンライン列モジュラ最適化と呼ばれる問題や、モデル学習時のノイズ除去による理論的な証明などを実施できている