Physics
[Paper Note] Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization, Hao Luo+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #MultiModal #Reasoning #OpenWeight #CrossDomain #Robotics #VisionLanguageActionModel #UMM Issue Date: 2026-01-22 GPT Summary- Being-H0.5は、クロスエンボディメント一般化のために設計されたVLAモデルであり、人間の相互作用を「母国語」として扱う学習パラダイムを提案。35,000時間以上のマルチモーダルデータを含むUniHand-2.0を用いて、多様なロボット制御を統一的なアクション空間にマッピングし、リソースの少ないロボットが他のプラットフォームからスキルを習得できるようにする。Being-H0.5はMixture-of-Transformersを採用し、現実世界での安定性のために多様体保存ゲーティングとユニバーサル非同期チャンクイングを導入。シミュレーションベンチマークで最先端の結果を達成し、5つのロボットプラットフォームで強力な能力を示す。 Comment
pj page:
https://research.beingbeyond.com/being-h05
HF:
https://huggingface.co/collections/BeingBeyond/being-h05
元ポスト:
[Paper Note] Motion Attribution for Video Generation, Xindi Wu+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #Pocket #DiffusionModel #read-later #Selected Papers/Blogs #VideoGeneration/Understandings Issue Date: 2026-01-21 GPT Summary- Motiveを提案し、動画生成における動きの影響を理解するための運動帰属のフレームワークを提供。運動重み付けされたロスマスクを用いて静的外観と時間的ダイナミクスを分離し、データのキュレーションを改善。VBenchで74.1%の人間の選好勝率を達成し、ファインチューニングデータの選定に初めて運動を用いるアプローチを示した。 Comment
pj page: https://research.nvidia.com/labs/sil/projects/MOTIVE/
元ポスト:
[Paper Note] Simulating the Visual World with Artificial Intelligence: A Roadmap, Jingtong Yue+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#Survey #ComputerVision #Pocket #read-later #VideoGeneration/Understandings #WorldModels #4D (Video) Issue Date: 2025-12-17 GPT Summary- ビデオ生成は、視覚的クリップの生成から物理的妥当性を持つ仮想環境の構築へと進化している。本研究では、現代のビデオ基盤モデルを暗黙の世界モデルとビデオレンダラーの2つのコアコンポーネントとして概念化し、物理法則やエージェントの行動をエンコードする世界モデルが視覚的推論や計画を可能にすることを示す。ビデオレンダラーはシミュレーションを現実的な視覚に変換し、ビデオ生成の進展を4つの世代にわたって追跡する。各世代の特性を定義し、ロボティクスや自律運転などの応用を考察し、次世代の世界モデルに関する課題と設計原則についても議論する。 Comment
元ポスト:
[Paper Note] Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark, Minhui Zhu+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Evaluation #Reasoning #read-later #Selected Papers/Blogs Issue Date: 2025-11-23 GPT Summary- CritPtは、物理学研究における複雑な推論タスクを評価するための初のベンチマークであり、71の研究課題と190のチェックポイントタスクから構成される。これらの問題は現役の物理学者によって作成され、機械的に検証可能な答えを持つように設計されている。現在のLLMsは、単独のチェックポイントでは期待を示すが、全体の研究課題を解決するには不十分であり、最高精度は5.7%にとどまる。CritPtは、AIツールの開発に向けた基盤を提供し、モデルの能力と物理学研究の要求とのギャップを明らかにする。 Comment
pj page: https://critpt.com/
artificial analysisによるリーダーボード:
https://artificialanalysis.ai/evaluations/critpt
データセットとハーネス:
NVIDIA Cosmos Reason 2 Brings Advanced Reasoning To Physical AI, Nvidia, 2026.01
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Reasoning #LongSequence #SmallModel #OpenWeight #ObjectLocalization #VisionLanguageModel #Robotics #SpatialUnderstanding #EmbodiedAI Issue Date: 2026-01-06 Comment
HF: https://huggingface.co/nvidia/Cosmos-Reason2-8B?linkId=100000401175768
元ポスト:
Flow With What You Know, Scott H. Hawley, 2024.11
Paper/Blog Link My Issue
#Article #ComputerVision #Blog #read-later #FlowMatching #RectifiedFlow Issue Date: 2025-11-28