Geometricに関する論文・技術記事メモの一覧

Geometric

[Paper Note] Symmetry in language statistics shapes the geometry of model representations, Dhruva Karkada+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#Embeddings #Analysis #NLP #LanguageModel #RepresentationLearning #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-02-28 GPT Summary- 言語モデルの内部表現は顕著な幾何学的構造を示し、暦の月や歴史的年の配置に関する対称性を示す。特に、月の共起頻度が時間間隔のみに依存することを証明し、高次元の単語埋め込みモデルにおける幾何学的構造を導出。実験的に大規模なテキスト埋め込みモデルとの一致を確認し、共起統計が撹乱されても幾何は維持されることを示している。この頑健性は、潜在変数によって制御される場合に自然に現れ、表現多様体の普遍的な起源を示唆する。 Comment

元ポスト:

Loading…

こんな不思議なことが（小並感）

[Paper Note] VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control, Sixiao Zheng+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#ComputerVision #Controllable #OpenWeight #WorldModels #3D (Video) Issue Date: 2026-01-14 GPT Summary- VerseCrafterは、カメラとオブジェクトの動きを一貫して制御する4Dビデオワールドモデルを提案。静的な背景と3Dガウス軌跡を使用して、オブジェクトの確率的な3D占有を表現し、高忠実度なビデオ生成を可能にする。自動データエンジンにより、大規模な4Dアノテーションデータセットを野生のビデオから抽出し、モデルのトレーニングを支援。 Comment

pj page: https://sixiaozheng.github.io/VerseCrafter_page/

元ポスト:

Loading…

[Paper Note] PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image, Ziang Cao+, CVPR'26, 2025.11

Paper/Blog Link My Issue
#ComputerVision #RepresentationLearning #SyntheticData #CVPR #VisionLanguageModel #3D (Scene) #Robotics #EmbodiedAI #One-Line Notes #Physics #Simulation #3D Object Generation Issue Date: 2025-11-20 GPT Summary- PhysX-Anythingは、単一の野外画像から高品質なシミュレーション準備済みの3D資産を生成する新しいフレームワークで、ジオメトリ、関節、物理的属性を明示的に持つ。VLMベースのモデルと新しい3D表現を提案し、トークン数を193倍削減。新データセットPhysX-Mobilityにより物理3Dデータの多様性を拡張し、2,000以上の実世界オブジェクトを含む。実験により、生成性能と一般化能力が確認され、ロボティックポリシー学習に直接利用可能であることが示された。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

CVPRにアクセプト:

Loading…

pj page: https://physx-anything.github.io/

simulation-readyな3Dオブジェクトを生成するVLMベースのモデルとのこと

[Paper Note] Deep sequence models tend to memorize geometrically; it is unclear why, Shahriar Noroozizadeh+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Analysis #MachineLearning #Transformer #Memorization #FactualKnowledge Issue Date: 2026-01-05 GPT Summary- 深層系列モデルは、エンティティ間の新しいグローバルな関係を幾何学的記憶として保存することを提案。これにより、難しい推論タスクが簡単なナビゲーションタスクに変換されることを示す。ブルートフォース検索よりも複雑な幾何学が学習されることを主張し、Node2Vecとの関連を分析して、自然に生じるスペクトルバイアスからこの幾何学が生まれることを示す。Transformerメモリの幾何学的強化の可能性を指摘し、知識獲得や忘却に関する直感を再考することを促す。 Comment

元ポスト:

Loading…

[Paper Note] OmniVGGT: Omni-Modality Driven Visual Geometry Grounded, Haosong Peng+, CVPR'25, 2025.11

Paper/Blog Link My Issue
#ComputerVision #Transformer #FoundationModel #read-later #2D (Image) #3D (Scene) #Robotics #SpatialUnderstanding #Omni #Robustness Issue Date: 2025-11-16 GPT Summary- OmniVGGTという新しいフレームワークを提案し、RGB以外の幾何学的手がかりを活用して3D基盤モデルの性能を向上させる。GeoAdapterを用いて深度情報やカメラパラメータをモデルにエンコードし、安定した最適化を実現。確率的なマルチモーダル融合手法により、任意の数のモダリティ入力を可能にし、堅牢な空間表現を学習。実験により、OmniVGGTが従来手法を上回り、視覚-言語-行動モデルに統合することでロボティクスタスクでも性能向上を達成。 Comment

元ポスト:

Loading…

depth mapやcameraの情報などの様々な幾何学的情報を入力した場合（depth mapがないなど情報が欠落していても良い）にロバストに対応できるような基盤モデルを構築する手法らしい

評価データ:
- [Paper Note] A naturalistic open source movie for optical flow evaluation, Butler+, ECCV'12
- [Paper Note] ReFusion: 3D Reconstruction in Dynamic Environments for RGB-D Cameras Exploiting Residuals, Emanuele Palazzolo+, IROS'19, 2019.05
- [Paper Note] Indoor Segmentation and Support Inference from RGBD Images, Silberman+, ECCV'12
- [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images,Shotton+, CVPR'13
- [Paper Note] ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes, Angela Dai+, CVPR'17, 2017.02
- [Paper Note] A Multi-view Stereo Benchmark with High-Resolution Images and Multi-camera Videos, Schöps+, CVPR'17
- [Paper Note] Large-Scale Data for Multiple-View Stereopsis, Aanæs+, IJCV'16
- [Paper Note] Tanks and temples: Benchmarking large-scale scene reconstruction, Knapitsch+, TOG'17
- [Paper Note] Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life 3D Category Reconstruction, Reizenstein+, ICCV'21
- [Paper Note] Stereo Magnification: Learning View Synthesis using Multiplane Images, Tinghui Zhou+, SIGGRAPH'18, 2018.05
- [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images, Shotton+, CVPR'13
- [Paper Note] CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks, Oier Mees+, RA-L'22 Best Paper Award, 2021.12

[Paper Note] VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information, Ryo Kamoi+, COLM'25, 2024.12

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Evaluation #COLM #VisionLanguageModel Issue Date: 2025-10-06 GPT Summary- LVLMsの幾何学的認識を評価するためのデータセット「VisOnlyQA」を導入し、LVLMsが画像内の幾何学的情報を正確に認識できないことを明らかにした。23のLVLMs（GPT-4oやGemini 2.5 Proを含む）は、VisOnlyQAでの性能が低く、追加のトレーニングデータでは改善されない。より強力なLLMを使用するLVLMsは幾何学的認識が向上するが、視覚エンコーダーからの情報処理がボトルネックであることが示唆された。 Comment

openreview: https://openreview.net/forum?id=PYHwlyu2fa#discussion

元ポスト:

Loading…

Do we still need geometry for Visual Localization and Mapping?, Paul-Edouard Sarlin, 50th Pattern Recognition and Computer Vision Colloquium - CVUT, 2025.10

Paper/Blog Link My Issue
#Article #Tutorial #ComputerVision #Slide #ObjectLocalization #Mapping Issue Date: 2025-11-04 Comment

元ポスト:

Loading…

When Models Manipulate Manifolds: The Geometry of a Counting Task, Gurnee+, Anthropic, 2025.10

Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel Issue Date: 2025-10-22 Comment

元ポスト:

Loading…