NovelViewSynthesis


Paper/Blog Link My Issue
#NeuralNetwork #HumanComputerInteraction #LongSequence #3D Reconstruction #4D (Video) #ImageSynthesis #Test Time Training (TTT) Issue Date: 2026-02-27 GPT Summary- tttLRMは、テスト時訓練(TTT)層を用いて自己回帰型3D再構成を線形計算量で実現する新モデルです。複数の画像を圧縮し、潜在空間で3D表現を形成し、Gaussian Splatsなどへデコード可能です。また、オンライン学習によりストリーミング観測から逐次的に再構成が可能になります。新規視点合成タスクでの事前学習が3Dモデリングの改善に寄与し、高品質な再構成と早い収束を実現。実験により、最先端手法と比較して卓越した性能を示すことが確認されました。 Comment

pj page: https://cwchenwang.github.io/tttLRM/

元ポスト:

Loading…




Paper/Blog Link My Issue
#Multi #ComputerVision #Transformer #Attention #PositionalEncoding #2D (Image) #One-Line Notes #DepthEstimation Issue Date: 2026-01-23 GPT Summary- 我々は、マルチビュー変換器における位置エンコーディングの新手法RayRoPEを提案し、パッチをユニークにエンコードしてSE(3)不変な注意を実現します。既存のエンコーディング方式の限界を踏まえ、光線に基づいてパッチの位置を表現し、ジオメトリに配慮した予測点を使用します。RayRoPEは多周波数の類似性を計算するためのクエリフレームの投影座標を確立し、不正確な3D点の不確実性に対処するための位置エンコーディング手法を提供します。視点合成とステレオ深度推定のタスクにおいて、代替方式に対して一貫した性能向上を示し、RGB-D入力の効果的な利用も確認しました。 Comment

pj page: https://rayrope.github.io/

元ポスト:

Loading…

複数視点(multiview)での画像を入力とするtransformerの位置エンコーディングを改善した研究で、multiviewのattentionは下記のような性質を持つのが理想としており

(a) 座標系の取り方に対してattentionの出力が不変であり
(b) 同じ点であれば、どのviewからのattention出力であっても同一であるべき
(c) 幾何学的に近い点の方が類似度が高くあるべき
(d) 様々な粒度で特徴を捉えられるべき(高周波成分、低周波成分)

これらを獲得できるようにray(方向に関する情報)を取り入れるような新たなRoPEアーキテクチャを考案した、というような感じらしい(ゆるふわ理解)。

image

pj pageに他手法と比較して生成される別方向の画像などが高品質になっている例が掲載されている。




Paper/Blog Link My Issue
#ComputerVision #Dataset #FoundationModel #InductiveBias #NeurIPS #Selected Papers/Blogs #3D Reconstruction #3D (Scene) #3D Object Generation Issue Date: 2023-07-12 GPT Summary- 1000万以上の3Dオブジェクトから構成されるデータセットObjaverse-XLを紹介。手作業で設計されたオブジェクトや写真測量スキャンからの多様なオブジェクトを含む。Objaverse-XLは3Dビジョン分野の最大規模と多様性を持ち、Zero123を用いた新規ビュー合成で強力なゼロショット一般化を実現。これにより、3Dビジョンでのさらなる革新が期待される。 Comment

10Mを超える3D objectのデータセットを公開し、3D Modelの基盤モデルとしてZero123-XLを訓練。
元ツイートのGifがわかりやすい。

Loading…


たとえばinputされたイメージに対して、自由にカメラの視点を設定し、その視点からの物体の画像を出力できる。

openreview: https://openreview.net/forum?id=Sq3CLKJeiz¬eId=hnXWj1z2rI