NovelViewSynthesis


Paper/Blog Link My Issue
#Multi #ComputerVision #Pocket #Transformer #Attention #PositionalEncoding #2D (Image) #One-Line Notes #DepthEstimation Issue Date: 2026-01-23 GPT Summary- 我々は、マルチビュー変換器における位置エンコーディングの新手法RayRoPEを提案し、パッチをユニークにエンコードしてSE(3)不変な注意を実現します。既存のエンコーディング方式の限界を踏まえ、光線に基づいてパッチの位置を表現し、ジオメトリに配慮した予測点を使用します。RayRoPEは多周波数の類似性を計算するためのクエリフレームの投影座標を確立し、不正確な3D点の不確実性に対処するための位置エンコーディング手法を提供します。視点合成とステレオ深度推定のタスクにおいて、代替方式に対して一貫した性能向上を示し、RGB-D入力の効果的な利用も確認しました。 Comment

pj page: https://rayrope.github.io/

元ポスト:

Loading…

複数視点(multiview)での画像を入力とするtransformerの位置エンコーディングを改善した研究で、multiviewのattentionは下記のような性質を持つのが理想としており

(a) 座標系の取り方に対してattentionの出力が不変であり
(b) 同じ点であれば、どのviewからのattention出力であっても同一であるべき
(c) 幾何学的に近い点の方が類似度が高くあるべき
(d) 様々な粒度で特徴を捉えられるべき(高周波成分、低周波成分)

これらを獲得できるようにray(方向に関する情報)を取り入れるような新たなRoPEアーキテクチャを考案した、というような感じらしい(ゆるふわ理解)。

image

pj pageに他手法と比較して生成される別方向の画像などが高品質になっている例が掲載されている。