ICCVに関する論文・技術記事メモの一覧

ICCV

#ComputerVision #Analysis #Pocket #Dataset #Zero/Few/ManyShotPrompting #MultiModal #In-ContextLearning #VisionLanguageModel
Issue Date: 2025-10-27 [Paper Note] Kaputt: A Large-Scale Dataset for Visual Defect Detection, Sebastian Höfer+, ICCV'25, 2025.10 GPT Summary- 新しい大規模データセットを提案し、小売物流における欠陥検出の課題に対応。230,000枚の画像と29,000以上の欠陥インスタンスを含み、MVTec-ADの40倍の規模。既存手法の限界を示し、56.96%のAUROCを超えない結果を得た。データセットは今後の研究を促進するために利用可能。 Comment

元ポスト:

Loading…

#Pocket
Issue Date: 2025-10-25 [Paper Note] FullDiT: Multi-Task Video Generative Foundation Model with Full Attention, Xuan Ju+, ICCV'25, 2025.03 GPT Summary- FullDiTは、ビデオ生成のための統一基盤モデルであり、複数の条件をフルアテンションメカニズムを通じてシームレスに統合します。これにより、パラメータのオーバーヘッドを削減し、条件の競合を回避しつつ、マルチタスクビデオ生成の性能を向上させます。実験結果は、FullDiTが最先端の成果を達成し、複雑なビデオ生成におけるフルアテンションの有効性を示しています。 Comment

元ポスト:

Loading…

#Pocket
Issue Date: 2025-10-25 [Paper Note] HouseCrafter: Lifting Floorplans to 3D Scenes with 2D Diffusion Model, Hieu T. Nguyen+, ICCV'25, 2024.06 GPT Summary- HouseCrafterは、間取り図を大規模な3D屋内シーンに変換する新しいアプローチで、2D拡散モデルを適応させて一貫したマルチビューのRGBおよび深度画像を生成します。RGB-D画像は、間取り図に基づいて自己回帰的に生成され、生成された画像が条件として使用されます。グローバルな間取り図とアテンション設計により、一貫性のある画像生成が実現され、3Dシーンの再構築が可能です。3D-Frontデータセットでの評価により、高品質な3Dシーン生成が確認され、設計選択の有効性も検証されています。コードとモデルの重みは公開予定です。 Comment

元ポスト:

Loading…

#Pocket #SparseAutoEncoder Issue Date: 2025-10-24 [Paper Note] Large Multi-modal Models Can Interpret Features in Large Multi-modal Models, Kaichen Zhang+, ICCV'25, 2024.11 GPT Summary- LMMの内部神経表現を理解するためのフレームワークを提案。スパースオートエンコーダを用いて特徴を分解し、自動解釈フレームワークでモデルの挙動を分析。結果はLMMのタスク性能や誤りの性質を明らかにし、人間の認知プロセスとの類似性を示唆。 Comment

元ポスト: https://github.com/EvolvingLMMs-Lab/multimodal-sae

#Pocket Issue Date: 2025-10-24 [Paper Note] Towards Video Thinking Test: A Holistic Benchmark for Advanced Video Reasoning and Understanding, Yuanhan Zhang+, arXiv'25, 2025.07 GPT Summary- ビデオ理解における正確性と堅牢性のギャップを評価するために、Video Thinking Test（Video-TT）を導入。1,000本のYouTube Shortsビデオを用い、オープンエンドの質問と敵対的質問を通じて、ビデオLLMsと人間のパフォーマンスの違いを示す。 Comment

pj page: https://zhangyuanhan-ai.github.io/video-tt/

#Pocket Issue Date: 2025-10-24 [Paper Note] Dual-Expert Consistency Model for Efficient and High-Quality Video Generation, Zhengyao Lv+, arXiv'25, 2025.06 GPT Summary- 動画合成におけるDiffusion Modelsは計算負荷が高いが、Consistency Modelsがその加速に寄与。しかし、直接適用すると時間的一貫性や外観の詳細が劣化する。本研究では、学習ダイナミクスの不一致を特定し、Dual-Expert Consistency Model（DCM）を提案。セマンティックエキスパートとディテールエキスパートを用いて、Temporal Coherence LossやGANを導入し、視覚品質を向上させつつサンプリングステップを削減。 Comment

pj page: https://vchitect.github.io/DCM/

#Pocket Issue Date: 2025-10-24 [Paper Note] Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency, Tianqi Liu+, arXiv'25, 2025.03 GPT Summary- Free4Dは、単一の画像から4Dシーンを生成するための新しいチューニング不要のフレームワークを提案。従来の手法はオブジェクトレベルに限定され、シーンレベルの生成が困難であったが、基盤モデルの蒸留により効率性と一般化能力を向上。画像から動画への拡散モデルを用いてアニメーション化し、空間・時間的一貫性を保つための新しいガイダンスメカニズムを設計。生成された4D表現はリアルタイムでの制御可能なレンダリングを実現し、重要な進展を示す。 Comment

元ポスト: https://free4d.github.io

#Pocket Issue Date: 2025-10-24 [Paper Note] DPoser-X: Diffusion Model as Robust 3D Whole-body Human Pose Prior, Junzhe Lu+, arXiv'25, 2025.08 GPT Summary- DPoser-Xは、3D全身人間ポーズのための拡散ベースの事前モデルであり、ポーズの複雑さとデータセットの不足に対処する。逆問題としてポーズ中心のタスクを統一し、変分拡散サンプリングで解決。新しい切り捨てタイムステップスケジューリングとマスクトレーニングメカニズムを導入し、部位間の相互依存性を捉えつつ過剰適合を回避。実験により、DPoser-Xは複数のベンチマークで最先端の手法を上回り、新たな基準を確立した。 Comment

元ポスト: https://dposer.github.io

#Pocket Issue Date: 2025-10-24 [Paper Note] Generating Physically Stable and Buildable Brick Structures from Text, Ava Pun+, ICCV'25 Best Paper, 2025.05 GPT Summary- BrickGPTは、テキストプロンプトから物理的に安定したレンガ組立モデルを生成する初のアプローチであり、大規模なデータセットを用いて自己回帰型言語モデルを訓練。安定性向上のために有効性チェックと物理法則に基づくロールバックを採用し、実現不可能な予測を排除。実験により、安定で多様なレンガ構造を生成できることが確認され、テクスチャリング手法も開発。新データセットStableText2Brickを公開し、28,000以上の3Dオブジェクトと47,000以上のレンガ構造を提供。コードとモデルはプロジェクトのウェブサイトで入手可能。 Comment

pj page: https://avalovelace1.github.io/BrickGPT/

#ComputerVision #Pocket Issue Date: 2025-10-22 [Paper Note] Beyond Isolated Words: Diffusion Brush for Handwritten Text-Line Generation, Gang Dai+, ICCV'25, 2025.08 GPT Summary- 手書きテキスト生成において、DiffBrushという新しい拡散ベースのモデルを提案。スタイルと内容の正確性を両立させるため、スタイル学習を内容から切り離し、マルチスケールで内容を学習する戦略を採用。実験により、高品質なテキストライン生成が確認された。 Comment

元ポスト:

Loading…

手書き文字生成

#ComputerVision #Controllable #Pocket #Transformer #DiffusionModel #VariationalAutoEncoder #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-10-22 [Paper Note] OminiControl: Minimal and Universal Control for Diffusion Transformer, Zhenxiong Tan+, ICCV'25 Highlight, 2024.11 GPT Summary- OminiControlは、Diffusion Transformer（DiT）アーキテクチャにおける画像条件付けの新しいアプローチで、パラメータオーバーヘッドを最小限に抑えつつ、柔軟なトークン相互作用と動的な位置エンコーディングを実現。広範な実験により、複数の条件付けタスクで専門的手法を上回る性能を示し、合成された画像ペアのデータセット「Subjects200K」を導入。効率的で多様な画像生成システムの可能性を示唆。 Comment

元ポスト:

Loading…

DiTのアーキテクチャは（MMA以外は）変更せずに、Condition Image C_IをVAEでエンコードしたnoisy inputをDiTのinputにconcatし順伝播させることで、DiTをunified conditioningモデル（＝C_Iの特徴量を他のinputと同じlatent spaceで学習させ統合的に扱う）として学習する[^1]。

[^1]: 既存研究は別のエンコーダからエンコードしたfeatureが加算されていて（式3）、エンコーダ部分に別途パラメータが必要だっただけでなく、加算は空間的な対応関係が存在しない場合はうまく対処できず（featureの次元が空間的な情報に対応しているため）、conditional tokenとimageの交互作用を妨げていた。

また、positional encodingのindexをconditional tokenとnoisy image tokensと共有すると、空間的な対応関係が存在するタスク（edge guided generation等）はうまくいったが、被写体を指定する生成（subject driven generation)のような対応関係が存在しないタスク（non-aligned task)の場合はうまくいかなかった。しかし、non-aligned taskの場合は、indexにオフセットを加えシフトさせる（式4）ことで、conditional text/image token間で空間的にoverlapしないようにすることで性能が大幅に改善した。

既存研究では、C_Iの強さをコントロールするために、ハイパーパラメータとして定数を導入し、エンコードされたfeatureを加算する際の強さを調整していたが（3.2.3節）、本手法ではconcatをするためこのような方法は使えない。そのため、Multi-Modal Attention(MMA)にハイパーパラメータによって強さを調整可能なbias matrixを導入し、C_IとXのattentionの交互作用の強さを調整することで対応した（式5,6）。

#ComputerVision #Pocket #LanguageModel #InstructionTuning #DiffusionModel #TextToImageGeneration #read-later #Selected Papers/Blogs #ImageSynthesis Issue Date: 2025-10-20 [Paper Note] MetaMorph: Multimodal Understanding and Generation via Instruction Tuning, Shengbang Tong+, ICCV'25, 2024.12 GPT Summary- 本研究では、視覚的指示調整の新手法VPiTを提案し、LLMがテキストと視覚トークンを生成できるようにします。VPiTは、キュレーションされた画像とテキストデータからトークンを予測する能力をLLMに教え、視覚生成能力が向上することを示しました。特に、理解データが生成データよりも効果的に両方の能力に寄与することが明らかになりました。MetaMorphモデルを訓練し、視覚理解と生成で競争力のあるパフォーマンスを達成し、LLMの事前学習から得た知識を活用することで、視覚生成における一般的な失敗を克服しました。これにより、LLMが視覚理解と生成に適応できる可能性が示唆されました。 Comment

元ポスト:

Loading…

#ComputerVision #Pretraining #Pocket #Transformer #Self-SupervisedLearning #Scalability Issue Date: 2025-10-20 [Paper Note] Scaling Language-Free Visual Representation Learning, David Fan+, ICCV'25, 2025.04 GPT Summary- 視覚的自己教師あり学習（SSL）は、CLIPに比べて視覚的質問応答（VQA）でのパフォーマンスが劣るが、同じデータセットで訓練することで、視覚的SSLモデルがCLIPモデルよりもスケールが良いことを示した。視覚的SSLは、VQAや従来の視覚ベンチマークでCLIPレベルのパフォーマンスを達成できる可能性がある。これにより、視覚中心の表現学習に新たな機会が開かれる。 Comment

pj page: https://davidfan.io/webssl/

元ポスト:

Loading…

#ComputerVision #Pocket #Transformer #Attention Issue Date: 2025-10-18 [Paper Note] Frequency-Dynamic Attention Modulation for Dense Prediction, Linwei Chen+, ICCV'25, 2025.07 GPT Summary- 本研究では、Vision Transformers（ViTs）の周波数応答を改善するために、Frequency-Dynamic Attention Modulation（FDAM）を提案。FDAMは、注意行列のローパスフィルタを反転させるAttention Inversion（AttInv）と、異なる周波数成分に重み付けを行うFrequency Dynamic Scaling（FreqScale）から成る。これにより、表現の崩壊を回避し、セマンティックセグメンテーションや物体検出などのタスクで一貫した性能向上を実現。リモートセンシング検出でも最先端の結果を達成。コードは公開されている。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #read-later Issue Date: 2025-08-03 [Paper Note] BUFFER-X: Towards Zero-Shot Point Cloud Registration in Diverse Scenes, Minkyun Seo+, ICCV'25 GPT Summary- BUFFER-Xというゼロショット登録パイプラインを提案し、環境特有のボクセルサイズや探索半径への依存、ドメイン外ロバスト性の低さ、スケール不一致の問題に対処。マルチスケールのパッチベースの記述子生成と階層的インライア検索を用いて、さまざまなシーンでのロバスト性を向上。新しい一般化ベンチマークを用いて、BUFFER-Xが手動調整なしで大幅な一般化を達成することを示した。 Comment

元ポスト:

Loading…

この辺の分野ぱっと見で全然わからない…

#ComputerVision #EfficiencyImprovement #Pretraining #Pocket #OpenWeight #OpenSource #Selected Papers/Blogs #Encoder #Backbone Issue Date: 2025-06-26 [Paper Note] OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning, Xianhang Li+, ICCV'25 GPT Summary- OpenVisionは、完全にオープンでコスト効果の高いビジョンエンコーダーのファミリーを提案し、CLIPと同等以上の性能を発揮します。既存の研究を基に構築され、マルチモーダルモデルの進展に実用的な利点を示します。5.9Mから632.1Mパラメータのエンコーダーを提供し、容量と効率の柔軟なトレードオフを実現します。 Comment

元ポスト:

Loading…

v2へアップデート:

Loading…

事前学習時にtext, image encoderのcontrastive lossで学習していたが、text encoderを無くしimage encoderに入力されたimageからcaptionを生成するcaption lossのみにすることで性能を落とすことなく効率を改善

テクニカルペーパーが出た模様

- [Paper Note] OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning, Yanqing Liu+, arXiv'25

HF: https://huggingface.co/collections/UCSC-VLAA/openvision-681a4c27ee1f66411b4ae919
pj page: https://ucsc-vlaa.github.io/OpenVision/

CLIP, SigLIPとは異なり完全にオープンなVision Encoder

v2の解説:

Loading…

#ComputerVision #EfficiencyImprovement #Pocket #Transformer #LongSequence #SSM (StateSpaceModel) #VideoGeneration/Understandings Issue Date: 2025-06-26 [Paper Note] Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers, Weiming Ren+, arXiv'25 GPT Summary- VAMBAモデルは、Mamba-2ブロックを用いてビデオトークンを線形にエンコードし、トークン削減なしで1024フレームを処理可能。これにより、GPUメモリ使用量を50%削減し、トレーニング速度を倍増。1時間のビデオ理解ベンチマークLVBenchで4.3%の精度向上を達成し、様々なビデオ理解タスクで優れた性能を示す。 Comment

元ポスト:

Loading…

#ComputerVision #Pretraining #Pocket #LanguageModel #MultiModal #Selected Papers/Blogs Issue Date: 2025-06-29 [Paper Note] Sigmoid Loss for Language Image Pre-Training, Xiaohua Zhai+, ICCV'23 GPT Summary- シンプルなペアワイズシグモイド損失（SigLIP）を提案し、画像-テキストペアに基づく言語-画像事前学習を改善。シグモイド損失はバッチサイズの拡大を可能にし、小さなバッチサイズでも性能向上を実現。SigLiTモデルは84.5%のImageNetゼロショット精度を達成。バッチサイズの影響を研究し、32kが合理的なサイズであることを確認。モデルは公開され、さらなる研究の促進を期待。 Comment

SigLIP論文

#ComputerVision #Dataset #Evaluation Issue Date: 2025-11-20 [Paper Note] Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life 3D Category Reconstruction, Reizenstein+, ICCV'21 GPT Summary- 実世界の3Dオブジェクトカテゴリの学習を促進するため、約19,000本のビデオから150万フレームを含む大規模データセット「Common Objects in 3D」を収集。これにより、合成データセットと同程度の規模の実データを提供。新しいビュー合成と3D再構築手法の評価を行い、少数のビューからオブジェクトを再構築するためのTransformerを用いたニューラルレンダリング手法「NerFormer」を提案。 #ComputerVision #Pocket #Transformer #Attention #Architecture #Selected Papers/Blogs #Backbone Issue Date: 2025-07-19 [Paper Note] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows, Ze Liu+, ICCV'21 GPT Summary- Swin Transformerは、コンピュータビジョンの新しいバックボーンとして機能する階層的トランスフォーマーを提案。シフトウィンドウ方式により、効率的な自己注意計算を実現し、さまざまなスケールでのモデリングが可能。画像分類や物体検出、セマンティックセグメンテーションなどで従来の最先端を上回る性能を示し、トランスフォーマーのビジョンバックボーンとしての可能性を示唆。コードは公開されている。 Comment

日本語解説: https://qiita.com/m_sugimura/items/139b182ee7c19c83e70a

画像処理において、物体の異なるスケールや、解像度に対処するために、PatchMergeと呼ばれるプーリングのような処理と、固定サイズのローカルなwindowに分割してSelf-Attentionを実施し、layerごとに通常のwindowとシフトされたwindowを適用することで、window間を跨いだ関係性も考慮できるようにする機構を導入したモデル。