ImageSegmentation
Issue Date: 2025-11-09 [Paper Note] SAM 2: Segment Anything in Images and Videos, Nikhila Ravi+, ICLR'25, 2024.08 GPT Summary- Segment Anything Model 2(SAM 2)は、プロンプト可能な視覚セグメンテーションのための基盤モデルで、ユーザーのインタラクションを通じてデータを改善するデータエンジンを構築し、最大の動画セグメンテーションデータセットを収集。シンプルなトランスフォーマーアーキテクチャを用い、リアルタイム動画処理に対応。SAM 2は、動画セグメンテーションで従来の手法より3倍少ないインタラクションで高精度を達成し、画像セグメンテーションでも従来モデルより精度が高く、6倍速い。データ、モデル、コード、デモを公開し、関連タスクの重要なマイルストーンを目指す。 Comment
openreview: https://openreview.net/forum?id=Ha6RTeWMd0
#ComputerVision #EfficiencyImprovement #Pocket #SmallModel #OpenWeight #Video #2D (Image)
Issue Date: 2025-11-09 [Paper Note] EdgeTAM: On-Device Track Anything Model, Chong Zhou+, arXiv'25, 2025.01 GPT Summary- SAM 2は動画セグメンテーションの基盤モデルであり、メモリバンクメカニズムを通じて性能を向上させています。本研究では、モバイルデバイス上での効率を高めるために、EdgeTAMを提案し、2D空間パーセプターを用いて計算コストを削減します。これにより、メモリの空間構造を保持しつつ、推論オーバーヘッドなしで性能を向上させる蒸留パイプラインも導入。EdgeTAMは複数のデータセットで高いJ&Fスコアを達成し、iPhone 15 Pro Maxで16 FPSで動作します。 Comment
元ポスト:
SAM2より性能は少し劣るが、edge-deviceてわ動作可能で非常に高速なモデル(promptによって制御可能なsegmentation)とのこと
- [Paper Note] SAM 2: Segment Anything in Images and Videos, Nikhila Ravi+, ICLR'25, 2024.08
#ComputerVision #Pocket #VideoGeneration/Understandings #VisionLanguageModel #UMM
Issue Date: 2025-10-27 [Paper Note] Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos, Haobo Yuan+, arXiv'25, 2025.01 GPT Summary- Sa2VAは、画像と動画の基盤理解のための統一モデルであり、最小限のワンショット指示チューニングで多様なタスクをサポート。SAM-2とLLaVAを組み合わせ、テキスト、画像、動画を統合。新たに導入したRef-SAVデータセットにより、複雑な動画シーンでのオブジェクト表現を強化。実験結果は、特に参照動画オブジェクトセグメンテーションで最先端の成果を示し、実世界の応用が期待される。 Comment
HF: https://huggingface.co/collections/ByteDance/sa2va-model-zoo
元ポスト:
ポイント解説:
SAMの性能は医療画像に対しては限定的だったため、11の異なるモダリティに対して200kのマスクをした医療画像を用意しfinetuningしたMedSAMによって、医療画像のセグメンテーションの性能を大幅に向上。
コードとモデルはpublicly available
#ComputerVision #Pocket #NLP #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes #Grounding Issue Date: 2025-11-25 [Paper Note] Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V, Jianwei Yang+, arXiv'23, 2023.10 GPT Summary- Set-of-Mark (SoM)という新しい視覚プロンプティング手法を提案し、GPT-4Vの視覚的能力を引き出す。画像を異なる領域に分割し、マークを重ねることで、視覚的基盤を必要とする質問に答えることが可能に。実験では、SoMを用いたGPT-4Vがゼロショット設定で最先端のモデルを上回る性能を示した。 Comment
pj page: https://som-gpt4v.github.io
日本語解説: https://ai-scholar.tech/articles/prompting-method/SoM
画像をsegmentationし、segmentationした領域上に数字のマーカーをオーバーレイした画像を入力すると、VLMのgrounding能力が向上する、という話らしい
#ComputerVision #Pocket #Transformer #FoundationModel Issue Date: 2025-04-11 Segment Anything, Alexander Kirillov+, arXiv'23 GPT Summary- Segment Anything (SA)プロジェクトは、画像セグメンテーションの新しいタスク、モデル、データセットを提案し、1億以上のマスクを含む1,100万のプライバシー尊重した画像からなる最大のセグメンテーションデータセットを構築しました。プロンプト可能なモデルはゼロショットで新しい画像分布やタスクに適応でき、評価の結果、ゼロショット性能が高く、従来の監視された結果を上回ることもあります。SAMとSA-1Bデータセットは、研究促進のために公開されています。 Comment
SAM論文
pj page: https://segment-anything.com
#ComputerVision #Pocket #Prompting #In-ContextLearning Issue Date: 2023-11-23 Visual In-Context Prompting, Feng Li+, N_A, arXiv'23 GPT Summary- 本研究では、ビジョン領域における汎用的なビジュアルインコンテキストプロンプティングフレームワークを提案します。エンコーダーデコーダーアーキテクチャを使用し、さまざまなプロンプトをサポートするプロンプトエンコーダーを開発しました。さらに、任意の数の参照画像セグメントをコンテキストとして受け取るように拡張しました。実験結果から、提案手法が非凡な参照および一般的なセグメンテーション能力を引き出し、競争力のあるパフォーマンスを示すことがわかりました。 Comment
Image Segmentationには、ユーザが与えたプロンプトと共通のコンセプトを持つすべてのオブジェクトをセグメンテーションするタスクと、ユーザの入力の特定のオブジェクトのみをセグメンテーションするタスクがある。従来は個別のタスクごとに、特定の入力方法(Visual Prompt, Image Prompt)を前提とした手法や、個々のタスクを実施できるがIn-Context Promptしかサポートしていない手法しかなかったが、この研究では、Visual Prompt, Image Prompt, In-Context Promptをそれぞれサポートし両タスクを実施できるという位置付けの模様。また、提案手法ではストローク、点、ボックスといったユーザの画像に対する描画に基づくPromptingをサポートし、Promptingにおける参照セグメント数も任意の数指定できるとのこと。
#ComputerVision #TechnicalReport Issue Date: 2023-04-25 Track Anything: Segment Anything Meets Videos, yang+, SUSTech VIP Lab, arXiv'23 Comment
MetaのSAMを、videoに適用し、videow内のsegmentationを追加学習なしでやりました、という話だと思われる。
#Article #ComputerVision #FoundationModel #Blog #read-later #Selected Papers/Blogs #2D (Image) #4D (Video) Issue Date: 2025-11-20 Introducing Meta Segment Anything Model 3 and Segment Anything Playground, Meta, 2025.11 Comment
元ポスト:
今度はSAM3、最近毎日なんか新しいの出てるな