ImageSegmentation

#ComputerVision #Analysis #Pocket #SSM (StateSpaceModel) #ImageClassification
Issue Date: 2025-08-14 [Paper Note] MambaOut: Do We Really Need Mamba for Vision?, Weihao Yu+, arXiv'24 SummaryMambaはRNNのようなトークンミキサーを持つアーキテクチャで、視覚タスクにおいて期待外れの性能を示す。Mambaは長いシーケンスと自己回帰的な特性に適しているが、画像分類には不向きであると仮定。MambaOutモデルを構築し、実験によりMambaOutがImageNetの画像分類で視覚Mambaモデルを上回ることを示し、検出およびセグメンテーションタスクではMambaの可能性を探る価値があることを確認。 #ComputerVision #Pretraining #Pocket #Transformer #FoundationModel
Issue Date: 2023-04-30 Segment Anything in Medical Images, Jun Ma+, N_A, Nature Communications'24 Summary本研究では、自然画像セグメンテーションに革新的な手法であるSegment anything model (SAM)を医療画像に拡張するためのMedSAMを提案し、様々な医療ターゲットのセグメンテーションのための汎用ツールを作成することを目的としています。MedSAMは、大規模な医療画像データセットを用いて開発され、SAMを一般的な医療画像セグメンテーションに適応するためのシンプルなファインチューニング手法を開発しました。21の3Dセグメンテーションタスクと9の2Dセグメンテーションタスクに対する包括的な実験により、MedSAMは、平均Dice類似係数(DSC)がそれぞれ22.5%と17.6%で、デフォルトのSAMモデルを上回ることが示されました。コードとトレーニング済みモデルは、\url{https://github.com/bowang-lab/MedSAM}で公開されています。 CommentSAMの性能は医療画像に対しては限定的だったため、11の異なるモダリティに対して200kのマスクをした医療画像を用意しfinetuningしたMedSAMによって、医療画像のセグメンテーションの性能を大幅に向上。
コードとモデルはpublicly availableimage
#ComputerVision #Pocket #Transformer #FoundationModel
Issue Date: 2025-04-11 Segment Anything, Alexander Kirillov+, arXiv'23 SummarySegment Anything (SA)プロジェクトは、画像セグメンテーションの新しいタスク、モデル、データセットを提案し、1億以上のマスクを含む1,100万のプライバシー尊重した画像からなる最大のセグメンテーションデータセットを構築しました。プロンプト可能なモデルはゼロショットで新しい画像分布やタスクに適応でき、評価の結果、ゼロショット性能が高く、従来の監視された結果を上回ることもあります。SAMとSA-1Bデータセットは、研究促進のために公開されています。 CommentSAM論文

#ComputerVision #Pocket #Prompting #In-ContextLearning Issue Date: 2023-11-23 Visual In-Context Prompting, Feng Li+, N_A, arXiv'23 Summary本研究では、ビジョン領域における汎用的なビジュアルインコンテキストプロンプティングフレームワークを提案します。エンコーダーデコーダーアーキテクチャを使用し、さまざまなプロンプトをサポートするプロンプトエンコーダーを開発しました。さらに、任意の数の参照画像セグメントをコンテキストとして受け取るように拡張しました。実験結果から、提案手法が非凡な参照および一般的なセグメンテーション能力を引き出し、競争力のあるパフォーマンスを示すことがわかりました。 CommentImage Segmentationには、ユーザが与えたプロンプトと共通のコンセプトを持つすべてのオブジェクトをセグメンテーションするタスクと、ユーザの入力の特定のオブジェクトのみをセグメンテーションするタスクがある。従来は個別のタスクごとに、特定の入力方法(Visual Prompt, Image Prompt)を前提とした手法や、個々のタスクを実施できるがIn-Context Promptしかサポートしていない手法しかなかったが、この研究では、Visual Prompt, Image Prompt, In-Context Promptをそれぞれサポートし両タスクを実施できるという位置付けの模様。また、提案手法ではストローク、点、ボックスといったユーザの画像に対する描画に基づくPromptingをサポートし、Promptingにおける参照セグメント数も任意の数指定できるとのこと。
image
image
#ComputerVision #TechnicalReport Issue Date: 2023-04-25 Track Anything: Segment Anything Meets Videos, yang+, SUSTech VIP Lab, arXiv'23 CommentMetaのSAMを、videoに適用し、videow内のsegmentationを追加学習なしでやりました、という話だと思われる。