ImageClassificationに関する論文・技術記事メモの一覧

ImageClassification

#ComputerVision #Analysis #Pocket #ImageSegmentation #SSM (StateSpaceModel)
Issue Date: 2025-08-14 [Paper Note] MambaOut: Do We Really Need Mamba for Vision?, Weihao Yu+, arXiv'24 GPT Summary- MambaはRNNのようなトークンミキサーを持つアーキテクチャで、視覚タスクにおいて期待外れの性能を示す。Mambaは長いシーケンスと自己回帰的な特性に適しているが、画像分類には不向きであると仮定。MambaOutモデルを構築し、実験によりMambaOutがImageNetの画像分類で視覚Mambaモデルを上回ることを示し、検出およびセグメンテーションタスクではMambaの可能性を探る価値があることを確認。 #NeuralNetwork #ComputerVision #NeurIPS #Selected Papers/Blogs #Backbone
Issue Date: 2025-05-13 ImageNet Classification with Deep Convolutional Neural Networks, Krizhevsky+, NIPS'12 Comment

ILSVRC 2012において圧倒的な性能示したことで現代のDeepLearningの火付け役となった研究AlexNet。メモってなかったので今更ながら追加した。

AlexNet以前の画像認識技術については牛久先生がまとめてくださっている（当時の課題とそれに対する解決法、しかしまだ課題が…と次々と課題に直面し解決していく様子が描かれており非常に興味深かった)。現在でも残っている技術も紹介されている。:
https://speakerdeck.com/yushiku/pre_alexnet

> 過去の技術だからといって聞き流していると時代背景の変化によってなし得たイノベーションを逃すかも

これは肝に銘じたい。

#ComputerVision #Dataset #Selected Papers/Blogs #ObjectRecognition #ObjectLocalization
Issue Date: 2025-05-13 ImageNet: A Large-Scale Hierarchical Image Database, Deng+, CVPR'09

#Article #NeuralNetwork #Tutorial #ComputerVision #EfficiencyImprovement #Blog Issue Date: 2021-05-24 EfficientNet解説, omiita （オミータ）, 2019 Comment

既存画像認識モデルの構造は変化させず、広さ、深さ、解像度を複合スケーリングすることで、従来よりも少ないパラメータ数、かつ学習速度でSoTAを達成。広さ、深さ、解像度はそれぞれ性能に互いに影響しあっており、従来のように別々にスケーリングするのではなく、3つのバランスをとりながらスケーリングする。スケーリングする際は、結果的にはそれぞれをある値で定数倍すれば良く、そのある値は最大メモリや最大FLOPS数以下（およびFLOPSが2のΦ乗で増加するような）といった制約下でAccuracyが最大化される値をグリッドサーチで見つける（らしい。ざっくりとした理解）。
転移学習しても多くのタスクでSoTA達成した。