ImageCaptioning
[Paper Note] VELA: An LLM-Hybrid-as-a-Judge Approach for Evaluating Long Image Captions, Kazuki Matsuda+, EMNLP'25, 2025.09
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Pocket #Dataset #Evaluation #LongSequence #LLM-as-a-Judge #EMNLP #VisionLanguageModel #MultiDimensional Issue Date: 2025-10-01 GPT Summary- 本研究では、長い画像キャプションの自動評価に特化した新しい指標VELAを提案し、マルチモーダル大規模言語モデル(MLLMs)を活用した評価フレームワークを構築。さらに、評価指標を検証するためのLongCap-Arenaベンチマークを導入し、7,805枚の画像と32,246件の人間の判断を用いて、VELAが既存の指標を上回る性能を示した。 Comment
元ポスト:
[Paper Note] CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning, Long Xing+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #SmallModel #OpenWeight #VisionLanguageModel Issue Date: 2025-09-29 GPT Summary- 画像キャプショニングにおいて、従来の監視型ファインチューニング(SFT)の限界を克服するため、検証可能な報酬を用いた強化学習(RLVR)を提案。新しいトレーニングフレームワーク「キャプショニング強化学習(CapRL)」を導入し、キャプションの質をその有用性で再定義。CapRLは、視覚非依存のLLMの精度に基づく客観的な報酬を得る二段階のパイプラインを採用。CapRL-3Bによる事前学習は、12のベンチマークで大幅な性能向上を実現し、Qwen2.5-VL-72Bと同等のパフォーマンスを達成。 Comment
元ポスト:
HF: https://huggingface.co/collections/long-xing1/caprl-68d64ac32ded31596c36e189
公式ポスト:
Object hallucination in image captioning, Rohbach+, EMNLP'18
Paper/Blog Link My Issue
#NLP #Hallucination Issue Date: 2023-08-16 GPT Summary- 現代の画像キャプションモデルは、オブジェクトの幻覚を生じる傾向がある。本研究では、新しい画像関連性の評価指標を提案し、モデルのアーキテクチャや学習目標が幻覚にどのように寄与するかを評価する。さらに、言語の先入観によるエラーが幻覚を引き起こすことも示された。
CIDEr: Consensus-based Image Description Evaluation, Ramakrishna Vedantam+, N_A, CVPR'15
Paper/Blog Link My Issue
#DocumentSummarization #ComputerVision #NaturalLanguageGeneration #Pocket #NLP #Evaluation #Reference-based Issue Date: 2023-05-10 GPT Summary- 画像を文章で自動的に説明することは、長年の課題である。本研究では、人間の合意を利用した画像説明の評価のための新しいパラダイムを提案し、新しい自動評価指標と2つの新しいデータセットを含む。提案手法は、人間の判断をより正確に捉えることができ、5つの最先端の画像説明手法を評価し、将来の比較のためのベンチマークを提供する。CIDEr-Dは、MS COCO評価サーバーの一部として利用可能であり、システマティックな評価とベンチマークを可能にする。
NVIDIA Releases 3 Million Sample Dataset for OCR, Visual Question Answering, and Captioning Tasks, NVIDIA, 2025.08
Paper/Blog Link My Issue
#Article #ComputerVision #Pretraining #NLP #Dataset #QuestionAnswering #VisionLanguageModel #OCR Issue Date: 2025-08-13 Comment
元ポスト:
Llama Nemotron VLM Dataset V1
VQA, OCRの比率が多めで、Imase Captioningは少なめ。
Zero-shot Learning網羅的サーベイ: CLIPが切り開いたVision & Languageの新しい世界
Paper/Blog Link My Issue
#Article #Survey #ComputerVision #NaturalLanguageGeneration #NLP #LanguageModel #DiffusionModel Issue Date: 2023-11-02 Comment
これはすごいまとめ…。まだ途中までしか読めていない。CLIPからスタートしてCLIPを引用している論文から重要なものを概要付きでまとめている。
Comparing captioning models
Paper/Blog Link My Issue
#Article #ComputerVision Issue Date: 2023-07-22 Comment
SoTAのvision languageモデルのデモ。BLIP, BLIP2,GIT,InstructBLIPを試せる