ImageCaptioning

#EfficiencyImprovement #Pocket #Dataset #LanguageModel #Evaluation #LongSequence #LLM-as-a-Judge #EMNLP #VisionLanguageModel #MultiDimensional
Issue Date: 2025-10-01 [Paper Note] VELA: An LLM-Hybrid-as-a-Judge Approach for Evaluating Long Image Captions, Kazuki Matsuda+, EMNLP'25, 2025.09 GPT Summary- 本研究では、長い画像キャプションの自動評価に特化した新しい指標VELAを提案し、マルチモーダル大規模言語モデル(MLLMs)を活用した評価フレームワークを構築。さらに、評価指標を検証するためのLongCap-Arenaベンチマークを導入し、7,805枚の画像と32,246件の人間の判断を用いて、VELAが既存の指標を上回る性能を示した。 Comment

元ポスト:

Loading…


#NLP #Hallucination
Issue Date: 2023-08-16 Object hallucination in image captioning, Rohbach+, EMNLP'18 GPT Summary- 現代の画像キャプションモデルは、オブジェクトの幻覚を生じる傾向がある。本研究では、新しい画像関連性の評価指標を提案し、モデルのアーキテクチャや学習目標が幻覚にどのように寄与するかを評価する。さらに、言語の先入観によるエラーが幻覚を引き起こすことも示された。 #DocumentSummarization #ComputerVision #NaturalLanguageGeneration #Pocket #NLP #Evaluation #Reference-based
Issue Date: 2023-05-10 CIDEr: Consensus-based Image Description Evaluation, Ramakrishna Vedantam+, N_A, CVPR'15 GPT Summary- 画像を文章で自動的に説明することは、長年の課題である。本研究では、人間の合意を利用した画像説明の評価のための新しいパラダイムを提案し、新しい自動評価指標と2つの新しいデータセットを含む。提案手法は、人間の判断をより正確に捉えることができ、5つの最先端の画像説明手法を評価し、将来の比較のためのベンチマークを提供する。CIDEr-Dは、MS COCO評価サーバーの一部として利用可能であり、システマティックな評価とベンチマークを可能にする。

#Article #ComputerVision #NLP #LanguageModel #SmallModel #OpenWeight #VisionLanguageModel Issue Date: 2025-09-29 CapRL, internlm, 2025.09 Comment

元ポスト:

Loading…


#Article #ComputerVision #Pretraining #NLP #Dataset #QuestionAnswering #VisionLanguageModel #OCR Issue Date: 2025-08-13 NVIDIA Releases 3 Million Sample Dataset for OCR, Visual Question Answering, and Captioning Tasks, NVIDIA, 2025.08 Comment

元ポスト:

Loading…

Llama Nemotron VLM Dataset V1

VQA, OCRの比率が多めで、Imase Captioningは少なめ。
image



#Article #Survey #ComputerVision #NaturalLanguageGeneration #NLP #LanguageModel #DiffusionModel Issue Date: 2023-11-02 Zero-shot Learning網羅的サーベイ: CLIPが切り開いたVision & Languageの新しい世界 Comment

これはすごいまとめ…。まだ途中までしか読めていない。CLIPからスタートしてCLIPを引用している論文から重要なものを概要付きでまとめている。



#Article #ComputerVision Issue Date: 2023-07-22 Comparing captioning models Comment

SoTAのvision languageモデルのデモ。BLIP, BLIP2,GIT,InstructBLIPを試せる