ImageCaptioning
#NLP
#Hallucination
Issue Date: 2023-08-16 Object hallucination in image captioning, Rohbach+, EMNLP'18 Summary現代の画像キャプションモデルは、オブジェクトの幻覚を生じる傾向がある。本研究では、新しい画像関連性の評価指標を提案し、モデルのアーキテクチャや学習目標が幻覚にどのように寄与するかを評価する。さらに、言語の先入観によるエラーが幻覚を引き起こすことも示された。 #DocumentSummarization #ComputerVision #NaturalLanguageGeneration #Pocket #NLP #Evaluation #Reference-based
Issue Date: 2023-05-10 CIDEr: Consensus-based Image Description Evaluation, Ramakrishna Vedantam+, N_A, CVPR'15 Summary画像を文章で自動的に説明することは、長年の課題である。本研究では、人間の合意を利用した画像説明の評価のための新しいパラダイムを提案し、新しい自動評価指標と2つの新しいデータセットを含む。提案手法は、人間の判断をより正確に捉えることができ、5つの最先端の画像説明手法を評価し、将来の比較のためのベンチマークを提供する。CIDEr-Dは、MS COCO評価サーバーの一部として利用可能であり、システマティックな評価とベンチマークを可能にする。 #Article #ComputerVision #Pretraining #NLP #Dataset #QuestionAnswering #VisionLanguageModel #OCR
Issue Date: 2025-08-13 NVIDIA Releases 3 Million Sample Dataset for OCR, Visual Question Answering, and Captioning Tasks, NVIDIA, 2025.08 Comment元ポスト:https://x.com/nvidiaaidev/status/1955332008890208540?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QLlama Nemotron VLM Dataset V1
VQA, OCRの比率が多めで、Imase Captioningは少なめ。
Issue Date: 2023-08-16 Object hallucination in image captioning, Rohbach+, EMNLP'18 Summary現代の画像キャプションモデルは、オブジェクトの幻覚を生じる傾向がある。本研究では、新しい画像関連性の評価指標を提案し、モデルのアーキテクチャや学習目標が幻覚にどのように寄与するかを評価する。さらに、言語の先入観によるエラーが幻覚を引き起こすことも示された。 #DocumentSummarization #ComputerVision #NaturalLanguageGeneration #Pocket #NLP #Evaluation #Reference-based
Issue Date: 2023-05-10 CIDEr: Consensus-based Image Description Evaluation, Ramakrishna Vedantam+, N_A, CVPR'15 Summary画像を文章で自動的に説明することは、長年の課題である。本研究では、人間の合意を利用した画像説明の評価のための新しいパラダイムを提案し、新しい自動評価指標と2つの新しいデータセットを含む。提案手法は、人間の判断をより正確に捉えることができ、5つの最先端の画像説明手法を評価し、将来の比較のためのベンチマークを提供する。CIDEr-Dは、MS COCO評価サーバーの一部として利用可能であり、システマティックな評価とベンチマークを可能にする。 #Article #ComputerVision #Pretraining #NLP #Dataset #QuestionAnswering #VisionLanguageModel #OCR
Issue Date: 2025-08-13 NVIDIA Releases 3 Million Sample Dataset for OCR, Visual Question Answering, and Captioning Tasks, NVIDIA, 2025.08 Comment元ポスト:https://x.com/nvidiaaidev/status/1955332008890208540?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QLlama Nemotron VLM Dataset V1
VQA, OCRの比率が多めで、Imase Captioningは少なめ。
#Article
#Survey
#ComputerVision
#NaturalLanguageGeneration
#NLP
#LanguageModel
#DiffusionModel
Issue Date: 2023-11-02
Zero-shot Learning網羅的サーベイ: CLIPが切り開いたVision & Languageの新しい世界
Commentこれはすごいまとめ…。まだ途中までしか読めていない。CLIPからスタートしてCLIPを引用している論文から重要なものを概要付きでまとめている。
#Article
#ComputerVision
Issue Date: 2023-07-22
Comparing captioning models
CommentSoTAのvision languageモデルのデモ。BLIP, BLIP2,GIT,InstructBLIPを試せる