MultiDimensionalに関する論文・技術記事メモの一覧

MultiDimensional

[Paper Note] VELA: An LLM-Hybrid-as-a-Judge Approach for Evaluating Long Image Captions, Kazuki Matsuda+, EMNLP'25, 2025.09

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Dataset #Evaluation #ImageCaptioning #LongSequence #LLM-as-a-Judge #EMNLP #VisionLanguageModel Issue Date: 2025-10-01 GPT Summary- 本研究では、長い画像キャプションの自動評価に特化した新しい指標VELAを提案し、マルチモーダル大規模言語モデル（MLLMs）を活用した評価フレームワークを構築。さらに、評価指標を検証するためのLongCap-Arenaベンチマークを導入し、7,805枚の画像と32,246件の人間の判断を用いて、VELAが既存の指標を上回る性能を示した。 Comment

元ポスト:

Loading…

[Paper Note] TransEvalnia: Reasoning-based Evaluation and Ranking of Translations, Richard Sproat+, arXiv'25

Paper/Blog Link My Issue
#MachineTranslation #Metrics #NLP #LanguageModel Issue Date: 2025-07-18 GPT Summary- プロンプトベースの翻訳評価システム「TransEvalnia」を提案し、Multidimensional Quality Metricsに基づく詳細な評価を行う。TransEvalniaは、英日データやWMTタスクで最先端のMT-Rankerと同等以上の性能を示し、LLMによる評価が人間の評価者と良好に相関することを確認。翻訳の提示順序に敏感であることを指摘し、位置バイアスへの対処法を提案。システムの評価データは公開される。 Comment

元ポスト:

Loading…