AudioLanguageModel

#Pocket #Dataset #LanguageModel #Evaluation #SpeechProcessing #read-later #Selected Papers/Blogs
Issue Date: 2025-09-03 [Paper Note] AHELM: A Holistic Evaluation of Audio-Language Models, Tony Lee+, arXiv'25 GPT Summary- 音声言語モデル(ALMs)の評価には標準化されたベンチマークが欠如しており、これを解決するためにAHELMを導入。AHELMは、ALMsの多様な能力を包括的に測定するための新しいデータセットを集約し、10の重要な評価側面を特定。プロンプトや評価指標を標準化し、14のALMsをテストした結果、Gemini 2.5 Proが5つの側面でトップにランクされる一方、他のモデルは不公平性を示さなかった。AHELMは今後も新しいデータセットやモデルを追加予定。 Comment

元ポスト:

Loading…

関連:
- Holistic Evaluation of Language Models, Percy Liang+, TMLR'23