IRT
[Paper Note] DatBench: Discriminative, Faithful, and Efficient VLM Evaluations, DatologyAI+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #NLP #Dataset #Evaluation #VisionLanguageModel Issue Date: 2026-03-21 GPT Summary- 基盤モデルの評価は研究の進展に不可欠だが、視覚言語モデル(VLM)の評価法は未成熟である。評価が満たすべき三つの条件(忠実性、識別性、効率性)を提案し、複数選択形式や盲目的に解ける問題、誤ラベルのサンプルがモデル評価に与える影響を分析。生成タスクへの変換やサンプルのフィルタリングを行うことで、能力の正確な識別と計算コストの削減を実現。DatBench-Fullを公開し、識別力を保ちながら速度を大幅に向上させることを目指した。この研究は、VLMの進化に合わせた持続可能な評価実践の方向性を示す。 Comment
LLMの評価はコストがかかるため、フルデータではなくサブセットで適切な評価結果が得られると嬉しい。既存のアプローチはrank correlationと呼ばれる手法が用いられ、これはフルデータで評価したモデルのランキングとサブセットで評価したモデルのランキングの相関を測ることでサブセットの評価をする。しかしこの手法には特定の評価suiteにoverfitしやすいという欠点がある。これを是正するためにIRTだぽいアプローチを採用(Raschモデルなどの一般的なIRTとしての定式化ではなさそうな点には注意)して、識別力の高いサンプルを選択してサブセットを構成する手法を提案しているとのこと。直感的にはモデル全体の平均正答率に対して、個々のモデルの平均正答率の分散が小さく、かつモデル全体の正解する確率と不正解となる確率の差分が大きいものを識別力が高いサンプルとみなす。要は強いモデルが一貫して正解し、弱いモデルが一貫して不正解となるサンプルを識別力が高いとみなす。
といった話が元ポストに書かれている。
元ポスト:
[Paper Note] Fluid Language Model Benchmarking, Valentin Hofmann+, COLM'25
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #COLM #Author Thread-Post Issue Date: 2025-09-17 GPT Summary- Fluid Benchmarkingという新しい言語モデル(LM)評価アプローチを提案。これは、LMの能力に応じて評価項目を動的に選択し、評価の質を向上させる。実験では、Fluid Benchmarkingが効率、妥当性、分散、飽和の4つの次元で優れたパフォーマンスを示し、静的評価を超えることでLMベンチマークを改善できることを示した。 Comment
元ポスト:
著者ポスト:
Machine Learning–Driven Language Assessment, LaFlair+, TACL'20
Paper/Blog Link My Issue
#NLP #Education #Assessment Issue Date: 2022-11-25
