IRT
[Paper Note] Fluid Language Model Benchmarking, Valentin Hofmann+, COLM'25
Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Evaluation #COLM Issue Date: 2025-09-17 GPT Summary- Fluid Benchmarkingという新しい言語モデル(LM)評価アプローチを提案。これは、LMの能力に応じて評価項目を動的に選択し、評価の質を向上させる。実験では、Fluid Benchmarkingが効率、妥当性、分散、飽和の4つの次元で優れたパフォーマンスを示し、静的評価を超えることでLMベンチマークを改善できることを示した。 Comment
元ポスト:
著者ポスト:
Machine Learning–Driven Language Assessment, LaFlair+, TACL'20
Paper/Blog Link My Issue
#Education #Assessment Issue Date: 2022-11-25