IRTに関する論文・技術記事メモの一覧

IRT

[Paper Note] Fluid Language Model Benchmarking, Valentin Hofmann+, COLM'25

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Evaluation #COLM Issue Date: 2025-09-17 GPT Summary- Fluid Benchmarkingという新しい言語モデル（LM）評価アプローチを提案。これは、LMの能力に応じて評価項目を動的に選択し、評価の質を向上させる。実験では、Fluid Benchmarkingが効率、妥当性、分散、飽和の4つの次元で優れたパフォーマンスを示し、静的評価を超えることでLMベンチマークを改善できることを示した。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

Machine Learning–Driven Language Assessment, LaFlair+, TACL'20

Paper/Blog Link My Issue
#Education #Assessment Issue Date: 2022-11-25