Arena
ChatBot Arena, lmsys org, 2023.05
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #Selected Papers/Blogs #One-Line Notes Issue Date: 2023-05-04 Comment
クラウドソーシング型のチャットボット評価するシステム。ユーザはシステムにアクセスすると、二つのanonymisedされたLLMと対話し、どちらが優れていたかをvotingする。すべてのシステムとユーザのinteractionはロギングされており、最終的にElo RatingでLLM.をランキング付けする。
Arena-Hardと呼ばれるliveアリーナデータを用いたパイプラインを公開。MT-Benchよりも識別力が高く、Chatbot Arenaのランキングとのagreementが高いとのこと。
参考:
過去のデータについては ChatBot Arenaのデータセット などもある
