Arena


Paper/Blog Link My Issue
#ComputerVision #Planning #Evaluation #Reasoning #read-later #Selected Papers/Blogs #WorldModels #LongHorizon #Simulation Issue Date: 2026-03-30 GPT Summary- WR-Arenaは、ワールドモデル(WMs)の評価を進化させるための包括的なベンチマークであり、次状態予測と視覚的忠実度に限らず、知的行動に必要なシミュレーション能力を検証します。三つの基本次元に焦点を当て、アクションシミュレーション忠実度、長期予測、シミュレーション推論と計画を評価します。多様なデータセットを使用して、既存モデルと人間レベルの推論との間のギャップを明らかにし、次世代WMsの指針を提供します。コードはhttps://github.com/MBZUAI-IFM/WR-Arenaで入手可能です。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #Selected Papers/Blogs #One-Line Notes Issue Date: 2023-05-04 Comment

クラウドソーシング型のチャットボット評価するシステム。ユーザはシステムにアクセスすると、二つのanonymisedされたLLMと対話し、どちらが優れていたかをvotingする。すべてのシステムとユーザのinteractionはロギングされており、最終的にElo RatingでLLM.をランキング付けする。

Arena-Hardと呼ばれるliveアリーナデータを用いたパイプラインを公開。MT-Benchよりも識別力が高く、Chatbot Arenaのランキングとのagreementが高いとのこと。

参考:

Loading…


image

過去のデータについては Chatbot Arena Conversation Dataset Release, LMSYS Org, 2023.07 などもある