Arena
[Paper Note] World Reasoning Arena, PAN Team+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#ComputerVision #Planning #Evaluation #Reasoning #read-later #Selected Papers/Blogs #WorldModels #LongHorizon #Simulation Issue Date: 2026-03-30 GPT Summary- WR-Arenaは、ワールドモデル(WMs)の評価を進化させるための包括的なベンチマークであり、次状態予測と視覚的忠実度に限らず、知的行動に必要なシミュレーション能力を検証します。三つの基本次元に焦点を当て、アクションシミュレーション忠実度、長期予測、シミュレーション推論と計画を評価します。多様なデータセットを使用して、既存モデルと人間レベルの推論との間のギャップを明らかにし、次世代WMsの指針を提供します。コードはhttps://github.com/MBZUAI-IFM/WR-Arenaで入手可能です。 Comment
元ポスト:
ChatBot Arena, lmsys org, 2023.05
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #Selected Papers/Blogs #One-Line Notes Issue Date: 2023-05-04 Comment
クラウドソーシング型のチャットボット評価するシステム。ユーザはシステムにアクセスすると、二つのanonymisedされたLLMと対話し、どちらが優れていたかをvotingする。すべてのシステムとユーザのinteractionはロギングされており、最終的にElo RatingでLLM.をランキング付けする。
Arena-Hardと呼ばれるliveアリーナデータを用いたパイプラインを公開。MT-Benchよりも識別力が高く、Chatbot Arenaのランキングとのagreementが高いとのこと。
参考:
過去のデータについては Chatbot Arena Conversation Dataset Release, LMSYS Org, 2023.07 などもある
