EfficientEvaluationに関する論文・技術記事メモの一覧

EfficientEvaluation

[Paper Note] PACE: A Proxy for Agentic Capability Evaluation, Yueqi Song+, arXiv'26, 2026.07

Paper/Blog Link My Issue
#AIAgents #Author Thread-Post Issue Date: 2026-07-08 GPT Summary- PACEフレームワークを用いて、高価で時間のかかるエージェント性ベンチマークの性能を、選択された小規模な評価インスタンスに基づいて予測可能であるかを検討。この手法により、14モデルと4つのエージェント性ベンチマークに対して、エージェントスコアを高い精度で予測し、全体の評価コストを1%未満に削減。PACEは、モデル開発や選択の際にエージェント性能の効率的かつ信頼性の高い推定を提供する。 Comment

元ポスト:

Loading…

[Paper Note] You Don't Need to Run Every Eval, Yuchen Zeng+, arXiv'26, 2026.06

Paper/Blog Link My Issue
#NLP #LanguageModel #Evaluation #Author Thread-Post Issue Date: 2026-07-03 GPT Summary- 84のフロンティアモデルを133のベンチマークで評価し、スコア行列を作成した結果、モデルのスコアは主に2つの因子に依存することが明らかになった。これに基づき、行列補完法「BenchPress」を設計し、隠れたスコアを高精度で回復。特定のベンチマークのサブセットでは、モデルの未公開スコアを3.93ポイント以内に予測可能であり、より安価な評価セットでも高い精度を示した。スコア行列、BenchPressのコード、および対話型ツールを公開。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

pj page: https://microsoft.github.io/benchpress/

[Paper Note] DISCO: Diversifying Sample Condensation for Efficient Model Evaluation, Alexander Rubinstein+, ICLR'26, 2025.10

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Evaluation #ICLR #read-later #Selected Papers/Blogs Issue Date: 2026-02-28 GPT Summary- 機械学習モデルの評価は高コストであり、従来のアプローチは二段階でサブセットを選び、精度を学習する。しかし、選択がクラスタリングに依存するため設計に敏感である。我々は、モデルの応答の多様性を最大化するサンプル選択が重要であると提唱し、$\textbf{DISCO}$手法を提案。これはモデル間の不一致を基にサンプルを選ぶもので、理論的にも最適であり、MMLUやHellaswagなどで最先端の性能を達成した。 Comment

pj page: https://arubique.github.io/disco-site/

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=SoOgBHa3dZ

Accelerating Transformers Fine-Tuning with NVIDIA NeMo AutoModel, nvidia, 2026.06

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #MoE(Mixture-of-Experts) #PostTraining #Selected Papers/Blogs #Finetuning #reading #One-Line Notes Issue Date: 2026-07-05 Comment

わずか数行を追加するだけで、MoEモデルをマルチGPU環境でFinetuningする際のスループットが約3--4倍、メモリ使用量が30%程度削減されるライブラリ。既存のQwen, Nemotron, GPT-OSS, DeepSeek V3などの一般的なMoEアーキテクチャに対して、最適化済みの実装が提供されているとのこと。

repository: https://github.com/NVIDIA-NeMo/Automodel

LitServe, 2024.04

Paper/Blog Link My Issue
#Article #MachineLearning #Library #MultiModal #Repository #API #One-Line Notes Issue Date: 2024-08-25 Comment

FastAPIより2倍早いAPIライブラリ。LLMやVisionなど多くのモーダルに対応し、マルチワーカーでオートスケーリングやバッチングやストリーミングにも対応。PyTorchモデルだけでなく、JAXなど様々なフレームワークのモデルをデプロイ可能
元ツイート:

Loading…