Clustering-based

#Pocket #NLP #LanguageModel #read-later #Verification
Issue Date: 2025-10-03 [Paper Note] CLUE: Non-parametric Verification from Experience via Hidden-State Clustering, Zhenwen Liang+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデル(LLM)の出力品質評価において、従来の方法は表面的な手がかりに依存しがちで、信頼度のキャリブレーションが不十分な場合に失敗することがある。本研究では、隠れ状態を直接検証する新たなアプローチ「Clue」を提案し、隠れ活性化の軌跡を用いて推論の正確性を分類する。Clueは非パラメトリックな検証器で、過去の経験に基づくクラスタリングを行い、LLMを判定者とするベースラインを上回る成果を示した。特に、AIME 24において精度を56.7%から70.0%に向上させた。 Comment

元ポスト:

Loading…