SamplingParamsに関する論文・技術記事メモの一覧

SamplingParams

[Paper Note] Optimizing Temperature for Language Models with Multi-Sample Inference, Weihua Du+, ICML'25, 2025.02

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Test-Time Scaling #Best-of-N #MajorityVoting Issue Date: 2025-09-24 GPT Summary- マルチサンプル集約戦略を用いて、LLMの最適な温度を自動的に特定する手法を提案。従来の方法に依存せず、モデルアーキテクチャやデータセットを考慮した温度の役割を分析。新たに提案するエントロピーに基づく指標は、固定温度のベースラインを上回る性能を示し、確率過程モデルを用いて温度とパフォーマンスの関係を解明。 Comment

openreview: https://openreview.net/forum?id=rmWpE3FrHW¬eId=h9GETXxWDB

[Paper Note] Adaptive Decoding via Latent Preference Optimization, Shehzaad Dhuliawala+, arXiv'24

Paper/Blog Link My Issue
#NLP #LanguageModel #Decoding Issue Date: 2024-11-15 GPT Summary- Adaptive Decodingを導入し、推論時にトークンや例ごとに動的にサンプリング温度を選択することで、言語モデルのパフォーマンスを最適化。Latent Preference Optimization（LPO）を用いて温度選択を学習し、UltraFeedbackやCreative Story Writing、GSM8Kなどのタスクで固定温度を超える性能を達成。 Comment

著者ポスト:

Loading…

Mismatch Praxis: Rollout Settings and IS Corrections, LLM Data, 2025.12

Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #ReinforcementLearning #Blog #One-Line Notes #LongHorizon #train-inference-gap Issue Date: 2025-12-04 Comment

元ポスト:

Loading…

on-policy RLにおけるロールアウト時のtemperature, top_p, top_kの設定、およびlong horizonの場合でのtrain-inference mismatchの関係性の分析