Samplers


Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Reasoning #Diversity Issue Date: 2025-10-18 GPT Summary- 本研究では、強化学習を用いずに、サンプリングによって大規模言語モデルの推論能力を引き出す方法を提案。マルコフ連鎖モンテカルロ技術に基づく反復サンプリングアルゴリズムを用い、MATH500、HumanEval、GPQAなどのタスクでRLに匹敵するかそれを上回る性能を示す。さらに、トレーニングや特別なデータセットを必要とせず、広範な適用可能性を持つことを示唆。 Comment

pj page: https://aakaran.github.io/reasoning_with_sampling/

元ポスト:

Loading…