PRMに関する論文・技術記事メモの一覧

PRM

#Pocket #NLP #Dataset #LanguageModel #Evaluation #Mathematics #Verification
Issue Date: 2025-10-17 [Paper Note] Hard2Verify: A Step-Level Verification Benchmark for Open-Ended Frontier Math, Shrey Pandit+, arXiv'25, 2025.10 GPT Summary- LLMに基づく推論システムがIMO 2025コンペで金メダルレベルのパフォーマンスを達成したが、各ステップの正確性と支持が求められる。これを実現するために、500時間以上の人間の労力で作成された「Hard2Verify」というステップレベル検証ベンチマークを提案。最前線のLLMによる応答のステップレベル注釈を提供し、エラーを特定する能力を評価。オープンソースの検証者はクローズドソースモデルに劣ることが示され、検証パフォーマンスの低下要因や計算能力の影響について分析を行った。 Comment

元ポスト:

Loading…

#Pocket
Issue Date: 2025-08-27 [Paper Note] StepWiser: Stepwise Generative Judges for Wiser Reasoning, Wei Xiong+, arXiv'25 GPT Summary- 多段階の推論戦略における中間ステップの論理的妥当性を監視するために、StepWiserモデルを提案。これは、生成的なジャッジを用いて推論ステップを評価し、強化学習で訓練される。中間ステップの判断精度を向上させ、ポリシーモデルの改善や推論時の探索を促進することを示す。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #ReinforcementLearning
Issue Date: 2025-06-26 [Paper Note] Process Reward Models That Think, Muhammad Khalifa+, arXiv'25 GPT Summary- 本研究では、データ効率の良いステップバイステップの検証器（ThinkPRM）を提案し、少ないプロセスラベルで高性能を実現します。ThinkPRMは、長いCoTモデルの推論能力を活用し、PRM800Kのわずか1%のプロセスラベルで、従来の検証器を上回る性能を示します。具体的には、ProcessBenchやMATH-500などのベースラインを超え、ドメイン外評価でも優れた結果を得ています。最小限の監視でのトレーニングを通じて、検証計算のスケーリングの重要性を強調しています。

#Pocket #NLP #LanguageModel #Reasoning Issue Date: 2025-06-25 [Paper Note] ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs, Jiaru Zou+, arXiv'25 GPT Summary- 新しいプロセス報酬モデルReasonFlux-PRMを提案し、推論トレースの評価を強化。ステップと軌道の監視を組み込み、報酬割り当てを細かく行う。実験により、ReasonFlux-PRM-7Bが高品質なデータ選択と性能向上を実現し、特に監視付きファインチューニングで平均12.1%の向上を達成。リソース制約のあるアプリケーション向けにReasonFlux-PRM-1.5Bも公開。 Comment

元ポスト:

Loading…

#NLP #LanguageModel #SyntheticData #Verification Issue Date: 2025-06-01 [Paper Note] Training Step-Level Reasoning Verifiers with Formal Verification Tools, Ryo Kamoi+, arXiv'25 GPT Summary- 本論文では、プロセス報酬モデル（PRMs）のトレーニングにおける2つの課題、すなわち高コストの人間による注釈と数学的推論問題への限定を解決するために、FoVerというアプローチを提案します。FoVerは形式的検証ツールを用いて自動的に段階レベルのエラーラベルを生成し、人的注釈なしでLLMの応答にエラーラベルを付与したデータセットを合成します。このデータセットでトレーニングされたPRMsは、元のLLMsに基づくベースラインを大幅に上回り、他の最先端モデルとも競争力のある結果を達成しました。 Comment

元ポスト:

Loading…

人手によるAnnotation（step levelのラベルのアノテーション)無しでProcsee Reward Modelの学習データを構築する手法

Z3やIsabelleなどの形式検証ツールが適用可能なタスクのみに提案手法のスコープは限られる点には注意

人手でアノテーションされたモデルと比較してcomparableなパフォーマンスを達成

スレッド中で評価データが数回のreasoning stepが必要なタスクのみの評価であり、より長く複雑なreasoning step（たとえば [Paper Note] BIG-Bench Extra Hard, Mehran Kazemi+, arXiv'25 ）が必要な場合はどうなるか？といった所に興味が寄せられている模様

#Pocket #NLP #Dataset #LanguageModel #ReinforcementLearning #Reasoning #ICLR #Selected Papers/Blogs Issue Date: 2025-06-26 [Paper Note] Let's Verify Step by Step, Hunter Lightman+, ICLR'24 GPT Summary- 大規模言語モデルの多段階推論能力が向上する中、論理的誤りが依然として問題である。信頼性の高いモデルを訓練するためには、結果監視とプロセス監視の比較が重要である。独自の調査により、プロセス監視がMATHデータセットの問題解決において結果監視を上回ることを発見し、78%の問題を解決した。また、アクティブラーニングがプロセス監視の効果を向上させることも示した。関連研究のために、80万の人間フィードバックラベルからなるデータセットPRM800Kを公開した。 Comment

OpenReview: https://openreview.net/forum?id=v8L0pN6EOi

PRM800K: https://github.com/openai/prm800k/tree/main

#Article #Pretraining #MachineLearning #NLP #LanguageModel #ReinforcementLearning #AIAgents #In-ContextLearning #Blog #RewardHacking #PostTraining #Diversity #Selected Papers/Blogs #Generalization #Cultural #Emotion Issue Date: 2025-10-20 Andrej Karpathy — AGI is still a decade away, DWARKESH PATEL, 2025.10 Comment

元ポスト:

Loading…

関連:
- In-context Steerbility: [Paper Note] Spectrum Tuning: Post-Training for Distributional Coverage and In-Context Steerability, Taylor Sorensen+, arXiv'25, 2025.10

（整理すると楽しそうなので後で関連しそうな研究を他にもまとめる）

とても勉強になる！AIに代替されない20%, 1%になるには果たして

所見:

Loading…