SelfVerificationに関する論文・技術記事メモの一覧

SelfVerification

[Paper Note] Self-Verified Distillation: Your Language Model Is Secretly Its Own Synthetic Data Pipeline, Tony Lee+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #PostTraining #Selected Papers/Blogs #Label-free #reading #KeyPoint Notes #SelfDistillation Issue Date: 2026-05-31 GPT Summary- LLMがラベルなしシード問題から自己改善できるかを探求。自己検証蒸留というアルゴリズムで、生成した候補解をプロンプトベースでフィルタリングし、自己精選データを構築。循環的一貫性、事実性、正確性の3段階で解を承認し、より高品質なデータが優れたモデルへと導く。Qwen3モデルでは、数学・科学・コーディングの各ドメインで顕著な性能向上を確認。特にQwen3-4Bでは、特定のベンチマークでの改善が見られ、従来手法に比べ優れた性能を達成。 Comment

元ポスト:

Loading…

- 事後学習済みのLLMを外部のverifier, ground-truthデータ無しで、UQ Verifierに基づいたself-judgementで構築した合成データでSFTすることで性能を押し上げる手法
- データ構築では、1つのラベル無しseed questionに対してn回の応答生成を行い、それらをUQ style verifierでフィルタリングしたデータによって構築する。
- UQ Verifierは、マルチステージのverifierで（今回はself judgment)、各ステージごとにv回のvotingを実施する。各ステージは以下:
- cycle consistency: モデルが生成した応答から質問を逆生成し、オリジナルの問題のコアとなる課題が共通しているかを検証する。
- factual error check: 事実情報にエラーがないかを検証する。
- total correctness: 思考過程と最終的な結論に誤りがないかを検証する。
- 学習データの構築に計算量を増やせば増やすほど性能が向上する (Figure 3)
- test-time verificationのコストを、データ構築時に前払いし、運用時は1度のinferenceでtest-time verification導入時と同等以上の性能を達成する(Table 3)

自己検証LLMによる日本司法試験短答式試験合格, Shin Andrew, NLP'26

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #Japanese #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2026-03-11 Comment

非常に興味深い。読みたい。

[Paper Note] $V_1$: Unifying Generation and Self-Verification for Parallel Reasoners, Harman Singh+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#PairWise #NLP #LanguageModel #read-later #Initial Impression Notes Issue Date: 2026-03-06 GPT Summary- 複雑な推論タスクにおける性能向上のため、ペアワイズ自己検証を活用したフレームワーク$V_1$を提案。$V_1$は、不確実性の高い候補ペアに動的に検証計算を割り当てる$V_1$-Inferと、生成器と検証器を共同訓練する$V_1$-PairRLから成る。これにより、コード生成や数学的推論のベンチマークで顕著な性能向上を実現。また、後者は従来の手法より高い効率を達成。 Comment

元ポスト:

Loading…

self-verificationが進化するとdownstreamタスクの性能に多大な影響が出るし、かつ既存のモデルはフロンティアモデルであってもself-verificationは何らかのガイダンスがないと上手くできないことが示されているので [Paper Note] RefineBench: Evaluating Refinement Capability of Language Models via Checklists, Young-Jun Lee+, ICLR'26, 2025.11 、もしガイダンス無しでうまくできるという話であればおもしろそう

- [Paper Note] RefineBench: Evaluating Refinement Capability of Language Models via Checklists, Young-Jun Lee+, ICLR'26, 2025.11

[Paper Note] Learning to Self-Verify Makes Language Models Better Reasoners, Yuxin Chen+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Reasoning #RLVR #Selected Papers/Blogs #KeyPoint Notes #Initial Impression Notes Issue Date: 2026-02-10 GPT Summary- LLMの生成能力は高いが、自己検証では弱いという非対称性を調査。生成が向上しても自己検証に改善は見られず、逆に自己検証の学習が生成性能を向上させることが示された。生成訓練に自己検証を統合するマルチタスク強化学習フレームワークを提案し、両者の性能向上を実証。 Comment

元ポスト:

Loading…

LLMの生成能力を高めるようにRLによって事後学習をしてもVerificationの能力は向上しないが、LLMが自身の出力に対してVerificationが正しくできるようにRLVRすると生成と自己検証能力の双方が向上する。

クエリに対して応答を生成し、フィルタリング（応答が長すぎるもの、全ての応答が誤りのもの、最終的な回答が存在しないもの等）を実施した後、クエリレベルで多様なクエリが存在するようにする（多様性）を保ちつつ、overfittingを避けるために正解・不正解がバランスよく存在するように自己検証のためのデータを作成（モデルは学習の初期のロールアウトは不正解ばかり生成し、後半は正解ばかり生成するといった偏りが存在する）し、式（4）で定義される自身が生成した応答が正解か否かを二値分類した結果に基づくRewardを用いてGRPOする、という手法ように見える。

ざーっと見た感じtest time scalingの実験が無いように見えたが、この方法で自己検証をモデルができるようになると、test time scalingした時の性能も向上するのではないか。

また下記研究で示されている通り、現在のLLMはself refine能力が低く何らかのガイドがないと自身で応答を改善していけないため、現在のLLMの弱みを克服するのに有効な手法に見え、非常に興味深い研究だと感じる。

- [Paper Note] RefineBench: Evaluating Refinement Capability of Language Models via Checklists, Young-Jun Lee+, ICLR'26, 2025.11

[Paper Note] Test-time Recursive Thinking: Self-Improvement without External Feedback, Yufan Zhuang+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #Test-Time Scaling #Decoding Issue Date: 2026-02-05 GPT Summary- LLMが自己改善できるかを探求し、2つの課題—候補解の生成と正しい回答の選択—を特定。テスト時再帰的思考（TRT）フレームワークを提案し、生成を戦略や知識に基づいて条件付けることで、オープンソースモデルがAIME-25/24で100%の精度を達成、クローズドソースモデルは外部フィードバックなしで問題解決能力を向上させた。 Comment

元ポスト:

Loading…

[Paper Note] Beyond Speedup -- Utilizing KV Cache for Sampling and Reasoning, Zeyu Xing+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Embeddings #NLP #LanguageModel #read-later #Selected Papers/Blogs #KV Cache #DownstreamTasks #Adaptive #Initial Impression Notes Issue Date: 2026-01-30 GPT Summary- KVキャッシュを文脈情報の軽量な表現として再利用し、再計算や保存の必要を排除。KV由来の表現は、（i）チェーン・オブ・エンベディングで競争力のある性能を発揮し、（ii）ファスト/スロー思考切替でトークン生成を最大5.7倍削減する一方、精度損失を最小限に抑える。これにより、KVキャッシュがLLM推論における表現再利用の新たな基盤となることを示す。 Comment

元ポスト:

Loading…

KV Cacheを軽量なhidden stateを表すembeddingとして扱うことで色々と応用できます、という話に見え、たとえばデコーディングの途中でhallucinationをdetectする際により省メモリで実現できたり、fast/d slowなthinkingの切り替えの制御に利用するなど、単に次トークンを生成する際の高速化の用途を超えて使うという興味深い発想な研究に見える。

[Paper Note] Latent Space Chain-of-Embedding Enables Output-free LLM Self-Evaluation, Yiming Wang+, ICLR'25, 2024.10

Paper/Blog Link My Issue
#Embeddings #NLP #LanguageModel #ICLR Issue Date: 2026-01-30 GPT Summary- LLMの自己評価において、出力なしで正確さを推定するために、潜在空間のEmbeddingの連鎖（CoE）を提案。CoEは推論中の隠れ状態を反映し、正誤に基づく応答の特徴を明らかにする。実験により、トレーニングなしでミリ秒単位のコストでリアルタイムフィードバックが可能で、LLM内部の状態変化から新たな洞察が得られることを示した。 Comment

openreview: https://openreview.net/forum?id=jxo70B9fQo

[Paper Note] Training AI Co-Scientists Using Rubric Rewards, Shashwat Goel+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #ReinforcementLearning #AIAgents #ScientificDiscovery #PostTraining #Science #Rubric-based Issue Date: 2025-12-31 GPT Summary- AI共同科学者は研究計画を生成するツールとして登場しているが、既存の言語モデルは制約に従った計画生成に苦労している。本研究では、研究論文のコーパスを活用し、研究目標と評価基準を自動抽出して訓練コーパスを構築。自己評価による強化学習を用いてモデルを訓練し、専門家による評価でファインチューニングされたモデルが初期モデルよりも好まれる結果を得た。医療論文へのアプローチ拡張でも改善が見られ、スケーラブルな訓練方法の可能性を示唆している。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] From Solving to Verifying: A Unified Objective for Robust Reasoning in LLMs, Xiaoxuan Wang+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#NLP #LanguageModel #Reasoning #SelfCorrection #read-later Issue Date: 2025-11-20 GPT Summary- LLMの推論能力を向上させるため、生成と自己検証を統一した損失関数で共同最適化するGRPO-Verifアルゴリズムを提案。実験により、自己検証能力が向上しつつ推論性能を維持できることを示した。 Comment

元ポスト:

Loading…

[Paper Note] How Well Can Reasoning Models Identify and Recover from Unhelpful Thoughts?, Sohee Yang+, EMNLP'25, 2025.06

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Chain-of-Thought #Reasoning #SelfCorrection #EMNLP Issue Date: 2025-11-04 GPT Summary- 推論モデルの自己再評価能力を調査し、役に立たない思考の4つのタイプを特定。モデルは無駄話や無関係な思考を効果的に識別できるが、それらが注入されると回復に苦労し、性能が低下することを示した。特に、大きなモデルは短い無関係な思考からの回復が難しい傾向があり、自己再評価の改善が求められる。これにより、より良い推論と安全なシステムの開発が促進される。 Comment

元ポスト:

Loading…

元ポスト:

Loading…

[Paper Note] Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards, Xiaoyuan Liu+, NeurIPS'25

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #NeurIPS #read-later #RLVR #On-Policy #Initial Impression Notes Issue Date: 2025-09-19 GPT Summary- RISEという新しいオンラインRLフレームワークを提案し、LLMの問題解決能力と自己検証能力を同時に向上させる。結果検証者からの報酬を活用し、解決策生成と自己検証に即時フィードバックを提供。実験により、RISEは問題解決精度を向上させ、自己検証スキルを育成することが示された。RISEは堅牢で自己認識のある推論者を育成するための効果的な手法である。 Comment

元ポスト:

Loading…

Self-Verificationの能力が大幅に向上するのは良さそう。

[Paper Note] Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification, Eric Zhao+, ICML'25

Paper/Blog Link My Issue
#NLP #LanguageModel #ICML #Test-Time Scaling #Verification #One-Line Notes #Author Thread-Post Issue Date: 2025-03-18 GPT Summary- サンプリングベースの探索は、複数の候補応答を生成し最良のものを選ぶ手法であり、自己検証によって正確性を確認します。本研究では、この探索のスケーリング傾向を分析し、シンプルな実装がGemini v1.5 Proの推論能力を向上させることを示しました。自己検証の精度向上は、より大きな応答プールからのサンプリングによるもので、応答間の比較が有益な信号を提供することや、異なる出力スタイルが文脈に応じて役立つことを明らかにしました。また、最前線のモデルは初期の検証能力が弱く、進捗を測るためのベンチマークを提案しました。 Comment

元ポスト:

Loading…

ざっくりしか読めていないが、複数の解答をサンプリングして、self-verificationをさせて最も良かったものを選択するアプローチ。最もverificationスコアが高い解答を最終的に選択したいが、tieの場合もあるのでその場合は追加のpromptingでレスポンスを比較しより良いレスポンスを選択する。これらは並列して実行が可能で、探索とself-verificationを200個並列するとGemini 1.5 Proでo1-previewよりも高い性能を獲得できる模様。Self-consistencyと比較しても、gainが大きい。具体的なアルゴリズムはAlgorithm1を参照のこと。

openreview: https://openreview.net/forum?id=wl3eI4wiE5

[Paper Note] Large Language Models are Better Reasoners with Self-Verification, Yixuan Weng+, EMNLP'23 Findings, 2022.12

Paper/Blog Link My Issue
#NLP #LanguageModel Issue Date: 2025-09-25 GPT Summary- LLMsはCoTプロンプティングにより強力な推論能力を示すが、エラーの蓄積に脆弱である。本研究では、LLMsが自己検証能力を持つことを提案し、推論した回答を逆検証することで解釈可能な検証スコアを得る手法を示す。実験により、提案手法が算数、常識、論理推論タスクでの性能を向上させることが確認された。 Comment

openreview: https://openreview.net/forum?id=s4xIeYimGQ

[Paper Note] SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning, Ning Miao+, arXiv'23, 2023.08

Paper/Blog Link My Issue
#NLP #LanguageModel #Reasoning #SelfCorrection #ICLR #Test-Time Scaling #Verification Issue Date: 2023-08-08 GPT Summary- LLMの段階的推論能力を活用し、自己検証(SelfCheck)を提案してLLM自身が誤りを認識することを目指す。誤りの認識にはゼロショット検証スキームを用い、その結果を基に重み付き投票で回答性能を向上。GSM8K、MathQA、MATHデータセットで評価し、誤り認識の効果と正確性向上を確認。 Comment

これはおもしろそう。後で読む

OpenReview: https://openreview.net/forum?id=pTHfApDakA