Verification

#Pocket#NLP#LanguageModel
Issue Date: 2025-06-25 Shrinking the Generation-Verification Gap with Weak Verifiers, Jon Saad-Falcon+, arXiv25 Comment元ポスト:https://x.com/jonsaadfalcon/status/1937600479527317802?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Analysis#Pocket#NLP#LanguageModel#SelfImprovement#ICLR#read-later
Issue Date: 2025-06-24 Mind the Gap: Examining the Self-Improvement Capabilities of Large Language Models, Yuda Song+, ICLR25 Comment参考:https://joisino.hatenablog.com/entry/misleadVerificationに対する理解を深めるのに非常に良さそう ... #Analysis#Pocket#NLP#LanguageModel#ICLR
Issue Date: 2025-06-24 On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks, Kaya Stechly+, ICLR25 Comment参考:https://joisino.hatenablog.com/entry/misleadOpenReview:https://openreview.net/forum?id=4O0v4s3IzY ...

#Pocket#NLP#LanguageModel
Issue Date: 2025-06-03 xVerify: Efficient Answer Verifier for Reasoning Model Evaluations, Ding Chen+, arXiv25 #Pocket#NLP#LanguageModel#read-later#VerifiableRewards#RLVR
Issue Date: 2025-06-03 Pitfalls of Rule- and Model-based Verifiers -- A Case Study on Mathematical Reasoning, Yuzhen Huang+, arXiv25 Comment元ポスト:https://x.com/junxian_he/status/1929371821767586284?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qverificationタスクに特化してfinetuningされたDiscriminative Classifierが、rewa ... #NLP#LanguageModel#SyntheticData#PRM
Issue Date: 2025-06-01 Training Step-Level Reasoning Verifiers with Formal Verification Tools, Ryo Kamoi+, arXiv25 Comment元ポスト:https://x.com/ryokamoi/status/1925939062348697874?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q人手によるAnnotation(step levelのラベルのアノテーション)無しでProcsee Reward Modelの学習デ ... #EfficiencyImprovement#Pocket#NLP#LanguageModel#ICLR#Test-Time Scaling
Issue Date: 2025-05-13 Faster Cascades via Speculative Decoding, Harikrishna Narasimhan+, ICLR25 Comment元ポスト:https://x.com/hillbig/status/1922059828429832259?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QOpenReview: https://openreview.net/forum?id=vo9t20wsmd ... #Pocket#NLP#LanguageModel#Test-Time Scaling
Issue Date: 2025-03-18 Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification, Eric Zhao+, arXiv25 Comment元ポスト:https://x.com/ericzhao28/status/1901704339229732874?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qざっくりしか読めていないが、複数の解答をサンプリングして、self-verificationをさせて最も良かったものを選択するア ... #Pocket#NLP#DataAugmentation#Distillation#NAACL
Issue Date: 2024-12-02 Reverse Thinking Makes LLMs Stronger Reasoners, Justin Chih-Yao Chen+, NAACL25 Comment## 手法概要Original QuestionからTeacher Modelでreasoningと逆質問を生成(Forward Reasoning, Backward Question)し、逆質問に対するReasoningを生成する(Backward Reasoning)。その後、Forwa ... #NLP#LanguageModel#SelfCorrection#ICLR
Issue Date: 2024-09-11 Generative Verifiers: Reward Modeling as Next-Token Prediction, Lunjun Zhang+, N_A, ICLR25 CommentLLMがリクエストに対する回答を生成したのちに、その回答をverifyするステップ + verifyの結果から回答を修正するステップを全てconcatした学習データをnext token predictionで用いることによって、モデル自身に自分の回答をverifyする能力を身につけさせることができ ... #NLP#LanguageModel#QuestionAnswering#Chain-of-Thought#Prompting#ACL
Issue Date: 2023-09-30 Chain-of-Verification Reduces Hallucination in Large Language Models, Shehzaad Dhuliawala+, N_A, ACL24 Summary私たちは、言語モデルが根拠のない情報を生成する問題に取り組んでいます。Chain-of-Verification(CoVe)メソッドを開発し、モデルが回答を作成し、検証し、最終的な回答を生成するプロセスを経ることで、幻想を減少させることができることを実験で示しました。 Comment# 概要 ユーザの質問から、Verificationのための質問をplanningし、質問に対して独立に回答を得たうえでオリジナルの質問に対するaggreementを確認し、最終的に生成を実施するPrompting手法 # 評価 ## dataset Wikidata ... image#Pocket#NLP#LanguageModel#Reasoning#ICLR
Issue Date: 2023-08-08 SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning, Ning Miao+, N_A, ICLR24 Summary最新の大規模言語モデル(LLMs)は、推論問題を解決するために有望な手法ですが、複雑な問題にはまだ苦戦しています。本研究では、LLMsが自身のエラーを認識する能力を持っているかどうかを探求し、ゼロショットの検証スキームを提案します。この検証スキームを使用して、異なる回答に対して重み付け投票を行い、質問応答のパフォーマンスを向上させることができることを実験で確認しました。 Commentこれはおもしろそう。後で読むOpenReview:https://openreview.net/forum?id=pTHfApDakA ... #Pocket#NLP#Dataset#LanguageModel#Supervised-FineTuning (SFT)#Mathematics
Issue Date: 2024-12-27 Training Verifiers to Solve Math Word Problems, Karl Cobbe+, arXiv21 Comment## 気持ち 当時の最も大きいレベルのモデルでも multi-stepのreasoningが必要な問題は失敗する モデルをFinetuningをしても致命的なミスが含まれる 特に、数学は個々のミスに対して非常にsensitiveであり、一回ミスをして異なる解法のパスに入ってしまうとTodo: 続きを ... #Article#NLP#LanguageModel#RLHF#Blog
Issue Date: 2025-06-24 人間を騙してサボるAIたち, joisino, 2025.06