Rerankingに関する論文・技術記事メモの一覧

Reranking

[Paper Note] CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning, Jie He+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#InformationRetrieval #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-11-29 GPT Summary- CLaRa（Continuous Latent Reasoning）は、RAGの課題を解決するために提案された統一フレームワークで、埋め込みベースの圧縮と共同最適化を行う。SCPを用いて意味的に豊かで検索可能な圧縮ベクトルを生成し、リランカーとジェネレーターをエンドツーエンドで訓練する。実験結果は、CLaRaが最先端の性能を達成し、テキストベースのファインチューニングされたベースラインを上回ることを示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains, Austin Xu+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #Test-Time Scaling #read-later #Selected Papers/Blogs #RewardModel #One-Line Notes #GenerativeVerifier Issue Date: 2025-11-20 GPT Summary- 専門的な生成評価者のファインチューニングに関する研究で、250万サンプルのデータセットを用いて、シンプルな教師ありファインチューニング（SFT）アプローチでFARE（基盤自動推論評価者）をトレーニング。FARE-8Bは大規模なRLトレーニング評価者に挑戦し、FARE-20Bは新たなオープンソース評価者の標準を設定。FARE-20BはMATHでオラクルに近いパフォーマンスを達成し、下流RLトレーニングモデルの性能を最大14.1%向上。FARE-Codeはgpt-oss-20Bを65%上回る品質評価を実現。 Comment

HF: https://huggingface.co/collections/Salesforce/fare

元ポスト:

Loading…

これは素晴らしい。使い道がたくさんありそうだし、RLに利用したときに特定のデータに対して特化したモデルよりも優れた性能を発揮するというのは驚き。

[Paper Note] ProRank: Prompt Warmup via Reinforcement Learning for Small Language Models Reranking, Xianming Li+, arXiv'25

Paper/Blog Link My Issue
#RecommenderSystems #InformationRetrieval #LanguageModel #SmallModel Issue Date: 2025-09-03 GPT Summary- 再ランキングにおいて、SLMを用いた新しい二段階トレーニングアプローチProRankを提案。まず、強化学習を用いてSLMがタスクプロンプトを理解し、粗い関連スコアを生成。次に、ファインチューニングを行い再ランキングの質を向上。実験結果では、ProRankが先進的な再ランキングモデルを上回り、特にProRank-0.5Bモデルが32B LLMを超える性能を示した。 Comment

元ポスト:

Loading…

[Paper Note] RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners, Chi Hu+, arXiv'24, 2024.03

Paper/Blog Link My Issue
#InformationRetrieval #LearningToRank #NLP #LanguageModel #Prompting #Reasoning #COLING #Initial Impression Notes #LREC Issue Date: 2024-04-07 GPT Summary- LLMの論理的エラーを解決するために、自己ランク付けを可能にする新手法RankPromptを提案。これは、多様な応答を比較し、LLMの文脈的生成能力を活用する。実験ではChatGPTやGPT-4の性能が最大13%向上し、AlpacaEvalデータセットでは人間の判断との74%の一致率を示した。また、応答の順序や一貫性の変動にも強い耐性を持つことが確認された。RankPromptは高品質なフィードバックを引き出す有効な手法である。 Comment

LLMでランキングをするためのプロンプト手法。独立したプロンプトでスコアリングしスコアリング結果からランキングするのではなく、LLMに対して比較するためのルーブリックやshotを入れ、全てのサンプルを含め、1回のPromptingでランキングを生成するような手法に見える。大量の候補をランキングするのは困難だと思われるが、リランキング手法としては利用できる可能性がある。また、実験などでランキングを実施するサンプル数に対してどれだけ頑健なのかなどは示されているだろうか？