Reranking
#Multi
#Pocket
#NLP
#LanguageModel
#Test-Time Scaling
#read-later
#Selected Papers/Blogs
#RewardModel
#One-Line Notes
#GenerativeVerifier
Issue Date: 2025-11-20 [Paper Note] Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains, Austin Xu+, arXiv'25, 2025.10 GPT Summary- 専門的な生成評価者のファインチューニングに関する研究で、250万サンプルのデータセットを用いて、シンプルな教師ありファインチューニング(SFT)アプローチでFARE(基盤自動推論評価者)をトレーニング。FARE-8Bは大規模なRLトレーニング評価者に挑戦し、FARE-20Bは新たなオープンソース評価者の標準を設定。FARE-20BはMATHでオラクルに近いパフォーマンスを達成し、下流RLトレーニングモデルの性能を最大14.1%向上。FARE-Codeはgpt-oss-20Bを65%上回る品質評価を実現。 Comment
#RecommenderSystems #InformationRetrieval #Pocket #LanguageModel #SmallModel
Issue Date: 2025-09-03 [Paper Note] ProRank: Prompt Warmup via Reinforcement Learning for Small Language Models Reranking, Xianming Li+, arXiv'25 GPT Summary- 再ランキングにおいて、SLMを用いた新しい二段階トレーニングアプローチProRankを提案。まず、強化学習を用いてSLMがタスクプロンプトを理解し、粗い関連スコアを生成。次に、ファインチューニングを行い再ランキングの質を向上。実験結果では、ProRankが先進的な再ランキングモデルを上回り、特にProRank-0.5Bモデルが32B LLMを超える性能を示した。 Comment
#Article #RecommenderSystems #Embeddings #InformationRetrieval #NLP #Blog #OpenWeight
Issue Date: 2025-11-20 Introducing zerank-2: The Most Accurate Multilingual Instruction-Following Reranker, ZeroEntropy, 2025.11 Comment
Issue Date: 2025-11-20 [Paper Note] Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains, Austin Xu+, arXiv'25, 2025.10 GPT Summary- 専門的な生成評価者のファインチューニングに関する研究で、250万サンプルのデータセットを用いて、シンプルな教師ありファインチューニング(SFT)アプローチでFARE(基盤自動推論評価者)をトレーニング。FARE-8Bは大規模なRLトレーニング評価者に挑戦し、FARE-20Bは新たなオープンソース評価者の標準を設定。FARE-20BはMATHでオラクルに近いパフォーマンスを達成し、下流RLトレーニングモデルの性能を最大14.1%向上。FARE-Codeはgpt-oss-20Bを65%上回る品質評価を実現。 Comment
HF: https://huggingface.co/collections/Salesforce/fare
元ポスト:
これは素晴らしい。使い道がたくさんありそうだし、RLに利用したときに特定のデータに対して特化したモデルよりも優れた性能を発揮するというのは驚き。
#RecommenderSystems #InformationRetrieval #Pocket #LanguageModel #SmallModel
Issue Date: 2025-09-03 [Paper Note] ProRank: Prompt Warmup via Reinforcement Learning for Small Language Models Reranking, Xianming Li+, arXiv'25 GPT Summary- 再ランキングにおいて、SLMを用いた新しい二段階トレーニングアプローチProRankを提案。まず、強化学習を用いてSLMがタスクプロンプトを理解し、粗い関連スコアを生成。次に、ファインチューニングを行い再ランキングの質を向上。実験結果では、ProRankが先進的な再ランキングモデルを上回り、特にProRank-0.5Bモデルが32B LLMを超える性能を示した。 Comment
元ポスト:
#Article #RecommenderSystems #Embeddings #InformationRetrieval #NLP #Blog #OpenWeight
Issue Date: 2025-11-20 Introducing zerank-2: The Most Accurate Multilingual Instruction-Following Reranker, ZeroEntropy, 2025.11 Comment
HF: https://huggingface.co/zeroentropy/zerank-2
SoTA reranker
#Article
#RecommenderSystems
#InformationRetrieval
#OpenWeight
#Encoder
Issue Date: 2025-10-23
zerank-1, zeroentropy, 2025.07
Comment
SoTAなcross-encoderに基づくreranker。おそらく英語にのみ対応。
zerank-1はcc-by-nc-4.0, smallはApache2.0ライセンス