Reranking


Paper/Blog Link My Issue
#InformationRetrieval #Pocket #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-11-29 GPT Summary- CLaRa(Continuous Latent Reasoning)は、RAGの課題を解決するために提案された統一フレームワークで、埋め込みベースの圧縮と共同最適化を行う。SCPを用いて意味的に豊かで検索可能な圧縮ベクトルを生成し、リランカーとジェネレーターをエンドツーエンドで訓練する。実験結果は、CLaRaが最先端の性能を達成し、テキストベースのファインチューニングされたベースラインを上回ることを示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…



Paper/Blog Link My Issue
#Multi #Pocket #NLP #LanguageModel #Test-Time Scaling #read-later #Selected Papers/Blogs #RewardModel #One-Line Notes #GenerativeVerifier Issue Date: 2025-11-20 GPT Summary- 専門的な生成評価者のファインチューニングに関する研究で、250万サンプルのデータセットを用いて、シンプルな教師ありファインチューニング(SFT)アプローチでFARE(基盤自動推論評価者)をトレーニング。FARE-8Bは大規模なRLトレーニング評価者に挑戦し、FARE-20Bは新たなオープンソース評価者の標準を設定。FARE-20BはMATHでオラクルに近いパフォーマンスを達成し、下流RLトレーニングモデルの性能を最大14.1%向上。FARE-Codeはgpt-oss-20Bを65%上回る品質評価を実現。 Comment

HF: https://huggingface.co/collections/Salesforce/fare

元ポスト:

Loading…

これは素晴らしい。使い道がたくさんありそうだし、RLに利用したときに特定のデータに対して特化したモデルよりも優れた性能を発揮するというのは驚き。




Paper/Blog Link My Issue
#RecommenderSystems #InformationRetrieval #Pocket #LanguageModel #SmallModel Issue Date: 2025-09-03 GPT Summary- 再ランキングにおいて、SLMを用いた新しい二段階トレーニングアプローチProRankを提案。まず、強化学習を用いてSLMがタスクプロンプトを理解し、粗い関連スコアを生成。次に、ファインチューニングを行い再ランキングの質を向上。実験結果では、ProRankが先進的な再ランキングモデルを上回り、特にProRank-0.5Bモデルが32B LLMを超える性能を示した。 Comment

元ポスト:

Loading…