PairWiseに関する論文・技術記事メモの一覧

PairWise

[Paper Note] ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking, Qiang Zhang+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#LearningToRank #Pocket #NLP #LanguageModel #ReinforcementLearning #PostTraining #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-01-16 GPT Summary- 強化学習はLLMエージェントのパフォーマンスを向上させたが、オープンエンドのタスクでは依然として課題が残る。報酬モデルが得点をスカラーで割り当てるため、識別が難しく、最適化が停滞する。これに対抗するために、ArenaRLを提案し、相対ランキングに基づく新しいアプローチを導入。プロセス意識の対評価メカニズムを用いて、安定した利点信号を得るためのトーナメント方式を採用。実験結果は、この手法が効率性と精度のバランスを保ちながら、従来のベースラインを超えることを示す。また、オープンエンドエージェント向けの高品質ベンチマークOpen-TravelとOpen-DeepResearchも構築された。 Comment

元ポスト:

Loading…

pj page: https://tongyi-agent.github.io/blog/arenarl/

従来のRLが各ロールアウトごとにpoint-wiseなrewardを付与していたとみなしたときに、定量化が困難なタスクにおいてrewardのsignalがノイジーでうまくいかないという現象が生じ、それに対し相対的な指標であるpairwiseなrankingを導入するというのは直感的に非常に有効で、さまざまなタスクに適用しうるため、インパクトが大きく重要論文に見える。

Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting, Zhen Qin+, N_A, NAACL'24

Paper/Blog Link My Issue
#InformationRetrieval #LearningToRank #NLP #LanguageModel #Prompting #NAACL Issue Date: 2023-07-11 GPT Summary- LLMsを使用してドキュメントをランキングする際に、Pairwise Ranking Prompting（PRP）という新しい技術を提案する。PRPは、LLMsへの負荷を軽減し、最先端のランキングパフォーマンスを達成することができる。具体的には、20Bパラメータを持つFlan-UL2モデルに基づくPRPは、商用のGPT-4に基づく従来の手法を上回る結果を示した。さらに、PRPのバリアントを提案し、効率を改善することができることを示した。PRPは生成とスコアリングのLLM APIの両方をサポートし、入力の順序に対して無感度であることも示された。 Comment

open source LLMにおいてスタンダードなランキングタスクのベンチマークでSoTAを達成できるようなprompting技術を提案

従来のランキングのためのpromptingはpoint-wiseとlist wiseしかなかったが、前者は複数のスコアを比較するためにスコアのcalibrationが必要だったり、OpenAIなどのAPIはlog probabilityを提供しないため、ランキングのためのソートができないという欠点があった。後者はinputのorderingに非常にsensitiveであるが、listのすべての組み合わせについてorderingを試すのはexpensiveなので厳しいというものであった。このため（古典的なlearning to rankでもおなじみや）pairwiseでサンプルを比較するランキング手法PRPを提案している。

PRPはペアワイズなのでorderを入れ替えて評価をするのは容易である。また、generation modeとscoring mode（outputしたラベルのlog probabilityを利用する; OpenLLMを使うのでlog probabilityを計算できる）の2種類を採用できる。ソートの方法についても、すべてのペアの勝敗からから単一のスコアを計算する方法（AllPair), HeapSortを利用する方法、LLMからのoutputを得る度にon the flyでリストの順番を正しくするSliding Windowの3種類を提案して比較している。

下表はscoring modeでの性能の比較で、GPT4に当時は性能が及んでいなかった20BのOpenLLMで近しい性能を達成している。

また、PRPがinputのorderに対してロバストなことも示されている。

LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion, Dongfu Jiang+, N_A, ACL'23

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Ensemble #ACL #ModelMerge Issue Date: 2023-06-16 GPT Summary- LLM-Blenderは、複数の大規模言語モデルを組み合わせたアンサンブルフレームワークであり、PairRankerとGenFuserの2つのモジュールから構成されています。PairRankerは、専門的なペアワイズ比較方法を使用して候補の出力間の微妙な違いを区別し、GenFuserは、上位ランクの候補をマージして改善された出力を生成します。MixInstructというベンチマークデータセットを導入し、LLM-Blenderは、個々のLLMsやベースライン手法を大幅に上回り、大きなパフォーマンス差を確立しました。

[Paper Note] Large Scale Learning to Rank, Sculley+, NIPS'09

Paper/Blog Link My Issue
#InformationRetrieval #LearningToRank #NeurIPS #KeyPoint Notes Issue Date: 2018-01-01 Comment

sofia-mlの実装内容について記述されている論文

よくonline学習の文脈で触れられるが、気をつけないと罠にはまる。

というのは、sofia-ml内のMethodsによって、最適化している目的関数が異なるからだ。

実装をみると、全てのmethodsがonlineでできちゃいそうに見える（学習済みのモデルをinputして学習を再開させられるため）が、落とし穴。

まず、SGD SVM, Pegasos SVM,については、最適化している目的関数がbatchになっているため、online learningではない。

passive-aggressive perceptrionは目的関数が個別の事例に対して定式化される(要確認)のでonline learningといえる。

(ROMMAは調べないとわからん)

pairwiseのlearning to rankでは、サンプルのペアを使って学習するので、最悪の場合O(n^2)の計算量がかかってしまってめっちゃ遅いのだが、実は学習データを一部サンプリングして重みを更新するってのをたくさん繰り返すだけで、高速に学習できちゃうという話。

実際、sofia-mlを使って見たら、liblinearのranking SVM実装で40分かかった学習が数秒で終わり、なおかつ精度も良かった。

[Paper Note] Learning to Rank using Gradient Descent （RankNet）, Burges+, ICML'05

Paper/Blog Link My Issue
#InformationRetrieval #LearningToRank #ICML #Selected Papers/Blogs #One-Line Notes Issue Date: 2018-01-01 Comment

pair-wiseのlearning2rankで代表的なRankNet論文

解説ブログ： https://qiita.com/sz_dr/items/0e50120318527a928407

lossは2個のインスタンスのpair、A, Bが与えられたとき、AがBよりも高くランクされる場合は確率1, AがBよりも低くランクされる場合は確率0、そうでない場合は1/2に近くなるように、スコア関数を学習すれば良い。