Online/Interactive


Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #OOD #LatentReasoning #One-Line Notes #Test-time Learning Issue Date: 2025-10-18 GPT Summary- Latent Thought Policy Optimization(LTPO)を提案し、LLMの推論を強化するパラメータフリーのフレームワークを導入。中間的な潜在「思考」ベクトルを動的に最適化し、外部監視なしで報酬信号に基づくオンラインポリシー勾配法を使用。5つの推論ベンチマークで強力な性能を示し、特にAIMEベンチマークで顕著な改善を達成。 Comment

元ポスト:

Loading…

test-time に online-RLを適用することでモデルのパラメータを更新することなく、クエリに応じて動的にlatent reasoningを洗練し、推論能力をロバストにできる、という話な模様?

image

実験結果を見ると、モデルのパラメータ数が大きい場合にgainが小さくなっていっているように見え、かつ実験中のlargest modelのgainがサンプル数の少ないAIMEのスコアに依存しているように見える。




Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #Pocket Issue Date: 2018-01-01 GPT Summary- オンライン深層学習(ODL)における課題に対処するため、DNNを逐次的に学習する新しいフレームワークを提案。特に、Hedge Backpropagation(HBP)手法を用いてDNNのパラメータをオンラインで効果的に更新し、定常的および概念漂流シナリオでの有効性を検証。

Paper/Blog Link My Issue
#InformationRetrieval #LearningToRank #Pocket #COLT Issue Date: 2018-01-01 GPT Summary- 相対的なペアワイズ比較を用いて文脈情報を活用した行動選択の学習問題を、デュエリングバンディットフレームワークで拡張して研究。新たに提案する「フォン・ノイマン勝者」は、他のポリシーに勝つか引き分けるランダム化ポリシーで、コンドルセ勝者の制限を克服。オンライン学習のための3つの効率的なアルゴリズムを提示し、特に低い後悔を達成するアルゴリズムはポリシー空間に対して線形の要件を持つ。その他の2つは、オラクルへのアクセスがあれば対数的な要件で済む。

Paper/Blog Link My Issue
#InformationRetrieval #LearningToRank #Interleaved #WSDM Issue Date: 2018-01-01 Comment

[Paper Note] Interactively Optimizing Information Retrieval Systems as a Dueling Bandits Problem, Yue+, ICML'09 DBGDを拡張した手法を提案している。

アルゴリズムが細かく書いてあるので、追っていくとDBGD等について理解が深まると思われる。

Interleavemethodについても。




Paper/Blog Link My Issue
#InformationRetrieval #LearningToRank #ICML Issue Date: 2018-01-01 Comment

online learning to rankに関する論文でよくreferされる論文



提案手法は、Dueling Bandit Gradient Descent(DBGD)と呼ばれる.



onlineでlearning to rankを行える手法で、現在の重みwとwをランダムな方向に動かした新たな重みw'を使って、予測を行い、duelを行う。

duelを行った結果、新たな重みw'の方が買ったら、重みwをその方向に学習率分更新するというシンプルな手法



duelのやり方は、詳しく書いてないからなんともよくわからなかったが、Interleavedなlist(二つのモデルのoutputを混合したリスト)などを作り、実際にユーザにリストを提示してユーザがどのアイテムをクリックしたかなどから勝敗の確率値を算出し利用する、といったやり方が、IRの分野では行われている。



onlineでユーザのフィードバックから直接モデルを学習したい場合などに用いられる。



offlineに持っているデータを使って、なんらかのmetricを計算してduelをするという使い方をしたかったのだが、その使い方はこの手法の本来の使い方ではない(単純に何らかのmetricに最適化するというのであれば目的関数が設計できるのでそっちの手法を使ったほうが良さそうだし)。

そもそもこの手法は単純にMetricとかで表現できないもの(ユーザの満足度とか)を満たすようなweightをexploration/exploitationを繰り返して見つけていこう、というような気持ちだと思われる。