Author Thread/Post


Paper/Blog Link My Issue
#LanguageModel #Alignment #ACL #Decoding #Findings #Routing #KeyPoint Notes #Test-time Alignment Issue Date: 2026-04-07 GPT Summary- 推論時に固定されたLLMsを用いて、トークンレベル適応ルーティング(TARo)を提案。報酬モデルにより数学的推論の一貫性信号を捉え、ルーターが基盤モデルを自動制御。TARoは推論性能を最大+22.4%向上させ、分布外の臨床推論や指示遵守を改善。再訓練なしでの一般化も可能で、堅牢な推論を実現。 Comment

元ポスト:

Loading…

巨大なベースモデル全体を特定ドメインに適用するためにpost-trainingするのは大変なので、代わりに小規模なdomain-expertなRewardモデルを学習し(今回は数学のstep-wiseにlogicが正しいことをpreferenceとして与えるような学習方法を採用したようである; 3.2節)、各decoding step tにおいて、ベースモデルとRewardモデルのトークンのlogitを線形補完することで、出力トークンをガイドする。logitの線形補完において、固定されたスカラー値(e.g., 0.5など。GenARMという手法らしい)を用いる研究などが先行研究ではあるが、これはベースモデルの特定タスクにおいてベースモデルの性能を劣化させるので、本研究ではdecoding step t時点で出力されたベースモデル、Rewardモデルのlogitを入力として、FFNによって線形補完の重みα_tをdecoding step tごとに決定する(α_tを決定するネットワークをRouterと呼ぶ)。FFNは2種類のvariantがあり、双方のlogitをconcatしたものを入力するものと、top-kをサンプリングし、kごとにindexに基づいたembeddingをconcatして入力する方法の二種類がある(3.3節)。
image

結果としては、GenARMと比較して提案手法は有効ではあるが、ベースモデルとrewardモデルの組み合わせによっては、baseモデルよりも性能が悪化するということもありそうに見える。
image

またRouterはベースモデルのサイズを大きくしても、性能が転移するので再学習が不要である。
image




Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #ReinforcementLearning #AIAgents #TabularData #SelfImprovement #ACL #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-04-07 GPT Summary- 表の理解と推論を高めるため、マルチエージェントフレームワークMixture-of-Mindsを提案。計画、コーディング、回答の役割に分割し、各エージェントが特定の側面を担う。自己改善トレーニングにモンテカルロ木探索を用いて強化学習を最適化。実験結果ではTableBenchで62.13%の改善を達成し、構造化されたアプローチの有効性を示す。 Comment

元ポスト:

Loading…

複雑なタスクを特化型のエージェントに分解し、個々のエージェントを学習するためのpseudo-gold trajectoryを合成しエージェントをFinetuning。その後、FinetuningしたエージェントをGRPOによってend-to-endで学習する、という話に見える。pseudo-gold trajectoryは、個々の特化型のエージェントに対して複数の解候補を出力させ、解候補を次のエージェントに入力し解候補を生成...という手順をsequentialに適用していき、最終的に正しい応答を導き出せたtrajectoryを後ろ向きにたどることによって、pseudo-gold trajectoryを得る。FinetuningとRLがどのような順番で実施されるか、あるいは繰り返されるのか、といった部分についてはしっかり読み解けていない。

image

表データで実験をしているが、それは一つの応用例であり、汎用的に利用可能な手法と考えられる。




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #ICLR #PostTraining #Selected Papers/Blogs #Stability #needs-revision #EntropyCollapse Issue Date: 2026-04-01 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=E8MR8jgEeZ

PPO/GRPOなどのアルゴリズムではRL中にポリシーの多様性が低下し、ポリシーがdeterministicになり探索をしなくなり、パフォーマンスが停滞するか低下する(あるいはベースモデルでもともと高い尤度を持っていた解のPass@1が改善するが、ポリシーの出力が狭くなるため、Pass@kが犠牲になる)現象が生じる(= entropy collapse)ので、それを是正したいという話。

後ほど追記




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #PostTraining #BudgetAllocation Issue Date: 2026-03-29 GPT Summary- LLMの推論進展は、損失関数の洗練とアライメント戦略の整合によって進むが、標準的なRLパラダイムは一様性に縛られ、難問への対応に非効率を生む。これに対抗するため、動的に訓練分布を適応させるMulti-Adversary GDROを提案。オンライン難易度分類器を導入し、プロンプトを難易度グループに区分。二つのGDROゲームを提示し、頻度バイアスを排除しつつ難易度の高いプロンプトを強化。Qwen3-Baseでの実験により、精度がGRPOと比較して高まることを確認。新たなカリキュラムが観察され、リソースが推論のフロンティアへシフトすることで性能向上を促進。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Infrastructure #ReinforcementLearning #Architecture #SoftwareEngineering #read-later #On-Policy #Stability #One-Line Notes Issue Date: 2026-03-28 GPT Summary- ProRL Agentは、マルチターンのLLMエージェントにおける強化学習トレーニングを支援するためのAPIサービスであり、ロールアウトのライフサイクル全体を提供するスケーラブルなインフラです。標準化されたサンドボックス環境を通じて、多様なエージェント駆動タスクに対応し、ソフトウェア工学やSTEM関連のタスクで検証されています。ProRL Agentはオープンソースで、NVIDIA NeMo Gymに統合されています。 Comment

元ポスト:

Loading…

処理が重いロールアウトを独立したhttp serviceとして扱い(rollout-as-a-service)、モデルのtrainingと分離することで、リソース分離、可搬性、拡張性を向上させる。
image




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #PostTraining #Diversity #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-03-28 GPT Summary- LMは質問に対して複数の回答候補を暗黙のうちに生成するが、訓練後のプロセスで単一の回答に圧縮されることが多い。医療診断や曖昧な質問応答などのタスクにおいては、複数の妥当な回答が必要とされる。本論文では、複数回答を扱う強化学習アプローチを提案し、モデルが単一の前方伝搬で複数の候補を生成できるようにする。実験により、多様性やカバレッジが改善し、コーディングタスクでは精度も向上した。提案手法は、計算資源効率の高い代替として評価されている。 Comment

元ポスト:

Loading…

ユーザのクエリにおいては正解が単一ではないものがしばしば存在するが、現在のRLの枠組みはモデルが出力した一つのbest answerに対して報酬を与えるように設計されているため、これによりモデルの出力が一つのモードに固執する、あるいはmode collapseを引き起こす。これを解決するために、モデルに複数の回答とそのconfidenceを一つのpromptで思考させ、k個出力させる。rewardはk個中何個のanswerが正解だったか、confidenceが実際のanswerのcorrectnessとどれだけ近いかなどに基づいて報酬を与えるような枠組みを採用することで、モデルの出力の多様性やcoverageが増加し、repeated sampling時のトークン効率も改善した、と言う話らしい。




Paper/Blog Link My Issue
#LanguageModel #Coding #SoftwareEngineering #read-later #Verification #Proofs Issue Date: 2026-03-28 GPT Summary- 大規模言語モデル(LLMs)はコード生成が可能だが、正確性に限界がある。これを克服するために、Lean 4における階層的証明探索フレームワークを提案し、複雑な検証目標を単純なサブゴールに分解する。分解スコアは訓練報酬と推論時の基準として機能し、最適化とデプロイメントの整合性を保証。Goedel-Code-Prover-8Bを利用し、教師あり初期化後にハイブリッド強化学習で訓練。Leanベースのコード検証ベンチマークでは、62.0%の証明成功率を実現し、強力なベースラインを2.6倍上回る成果を達成した。また、推論時のスケーリングによって成功率の向上が観察された。 Comment

元ポスト:

Loading…

解説:

Loading…




Paper/Blog Link My Issue
Issue Date: 2026-03-28 GPT Summary- SSLの現状は、生成的アプローチ(例:MAE)と予測的アプローチ(例:I-JEPA)によって支配され、各々長所と短所があります。Bootlegを提案し、教師ネットワークの複数の隠れ層から潜在表現を予測することで、このギャップを埋める階層的な目的を導入。これにより、異なる抽象度の特徴を同時に捉え、ImageNet-1KやiNaturalist-21の分類、ADE20KとCityscapesのセマンティックセグメンテーションで顕著な改善を示しました。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #read-later #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2026-03-26 GPT Summary- Delightful Policy Gradient(DG)は、ポリシー勾配の不均衡なアップデートを解消するために、アドバンテージと行動の驚きの積に基づいたゲーティングを導入。これにより、単一コンテキスト内での方向性の精度を理論的に向上させ、複数コンテキスト間での期待される勾配を精密に近づけることができる。実験的に、DGはREINFORCEやPPOをMNISTや連続制御タスクで上回り、特に難易度の高いタスクで顕著な改善を示した。 Comment

関連:
- [Paper Note] Maximum Likelihood Reinforcement Learning, Fahim Tajwar+, arXiv'26, 2026.02

元ポスト:

Loading…

所見:

Loading…

著者ポスト:

Loading…


不要なbackward passの重みを下げるのではなく完全に無くすことで効率化する




Paper/Blog Link My Issue
#NLP #LanguageModel #PEFT(Adaptor/LoRA) #read-later #memory #Initial Impression Notes #SoftPrompt #Test Time Training (TTT) Issue Date: 2026-03-26 GPT Summary- 長い文脈をコンパクトに保存するGradMemを提案。これは、推論時に文脈へアクセスできない状況で、文脈を圧縮して数のクエリに応答する。モデルの重みを凍結し、少量のプレフィックストークンで数ステップの勾配降下を行うことで、文脈の再構成を最適化。連想キー-値検索において、GradMemは従来の手法より優れた性能を発揮し、自然言語タスクで競争力のある結果を示す。 Comment

元ポスト:

Loading…

prefixにmemory用のトークンを用意し、TTTの枠組みでcontextのreconstruction lossを通じて圧縮する、という話に見える。tokenはsoft tokenであり、m*d次元の行列で表現される。

要はcontextの潜在表現をReconstruction lossによるTTTでprefix tuningするsoft prompting手法、という感じだろうか。




Paper/Blog Link My Issue
#read-later #Selected Papers/Blogs Issue Date: 2026-03-26 GPT Summary- AIエージェントが長期間稼働するためには動的環境への適応が求められるが、既存のベンチマークは時間的依存性や技術的負債を考慮していない。この問題を解決するため、DeepCommitを導入し、ノイズのあるコミットログからマイルストーンDAGを再構築。EvoClawという新たなベンチマークを作成し、エージェントに長期的なソフトウェア進化の課題を課す。評価では、孤立したタスクに対して80%以上のパフォーマンスが、連続的な設定で38%まで低下し、エージェントの維持管理能力に脆弱性が見られた。 Comment

leaderboard: https://evo-claw.com/

元ポスト:

Loading…

OpenHands(著者グループ)のスレッド:

Loading…




Paper/Blog Link My Issue
Issue Date: 2026-03-26 GPT Summary- 単一画像から3D物体の形状や運動パラメータを共同推定するために、提案されたMonoArtフレームワークは、視覚情報を段階的に変換し、安定した可動推定を実現する。既存の手法のスケーラビリティや効率性の問題を克服し、PartNet-Mobilityデータセットで最先端の再構成精度と推論速度を達成。ロボット操作や可動シーン再構成にも応用可能。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #Evaluation #Initial Impression Notes Issue Date: 2026-03-25 GPT Summary- プロンプトの性能を細粒度で評価するため、安価な自動評価データと限られた人間によるゴールドスタンダードラベルを統合した新しい統計モデルを提案。自動評価スコアを基に生成モデルの潜在表現を事前学習し、小さな較正セットで人間の嗜好に整合。これにより、標準ベースラインを上回る精度で人間の嗜好を予測し、詳細なリーダーボードの構築やモデルのパフォーマンス推定が可能になることを示す。 Comment

元ポスト:

Loading…

少量の人間ラベルとLLMによって合成されたraterでテンソルを作り(モデル、prompt, rateのテンソル)を行列分解することで、効率的に(=人間のrateはscarceなので行列分解を通じて潜在表現に落としてサンプル効率を高める、というより次元の呪いを回避する?)単一のスコアでのモデル評価ではなく、様々な異質のpromptの元でのスコアリング(=finegrained evaluation)を実現する、という話に見える。




Paper/Blog Link My Issue
#ComputerVision #read-later #Selected Papers/Blogs #Stability #WorldModels #Pixel-based Issue Date: 2026-03-24 GPT Summary- LeWorldModel(LeWM)は、原始ピクセルからエンドツーエンドで訓練できる最初のJoint Embedding Predictive Architecture(JEPA)を提案。従来の手法に比べ、調整可能な損失のハイパーパラメータを6個から1個に減らし、約1500万パラメータを持つLeWMは、ファウンデーションモデルより最大48倍速く学習。2Dおよび3Dの制御タスクで競争力を維持し、潜在空間が物理的構造を符号化していることを示す驚き評価も行われ、物理的に妥当でないイベントを検出する能力を確認。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#read-later #Selected Papers/Blogs Issue Date: 2026-03-22 GPT Summary- 数学的オブジェクトの推論能力はSTEM分野で重要であり、現在の評価は簡略化された形式に依存している。本研究では、(i) 数学的オブジェクトを導出する訓練データとベンチマークを公開、(ii) LLMを用いた性能向上のための訓練レシピを提案、(iii) 計算量をスケールさせるオンポリシー訓練法を示した。強力なLLMが苦戦する中、提案手法は顕著な改善をもたらし、推論能力の一般化を示している。 Comment

pj page: https://facebookresearch.github.io/RAM/blogs/principia/

元ポスト:

Loading…

ポイント解説:

Loading…

section2に関する著者のポイント解説:

Loading…

ポイント解説:

Loading…




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #mid-training #read-later #Selected Papers/Blogs #Reference Collection Issue Date: 2026-03-19 GPT Summary- PRISMの中間トレーニング設計の実証研究を行い、様々なモデルやアーキテクチャで統制実験を実施。約270億トークンのデータを使用し、数学、コード、科学ベンチマークで一貫した性能改善を達成。RLパイプラインは推論ベンチマークのスコアを大幅に向上させるも、基盤モデルへの直接適用では効果が薄い。中間トレーニングがモデル性能を効果的に高めることを示し、信頼性の向上に役立つ中間トレーニングの重要性を強調。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

ポイント解説:

Loading…




Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #MoE(Mixture-of-Experts) #Selected Papers/Blogs #Reference Collection #Scalability Issue Date: 2026-03-12 GPT Summary- MoEモデルのスケーリングには、パラメータの増加によるメモリ、通信、計算の制約が伴う。これを解決するために、メモリの再計算やオフロード、通信の最適化、計算のグループ化などを統合的に最適化するフレームワークを提案。これにより、長い文脈の効率化や低精度訓練サポートも実現。数兆パラメータのMoEモデルを数千台のGPUで訓練可能なオープンソースソリューションとして、実運用向けの指針を提供。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

所見:

Loading…

所見:

Loading…




Paper/Blog Link My Issue
#Analysis #NLP #Dataset #LanguageModel #AIAgents #Evaluation #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2026-03-04 GPT Summary- AIエージェントの開発は、労働市場のベンチマーク上で進められているが、その代表性は不明である。本研究では、43のベンチマークと72,342のタスクを分析し、エージェント開発と米国労働市場の職業との整合性を測定。プログラミング重視の開発と人間労働の価値の乖離を指摘し、エージェントの自律性を評価することで実用的な指針を提供。最後に、社会的に重要な労働を捉えるベンチマーク設計のための3つの原則を提案。 Comment

元ポスト:

Loading…

AI Agentのベンチマークは実際の人間の労働に本当に紐づいたタスクで評価されているのか?という疑問に答えてくれる研究のようで、実際のAI Agentのベンチマークと人間の業務、それらのcapitalをマッピングしたところ、現在のAI Agentのベンチマークは過剰に数学とコーディングドメインに偏っており、実態としての人間の労働や、それらの中でcapitalが集中しているドメインに対するカバレッジが大きく不足していることがわかった。

ドメインごとに見ると、デジタル化がされていて高付加価値のドメインのいくつか(マネジメントや法務)のベンチマークは少なく、スキルをベースに見るとベンチマークは情報取得やエンジニアリングといった狭いスコープばかりに焦点が当たっていて(これらの人間の労働に占める割合は<7%にすぎない)、多くの他のスキルが無視されている状況とのこと。

また、エージェントの自律性を細分された尺度で評価するために、どの程度のレベルの複雑さのタスクであればreliableにagentがこなせるかという観点を導入し、タスクの複雑性に関するスケールを導入し比較を可能にした、といった話が元ポストに書かれている。

現在提供されているベンチマークにおいて、おそらくタスク全体のうちの個別のサブタスクごとに複雑度をラベル付けして、複雑度を軸にサブタスクの成功/失敗をtrajectoryから分析することで、タスクの複雑度を軸に成功率を分析したグラフを見ると、タスクの複雑度に対して基本的にはどのドメイン、スキル、エージェントフレームワーク、バックボーンモデルであれ複雑度な上がれば上がるほど成功率は減少していく傾向にあり、成功率は最終的に20%--0%付近まで低下する。

最終的に、エージェントの評価ベンチマークにおいては、実際の労働に対するカバレッジ、現実的であること(=実際のドメインや必要となるスキルを捉えており、実タスク全体を捉えたようなものが必要でFigure4にベンチマークごとのドメインとスキルのカバレッジが可視化されている)、より粒度の細かい評価が必要(タスク全体の成功/失敗でのみ評価すると、タスクのどこまでできていたのか?という重要なシグナルが欠落する)であることが議論されている。




Paper/Blog Link My Issue
#Multi #NLP #ReinforcementLearning #AIAgents #Test-Time Scaling #PostTraining #LongHorizon #GPUKernel #Environment Issue Date: 2026-02-06 GPT Summary- 高品質のカーネル生成はスケーラブルなAIシステムの鍵であり、そのためのLLM訓練には十分なデータと堅牢な環境が必要です。本研究では、KernelGYMを設計し、報酬ハッキングを防ぐマルチターンRL手法を検討します。TRLOOを提案し、偏ったポリシー勾配問題を解決。訓練されたDr.Kernel-14Bは高性能を達成し、生成されたカーネルの31.6%がTorch参照に対して1.2倍のスピードアップを実現しました。全リソースはGitHubで公開されています。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #UserModeling #Dataset #LanguageModel #UserBased #AIAgents #Evaluation #ACL #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-08 GPT Summary- TraitBasisを用いて、会話型AIエージェントの堅牢性を体系的にテストする手法を提案。ユーザーの特性(せっかちさや一貫性のなさ)を制御し、AIエージェントのパフォーマンス低下を観察。最前線のモデルで2%-30%の性能低下を確認し、現在のAIエージェントの脆弱性を示す。TraitBasisはシンプルでデータ効率が高く、現実の人間の相互作用における信頼性向上に寄与する。$\tau$-Traitをオープンソース化し、コミュニティが多様なシナリオでエージェントを評価できるようにした。 Comment

元ポスト:

Loading…

実際の人間にあるような癖(のような摂動)を与えた時にどれだけロバストかというのは実応用上非常に重要な観点だと思われる。元ポストを見ると、LLM内部のmatmulを直接操作することで、任意のレベルの人間の特性(e.g.,疑い深い、混乱、焦りなど)を模倣する模様。