ReinforcementLearning
#Analysis#Pocket#NLP#LanguageModel#TransferLearning#DPO#GRPO#VerifiableRewards#Off-Policy#On-Policy#Non-VerifiableRewards
Issue Date: 2025-06-30 Bridging Offline and Online Reinforcement Learning for LLMs, Jack Lanchantin+, arXiv25 Comment元ポスト:https://x.com/jaseweston/status/1939673136842313960?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Analysis#Pocket#NLP#LanguageModel#mid-training#PostTraining#read-later#Admin'sPick
Issue Date: 2025-06-27 OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling, Zengzhi Wang+, arXiv25 Comment元ポスト:https://x.com/sinclairwang1/status/1938244843857449431?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qmid-trainingの観点から、post trainingにおけるRLがスケーリングする条件をsystematical ... #Pocket#NLP#LanguageModel
Issue Date: 2025-06-27 RLPR: Extrapolating RLVR to General Domains without Verifiers, Tianyu Yu+, arXiv25 Comment元ポスト:https://x.com/hillbig/status/1938359430980268329?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q既存のRLVRはVerifierを構築しなければならず、しばしばそのVerifierは複雑になりやすく、スケールさせるには課題があった ...
Issue Date: 2025-06-30 Bridging Offline and Online Reinforcement Learning for LLMs, Jack Lanchantin+, arXiv25 Comment元ポスト:https://x.com/jaseweston/status/1939673136842313960?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Analysis#Pocket#NLP#LanguageModel#mid-training#PostTraining#read-later#Admin'sPick
Issue Date: 2025-06-27 OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling, Zengzhi Wang+, arXiv25 Comment元ポスト:https://x.com/sinclairwang1/status/1938244843857449431?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qmid-trainingの観点から、post trainingにおけるRLがスケーリングする条件をsystematical ... #Pocket#NLP#LanguageModel
Issue Date: 2025-06-27 RLPR: Extrapolating RLVR to General Domains without Verifiers, Tianyu Yu+, arXiv25 Comment元ポスト:https://x.com/hillbig/status/1938359430980268329?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q既存のRLVRはVerifierを構築しなければならず、しばしばそのVerifierは複雑になりやすく、スケールさせるには課題があった ...
#Pocket#NLP#LanguageModel#PRM
Issue Date: 2025-06-26 Process Reward Models That Think, Muhammad Khalifa+, arXiv25 #Pocket#NLP#LanguageModel#RewardHacking
Issue Date: 2025-06-26 Robust Reward Modeling via Causal Rubrics, Pragya Srivastava+, arXiv25 Comment元ポスト:https://x.com/harman26singh/status/1937876897058181230?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q以下がresearch question:#OpenWeight#OpenSource#PostTraining
Issue Date: 2025-06-18 AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy, Zihan Liu+, arXiv25 Comment元ポスト:https://x.com/ychennlp/status/1935005283178492222?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q様々なtakeawayがまとめられている。SFT,RLに利用されたデータも公開#1829において事前学習時に4 epochまでは性能 ... #NLP#LanguageModel#Supervised-FineTuning (SFT)
Issue Date: 2025-06-13 Self-Adapting Language Models, Adam Zweiger+, arXiv25 Comment元ポスト:https://x.com/jyo_pari/status/1933350025284702697?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QコンテキストCと評価データtauが与えられたとき、Cを入力した時にモデルが自分をSFTし、tau上でより高い性能を得られるようなサン ... #Pretraining#Pocket#NLP#LanguageModel
Issue Date: 2025-06-12 Reinforcement Pre-Training, Qingxiu Dong+, arXiv25 Comment元ポスト:https://x.com/hillbig/status/1932922314578145640?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #EfficiencyImprovement#Pocket#NLP#LanguageModel#Alignment#Safety
Issue Date: 2025-06-11 Saffron-1: Towards an Inference Scaling Paradigm for LLM Safety Assurance, Ruizhong Qiu+, arXiv25 Comment元ポスト:https://x.com/gaotangli/status/1932289294657626189?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #MachineLearning#Pocket
Issue Date: 2025-06-10 Horizon Reduction Makes RL Scalable, Seohong Park+, arXiv25 Comment元ポスト:https://x.com/hillbig/status/1932205263446245798?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket#NLP#LanguageModel#LLMAgent#Coding
Issue Date: 2025-06-06 Training Language Models to Generate Quality Code with Program Analysis Feedback, Feng Yao+, arXiv25 Comment元ポスト:https://x.com/fengyao1909/status/1930377346693116350?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q現在のCoding LLMはUnitTestを通るように学習されるが、UnitTestに通るからといってコードの品質が良いわけ ... #Pocket#NLP#LanguageModel#Programming#SoftwareEngineering#UnitTest
Issue Date: 2025-06-05 Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning, Yinjie Wang+, arXiv25 Comment元ポスト:https://x.com/lingyang_pu/status/1930234983274234232?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QUnitTestの性能向上させます系の研究が増えてきている感関連ポスト:https://x.com/gm8xx8/status ... #Analysis#Pocket#NLP#LanguageModel#read-later
Issue Date: 2025-06-04 ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models, Mingjie Liu+, arXiv25 Comment元ポスト:https://x.com/hillbig/status/1930043688329326962?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket#NLP#LanguageModel#Reasoning
Issue Date: 2025-05-27 Learning to Reason without External Rewards, Xuandong Zhao+, arXiv25 Comment元ポスト:https://x.com/xuandongzhao/status/1927270931874910259?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qおもしろそうexternalなsignalをrewardとして用いないで、モデル自身が内部的に保持しているconfidenc ... #Analysis#Pocket#NLP#Dataset#LanguageModel#Supervised-FineTuning (SFT)#Evaluation#Mathematics#InstructionFollowingCapability
Issue Date: 2025-05-24 Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models, Tingchen Fu+, arXiv25 Comment元ポスト:https://x.com/yafuly/status/1925753754961236006?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #EfficiencyImprovement#Pocket#NLP#LanguageModel#Chain-of-Thought#Reasoning
Issue Date: 2025-05-21 AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning, Chenwei Lou+, arXiv25 CommentRLのRewardにおいて、bassのリワードだけでなく、reasoningをなくした場合のペナルティ項reasoningをoveruseした場合のペナルティ項formattingに関するペナルティ項を設定し、reasoningの有無を適切に判断できた場合にrewardが最大化さいつか必要になったら ... #Pocket#NLP#LanguageModel#LLM-as-a-Judge#PostTraining#GRPO#VerifiableRewards
Issue Date: 2025-05-16 J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning, Chenxi Whitehouse+, arXiv25 Comment元ポスト:https://x.com/jaseweston/status/1923186392420450545?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QLLM-as-a-Judgeのなめのモデルを学習するレシピにおいて、初めてRLを適用した研究と主張し、より高品質なreasoni ... #EfficiencyImprovement#Pocket#NLP#LanguageModel#read-later
Issue Date: 2025-05-09 Reinforcement Learning for Reasoning in Large Language Models with One Training Example, Yiping Wang+, arXiv25 Comment下記ポストでQwenに対してpromptを適切に与えることで、追加のpost training無しで高い数学に関する能力を ... #EfficiencyImprovement#Pocket#NLP#Reasoning#PEFT(Adaptor/LoRA)#GRPO
Issue Date: 2025-05-07 Tina: Tiny Reasoning Models via LoRA, Shangshang Wang+, arXiv25 Comment元ポスト:https://x.com/rasbt/status/1920107023980462575?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q(おそらく)Reasoningモデルに対して、LoRAとRLを組み合わせて、reasoning能力を向上させた初めての研究 ... #Survey#Pocket#LanguageModel#Supervised-FineTuning (SFT)#Chain-of-Thought#InstructionTuning#PPO (ProximalPolicyOptimization)#Reasoning#LongSequence#RewardHacking#GRPO#Contamination#VerifiableRewards#CurriculumLearning
Issue Date: 2025-05-06 100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models, Chong Zhang+, arXiv25 Comment元ポスト:https://x.com/_philschmid/status/1918898257406709983?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qサーベイのtakeawayが箇条書きされている。 ... #Pocket#NLP#LanguageModel#Supervised-FineTuning (SFT)#DiffusionModel#Reasoning#PostTraining#GRPO
Issue Date: 2025-04-18 d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning, Siyan Zhao+, arXiv25 Comment元ポスト:https://x.com/iscienceluvr/status/1912785180504535121?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QdLLMに対してGRPOを適用する手法(diffuGRPO)を提案している。long CoTデータでSFTしてreasoni ... #Analysis#NLP#LanguageModel#Supervised-FineTuning (SFT)#Evaluation#SmallModel#PostTraining#read-later
Issue Date: 2025-04-13 A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility, Andreas Hochlehnert+, arXiv25 Comment元ポスト:https://x.com/wenhuchen/status/1911143014258405420?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QSLMをmath reasoning向けにpost-trainingする場合、RL(既存研究で試されているもの)よりも(大規模モデ ... #MachineLearning#Pocket#LanguageModel#Reasoning#LongSequence
Issue Date: 2025-04-08 VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks, YuYue+, arXiv25 Comment同じくByteDanceの#1815を上回る性能元ポスト:https://x.com/_akhaliq/status/19 ... #MachineLearning#Pocket#LanguageModel#Reasoning#LongSequence#GRPO#read-later
Issue Date: 2025-03-20 DAPO: An Open-Source LLM Reinforcement Learning System at Scale, Qiying Yu+, arXiv25 Comment既存のreasoning modelのテクニカルレポートにおいて、スケーラブルなRLの学習で鍵となるレシピは隠されていると主張し、実際彼らのbaselineとしてGRPOを走らせたところ、DeepSeekから報告されているAIME2024での性能(47ポイント)よりもで 大幅に低い性能(30ポイント ... #Analysis#Pocket#NLP#LanguageModel#Supervised-FineTuning (SFT)#RLHF
Issue Date: 2025-03-17 All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning, Gokul Swamy+, arXiv25 Comment元ポスト:https://x.com/hillbig/status/1901392286694678568?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QAlignmentのためのPreferenceデータがある時に、そのデータから直接最尤推定してモデルのパラメータを学習するのではなく、 ... #Analysis#Pocket#NLP#LanguageModel#Supervised-FineTuning (SFT)
Issue Date: 2025-02-18 Scaling Test-Time Compute Without Verification or RL is Suboptimal, Amrith Setlur+, arXiv25 Comment元ポスト:https://x.com/iscienceluvr/status/1891839822257586310?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q#1749 ... #Pocket#NLP#LanguageModel#SyntheticData#CodeGeneration#SyntheticDataGeneration
Issue Date: 2025-02-12 ACECODER: Acing Coder RL via Automated Test-Case Synthesis, Huaye Zeng+, arXiv25 #Analysis#NLP#LanguageModel#Supervised-FineTuning (SFT)#Chain-of-Thought#Reasoning#LongSequence#RewardHacking#PostTraining
Issue Date: 2025-02-07 Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, arXiv25 Comment元ポスト:https://x.com/xiangyue96/status/1887332772198371514?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q元ポストのスレッド中に論文の11個の知見が述べられている。どれも非常に興味深い。DeepSeek-R1のテクニカルペーパーと同様 ... #ComputerVision#Analysis#MachineLearning#Pocket#NLP#LanguageModel#Supervised-FineTuning (SFT)#PostTraining
Issue Date: 2025-01-30 SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training, Tianzhe Chu+, arXiv25 Comment元ポスト:https://x.com/hillbig/status/1884731381517082668?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket#NLP#Dataset#LanguageModel#Reasoning#ICLR#Admin'sPick#PRM
Issue Date: 2025-06-26 Lets Verify Step by Step, Hunter Lightman+, ICLR24 CommentOpenReview:https://openreview.net/forum?id=v8L0pN6EOiPRM800K:https://github.com/openai/prm800k/tree/main ... #Pocket#NLP#Dataset#LanguageModel#Evaluation
Issue Date: 2025-06-26 RewardBench: Evaluating Reward Models for Language Modeling, Nathan Lambert+, arXiv24 #Analysis#Pocket#NLP#LanguageModel#Alignment#PPO (ProximalPolicyOptimization)#ICML#DPO#On-Policy
Issue Date: 2025-06-25 Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data, Fahim Tajwar+, ICML24 #MachineLearning#Pocket#TMLR
Issue Date: 2025-06-14 Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models, Avi Singh+, TMLR24 Comment解説ポスト:https://x.com/hillbig/status/1735065077668356106?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Tutorial#MachineLearning#Pocket
Issue Date: 2024-12-10 Reinforcement Learning: An Overview, Kevin Murphy, arXiv24 CommentあのMurphy本で有名なMurphy氏の強化学習の教科書…だと… ... #Pocket#LanguageModel
Issue Date: 2024-09-13 Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning, Zhiheng Xi+, N_A, arXiv24 #Pocket#NLP#LanguageModel#Supervised-FineTuning (SFT)#Chain-of-Thought#PostTraining
Issue Date: 2024-09-13 ReFT: Reasoning with Reinforced Fine-Tuning, Trung Quoc Luong+, N_A, ACL24 Comment は、AIシステムを人間の目標に合わせてトレーニングするための技術であり、最先端の大規模言語モデル(LLMs)を微調整するために使用されている。しかし、RLHFの欠点を体系化するための公開された研究は少ない。本論文では、RLHFのオープンな問題と制約を調査し、実践における理解、改善、補完技術を概説し、RLHFシステムの社会的な監視を向上させるための監査と開示の基準を提案する。この研究は、RLHFの制約を強調し、安全なAIシステムの開発に多面的なアプローチの重要性を強調している。 #NLP#LanguageModel#RLHF#PPO (ProximalPolicyOptimization)
Issue Date: 2023-07-12 Secrets of RLHF in Large Language Models Part I: PPO, Rui Zheng+, N_A, arXiv23 Summary大規模言語モデル(LLMs)を使用した人間中心のアシスタントの開発には、報酬設計やトレーニングの課題などの障壁があります。この研究では、強化学習(RLHF)のフレームワークを解析し、PPOアルゴリズムの内部動作を再評価し、ポリシーモデルのトレーニングの安定性を改善するための高度なバージョンを提案します。さらに、SFTモデルとChatGPTと比較してRLHFの能力を分析し、オープンソースの実装を公開することを目指しています。 CommentRLHFとPPOをの内部構造を調査したレポート。RLHFに興味がある場合は読むべし。github: https://github.com/OpenLMLab/MOSS-RLHF ... #MachineLearning#Pocket#NLP#LanguageModel#Supervised-FineTuning (SFT)#NeurIPS
Issue Date: 2023-03-28 Reflexion: Language Agents with Verbal Reinforcement Learning, Noah Shinn+, N_A, NeurIPS23 Summary本研究では、言語エージェントを強化するための新しいフレームワークであるReflexionを提案しています。Reflexionエージェントは、言語的フィードバックを通じて自己反省し、より良い意思決定を促すために反省的なテキストを保持します。Reflexionはさまざまなタスクでベースラインエージェントに比べて大幅な改善を実現し、従来の最先端のGPT-4を上回る精度を達成しました。さらに、異なるフィードバック信号や統合方法、エージェントタイプの研究を行い、パフォーマンスへの影響についての洞察を提供しています。 Commentなぜ回答を間違えたのか自己反省させることでパフォーマンスを向上させる研究 ... #Article#NLP#LanguageModel#Repository#PostTraining
Issue Date: 2025-06-21 POLARIS: A Post-Training Recipe for Scaling Reinforcement Learning on Advanced Reasoning Models, Comment元ポスト:https://x.com/_akhaliq/status/1936233712510718361?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QPJで利用されているRLライブラリ:#1969AIME2025のみの評価だが4Bでこの性能…?#Reasoning#SmallModel#OpenWeight#GRPO
Issue Date: 2025-05-01 Phi-4-reasoning Technical Report, 2025.04 Comment元ポスト:https://x.com/dimitrispapail/status/1917731614899028190?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qこちらの解説が非常によくまとまっている:https://x.com/_philschmid/status/1918216 ... #Article#NLP#LanguageModel#Alignment#Supervised-FineTuning (SFT)#InstructionTuning#Blog#LongSequence#MultiLingual#OpenWeight#MoE(Mixture-of-Experts)#PostTraining
Issue Date: 2025-04-29 Qwen3, Qwen Team, 2025.04 Comment119言語をサポートMoEモデル #1911 30B-A3B / 235B-A22N 128K context window Qwen2.5はMoEを採用していないので新たなアーキテクチャとなるDenseモデル(非MoEモデル)も公開BestPracticeに関するポスト:http ... #Article#NLP#LanguageModel#Alignment#Supervised-FineTuning (SFT)#InstructionTuning#Pruning#Reasoning#OpenWeight
Issue Date: 2025-04-08 Llama-3_1-Nemotron-Ultra-253B-v1, Nvidia, 2025.04 CommentDeepSeek-R1をGPQA Diamond #1155, AIME2024/2025, Llama4 MaverickをBFCLv2(Tool Calling, #1875), IFEVal #1137 で上回り, そのほかはArenaHardを除きDeepSeekR1と同等#OpenWeight#OpenSource#PostTraining
Issue Date: 2025-06-18 AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy, Zihan Liu+, arXiv25 Comment元ポスト:https://x.com/ychennlp/status/1935005283178492222?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q様々なtakeawayがまとめられている。SFT,RLに利用されたデータも公開#1829において事前学習時に4 epochまでは性能 ... #NLP#LanguageModel#Supervised-FineTuning (SFT)
Issue Date: 2025-06-13 Self-Adapting Language Models, Adam Zweiger+, arXiv25 Comment元ポスト:https://x.com/jyo_pari/status/1933350025284702697?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QコンテキストCと評価データtauが与えられたとき、Cを入力した時にモデルが自分をSFTし、tau上でより高い性能を得られるようなサン ... #Pretraining#Pocket#NLP#LanguageModel
Issue Date: 2025-06-12 Reinforcement Pre-Training, Qingxiu Dong+, arXiv25 Comment元ポスト:https://x.com/hillbig/status/1932922314578145640?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #EfficiencyImprovement#Pocket#NLP#LanguageModel#Alignment#Safety
Issue Date: 2025-06-11 Saffron-1: Towards an Inference Scaling Paradigm for LLM Safety Assurance, Ruizhong Qiu+, arXiv25 Comment元ポスト:https://x.com/gaotangli/status/1932289294657626189?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #MachineLearning#Pocket
Issue Date: 2025-06-10 Horizon Reduction Makes RL Scalable, Seohong Park+, arXiv25 Comment元ポスト:https://x.com/hillbig/status/1932205263446245798?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket#NLP#LanguageModel#LLMAgent#Coding
Issue Date: 2025-06-06 Training Language Models to Generate Quality Code with Program Analysis Feedback, Feng Yao+, arXiv25 Comment元ポスト:https://x.com/fengyao1909/status/1930377346693116350?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q現在のCoding LLMはUnitTestを通るように学習されるが、UnitTestに通るからといってコードの品質が良いわけ ... #Pocket#NLP#LanguageModel#Programming#SoftwareEngineering#UnitTest
Issue Date: 2025-06-05 Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning, Yinjie Wang+, arXiv25 Comment元ポスト:https://x.com/lingyang_pu/status/1930234983274234232?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QUnitTestの性能向上させます系の研究が増えてきている感関連ポスト:https://x.com/gm8xx8/status ... #Analysis#Pocket#NLP#LanguageModel#read-later
Issue Date: 2025-06-04 ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models, Mingjie Liu+, arXiv25 Comment元ポスト:https://x.com/hillbig/status/1930043688329326962?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket#NLP#LanguageModel#Reasoning
Issue Date: 2025-05-27 Learning to Reason without External Rewards, Xuandong Zhao+, arXiv25 Comment元ポスト:https://x.com/xuandongzhao/status/1927270931874910259?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qおもしろそうexternalなsignalをrewardとして用いないで、モデル自身が内部的に保持しているconfidenc ... #Analysis#Pocket#NLP#Dataset#LanguageModel#Supervised-FineTuning (SFT)#Evaluation#Mathematics#InstructionFollowingCapability
Issue Date: 2025-05-24 Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models, Tingchen Fu+, arXiv25 Comment元ポスト:https://x.com/yafuly/status/1925753754961236006?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #EfficiencyImprovement#Pocket#NLP#LanguageModel#Chain-of-Thought#Reasoning
Issue Date: 2025-05-21 AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning, Chenwei Lou+, arXiv25 CommentRLのRewardにおいて、bassのリワードだけでなく、reasoningをなくした場合のペナルティ項reasoningをoveruseした場合のペナルティ項formattingに関するペナルティ項を設定し、reasoningの有無を適切に判断できた場合にrewardが最大化さいつか必要になったら ... #Pocket#NLP#LanguageModel#LLM-as-a-Judge#PostTraining#GRPO#VerifiableRewards
Issue Date: 2025-05-16 J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning, Chenxi Whitehouse+, arXiv25 Comment元ポスト:https://x.com/jaseweston/status/1923186392420450545?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QLLM-as-a-Judgeのなめのモデルを学習するレシピにおいて、初めてRLを適用した研究と主張し、より高品質なreasoni ... #EfficiencyImprovement#Pocket#NLP#LanguageModel#read-later
Issue Date: 2025-05-09 Reinforcement Learning for Reasoning in Large Language Models with One Training Example, Yiping Wang+, arXiv25 Comment下記ポストでQwenに対してpromptを適切に与えることで、追加のpost training無しで高い数学に関する能力を ... #EfficiencyImprovement#Pocket#NLP#Reasoning#PEFT(Adaptor/LoRA)#GRPO
Issue Date: 2025-05-07 Tina: Tiny Reasoning Models via LoRA, Shangshang Wang+, arXiv25 Comment元ポスト:https://x.com/rasbt/status/1920107023980462575?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q(おそらく)Reasoningモデルに対して、LoRAとRLを組み合わせて、reasoning能力を向上させた初めての研究 ... #Survey#Pocket#LanguageModel#Supervised-FineTuning (SFT)#Chain-of-Thought#InstructionTuning#PPO (ProximalPolicyOptimization)#Reasoning#LongSequence#RewardHacking#GRPO#Contamination#VerifiableRewards#CurriculumLearning
Issue Date: 2025-05-06 100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models, Chong Zhang+, arXiv25 Comment元ポスト:https://x.com/_philschmid/status/1918898257406709983?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qサーベイのtakeawayが箇条書きされている。 ... #Pocket#NLP#LanguageModel#Supervised-FineTuning (SFT)#DiffusionModel#Reasoning#PostTraining#GRPO
Issue Date: 2025-04-18 d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning, Siyan Zhao+, arXiv25 Comment元ポスト:https://x.com/iscienceluvr/status/1912785180504535121?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QdLLMに対してGRPOを適用する手法(diffuGRPO)を提案している。long CoTデータでSFTしてreasoni ... #Analysis#NLP#LanguageModel#Supervised-FineTuning (SFT)#Evaluation#SmallModel#PostTraining#read-later
Issue Date: 2025-04-13 A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility, Andreas Hochlehnert+, arXiv25 Comment元ポスト:https://x.com/wenhuchen/status/1911143014258405420?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QSLMをmath reasoning向けにpost-trainingする場合、RL(既存研究で試されているもの)よりも(大規模モデ ... #MachineLearning#Pocket#LanguageModel#Reasoning#LongSequence
Issue Date: 2025-04-08 VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks, YuYue+, arXiv25 Comment同じくByteDanceの#1815を上回る性能元ポスト:https://x.com/_akhaliq/status/19 ... #MachineLearning#Pocket#LanguageModel#Reasoning#LongSequence#GRPO#read-later
Issue Date: 2025-03-20 DAPO: An Open-Source LLM Reinforcement Learning System at Scale, Qiying Yu+, arXiv25 Comment既存のreasoning modelのテクニカルレポートにおいて、スケーラブルなRLの学習で鍵となるレシピは隠されていると主張し、実際彼らのbaselineとしてGRPOを走らせたところ、DeepSeekから報告されているAIME2024での性能(47ポイント)よりもで 大幅に低い性能(30ポイント ... #Analysis#Pocket#NLP#LanguageModel#Supervised-FineTuning (SFT)#RLHF
Issue Date: 2025-03-17 All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning, Gokul Swamy+, arXiv25 Comment元ポスト:https://x.com/hillbig/status/1901392286694678568?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QAlignmentのためのPreferenceデータがある時に、そのデータから直接最尤推定してモデルのパラメータを学習するのではなく、 ... #Analysis#Pocket#NLP#LanguageModel#Supervised-FineTuning (SFT)
Issue Date: 2025-02-18 Scaling Test-Time Compute Without Verification or RL is Suboptimal, Amrith Setlur+, arXiv25 Comment元ポスト:https://x.com/iscienceluvr/status/1891839822257586310?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q#1749 ... #Pocket#NLP#LanguageModel#SyntheticData#CodeGeneration#SyntheticDataGeneration
Issue Date: 2025-02-12 ACECODER: Acing Coder RL via Automated Test-Case Synthesis, Huaye Zeng+, arXiv25 #Analysis#NLP#LanguageModel#Supervised-FineTuning (SFT)#Chain-of-Thought#Reasoning#LongSequence#RewardHacking#PostTraining
Issue Date: 2025-02-07 Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, arXiv25 Comment元ポスト:https://x.com/xiangyue96/status/1887332772198371514?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q元ポストのスレッド中に論文の11個の知見が述べられている。どれも非常に興味深い。DeepSeek-R1のテクニカルペーパーと同様 ... #ComputerVision#Analysis#MachineLearning#Pocket#NLP#LanguageModel#Supervised-FineTuning (SFT)#PostTraining
Issue Date: 2025-01-30 SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training, Tianzhe Chu+, arXiv25 Comment元ポスト:https://x.com/hillbig/status/1884731381517082668?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket#NLP#Dataset#LanguageModel#Reasoning#ICLR#Admin'sPick#PRM
Issue Date: 2025-06-26 Lets Verify Step by Step, Hunter Lightman+, ICLR24 CommentOpenReview:https://openreview.net/forum?id=v8L0pN6EOiPRM800K:https://github.com/openai/prm800k/tree/main ... #Pocket#NLP#Dataset#LanguageModel#Evaluation
Issue Date: 2025-06-26 RewardBench: Evaluating Reward Models for Language Modeling, Nathan Lambert+, arXiv24 #Analysis#Pocket#NLP#LanguageModel#Alignment#PPO (ProximalPolicyOptimization)#ICML#DPO#On-Policy
Issue Date: 2025-06-25 Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data, Fahim Tajwar+, ICML24 #MachineLearning#Pocket#TMLR
Issue Date: 2025-06-14 Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models, Avi Singh+, TMLR24 Comment解説ポスト:https://x.com/hillbig/status/1735065077668356106?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Tutorial#MachineLearning#Pocket
Issue Date: 2024-12-10 Reinforcement Learning: An Overview, Kevin Murphy, arXiv24 CommentあのMurphy本で有名なMurphy氏の強化学習の教科書…だと… ... #Pocket#LanguageModel
Issue Date: 2024-09-13 Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning, Zhiheng Xi+, N_A, arXiv24 #Pocket#NLP#LanguageModel#Supervised-FineTuning (SFT)#Chain-of-Thought#PostTraining
Issue Date: 2024-09-13 ReFT: Reasoning with Reinforced Fine-Tuning, Trung Quoc Luong+, N_A, ACL24 Comment は、AIシステムを人間の目標に合わせてトレーニングするための技術であり、最先端の大規模言語モデル(LLMs)を微調整するために使用されている。しかし、RLHFの欠点を体系化するための公開された研究は少ない。本論文では、RLHFのオープンな問題と制約を調査し、実践における理解、改善、補完技術を概説し、RLHFシステムの社会的な監視を向上させるための監査と開示の基準を提案する。この研究は、RLHFの制約を強調し、安全なAIシステムの開発に多面的なアプローチの重要性を強調している。 #NLP#LanguageModel#RLHF#PPO (ProximalPolicyOptimization)
Issue Date: 2023-07-12 Secrets of RLHF in Large Language Models Part I: PPO, Rui Zheng+, N_A, arXiv23 Summary大規模言語モデル(LLMs)を使用した人間中心のアシスタントの開発には、報酬設計やトレーニングの課題などの障壁があります。この研究では、強化学習(RLHF)のフレームワークを解析し、PPOアルゴリズムの内部動作を再評価し、ポリシーモデルのトレーニングの安定性を改善するための高度なバージョンを提案します。さらに、SFTモデルとChatGPTと比較してRLHFの能力を分析し、オープンソースの実装を公開することを目指しています。 CommentRLHFとPPOをの内部構造を調査したレポート。RLHFに興味がある場合は読むべし。github: https://github.com/OpenLMLab/MOSS-RLHF ... #MachineLearning#Pocket#NLP#LanguageModel#Supervised-FineTuning (SFT)#NeurIPS
Issue Date: 2023-03-28 Reflexion: Language Agents with Verbal Reinforcement Learning, Noah Shinn+, N_A, NeurIPS23 Summary本研究では、言語エージェントを強化するための新しいフレームワークであるReflexionを提案しています。Reflexionエージェントは、言語的フィードバックを通じて自己反省し、より良い意思決定を促すために反省的なテキストを保持します。Reflexionはさまざまなタスクでベースラインエージェントに比べて大幅な改善を実現し、従来の最先端のGPT-4を上回る精度を達成しました。さらに、異なるフィードバック信号や統合方法、エージェントタイプの研究を行い、パフォーマンスへの影響についての洞察を提供しています。 Commentなぜ回答を間違えたのか自己反省させることでパフォーマンスを向上させる研究 ... #Article#NLP#LanguageModel#Repository#PostTraining
Issue Date: 2025-06-21 POLARIS: A Post-Training Recipe for Scaling Reinforcement Learning on Advanced Reasoning Models, Comment元ポスト:https://x.com/_akhaliq/status/1936233712510718361?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QPJで利用されているRLライブラリ:#1969AIME2025のみの評価だが4Bでこの性能…?#Reasoning#SmallModel#OpenWeight#GRPO
Issue Date: 2025-05-01 Phi-4-reasoning Technical Report, 2025.04 Comment元ポスト:https://x.com/dimitrispapail/status/1917731614899028190?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qこちらの解説が非常によくまとまっている:https://x.com/_philschmid/status/1918216 ... #Article#NLP#LanguageModel#Alignment#Supervised-FineTuning (SFT)#InstructionTuning#Blog#LongSequence#MultiLingual#OpenWeight#MoE(Mixture-of-Experts)#PostTraining
Issue Date: 2025-04-29 Qwen3, Qwen Team, 2025.04 Comment119言語をサポートMoEモデル #1911 30B-A3B / 235B-A22N 128K context window Qwen2.5はMoEを採用していないので新たなアーキテクチャとなるDenseモデル(非MoEモデル)も公開BestPracticeに関するポスト:http ... #Article#NLP#LanguageModel#Alignment#Supervised-FineTuning (SFT)#InstructionTuning#Pruning#Reasoning#OpenWeight
Issue Date: 2025-04-08 Llama-3_1-Nemotron-Ultra-253B-v1, Nvidia, 2025.04 CommentDeepSeek-R1をGPQA Diamond #1155, AIME2024/2025, Llama4 MaverickをBFCLv2(Tool Calling, #1875), IFEVal #1137 で上回り, そのほかはArenaHardを除きDeepSeekR1と同等![image元ポ ... #Article#NLP#LanguageModel#Reasoning#OpenWeight
Issue Date: 2025-03-06 QwQ-32B: Embracing the Power of Reinforcement Learning, Qwen Team, 2025.03 Comment元ポスト:https://x.com/hillbig/status/1897426898642460724?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q#1787Artificial Analysisによるベンチマークスコア:https://x.com/artificialanlys/ ... #Article#MachineLearning#NLP#LanguageModel#Blog#GRPO
Issue Date: 2025-03-05 GRPO Judge Experiments: Findings & Empirical Observations, kalomazes kalomazing blog, 2025.03 Comment元ポスト:https://www.linkedin.com/posts/philipp-schmid-a6a2bb196_forget-basic-math-problems-grpo-can-do-more-activity-7302608410875691009-nntf?utm_source= ... #Article#MachineLearning#NLP#LanguageModel#Library#python#Reasoning
Issue Date: 2025-03-02 Open Reasoner Zero, Open-Reasoner-Zero, 2024.02 Comment元ポスト:https://x.com/dair_ai/status/1893698293965725708?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QWe introduce Open-Reasoner-Zero, the first open source implementati ... #Article#NLP#LanguageModel#Supervised-FineTuning (SFT)#Blog#GRPO
Issue Date: 2025-02-19 強化学習「GRPO」をCartPoleタスクで実装しながら解説, 小川雄太郎, 2025.02 Comment元ポスト:https://x.com/ogawa_yutaro_22/status/1892059174789407213?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Article#NLP#LanguageModel#Blog#Distillation
Issue Date: 2025-02-12 DeepScaleR: Surpassing O1-Preview with a 1.5B Model by Scaling RL, 2025.02 #Article#NLP#LanguageModel#Library
Issue Date: 2023-07-23 trl_trlx CommentTRL 強化学習によるLLMの学習のためのライブラリhttps://note.com/npaka/n/nbb974324d6e1trlを使って日本語LLMをSFTからRLHFまで一通り学習させてみるhttps://www.ai-shift.co.jp/techblog/3583 ... #Article#Pretraining#Pocket#LanguageModel#Supervised-FineTuning (SFT)#Chain-of-Thought#Evaluation#Blog#Reasoning
Issue Date: 2023-05-04 Towards Complex Reasoning: the Polaris of Large Language Models, Yao Fu, 2023.05 #Article#Tutorial#Pocket#Blog#Off-Policy
Issue Date: 2021-06-07 ゼロから始めてオフライン強化学習とConservative Q-Learningを理解する, aiueola, 2021.05