Mathematics

#Analysis#Pocket#NLP#Dataset#LanguageModel#Supervised-FineTuning (SFT)#ReinforcementLearning#Evaluation#InstructionFollowingCapability
Issue Date: 2025-05-24 Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models, Tingchen Fu+, arXiv25 Comment元ポスト:https://x.com/yafuly/status/1925753754961236006?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket#NLP#Dataset#LanguageModel#read-later#Coding
Issue Date: 2025-05-08 Rewriting Pre-Training Data Boosts LLM Performance in Math and Code, Kazuki Fujii+, arXiv25 Comment元ポスト:https://x.com/okoge_kaz/status/1920141189652574346?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q解説ポスト:https://x.com/hillbig/status/1920613041026314274?s=46&t=Y6U ... #NLP#LanguageModel#RLHF#Reasoning#GRPO#read-later
Issue Date: 2025-01-04 DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models, Zhihong Shao+, arXiv24 Comment元ポスト:https://www.linkedin.com/posts/philipp-schmid-a6a2bb196_the-rlhf-method-behind-the-best-open-models-activity-7280850174522843137-3V9v?utm_source= ...

#Survey#Pocket#NLP#LanguageModel#Reasoning
Issue Date: 2025-01-03 A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & Challenges, Yibo Yan+, arXiv24 #Pretraining#Pocket#NLP#LanguageModel#FoundationModel
Issue Date: 2023-10-29 Llemma: An Open Language Model For Mathematics, Zhangir Azerbayev+, N_A, arXiv23 Summary私たちは、数学のための大規模な言語モデルであるLlemmaを提案します。Llemmaは、Proof-Pile-2と呼ばれるデータセットを用いて事前学習され、MATHベンチマークで他のモデルを上回る性能を示しました。さらに、Llemmaは追加のfine-tuningなしでツールの使用や形式的な定理証明が可能です。アーティファクトも公開されています。 CommentCodeLLaMAを200B tokenの数学テキスト(proof-pile-2データ;論文、数学を含むウェブテキスト、数学のコードが含まれるデータ)で継続的に事前学習することでfoundation modelを構築約半分のパラメータ数で数学に関する性能でGoogleのMinervaと同等の性元ツイ ... image#Pocket#NLP#Dataset#LanguageModel#InstructionTuning#NumericReasoning
Issue Date: 2023-09-30 MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning, Xiang Yue+, N_A, arXiv23 SummaryMAmmoTHは、数学の問題解決に特化した大規模言語モデルであり、厳密にキュレーションされた教育データセットで訓練されています。このモデルは、CoTとPoTのハイブリッドな根拠を提供し、さまざまな数学の分野を包括的にカバーしています。MAmmoTHは、既存のオープンソースモデルを大幅に上回り、特にMATHデータセットで高い精度を示しています。この研究は、多様な問題のカバレッジとハイブリッドな根拠の使用の重要性を強調しています。 Comment9つのmath reasoningが必要なデータセットで13-29%のgainでSoTAを達成。260kの根拠情報を含むMath Instructデータでチューニングされたモデル。project page: https://tiger-ai-lab.github.io/MAmmoTH/ ... #NLP#LanguageModel
Issue Date: 2023-07-15 Solving Math Word Problems via Cooperative Reasoning induced Language Models, ACL23 Summary大規模な事前学習言語モデル(PLM)を使用して、数学の文章問題(MWPs)を解決するためのCooperative Reasoning(CoRe)アーキテクチャを開発しました。CoReでは、生成器と検証器の二つの推論システムが相互作用し、推論パスを生成し評価を監督します。CoReは、数学的推論データセットで最先端の手法に比べて最大9.6%の改善を達成しました。 #Pocket#NLP#Dataset#LanguageModel#Supervised-FineTuning (SFT)#Verification
Issue Date: 2024-12-27 Training Verifiers to Solve Math Word Problems, Karl Cobbe+, arXiv21 Comment## 気持ち 当時の最も大きいレベルのモデルでも multi-stepのreasoningが必要な問題は失敗する モデルをFinetuningをしても致命的なミスが含まれる 特に、数学は個々のミスに対して非常にsensitiveであり、一回ミスをして異なる解法のパスに入ってしまうとTodo: 続きを ... #Article#Analysis#NLP#LanguageModel#SmallModel#RLVR
Issue Date: 2025-05-27 Spurious Rewards: Rethinking Training Signals in RLVR, Shao+, 2025.05 Comment元ポスト:https://x.com/stellalisy/status/1927392717593526780?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q参考(考察): https://x.com/weiliu99/status/1930826904522875309?s=46&t ... #Article#Tutorial#NLP#LanguageModel#Alignment#Supervised-FineTuning (SFT)#Chain-of-Thought#Reasoning#PostTraining
Issue Date: 2024-12-27 LLMを数学タスクにアラインする手法の系譜 - GPT-3からQwen2.5まで, bilzard, 2024.12 Comment#1618において、数学においてモデルのパラメータ数のスケーリングによって性能改善が見込める学習手法として、モデルとは別にVerifierを学習し、モデルが出力した候補の中から良いものを選択できるようにする、という話の気持ちが最初よくわからなかったのだが、後半のなぜsample&select記事中で ...