SelfTaughtReasoner

#Tools#Pocket#NLP#Finetuning (SFT)
Issue Date: 2025-03-07 START: Self-taught Reasoner with Tools, Chengpeng Li+, arXiv25 Comment論文の本題とは関係ないが、QwQ-32Bよりも、DeepSeek-R1-Distilled-Qwen32Bの方が性能が良いのは興味深い。やはり大きいパラメータから蒸留したモデルの方が、小さいパラメータに追加学習したモデルよりも性能が高い傾向にあるのだろうか(どういうデータで蒸留したかにもよるけど)。 ... #NLP#LanguageModel#Reasoning
Issue Date: 2024-12-16 Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions, Yu Zhao+, arXiv24 Comment元ポスト:https://x.com/bilzrd/status/1868568258468774048?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QLarge Reasoning Model (LRM)という用語は初めて見た。 ... #Pocket#NLP#LanguageModel
Issue Date: 2024-04-14 Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking, Eric Zelikman+, N_A, arXiv24 SummarySTaR(Self-Taught Reasoner)では、少数の例から合理的な推論を学習し、質問応答に活用する方法が提案された。Quiet-STaRでは、LMが合理性を生成する方法を学習し、難しい質問に直接答える能力を向上させる。この手法は、GSM8KやCommonsenseQAなどのタスクにおいてゼロショットの改善を実現し、ファインチューニングが不要であることが示された。Quiet-STaRは、推論を学習するための一般的でスケーラブルな方法を提供する一歩となっている。 Comment#1390 o1の基礎技術と似ている可能性がある先行研究: #1397参考:https://x.com/hillbig/status/1835449666588271046?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q[Perplexity(参考; Hallucinationに注意)] ...