SelfTaughtReasonerに関する論文・技術記事メモの一覧

SelfTaughtReasoner

#Tools #Pocket #NLP #Supervised-FineTuning (SFT)
Issue Date: 2025-03-07 START: Self-taught Reasoner with Tools, Chengpeng Li+, arXiv25 Comment論文の本題とは関係ないが、QwQ-32Bよりも、DeepSeek-R1-Distilled-Qwen32Bの方が性能が良いのは興味深い。やはり大きいパラメータから蒸留したモデルの方が、小さいパラメータに追加学習したモデルよりも性能が高い傾向にあるのだろうか（どういうデータで蒸留したかにもよるけど）。 ... #NLP #LanguageModel #Reasoning
Issue Date: 2024-12-16 Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions, Yu Zhao+, arXiv24 Comment元ポスト:https://x.com/bilzrd/status/1868568258468774048?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QLarge Reasoning Model （LRM）という用語は初めて見た。 ... #Pocket #NLP #LanguageModel
Issue Date: 2024-04-14 Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking, Eric Zelikman+, N_A, arXiv24 SummarySTaR（Self-Taught Reasoner）では、少数の例から合理的な推論を学習し、質問応答に活用する方法が提案された。Quiet-STaRでは、LMが合理性を生成する方法を学習し、難しい質問に直接答える能力を向上させる。この手法は、GSM8KやCommonsenseQAなどのタスクにおいてゼロショットの改善を実現し、ファインチューニングが不要であることが示された。Quiet-STaRは、推論を学習するための一般的でスケーラブルな方法を提供する一歩となっている。 Comment#1390 o1の基礎技術と似ている可能性がある先行研究: #1397参考:https://x.com/hillbig/status/1835449666588271046?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q[Perplexity（参考; Hallucinationに注意）] ...

#Pocket #NLP #LanguageModel
Issue Date: 2024-09-15 STaR: Bootstrapping Reasoning With Reasoning, Eric Zelikman+, N_A, NeurIPS22 CommentOpenAI o1関連研究 ...