Distillation
#Pocket#NLP#Dataset#LanguageModel#SyntheticData#Reasoning
Issue Date: 2025-02-19 NaturalReasoning: Reasoning in the Wild with 2.8M Challenging Questions, Weizhe Yuan+, arXiv25 Comment元ポスト: https://x.com/jaseweston/status/1892041992127021300?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket#NLP#LanguageModel
Issue Date: 2025-02-10 On Teacher Hacking in Language Model Distillation, Daniil Tiapkin+, arXiv25 Comment元ポスト:https://x.com/_philschmid/status/1888516494100734224?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q自分で蒸留する機会は今のところないが、覚えておきたい。過学習と一緒で、こういう現象が起こるのは想像できる。 ... #Pocket#NLP#LanguageModel#Pruning#NeurIPS
Issue Date: 2025-03-16 Compact Language Models via Pruning and Knowledge Distillation, Saurav Muralidharan+, NeurIPS24 CommentOpenReview:https://openreview.net/forum?id=9U0nLnNMJ7&referrer=%5Bthe%20profile%20of%20Pavlo%20Molchanov%5D(%2Fprofile%3Fid%3D~Pavlo_Molchanov1) ...
Issue Date: 2025-02-19 NaturalReasoning: Reasoning in the Wild with 2.8M Challenging Questions, Weizhe Yuan+, arXiv25 Comment元ポスト: https://x.com/jaseweston/status/1892041992127021300?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket#NLP#LanguageModel
Issue Date: 2025-02-10 On Teacher Hacking in Language Model Distillation, Daniil Tiapkin+, arXiv25 Comment元ポスト:https://x.com/_philschmid/status/1888516494100734224?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q自分で蒸留する機会は今のところないが、覚えておきたい。過学習と一緒で、こういう現象が起こるのは想像できる。 ... #Pocket#NLP#LanguageModel#Pruning#NeurIPS
Issue Date: 2025-03-16 Compact Language Models via Pruning and Knowledge Distillation, Saurav Muralidharan+, NeurIPS24 CommentOpenReview:https://openreview.net/forum?id=9U0nLnNMJ7&referrer=%5Bthe%20profile%20of%20Pavlo%20Molchanov%5D(%2Fprofile%3Fid%3D~Pavlo_Molchanov1) ...
#Survey#Pocket#NLP#LanguageModel
Issue Date: 2025-02-01 A Survey on Knowledge Distillation of Large Language Models, Xiaohan Xu+, arXiv24 #Pocket#NLP#DataAugmentation
Issue Date: 2024-12-02 Reverse Thinking Makes LLMs Stronger Reasoners, Justin Chih-Yao Chen+, arXiv24 Comment## 手法概要Original QuestionからTeacher Modelでreasoningと逆質問を生成(Forward Reasoning, Backward Question)し、逆質問に対するReasoningを生成する(Backward Reasoning)。その後、Forwa ... #Survey#MachineLearning#Pocket#Dataset
Issue Date: 2025-03-25 Dataset Distillation: A Comprehensive Review, Ruonan Yu+, arXiv23 Comment訓練データセット中の知識を蒸留し、オリジナルデータよりも少量のデータで同等の学習効果を得るDataset Distillationに関するSurvey。から小さなCoTモデルを学習するための知識蒸留手法であるSCOTTを提案しています。SCOTTは、教師モデルからゴールドアンサーをサポートする根拠を引き出し、より信憑性のあるトークンを生成するように学習を促します。さらに、学生モデルはカウンターファクトリーニングの目的で教師が生成した根拠を使用して学習されます。実験結果は、提案手法がベースラインよりも忠実なモデルを導くことを示しています。また、根拠を尊重することで意思決定を改善することも可能です。 CommentCoTのパフォーマンス向上がパラメータ数が大きいモデルでないと発揮せれないことは元論文 #551 で考察されており、それをより小さいモデルに蒸留し発揮できるようにする、おもしろい ... #Article#NLP#LanguageModel#ReinforcementLearning#Article
Issue Date: 2025-02-12 DeepScaleR: Surpassing O1-Preview with a 1.5B Model by Scaling RL, 2025.02
Issue Date: 2025-02-01 A Survey on Knowledge Distillation of Large Language Models, Xiaohan Xu+, arXiv24 #Pocket#NLP#DataAugmentation
Issue Date: 2024-12-02 Reverse Thinking Makes LLMs Stronger Reasoners, Justin Chih-Yao Chen+, arXiv24 Comment## 手法概要Original QuestionからTeacher Modelでreasoningと逆質問を生成(Forward Reasoning, Backward Question)し、逆質問に対するReasoningを生成する(Backward Reasoning)。その後、Forwa ... #Survey#MachineLearning#Pocket#Dataset
Issue Date: 2025-03-25 Dataset Distillation: A Comprehensive Review, Ruonan Yu+, arXiv23 Comment訓練データセット中の知識を蒸留し、オリジナルデータよりも少量のデータで同等の学習効果を得るDataset Distillationに関するSurvey。から小さなCoTモデルを学習するための知識蒸留手法であるSCOTTを提案しています。SCOTTは、教師モデルからゴールドアンサーをサポートする根拠を引き出し、より信憑性のあるトークンを生成するように学習を促します。さらに、学生モデルはカウンターファクトリーニングの目的で教師が生成した根拠を使用して学習されます。実験結果は、提案手法がベースラインよりも忠実なモデルを導くことを示しています。また、根拠を尊重することで意思決定を改善することも可能です。 CommentCoTのパフォーマンス向上がパラメータ数が大きいモデルでないと発揮せれないことは元論文 #551 で考察されており、それをより小さいモデルに蒸留し発揮できるようにする、おもしろい ... #Article#NLP#LanguageModel#ReinforcementLearning#Article
Issue Date: 2025-02-12 DeepScaleR: Surpassing O1-Preview with a 1.5B Model by Scaling RL, 2025.02