Distillation

#Pocket#NLP#Dataset#LanguageModel#SyntheticData#Reasoning
Issue Date: 2025-02-19 NaturalReasoning: Reasoning in the Wild with 2.8M Challenging Questions, Weizhe Yuan+, arXiv25 Comment元ポスト: https://x.com/jaseweston/status/1892041992127021300?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket#NLP#LanguageModel
Issue Date: 2025-02-10 On Teacher Hacking in Language Model Distillation, Daniil Tiapkin+, arXiv25 Comment元ポスト:https://x.com/_philschmid/status/1888516494100734224?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q自分で蒸留する機会は今のところないが、覚えておきたい。過学習と一緒で、こういう現象が起こるのは想像できる。 ... #Pocket#NLP#LanguageModel#Pruning#NeurIPS
Issue Date: 2025-03-16 Compact Language Models via Pruning and Knowledge Distillation, Saurav Muralidharan+, NeurIPS24 CommentOpenReview:https://openreview.net/forum?id=9U0nLnNMJ7&referrer=%5Bthe%20profile%20of%20Pavlo%20Molchanov%5D(%2Fprofile%3Fid%3D~Pavlo_Molchanov1) ...

#Survey#Pocket#NLP#LanguageModel
Issue Date: 2025-02-01 A Survey on Knowledge Distillation of Large Language Models, Xiaohan Xu+, arXiv24 #Pocket#NLP#DataAugmentation
Issue Date: 2024-12-02 Reverse Thinking Makes LLMs Stronger Reasoners, Justin Chih-Yao Chen+, arXiv24 Comment## 手法概要Original QuestionからTeacher Modelでreasoningと逆質問を生成(Forward Reasoning, Backward Question)し、逆質問に対するReasoningを生成する(Backward Reasoning)。その後、Forwa ... #Survey#MachineLearning#Pocket#Dataset
Issue Date: 2025-03-25 Dataset Distillation: A Comprehensive Review, Ruonan Yu+, arXiv23 Comment訓練データセット中の知識を蒸留し、オリジナルデータよりも少量のデータで同等の学習効果を得るDataset Distillationに関するSurvey。![image](https://github.com/user-attachments/assets/35e85898-a834-4ecf-a2 ... #Survey#Pocket#NLP#Dataset
Issue Date: 2025-02-01 Data Distillation: A Survey, Noveen Sachdeva+, arXiv23 #NLP#LanguageModel#Chain-of-Thought
Issue Date: 2023-07-18 Teaching Small Language Models to Reason, ACL23 Summary本研究では、大規模な言語モデルの推論能力を小さなモデルに転送するための知識蒸留を探求しました。具体的には、大きな教師モデルによって生成された出力を用いて学生モデルを微調整し、算術、常識、象徴的な推論のタスクでのパフォーマンスを向上させることを示しました。例えば、T5 XXLの正解率は、PaLM 540BとGPT-3 175Bで生成された出力を微調整することで、それぞれ8.11%から21.99%および18.42%に向上しました。 #NLP#Chain-of-Thought
Issue Date: 2023-07-14 SCOTT: Self-Consistent Chain-of-Thought Distillation, ACL23 Summary本研究では、大規模な言語モデル(LM)から小さなCoTモデルを学習するための知識蒸留手法であるSCOTTを提案しています。SCOTTは、教師モデルからゴールドアンサーをサポートする根拠を引き出し、より信憑性のあるトークンを生成するように学習を促します。さらに、学生モデルはカウンターファクトリーニングの目的で教師が生成した根拠を使用して学習されます。実験結果は、提案手法がベースラインよりも忠実なモデルを導くことを示しています。また、根拠を尊重することで意思決定を改善することも可能です。 CommentCoTのパフォーマンス向上がパラメータ数が大きいモデルでないと発揮せれないことは元論文 #551 で考察されており、それをより小さいモデルに蒸留し発揮できるようにする、おもしろい ... #Article#NLP#LanguageModel#ReinforcementLearning#Article
Issue Date: 2025-02-12 DeepScaleR: Surpassing O1-Preview with a 1.5B Model by Scaling RL, 2025.02