SyntheticData

#NLP#LanguageModel#OpenWeightLLM#OpenSource
Issue Date: 2024-11-06 Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent, Xingwu Sun+, arXiv24 Comment合計パラメータ数はLlama-3.1-405Bと同等の389Bだが、MoEによって52BのActive ParameterでSoTAを達成したTencentのOpenSource LLM。大量のSynthetia Dataを利用している。 ... #Pretraining#NLP#LanguageModel#Alignment#Finetuning (SFT)
Issue Date: 2024-10-21 Self-Taught Evaluators, Tianlu Wang+, N_A, arXiv24 CommentLLMのアラインメント等をSFTする際に、preferenceのラベル付きデータが必要になるが、このようなデータを作るのはコストがかかって大変なので自動生成して、より良いreward modelを作りたいよね、という話。具体的には、LLMを用いて good responseと、instructio ... #Pretraining#Pocket#NLP#Finetuning (SFT)
Issue Date: 2024-09-29 Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling, Hritik Bansal+, N_A, arXiv24 Comment元ポスト:https://x.com/rohanpaul_ai/status/1840172683528425718?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ...

#Pocket#NLP#LanguageModel#QuestionAnswering#SyntheticDataGeneration
Issue Date: 2024-09-14 Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources, Alisia Lupidi+, N_A, arXiv24 Comment合成データ生成に関する研究。ソースからQAを生成し、2つのsliceに分ける。片方をLLMのfinetuning(LLMSynth)に利用し、もう片方をfinetuningしたLLMで解答可能性に基づいてフィルタリング(curation)する。最終的にフィルタリングして生成された高品質なデータでMu ... #NLP#LanguageModel#Evaluation
Issue Date: 2023-05-22 Visualizing Linguistic Diversity of Text Datasets Synthesized by Large Language Models, Emily Reif+, N_A, arXiv23 SummaryLLMsを使用して生成されたデータセットの構文的多様性を理解し分析するための新しい可視化ツールであるLinguisticLensが提供された。このツールは、テキストを構文、語彙、および意味の軸に沿ってクラスタリングし、階層的な可視化をサポートしている。ライブデモはshorturl.at/zHOUVで利用可能。 CommentLLMを用いてfew-shot promptingを利用して生成されたデータセットを理解し評価することは難しく、そもそもLLMによって生成されるデータの失敗に関してはあまり理解が進んでいない(e.g. repetitionなどは知られている)。この研究では、LLMによって生成されたデータセットの特性 ... image#Article#NLP#Dataset#InstructionTuning
Issue Date: 2024-11-21 SmolLM2, 2024.11 Comment元ポスト:https://x.com/_philschmid/status/1859598525723488478?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QOrca-AgenInstruct-1M #1521 よりもSmolLMのSFTで各種ベンチで高い性能を獲得![image]( ...