SyntheticDataGeneration

#Pocket#NLP#LanguageModel#QuestionAnswering#SyntheticData
Issue Date: 2024-09-14 Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources, Alisia Lupidi+, N_A, arXiv24 Comment合成データ生成に関する研究。ソースからQAを生成し、2つのsliceに分ける。片方をLLMのfinetuning(LLMSynth)に利用し、もう片方をfinetuningしたLLMで解答可能性に基づいてフィルタリング(curation)する。最終的にフィルタリングして生成された高品質なデータでMu ...