German

#Pretraining #NLP #Dataset #LanguageModel #Selected Papers/Blogs #One-Line Notes
Issue Date: 2025-10-28 [Paper Note] The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models, Lukas Gienapp+, arXiv'25, 2025.10 GPT Summary- 「German Commons」は、オープンライセンスのドイツ語テキストの最大コレクションで、41のソースから1545.6億トークンを提供。法律、科学、文化など7つのドメインを含み、品質フィルタリングや重複排除を行い、一貫した品質を確保。すべてのデータは法的遵守を保証し、真にオープンなドイツ語モデルの開発を支援。再現可能で拡張可能なコーパス構築のためのコードも公開。 Comment

HF: https://huggingface.co/datasets/coral-nlp/german-commons

元ポスト:

Loading…

最大級(154B)のドイツ語のLLM(事前)学習用データセットらしい

ODC-By Licence