Germanに関する論文・技術記事メモの一覧

German

[Paper Note] The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models, Lukas Gienapp+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pretraining #NLP #Dataset #LanguageModel #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-28 GPT Summary- 「German Commons」は、オープンライセンスのドイツ語テキストの最大コレクションで、41のソースから1545.6億トークンを提供。法律、科学、文化など7つのドメインを含み、品質フィルタリングや重複排除を行い、一貫した品質を確保。すべてのデータは法的遵守を保証し、真にオープンなドイツ語モデルの開発を支援。再現可能で拡張可能なコーパス構築のためのコードも公開。 Comment

HF: https://huggingface.co/datasets/coral-nlp/german-commons

元ポスト:

Loading…

最大級（154B)のドイツ語のLLM（事前）学習用データセットらしい

ODC-By Licence