Subword
#Pretraining#MachineLearning#Pocket#NLP#LanguageModel#Tokenizer
Issue Date: 2024-11-12 LBPE: Long-token-first Tokenization to Improve Large Language Models, Haoran Lian+, arXiv24 CommentBPEとは異なりトークンの長さを優先してマージを実施することで、最終的なトークンを決定する手法で、![image]( ...