RetokenizationDrift

#Article #NLP #LanguageModel #ReinforcementLearning #Blog #Tokenizer #Stability
Issue Date: 2025-10-24 No More Retokenization Drift: Returning Token IDs via the OpenAI Compatible API Matters in Agent RL, vLLM Blog, 2025.10 Comment

推論時のトークン化と、結果として返される文字列の再トークン化の際に異なるcontextの元トークン化がされることで(e.g., 異なるテンプレートが利用されるなど)、トークン化の結果が異なりgapが生まれるという問題。この違いがオンポリシーRLなどで学習に不安定にするよ、という話で、vLLMがトークンIDそのものを返せるように仕様変更したよ、といった話らしい。

トークン化の不一致という文脈で言うと下記のような研究もある
- [Paper Note] Addressing Tokenization Inconsistency in Steganography and Watermarking Based on Large Language Models, Ruiyi Yan+, EMNLP'25