Subword

#Pocket #NLP #LanguageModel
Issue Date: 2025-06-11 [Paper Note] StochasTok: Improving Fine-Grained Subword Understanding in LLMs, Anya Sims+, arXiv'25 GPT Summary- サブワードレベルの理解を向上させるために、確率的トークン化手法StochasTokを提案。これにより、LLMsは内部構造を把握しやすくなり、文字カウントや数学タスクなどで性能が向上。シンプルな設計により、既存モデルへの統合が容易で、コストを抑えつつサブワード理解を改善できる。 Comment

元ポスト:

Loading…

おもしろそう



#Pretraining #MachineLearning #Pocket #NLP #LanguageModel #Tokenizer
Issue Date: 2024-11-12 LBPE: Long-token-first Tokenization to Improve Large Language Models, Haoran Lian+, arXiv'24 GPT Summary- LBPEは、長いトークンを優先する新しいエンコーディング手法で、トークン化データセットにおける学習の不均衡を軽減します。実験により、LBPEは従来のBPEを一貫して上回る性能を示しました。 Comment

BPEとは異なりトークンの長さを優先してマージを実施することで、最終的なトークンを決定する手法で、
image

image

BPEよりも高い性能を獲得し、
image

トークンの長さがBPEと比較して長くなり、かつ5Bトークン程度を既存のBPEで事前学習されたモデルに対して継続的事前学習するだけで性能を上回るようにでき、
image

同じVocabサイズでBPEよりも高い性能を獲得できる手法
image

らしい



#NeuralNetwork #MachineTranslation #Pocket #ACL #Tokenizer #read-later #Selected Papers/Blogs
Issue Date: 2025-11-19 [Paper Note] Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates, Taku Kudo, ACL'18, 2018.04 GPT Summary- サブワード単位はNMTのオープンボキャブラリー問題を軽減するが、セグメンテーションの曖昧さが存在する。本研究では、この曖昧さを利用してNMTのロバスト性を向上させるため、サブワードの正則化手法を提案し、確率的にサンプリングされた複数のセグメンテーションでモデルを訓練する。また、ユニグラム言語モデルに基づく新しいセグメンテーションアルゴリズムも提案。実験により、特にリソースが限られた設定での改善を示した。
#NeuralNetwork #MachineTranslation #Pocket #NLP #Tokenizer #Encoder-Decoder #RecurrentModels Issue Date: 2025-11-19 [Paper Note] Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation, Yonghui Wu+, arXiv'16, 2016.09 GPT Summary- GNMTは、計算コストの高いNMTの問題に対処するために、8層のLSTMネットワークを用い、注意機構と残差接続を採用。希少な単語の処理を改善するために、一般的なサブワードユニットに分割し、翻訳精度を向上。ビームサーチ技術により、出力文のカバレッジを高め、WMT'14のベンチマークで最先端の結果を達成し、翻訳エラーを60%削減。 Comment

GNMT論文。wordpieceを提案

日本語解説: https://deeplearning.hatenablog.com/entry/gnmt



#NeuralNetwork #MachineTranslation #Pocket #NLP #Tokenizer Issue Date: 2025-11-19 [Paper Note] Neural Machine Translation of Rare Words with Subword Units, Rico Sennrich+, ACL'16, 2015.08 GPT Summary- NMTモデルは固定語彙で動作するが、オープンボキャブラリー翻訳を可能にするために、希少な単語や未知の単語をサブワードユニットとしてエンコードする新しいアプローチを提案。さまざまな単語クラスを小さな単位で翻訳可能とし、文字n-gramモデルやバイトペアエンコーディングを用いたセグメンテーション技術の効果を実証。WMT 15翻訳タスクでバックオフ辞書のベースラインをそれぞれ1.1および1.3 BLEUポイント上回る成果を示した。 Comment

subwordが初めて提案された研究