OptimalTransport

#Pocket #NLP #LanguageModel #Distillation #TMLR #One-Line Notes
Issue Date: 2025-10-30 [Paper Note] Towards Cross-Tokenizer Distillation: the Universal Logit Distillation Loss for LLMs, Nicolas Boizard+, TMLR'25, 2024.02 GPT Summary- 大規模言語モデル(LLMs)の展開はコストやハードウェアの制約から実用的ではないが、知識蒸留(KD)が解決策となる。従来のロジットに基づく方法はトークナイザーの共有が必要で適用性が限られる。本研究では、最適輸送に基づくユニバーサルロジット蒸留(ULD)損失を提案し、異なるアーキテクチャ間での蒸留を可能にすることを示した。 Comment

openreview: https://openreview.net/forum?id=bwRxXiGO9A

(以下は管理人の理解が不十分なまま書かれているため誤りがある可能性が高いのでご注意ください)

- Unlocking On-Policy Distillation for Any Model Family, Patiño+, HuggingFace, 2025.10

の記述と論文を斜め読みした感じ、

従来の蒸留手法は出力(Vocab)の分布が近くなるように学習するため、教師と生徒モデル間でVocabが揃っている、すなわちtokenizerが共通でなければならず、これが教師生徒ペアを選択する際の制約となっていた。これを異なるtokenizerを持つモデル間でも蒸留可能にしたという話。これには以下の二つの課題があり
- sequence misalignment: tokenizerが異なるため、共通のsequenceに対して異なるsplitをする可能性がある
- vocabulary misalignment: 同じトークンIDが異なるtokenを指す

要は確率分布が対応づけられないのでワッサースタイン距離(=一方の確率分布をもう一方の確率分布に一致させるために必要な輸送の質量と距離よ最小コスト)によって距離を測ることを目指す(通常の教師ありDistillationのKL Divergenceをワッサースタイン距離に置き換えた損失を考える)。
が、ワッサースタイン距離はO(n^3log n)であるため近似的な解法で解く。その方法として、
- 教師のトークン列と生徒のトークン列の長さは異なるので短い方の長さに合わせてtruncateし
- ソフトマックス出力のロジットの大きさで両モデルのベクトルをソートし、小さい方をzero paddingして長さを揃えてベクトル間を比較可能にする[^1]

といった方法をとる模様?

[^1]: ソートさせたらvocabularyの整合性がとれずにでたらめな距離になるのでは?と思ったのだが、意図としては各次元が特定の単語ではなく確率順位を表すようにし、その間を比較することで分布の形(エントロピーやconfidenceの構造)の観点で比較可能にする、というニュアンスらしい。ただしこの部分についてはChatGPTの問答を通じて得た知識なので誤りがある可能性があるので注意。



#Pocket #NLP #LanguageModel #Hallucination #ICML
Issue Date: 2025-06-14 [Paper Note] Steer LLM Latents for Hallucination Detection, Seongheon Park+, ICML'25 GPT Summary- LLMの幻覚問題に対処するため、Truthfulness Separator Vector(TSV)を提案。TSVは、LLMの表現空間を再構築し、真実と幻覚の出力を分離する軽量な指向ベクトルで、モデルのパラメータを変更せずに機能。二段階のフレームワークで、少数のラベル付き例からTSVを訓練し、ラベルのない生成物を拡張。実験により、TSVは最小限のラベル付きデータで高いパフォーマンスを示し、実世界のアプリケーションにおける実用的な解決策を提供。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=UMqNQEPNT3¬eId=mAbrf36RHa



#Pocket #ICLR #FlowMatching
Issue Date: 2025-07-09 [Paper Note] Building Normalizing Flows with Stochastic Interpolants, Michael S. Albergo+, ICLR'23 GPT Summary- 基準確率密度とターゲット確率密度の間の連続時間正規化フローに基づく生成モデルを提案。従来の手法と異なり、逆伝播を必要とせず、速度に対する単純な二次損失を導出。フローはサンプリングや尤度推定に使用可能で、経路長の最小化も最適化できる。ガウス密度の場合、ターゲットをサンプリングする拡散モデルを構築可能だが、よりシンプルな確率流のアプローチを示す。密度推定タスクでは、従来の手法と同等以上の性能を低コストで達成し、画像生成においても良好な結果を示す。最大$128\times128$の解像度までスケールアップ可能。
#ComputerVision #Pocket #DiffusionModel #ICLR #Selected Papers/Blogs #FlowMatching Issue Date: 2025-07-09 [Paper Note] Flow Matching for Generative Modeling, Yaron Lipman+, ICLR'23 GPT Summary- Continuous Normalizing Flows(CNFs)に基づく新しい生成モデルの訓練手法Flow Matching(FM)を提案。FMは固定された条件付き確率経路のベクトル場を回帰し、シミュレーション不要で訓練可能。拡散経路と併用することで、より堅牢な訓練が実現。最適輸送を用いた条件付き確率経路は効率的で、訓練とサンプリングが速く、一般化性能も向上。ImageNetでの実験により、FMは拡散ベース手法よりも優れた性能を示し、迅速なサンプル生成を可能にする。 Comment

関連:
- [Paper Note] High-Resolution Image Synthesis with Latent Diffusion Models, Robin Rombach+, CVPR'22, 2021.12



#Pocket #NLP #Alignment Issue Date: 2023-11-21 Unbalanced Optimal Transport for Unbalanced Word Alignment, Yuki Arase+, N_A, arXiv'23 GPT Summary- 単一言語の単語アライメントにおいて、null alignmentという現象は重要であり、不均衡な単語アライメントを実現するために最適輸送(OT)のファミリーが有効であることを示している。教師あり・教師なしの設定での包括的な実験により、OTベースのアライメント手法が最新の手法と競争力があることが示されている。 Comment

最適輸送で爆速でモノリンガルの単語アライメントがとれるらしい
実装: https://github.com/yukiar/OTAlign

単語のアライメント先がない(null alignment)、one-to-oneの関係ではなく、one-to-many, many-to-manyのアライメントが必要な問題を(おそらく; もしかしたらnull alignmentだけかも)Unbalancedな単語アライメント問題と呼び、この課題に対して最適輸送が有効なアプローチであることを示しているっぽい
image