TMLR
Issue Date: 2025-10-30 [Paper Note] Towards Cross-Tokenizer Distillation: the Universal Logit Distillation Loss for LLMs, Nicolas Boizard+, TMLR'25, 2024.02 GPT Summary- 大規模言語モデル(LLMs)の展開はコストやハードウェアの制約から実用的ではないが、知識蒸留(KD)が解決策となる。従来のロジットに基づく方法はトークナイザーの共有が必要で適用性が限られる。本研究では、最適輸送に基づくユニバーサルロジット蒸留(ULD)損失を提案し、異なるアーキテクチャ間での蒸留を可能にすることを示した。 Comment
openreview: https://openreview.net/forum?id=bwRxXiGO9A
(以下は管理人の理解が不十分なまま書かれているため誤りがある可能性が高いのでご注意ください)
- Unlocking On-Policy Distillation for Any Model Family, Patiño+, HuggingFace, 2025.10
の記述と論文を斜め読みした感じ、
従来の蒸留手法は出力(Vocab)の分布が近くなるように学習するため、教師と生徒モデル間でVocabが揃っている、すなわちtokenizerが共通でなければならず、これが教師生徒ペアを選択する際の制約となっていた。これを異なるtokenizerを持つモデル間でも蒸留可能にしたという話。これには以下の二つの課題があり
- sequence misalignment: tokenizerが異なるため、共通のsequenceに対して異なるsplitをする可能性がある
- vocabulary misalignment: 同じトークンIDが異なるtokenを指す
要は確率分布が対応づけられないのでワッサースタイン距離(=一方の確率分布をもう一方の確率分布に一致させるために必要な輸送の質量と距離よ最小コスト)によって距離を測ることを目指す(通常の教師ありDistillationのKL Divergenceをワッサースタイン距離に置き換えた損失を考える)。
が、ワッサースタイン距離はO(n^3log n)であるため近似的な解法で解く。その方法として、
- 教師のトークン列と生徒のトークン列の長さは異なるので短い方の長さに合わせてtruncateし
- ソフトマックス出力のロジットの大きさで両モデルのベクトルをソートし、小さい方をzero paddingして長さを揃えてベクトル間を比較可能にする[^1]
といった方法をとる模様?
[^1]: ソートさせたらvocabularyの整合性がとれずにでたらめな距離になるのでは?と思ったのだが、意図としては各次元が特定の単語ではなく確率順位を表すようにし、その間を比較することで分布の形(エントロピーやconfidenceの構造)の観点で比較可能にする、というニュアンスらしい。ただしこの部分についてはChatGPTの問答を通じて得た知識なので誤りがある可能性があるので注意。
Issue Date: 2025-09-19 [Paper Note] Understanding In-Context Learning of Linear Models in Transformers Through an Adversarial Lens, Usman Anwar+, TMLR'25 GPT Summary- 本研究では、トランスフォーマーの文脈内学習における敵対的ロバスト性をハイジャック攻撃を通じて調査し、線形トランスフォーマーとGPT-2が脆弱であることを示した。敵対的トレーニングによりロバスト性が向上することも確認。さらに、トランスフォーマーと線形モデルの敵対的脆弱性を比較し、異なるシードから訓練されたトランスフォーマー間で攻撃の転送が不十分であること、また古典的な線形モデルとの間で攻撃が転送されないことを観察した。これにより、トランスフォーマーの文脈内学習アルゴリズムと従来のアルゴリズムとの質的な違いが示唆された。 Comment
openreview: https://openreview.net/forum?id=CtMXJxO7SJ
元ポスト:
#Analysis #Pocket #NLP #LanguageModel #Evaluation #Hallucination #read-later
Issue Date: 2025-09-18 [Paper Note] Shared Imagination: LLMs Hallucinate Alike, Yilun Zhou+, TMLR'25, 2025.08 GPT Summary- 大規模言語モデル(LLMs)の類似性を理解するために、想像上の質問応答(IQA)という新しい設定を提案。IQAでは、1つのモデルが架空の質問を生成し、別のモデルがそれに答える。驚くべきことに、全てのモデルがフィクションの質問に成功裏に応答できることから、共通の「想像空間」が存在することが示唆される。この現象について調査し、モデルの均質性や幻覚、計算的創造性に関する考察を行う。 Comment
openreview: https://openreview.net/forum?id=NUXpBMtDYs
元ポスト:
元ポスト:
#ComputerVision #Analysis #Pocket #pretrained-LM #Scaling Laws Issue Date: 2025-06-26 [Paper Note] An Empirical Study of Pre-trained Model Selection for Out-of-Distribution Generalization and Calibration, Hiroki Naganuma+, TMLR'25 GPT Summary- 事前学習済みモデルのファインチューニングが分布外一般化タスクにおいて重要であることを示し、モデルのサイズやデータセットの選択がOOD精度と信頼性キャリブレーションに与える影響を調査。120,000時間以上の実験を通じて、大きなモデルと大規模なデータセットがOODパフォーマンスとキャリブレーションを改善することを発見。これは、従来の研究と対照的であり、事前学習済みモデルの選択の重要性を強調している。 Comment
OpenReview: https://openreview.net/forum?id=tYjoHjShxF
元ポスト:
#ComputerVision #EfficiencyImprovement #NLP #LanguageModel #Transformer #MultiModal #SpeechProcessing #Architecture #UMM Issue Date: 2024-11-12 Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models, Weixin Liang+, TMLR'25 GPT Summary- 大規模言語モデル(LLMs)のマルチモーダル処理を効率化するために、Mixture-of-Transformers(MoT)を提案。MoTは計算コストを削減し、モダリティごとにパラメータを分離して特化した処理を実現。Chameleon 7B設定では、55.8%のFLOPsで密なベースラインに匹敵する性能を示し、音声を含む場合も37.2%のFLOPsで同様の結果を達成。さらに、Transfusion設定では、7BのMoTモデルが密なベースラインの画像性能に対してFLOPsの3分の1で匹敵し、760Mのモデルは主要な画像生成指標で上回る結果を得た。MoTは実用的な利点も示し、画像品質を47.2%、テキスト品質を75.6%の経過時間で達成。 #Survey #ComputerVision #Pocket #DiffusionModel #VideoGeneration/Understandings #4D (Video) Issue Date: 2025-10-17 [Paper Note] Video Diffusion Models: A Survey, Andrew Melnik+, TMLR'24, 2024.05 GPT Summary- 拡散生成モデルは高品質な動画コンテンツの生成において重要な技術であり、本調査はそのアーキテクチャや時間的ダイナミクスのモデリングを包括的にまとめている。テキストから動画への生成の進展や、モデルの分類法、評価指標についても議論し、現在の課題や将来の方向性を考察している。研究者や実務者にとって有益なリソースを提供することを目指している。 #MachineLearning #Pocket #ReinforcementLearning Issue Date: 2025-06-14 [Paper Note] Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models, Avi Singh+, TMLR'24 GPT Summary- 言語モデルを人間データでファインチューニングする際の限界を超えるため、ReST$^{EM$という自己学習手法を提案。モデルから生成したサンプルをバイナリフィードバックでフィルタリングし、繰り返しファインチューニングを行う。PaLM-2モデルを用いた実験で、ReST$^{EM}$は人間データのみのファインチューニングを大幅に上回る性能を示し、フィードバックを用いた自己学習が人間生成データへの依存を減少させる可能性を示唆。 Comment
解説ポスト:
#ComputerVision #Pocket #Transformer #FoundationModel #Self-SupervisedLearning Issue Date: 2025-04-11 DINOv2: Learning Robust Visual Features without Supervision, Maxime Oquab+, TMLR'24 GPT Summary- 自己教師あり手法を用いて、多様なキュレーションデータから汎用的な視覚特徴を生成する新しい事前学習手法を提案。1BパラメータのViTモデルを訓練し、小型モデルに蒸留することで、OpenCLIPを上回る性能を達成。 #Survey #Pocket #NLP #LanguageModel #Alignment Issue Date: 2025-04-06 Foundational Challenges in Assuring Alignment and Safety of Large Language Models, Usman Anwar+, TMLR'24 GPT Summary- 本研究では、LLMsの整合性と安全性に関する18の基盤的課題を特定し、科学的理解、開発・展開方法、社会技術的課題の3つのカテゴリに整理。これに基づき、200以上の具体的な研究質問を提起。 Comment
OpenReview: https://openreview.net/forum?id=oVTkOs8Pka
#Pocket #NLP #Dataset #LanguageModel #Evaluation Issue Date: 2023-07-03 Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models, Aarohi Srivastava+, N_A, TMLR'23 GPT Summary- 言語モデルの能力と制約を理解するために、BIG-benchという新しいベンチマークを導入しました。このベンチマークでは、現在の言語モデルの能力を超えるタスクに焦点を当てています。さまざまなトピックの204のタスクが含まれており、モデルのサイズや性能の比較も行いました。結果として、モデルの性能とキャリブレーションは向上していますが、絶対的な性能は低く、モデル間の性能も似ていることがわかりました。また、スパース性からの利益やタスクの特性についても調査しました。さらに、曖昧な文脈の設定では社会的な偏見が増加することも示されましたが、プロンプトの使用で改善できる可能性もあります。 Comment
OpenReview: https://openreview.net/forum?id=uyTL5Bvosj
BIG-Bench論文。ワードクラウドとキーワード分布を見ると一つの分野に留まらない非常に多様なタスクが含まれることがわかる。
BIG-Bench-hardは、2024年にClaude3.5によって、Average Human Scoreが67.7%のところ、93.1%を達成され攻略が完了した。現在は最先端のモデル間の性能を差別化することはできない。
- Killed by LLM, R0bk