DownstreamTasks
[Paper Note] Nexus: Same Pretraining Loss, Better Downstream Generalization via Common Minima, Huanran Chen+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Optimizer #read-later #Selected Papers/Blogs #Generalization #Initial Impression Notes Issue Date: 2026-04-17 GPT Summary- 大規模言語モデル(LLMs)の事前学習において、幾何学的問題を調査し、タスク固有のミニマの位置が下流の一般化に影響することを提案。勾配の類似性を最大化するNexus optimizerを導入し、パラメータサイズやデータに応じた実験で、下流パフォーマンスの向上を示した。特に3Bモデルでは、分布外データでの損失を低減し、複雑な推論タスクで精度を最大15.0%向上させる結果を得た。これは、事前学習損失以外の評価指標の重要性を示唆している。 Comment
元ポスト:
ポイント解説:
モデルを更新する際に平均的に性能が良くなる方向ではなく、全ての異なるデータにおいて性能が改善する方向性で更新すると性能が改善するという感じだろうか。興味深い
[Paper Note] Pre-training LLM without Learning Rate Decay Enhances Supervised Fine-Tuning, Kazuki Yano+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #Supervised-FineTuning (SFT) #mid-training #PostTraining #Scheduler #One-Line Notes Issue Date: 2026-03-20 GPT Summary- 学習率スケジューリングが大規模言語モデルの事前学習とSFT後の性能に与える影響を調査。特に、ウォームアップ後に学習率を一定に保つWarmup-Stable-Only(WSO)スケジューラが、減衰ベースのスケジューラよりも一貫してSFT後の性能を向上させることを示す。分析によれば、WSOは平坦な極小値を維持し、訓練戦略としての有用性を強調。これにより、モデルの適応性を高める指針を提供。 Comment
元ポスト:
事前学習中にweight decayを実施しない方が、(事前学習終了時点での性能は劣化するが)SFT後のdownstreamタスクの性能を高める。
[Paper Note] Doc-to-LoRA: Learning to Instantly Internalize Contexts, Rujikorn Charakorn+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #PEFT(Adaptor/LoRA) #FactualKnowledge #memory #One-Line Notes #Test Time Training (TTT) Issue Date: 2026-03-01 GPT Summary- 長い入力を効率的に処理するために、Doc-to-LoRA(D2L)を提案。これはメタラーニングを用いて、単一の前方伝播で情報を効率よく蒸留し、適応型LoRAアダプタを生成する。D2Lにより、推論時のレイテンシとメモリ消費を削減し、文脈を超えてゼロショット精度を向上。実世界のデータセットにおいても、標準的な文脈蒸留を上回る性能を示す。 Comment
- [Paper Note] Text-to-LoRA: Instant Transformer Adaption, Rujikorn Charakorn+, ICML'25, 2025.06
に続く研究。
元ポスト:
ポイント解説:
Doc-to-LoRAの目的は、文書レベルの情報をメモリの内部パラメータとして埋め込むこと。
[Paper Note] Scaling Beyond Masked Diffusion Language Models, Subham Sekhar Sahoo+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Analysis #EfficiencyImprovement #Pretraining #NLP #LanguageModel #Supervised-FineTuning (SFT) #DiffusionModel #Scaling Laws #PostTraining #KeyPoint Notes Issue Date: 2026-02-18 GPT Summary- 拡散型言語モデルは生成速度向上の可能性から自己回帰型モデルの代替手段となり、マスクド拡散が優位なアプローチとして注目されている。本研究では、一様状態拡散法と補間的離散拡散法のスケーリング法則を初めて提示し、マスクド拡散モデルが約12%のFLOPs効率向上を示すことを報告。パープレキシティは拡散ファミリー内で有用だが、他のファミリーとの比較では誤解を招くことがある。全手法を17億パラメータにスケールすると、一様状態拡散は依然として競争力を保ちつつ、GSM8Kで他モデルを上回りつつパープレキシティは悪化する結果となった。 Comment
元ポスト:
pj page: https://s-sahoo.com/scaling-dllms/
Masked Diffusion Language Model (MDLM)はperplexityの観点では高い性能が出るが、異なるDiffusion Algorithmを比較する上でPerplexityが良い指標なのか?がResearch Questionで、3種類の拡散モデル[^1]に基づくモデルを同一の計算量の元でスケーリング時の挙動を分析したとのこと。
その結果、計算量を投入すればするほどARモデルのような綺麗なスケーリング則が全てのモデルで見出されたが、PerplexityがARと同等の性能に到達するためには、MDLMが14--16倍、Duoが23倍、Eso-LMが32倍の計算量を要した。
Perplexityの観点ではMDLMが良さそうだが、Perplexityが良いからといって、サンプル効率、あるいは下流タスクの性能が良いとは限らないため追加の分析を実施。
スループット(token/sec)を変化させて検証したところ、ARは品質が高いが遅く、スループットが高い領域ではDuoがサンプル効率と品質のパレート最適であることがわかり、中くらいの領域ではEso-LMがパレート最適、低い領域でさARがパレート最適であり、スループットと品質の観点ではMDLMは劣ることがわかった。
その後、パラメータ数を1.7Bに固定し、Nemotron Pretrainingデータセットで事前学習をし、zeroshotでの(尤度ベースでの)下流タスクの性能を見ると、MDLMよりもDuoの方が5/7のベンチマークで性能が良く、その後GSM8KでSFTすると、DuoのPerplexityは低かったにも関わらず、全てのモデルを上回った。
[^1]: MDLMに加えて、Uniform-state Diffusion (Duo), Interpolating Diffusion(Eso-LM)というモデルで比較しているようである。この辺はあまり詳しくないので勉強したい。
という話が元ポストに書かれている。
[Paper Note] Weight Decay Improves Language Model Plasticity, Tessa Han+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #Supervised-FineTuning (SFT) #Regularization #PostTraining #KeyPoint Notes #Reading Reflections Issue Date: 2026-02-12 GPT Summary- 事前訓練での重みの減衰がモデルの可塑性に与える影響を分析。高い減衰値が微調整時に性能向上を促進し、直感に反するトレードオフを引き起こすことを示す。重みの減衰が線形分離可能な表現を促進し、過学習を抑制する役割も明らかに。ハイパーパラメータ最適化における新たな評価指標の重要性を強調。 Comment
元ポスト:
事前学習時にWeight Decayを大きくするとPerplexityは悪化する場合があるが、Perplexityが悪化していたとしてもSFTを通じて最終的に得られるdownstream task性能のgainが高い場合がある、という話に見える。つまり、Findings2に書かれている通り、事前学習時にPerplexityを最小化するようなWeight Decayの設定はdownstream性能を高めるという観点では必ずしも必須ではない。ではなぜこのようなことが起きるかというと、Weight Decayを大きくするとAttentionのQK matricesのpseudo-rank(=行列の95%を説明するのに必要な特異値の割合)が改善されることが実験により観察され、一般的に低ランクな表現は正則化の結果として現れることから、シンプルな表現によってよりモデルがロバストになるのでは、という点が考察されている。また、実際にValidation dataとTraining dataのlossの差分を見ることで、Weight Decayが大きいことによってtraining dataへのoverfitが抑制されていることが観測された。
Weight DecayはもともとRegularizationとしての働きがあるので、それはそうなのだろうな、という感想を持ったのだが、特にQK matrixが正則化の影響を強く受けるというのはおもしろかった。つまり、クエリ対してよりロバストな写像を学習できているということだと思われる。
Perplexityが事前学習の良さを測るために必ずしも良いわけではないよ、という意味での関連:
- [Paper Note] Perplexity Cannot Always Tell Right from Wrong, Petar Veličković+, arXiv'26, 2026.01
[Paper Note] Beyond Speedup -- Utilizing KV Cache for Sampling and Reasoning, Zeyu Xing+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Embeddings #NLP #LanguageModel #read-later #Selected Papers/Blogs #KV Cache #Adaptive #Initial Impression Notes #SelfVerification Issue Date: 2026-01-30 GPT Summary- KVキャッシュを文脈情報の軽量な表現として再利用し、再計算や保存の必要を排除。KV由来の表現は、(i)チェーン・オブ・エンベディングで競争力のある性能を発揮し、(ii)ファスト/スロー思考切替でトークン生成を最大5.7倍削減する一方、精度損失を最小限に抑える。これにより、KVキャッシュがLLM推論における表現再利用の新たな基盤となることを示す。 Comment
元ポスト:
KV Cacheを軽量なhidden stateを表すembeddingとして扱うことで色々と応用できます、という話に見え、たとえばデコーディングの途中でhallucinationをdetectする際により省メモリで実現できたり、fast/d slowなthinkingの切り替えの制御に利用するなど、単に次トークンを生成する際の高速化の用途を超えて使うという興味深い発想な研究に見える。
[Paper Note] RewardBench 2: Advancing Reward Model Evaluation, Saumya Malik+, arXiv'25, 2025.06
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Alignment #Evaluation #Selected Papers/Blogs #RewardModel #KeyPoint Notes #Reading Reflections Issue Date: 2026-02-06 GPT Summary- 報酬モデルは、言語モデルの訓練後に好みデータを利用して指示遵守や推論、安全性を最適化するための訓練目標を提供します。新たに開発された「RewardBench 2」は、スキル領域を評価するための挑戦的なベンチマークを提供し、既存のモデルが低いスコアを示しつつも下流性能との相関が高いことを示しています。このベンチマークは人間のプロンプトを基にしており、厳格な評価プラクティスを促進しています。論文では、ベンチマークの構築プロセスと既存モデルの性能を報告し、モデルの下流使用との相関を定量化しています。 Comment
以下の6つのドメインで構成されるReward Modelの評価のためのベンチマーク:
- Factuality: hallucinationや誤りの有無の判定
- Precise Instruction Following: 細かい指示に対する追従性能
- Math: **自由記述**の数学に関するプロンプトに対する応答に関する能力
- Safety: 有害な応答に対して適切に対処できるか(応答拒否 or 適切な応答)
- Focus: 一般的なユーザのクエリに対して、トピックに沿った高品質な応答ができているか否か
- **Ties**: 「虹の色を1つ挙げて」といったような、複数の正解があり得るが、無数の不正解があるようなタスク(特定の正解にバイアスがかからず、正解と不正解を区別する能力を評価)
Reward Bench 2 での性能が、Best-of-N (=N個応答をサンプリングし最も良いものを採用するtest-time scaling手法)における様々なdownstreamタスクと強い相関を示すことが示されている。
ただし、PPOでの事後学習について焦点を当てた場合
- ベースモデルの出自がReward Modelと異なる場合
- Reward Modelの学習データが、ベースモデルと大きく異なる場合
においては、Reward Bench 2で高い性能が得られていても、PPOにおいて高い性能が得られず、特にベースモデルの出自が異なる場合の影響が顕著とのこと。
Reward Modelの性能が必ずしもPPOの事後学習後の下流タスクに対する性能と相関せず(ただし、Rewardベンチの性能が低い部分においてはおおまかに推定できる)、ベースモデルの出自が異なるReward Modelを使った場合や、Reward Modelとベースモデルが学習したプロンプトの分布が大きく異なる場合にこのような不整合が強く現れるというのは興味深く、おもしろかった。
Reward Modelとベースモデルの開始点が異なる場合は、RLによる学習がうまくいかないというのは、直感的でわかりやすい説明だなと感じた。
openreview: https://openreview.net/forum?id=fb0G86Dewb
[Paper Note] Harnessing Diversity for Important Data Selection in Pretraining Large Language Models, Chi Zhang+, ICLR'25 Spotlight, 2024.09
Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #NLP #LanguageModel #ICLR #read-later #Diversity #Selected Papers/Blogs #DataMixture #Generalization #One-Line Notes #Adaptive #Multi-Armed Bandit Issue Date: 2026-01-21 GPT Summary- データ選択は大規模言語モデルの事前トレーニングにおいて重要で、影響スコアでデータインスタンスの重要性を測定します。しかし、トレーニングデータの多様性不足や影響計算の時間が課題です。本研究では、品質と多様性を考慮したデータ選択手法\texttt{Quad}を提案します。アテンションレイヤーの$iHVP$計算を適応させ、データの品質評価を向上。データをクラスタリングし、選択プロセスでサンプルの影響を評価することで、全インスタンスの処理を回避します。マルチアームバンディット法を用い、品質と多様性のバランスを取ります。 Comment
openreview: https://openreview.net/forum?id=bMC1t7eLRc
あるモデルに対して、特定のデータセットD_rの性能を最大化するようにモデルを学習したいとする。このときに、全ての学習データD_cからD_rが学習の結果最大となるようなデータセットD_bを求めたい、という問題設定である。Influence Scoreを算出するモデルを活用する。
学習元データは事前にクラスタリングしておき、top-Kのクラスタを選択。選択したクラスタの中からmini-batchを抽出しinfluence scoreを計算し、influence scoreが一定の閾値を超えた場合にD_bに追加。その後計算したinfluence scoreと当該クラスタが選択された頻度情報に基づいてtop-kのクラスタを選択する際に用いるcluster scoreを更新。というiterationを繰り返しC_bを構築する、という方法に見える。
[Paper Note] Revisiting the Scaling Properties of Downstream Metrics in Large Language Model Training, Jakub Krajewski+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#NLP #LanguageModel #Scaling Laws #read-later #Selected Papers/Blogs Issue Date: 2025-12-10 GPT Summary- 本論文では、大規模言語モデル(LLMs)のトレーニング予算から下流タスクのパフォーマンスを予測する新しいフレームワークを提案。固定されたトークン対パラメータ比に基づき、単純なべき法則がログ精度のスケーリング挙動を正確に記述できることを発見。従来の二段階手法よりも優れた外挿を示し、精度予測の機能的形式を導入。最大17Bパラメータのモデルを350Bトークンまでトレーニングし、再現性を支援するためにデータを公開。 Comment
元ポスト:
興味深い
[Paper Note] Instability in Downstream Task Performance During LLM Pretraining, Yuto Nishida+, EMNLP'25 Findings, 2025.10
Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #EMNLP #Stability #Findings Issue Date: 2025-09-24 GPT Summary- LLMの訓練中に下流タスクのパフォーマンスが大きく変動する問題を分析し、チェックポイントの平均化とアンサンブル手法を用いて安定性を向上させることを提案。これにより、訓練手順を変更せずにパフォーマンスの変動を減少させることが実証された。 Comment
元ポスト:
[Paper Note] A Deep Dive into the Trade-Offs of Parameter-Efficient Preference Alignment Techniques, Megh Thakkar+, ACL'24, 2024.06
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Alignment #ACL Issue Date: 2025-01-06 GPT Summary- 大規模言語モデルの整列に関する研究で、整列データセット、整列技術、モデルの3つの要因が下流パフォーマンスに与える影響を300以上の実験を通じて調査。情報量の多いデータが整列に寄与することや、監視付きファインチューニングが最適化を上回るケースを発見。研究者向けに効果的なパラメータ効率の良いLLM整列のガイドラインを提案。
[Paper Note] Compression Represents Intelligence Linearly, Yuzhen Huang+, arXiv'24, 2024.04
Paper/Blog Link My Issue
#Analysis #Pretraining #LanguageModel #Evaluation #COLM #Selected Papers/Blogs #One-Line Notes Issue Date: 2024-04-17 GPT Summary- LLMsが知性を反映するかを圧縮の観点から検討。知性を下流ベンチマークのスコアで評価し、31の公開LLMを分析したところ、圧縮能力と知性にほぼ線形の相関があることが判明。これにより、より優れた圧縮が高い知性を示すという仮説が支持され、圧縮効率が信頼性のある評価指標として機能する可能性が示された。圧縮データセットはオープンソース化され、今後の研究に貢献することが期待される。 Comment
参考:
openreview: https://openreview.net/forum?id=SHMj84U5SH
external corpora (≠学習データ)で測定したモデルのBit Per Character (BPC) とdownstreamタスクのベンチマークスコアは、全体で平均で見ても、個別のドメインでみても、linearに相関する。
SNLP2023:Is GPT-3 a Good Data Annotator?, Yuki Zenimoto, 2023.08
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SyntheticData #Distillation #Slide #Finetuning #One-Line Notes #Reading Reflections Issue Date: 2023-09-05 Comment
GPT3でデータを作成したら、タスクごとに有効なデータ作成方法は異なったが、人手で作成したデータと同等の性能を達成するデータ(BERTでfinetuning)を、低コストで実現できたよ、という研究
この辺の話はもはや [Paper Note] Prompt2Model: Generating Deployable Models from Natural Language Instructions, Vijay Viswanathan+, arXiv'23, 2023.08 を使えばいいのでは、という気がする。
