DownstreamTasks


Paper/Blog Link My Issue
#NLP #LanguageModel #PEFT(Adaptor/LoRA) #FactualKnowledge #memory #One-Line Notes #Test Time Training (TTT) Issue Date: 2026-03-01 GPT Summary- 長い入力を効率的に処理するために、Doc-to-LoRA(D2L)を提案。これはメタラーニングを用いて、単一の前方伝播で情報を効率よく蒸留し、適応型LoRAアダプタを生成する。D2Lにより、推論時のレイテンシとメモリ消費を削減し、文脈を超えてゼロショット精度を向上。実世界のデータセットにおいても、標準的な文脈蒸留を上回る性能を示す。 Comment

- [Paper Note] Text-to-LoRA: Instant Transformer Adaption, Rujikorn Charakorn+, ICML'25, 2025.06

に続く研究。

元ポスト:

Loading…

ポイント解説:

Loading…


Doc-to-LoRAの目的は、文書レベルの情報をメモリの内部パラメータとして埋め込むこと。




Paper/Blog Link My Issue
#Analysis #EfficiencyImprovement #Pretraining #NLP #LanguageModel #Supervised-FineTuning (SFT) #DiffusionModel #Scaling Laws #PostTraining #KeyPoint Notes Issue Date: 2026-02-18 GPT Summary- 拡散型言語モデルは生成速度向上の可能性から自己回帰型モデルの代替手段となり、マスクド拡散が優位なアプローチとして注目されている。本研究では、一様状態拡散法と補間的離散拡散法のスケーリング法則を初めて提示し、マスクド拡散モデルが約12%のFLOPs効率向上を示すことを報告。パープレキシティは拡散ファミリー内で有用だが、他のファミリーとの比較では誤解を招くことがある。全手法を17億パラメータにスケールすると、一様状態拡散は依然として競争力を保ちつつ、GSM8Kで他モデルを上回りつつパープレキシティは悪化する結果となった。 Comment

元ポスト:

Loading…

pj page: https://s-sahoo.com/scaling-dllms/

Masked Diffusion Language Model (MDLM)はperplexityの観点では高い性能が出るが、異なるDiffusion Algorithmを比較する上でPerplexityが良い指標なのか?がResearch Questionで、3種類の拡散モデル[^1]に基づくモデルを同一の計算量の元でスケーリング時の挙動を分析したとのこと。

その結果、計算量を投入すればするほどARモデルのような綺麗なスケーリング則が全てのモデルで見出されたが、PerplexityがARと同等の性能に到達するためには、MDLMが14--16倍、Duoが23倍、Eso-LMが32倍の計算量を要した。
Perplexityの観点ではMDLMが良さそうだが、Perplexityが良いからといって、サンプル効率、あるいは下流タスクの性能が良いとは限らないため追加の分析を実施。

スループット(token/sec)を変化させて検証したところ、ARは品質が高いが遅く、スループットが高い領域ではDuoがサンプル効率と品質のパレート最適であることがわかり、中くらいの領域ではEso-LMがパレート最適、低い領域でさARがパレート最適であり、スループットと品質の観点ではMDLMは劣ることがわかった。

その後、パラメータ数を1.7Bに固定し、Nemotron Pretrainingデータセットで事前学習をし、zeroshotでの(尤度ベースでの)下流タスクの性能を見ると、MDLMよりもDuoの方が5/7のベンチマークで性能が良く、その後GSM8KでSFTすると、DuoのPerplexityは低かったにも関わらず、全てのモデルを上回った。

[^1]: MDLMに加えて、Uniform-state Diffusion (Duo), Interpolating Diffusion(Eso-LM)というモデルで比較しているようである。この辺はあまり詳しくないので勉強したい。

という話が元ポストに書かれている。




Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #Supervised-FineTuning (SFT) #Regularization #PostTraining #KeyPoint Notes #Reading Reflections Issue Date: 2026-02-12 GPT Summary- 事前訓練での重みの減衰がモデルの可塑性に与える影響を分析。高い減衰値が微調整時に性能向上を促進し、直感に反するトレードオフを引き起こすことを示す。重みの減衰が線形分離可能な表現を促進し、過学習を抑制する役割も明らかに。ハイパーパラメータ最適化における新たな評価指標の重要性を強調。 Comment

元ポスト:

Loading…

事前学習時にWeight Decayを大きくするとPerplexityは悪化する場合があるが、Perplexityが悪化していたとしてもSFTを通じて最終的に得られるdownstream task性能のgainが高い場合がある、という話に見える。つまり、Findings2に書かれている通り、事前学習時にPerplexityを最小化するようなWeight Decayの設定はdownstream性能を高めるという観点では必ずしも必須ではない。ではなぜこのようなことが起きるかというと、Weight Decayを大きくするとAttentionのQK matricesのpseudo-rank(=行列の95%を説明するのに必要な特異値の割合)が改善されることが実験により観察され、一般的に低ランクな表現は正則化の結果として現れることから、シンプルな表現によってよりモデルがロバストになるのでは、という点が考察されている。また、実際にValidation dataとTraining dataのlossの差分を見ることで、Weight Decayが大きいことによってtraining dataへのoverfitが抑制されていることが観測された。
image

Weight DecayはもともとRegularizationとしての働きがあるので、それはそうなのだろうな、という感想を持ったのだが、特にQK matrixが正則化の影響を強く受けるというのはおもしろかった。つまり、クエリ対してよりロバストな写像を学習できているということだと思われる。

Perplexityが事前学習の良さを測るために必ずしも良いわけではないよ、という意味での関連:
- [Paper Note] Perplexity Cannot Always Tell Right from Wrong, Petar Veličković+, arXiv'26, 2026.01




Paper/Blog Link My Issue
#Embeddings #NLP #LanguageModel #read-later #Selected Papers/Blogs #KV Cache #Adaptive #Initial Impression Notes #SelfVerification Issue Date: 2026-01-30 GPT Summary- KVキャッシュを文脈情報の軽量な表現として再利用し、再計算や保存の必要を排除。KV由来の表現は、(i)チェーン・オブ・エンベディングで競争力のある性能を発揮し、(ii)ファスト/スロー思考切替でトークン生成を最大5.7倍削減する一方、精度損失を最小限に抑える。これにより、KVキャッシュがLLM推論における表現再利用の新たな基盤となることを示す。 Comment

元ポスト:

Loading…

KV Cacheを軽量なhidden stateを表すembeddingとして扱うことで色々と応用できます、という話に見え、たとえばデコーディングの途中でhallucinationをdetectする際により省メモリで実現できたり、fast/d slowなthinkingの切り替えの制御に利用するなど、単に次トークンを生成する際の高速化の用途を超えて使うという興味深い発想な研究に見える。

関連:
- [Paper Note] Latent Space Chain-of-Embedding Enables Output-free LLM Self-Evaluation, Yiming Wang+, ICLR'25, 2024.10




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Alignment #Evaluation #Selected Papers/Blogs #RewardModel #KeyPoint Notes #Reading Reflections Issue Date: 2026-02-06 GPT Summary- 報酬モデルは、言語モデルの訓練後に好みデータを利用して指示遵守や推論、安全性を最適化するための訓練目標を提供します。新たに開発された「RewardBench 2」は、スキル領域を評価するための挑戦的なベンチマークを提供し、既存のモデルが低いスコアを示しつつも下流性能との相関が高いことを示しています。このベンチマークは人間のプロンプトを基にしており、厳格な評価プラクティスを促進しています。論文では、ベンチマークの構築プロセスと既存モデルの性能を報告し、モデルの下流使用との相関を定量化しています。 Comment

以下の6つのドメインで構成されるReward Modelの評価のためのベンチマーク:
- Factuality: hallucinationや誤りの有無の判定
- Precise Instruction Following: 細かい指示に対する追従性能
- Math: **自由記述**の数学に関するプロンプトに対する応答に関する能力
- Safety: 有害な応答に対して適切に対処できるか(応答拒否 or 適切な応答)
- Focus: 一般的なユーザのクエリに対して、トピックに沿った高品質な応答ができているか否か
- **Ties**: 「虹の色を1つ挙げて」といったような、複数の正解があり得るが、無数の不正解があるようなタスク(特定の正解にバイアスがかからず、正解と不正解を区別する能力を評価)

image

Reward Bench 2 での性能が、Best-of-N (=N個応答をサンプリングし最も良いものを採用するtest-time scaling手法)における様々なdownstreamタスクと強い相関を示すことが示されている。
image

ただし、PPOでの事後学習について焦点を当てた場合
- ベースモデルの出自がReward Modelと異なる場合
- Reward Modelの学習データが、ベースモデルと大きく異なる場合
においては、Reward Bench 2で高い性能が得られていても、PPOにおいて高い性能が得られず、特にベースモデルの出自が異なる場合の影響が顕著とのこと。

image

Reward Modelの性能が必ずしもPPOの事後学習後の下流タスクに対する性能と相関せず(ただし、Rewardベンチの性能が低い部分においてはおおまかに推定できる)、ベースモデルの出自が異なるReward Modelを使った場合や、Reward Modelとベースモデルが学習したプロンプトの分布が大きく異なる場合にこのような不整合が強く現れるというのは興味深く、おもしろかった。
Reward Modelとベースモデルの開始点が異なる場合は、RLによる学習がうまくいかないというのは、直感的でわかりやすい説明だなと感じた。

openreview: https://openreview.net/forum?id=fb0G86Dewb




Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #NLP #LanguageModel #ICLR #read-later #Diversity #Selected Papers/Blogs #DataMixture #Generalization #Adaptive #Multi-Armed Bandit Issue Date: 2026-01-21 GPT Summary- データ選択は大規模言語モデルの事前トレーニングにおいて重要で、影響スコアでデータインスタンスの重要性を測定します。しかし、トレーニングデータの多様性不足や影響計算の時間が課題です。本研究では、品質と多様性を考慮したデータ選択手法\texttt{Quad}を提案します。アテンションレイヤーの$iHVP$計算を適応させ、データの品質評価を向上。データをクラスタリングし、選択プロセスでサンプルの影響を評価することで、全インスタンスの処理を回避します。マルチアームバンディット法を用い、品質と多様性のバランスを取ります。 Comment

openreview: https://openreview.net/forum?id=bMC1t7eLRc




Paper/Blog Link My Issue
#NLP #LanguageModel #Scaling Laws #read-later #Selected Papers/Blogs Issue Date: 2025-12-10 GPT Summary- 本論文では、大規模言語モデル(LLMs)のトレーニング予算から下流タスクのパフォーマンスを予測する新しいフレームワークを提案。固定されたトークン対パラメータ比に基づき、単純なべき法則がログ精度のスケーリング挙動を正確に記述できることを発見。従来の二段階手法よりも優れた外挿を示し、精度予測の機能的形式を導入。最大17Bパラメータのモデルを350Bトークンまでトレーニングし、再現性を支援するためにデータを公開。 Comment

元ポスト:

Loading…

興味深い




Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #EMNLP #Stability #Findings Issue Date: 2025-09-24 GPT Summary- LLMの訓練中に下流タスクのパフォーマンスが大きく変動する問題を分析し、チェックポイントの平均化とアンサンブル手法を用いて安定性を向上させることを提案。これにより、訓練手順を変更せずにパフォーマンスの変動を減少させることが実証された。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Alignment #ACL Issue Date: 2025-01-06 GPT Summary- 大規模言語モデルの整列に関する研究で、整列データセット、整列技術、モデルの3つの要因が下流パフォーマンスに与える影響を300以上の実験を通じて調査。情報量の多いデータが整列に寄与することや、監視付きファインチューニングが最適化を上回るケースを発見。研究者向けに効果的なパラメータ効率の良いLLM整列のガイドラインを提案。