Pretraining


Paper/Blog Link My Issue
#GraphBased #NLP #LanguageModel #DataFiltering Issue Date: 2026-06-05 GPT Summary- マルチドメイングラフ事前学習の冗長性に対処するため、境界意識的サブグラフ混合と階層的識別を組み合わせたフレームワークMDGMIXを提案。MDGMIXは、難易度の高いサブグラフを構築し、共有パターンを識別。少数ショット分類タスクでベースラインを上回り、効率性も向上。コードは公開済み。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal #read-later #Robotics #VisionLanguageActionModel #Author Thread-Post Issue Date: 2026-06-03 GPT Summary- DynaFLIPは、ロボット操作のためのダイナミクスを意識した多モーダル事前学習フレームワークで、運動理解を知覚に統合します。異種の人間とロボットのビデオから構築したトリプレットを用い、画像のみのエンコーダを訓練。三つのモダリティが小さなシンプレックス体積を形成するよう促し、その体積が小さいほど整合が強くなります。シンプレックス体積最小化をコサイン正則化項と対照学習と組み合わせ、重要な制御関連領域に焦点を当てたダイナミクス認識表現を得て、視覚バックボーンとして機能します。多様なシミュレーションと実世界の設定で検証した結果、分布外の状況下で最大+22.5%の改善を達成。視覚表現が行動による世界の変化をエンコードすることで、ロボットの一般化能力が向上することを示唆しています。 Comment

pj page: https://dynaflip-robotics.github.io/

元ポスト:

Loading…

pj page: https://huggingface.co/jlee-larr/dynaflip-base




Paper/Blog Link My Issue
#ComputerVision #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #mid-training #PostTraining #read-later #Selected Papers/Blogs #Robotics #VisionLanguageActionModel #Author Thread-Post Issue Date: 2026-05-31 GPT Summary- Qwen-VLAは、視覚・言語・行動モデルを統一し、異種の意思決定問題に対応するために開発された。大規模な共同事前学習を通じて、ロボット操作やナビゲーション、軌跡生成を統合したフレームワークで、体現性を考慮したプロンプト条件付けを導入。実験結果は、複数の環境やタスクにおいて、一貫したマルチタスク性能と高い一般化能力を示し、特に実世界のデータセットで優れた成果を達成した。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #Scaling Laws #Initial Impression Notes #Author Thread-Post Issue Date: 2026-05-31 GPT Summary- UNSLと呼ばれる関数形を提案し、複数の次元が同時に変化する際の深層ニューラルネットワークのスケーリング挙動を正確にモデル化。モデルパラメータ、データセットサイズ、トレーニングおよび推論ステップ数、計算量などが影響を与える様子を示し、大規模なビジョン、言語、数学、強化学習タスクに適用。既存のスケーリング関数と比べ、より精度の高い外挿を実現。 Comment

元ポスト:

Loading…

データセットサイズ、推論ステップ数、幅、深さ、初期化時の重みの標準偏差、学習率、バッチサイズを変数に持ち、それらを同時に変化させても外挿可能なScaling Lawsのようである




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Normalization Issue Date: 2026-05-31 GPT Summary- LLMにおけるスケールベクトルの役割を体系的に研究。スケールベクトルはモデルパラメータの僅かな割合でありながら、その除去で事前学習が劣化することを実証。Pre-Normアーキテクチャにおいては、最適化を改善する機能を持つことを示す。また、スケールベクトルに対するウェイト減衰が役割によって異なる効果を持つことを理論的に説明。三つの改良策を提案し、それぞれが一貫した利益をもたらすことを示した。最終的にこれらの改良を統一戦略に統合し、広範な事前学習実験で良好な成果を得る。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #ActivationFunction Issue Date: 2026-05-27 GPT Summary- FFN層における活性化関数の固定化から進化し、トークン適応型のMixture of Activations(MoA)を提案。MoAは軽量な入力依存ゲートを用いて活性化の辞書を混合し、パラメータ効率よく表現力を向上。広範な実験で一貫して損失が低下し、従来ベースラインと比べてスケーリング挙動が好ましいことを示す。MoAはLLMsのFFNでの非線形表現力を効果的に高めるメカニズムである。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #Stability #ActivationFunction #Initial Impression Notes #LowPrecision #Author Thread-Post Issue Date: 2026-05-27 GPT Summary- 大規模言語モデル(LLM)において、SwiGLU活性化関数は非線形性を導入するが、大きな入力での数値的不安定性が問題。これを解決するために、新たに提案したPowLU活性化関数は、安定した訓練を実現し、表現力を向上させる。実験では、PowLUがSwiGLUやSwiGLU-Clipと比較して競争力のある結果を示し、スケーラビリティの向上も確認された。 Comment

元ポスト:

Loading…

Layerが深いモデルや、低精度(FP8/FP4)に対して、事前学習の安定性を高める活性化関数




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Distillation #read-later #Initial Impression Notes Issue Date: 2026-05-27 GPT Summary- 知識蒸留における教師と生徒の関係を再検討。強→弱、同等、弱→強の関係で蒸留の有効性を分析し、教師が強力である必要はないことを発見。適切に損失を混合すれば小規模教師でも大きな生徒モデルを改善可能。教師のパラメータ数や訓練トークンの増加は蒸留効果を逆転または飽和させることも。蒸留は分布外および下流タスクの性能を同一ドメインより改善する傾向がある。これにより、強力な教師の必要性に疑問を投げかける。 Comment

元ポスト:

Loading…

モデルサイズやperplexity視点での強-弱ではなく、どちらかというとdownstreamタスクでの性能の方が大事なのでは?結局のところ、生徒モデルよりも教師モデルの方が秀でている部分が何かしら存在すれば、学習シグナルを得られる可能性はあるよね、という話な気が。




Paper/Blog Link My Issue
#NLP #Optimizer #Scheduler-free Issue Date: 2026-05-27 GPT Summary- SF-NorMuonを提案し、スケジュールフリーのスペクトル最適化法として、既存のSF-AdamWを上回る性能を実現。125Mおよび772Mパラメータのモデルにおいて、調整済みAdamWに匹敵または優越。定常性保証を証明し、ウェイト減衰が長期的安定に不可欠であることを示した。これにより、任意の時点で高品質なチェックポイントを取得可能にし、ホライゾンなしの最適化を実用化。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #Quantization #Scaling Laws #PostTraining #read-later Issue Date: 2026-05-27 GPT Summary- LLMの性能改善を目指し、シャノン・スケーリング則を提案。この理論は、モデルパラメータをチャネル帯域幅、学習トークンを信号電力と見なし、学習信号と内在ノイズの相互作用を捉える。信号対雑音比が不十分な場合、性能が劣化することを示し、PythiaやOLMo2における実験で理論を検証。シャノン・スケーリング則は古典的手法を上回り、ロスの谷を正確に捉え、未知のモデル予測でも高いR^2スコアを達成。従来の単調性に基づくモデルは劣化する。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #Temporal #LanguageModel #Factuality #read-later #Selected Papers/Blogs #FactualKnowledge #One-Line Notes Issue Date: 2026-05-27 GPT Summary- 時間的根拠を学ぶためのLLMの訓練におけるデータの並び順の重要性を探求。7,000件を超える時間的質問のベンチマークを作成し、事実と時期の結び付けを評価。6Bパラメータモデルを時系列で訓練した結果、シャッフル訓練と同等以上の性能を示しつつ、最新の知識を一貫して保持。これにより、時間的順序付けが知識の新鮮さを向上させることを明らかにした。関連コードやデータセットも公開し、今後のLLMの継続学習研究に寄与。 Comment

元ポスト:

Loading…

事前学習時に時系列に応じて並び替えをしたコーパスと、シャッフルしたコーパスの場合、freshな知識が必要な質問に対する応答性能が改善する。実験では、Common Crawlのsnapshotの時刻のタイムスタンプに基づいてorderを決定しているようである(2.3説冒頭)。
image

評価のために作成されたQA例が下記で、NBAのバスケチームのコーチのような時間とともに正解が変化するような事実に関する質問によって構成されているようである。これらはwikipediaから特定の年と紐づいた (subject, relation, object) のタプルを抽出することによって生成される。
image




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Optimizer #Scaling Laws #read-later #Initial Impression Notes Issue Date: 2026-05-27 GPT Summary- オプティマイザは、言語モデルの性能に重要な影響を与えるが、通常は固定的な詳細として扱われている。本研究では、異なるオプティマイザが同じTransformerアーキテクチャのスペクトルスケーリングに与える影響を調査し、AdamWとMuonの間で顕著な違いを発見した。特に、Muonは線形スケーリングを示し、スケーリング指数が2.3倍に増加するのに対し、AdamWは弱いスケーリングを示した。この異差は検証損失だけでは説明できず、同一の損失が異なる表現構造を持つ可能性を示唆する。オプティマイザの効果はアーキテクチャの効果を上回ることがあり、最適化を表現スケーリングの重要な要素として捉える必要性を強調し、オプティマイザとアーキテクチャの共同設計を促進する。 Comment

元ポスト:

Loading…

lossは同じでも、AdamW/Muonの間で形成される内部representationの構造が異なる(説)




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #read-later #Selected Papers/Blogs #LearningRate #Initial Impression Notes Issue Date: 2026-05-27 GPT Summary- Layerwise Learning Rate(LLR)を導入し、Transformer層ごとに異なる学習率を割り当てることで訓練を効率化。重尾性を考慮した学習率調整により、訓練の均一化、収束の加速、一般化の改善を実現。50の異なる条件での実験で、最大1.5倍の訓練速度アップを達成し、1Bモデルのゼロショット精度を47.09%から49.02%に改善。低いチューニングオーバーヘッドも特長。 Comment

元ポスト:

Loading…

Layerごとに学習率を調整することで、学習効率を改善する




Paper/Blog Link My Issue
#Embeddings #Analysis #NLP #LanguageModel #read-later #HyperparameterTransfer Issue Date: 2026-05-27 GPT Summary- ハイパーパラメータ転送は、小規模から大規模モデルへの最適化に不可欠で、特にスケーリング則の適合や適切なパラメータ化の選択が重要です。本研究では、ハイパーパラメータ転送をスケーリング則適合の品質、外挿誤差のロバスト性、パラメータ化による損失ペナルティの三つの指標で定量化する枠組みを提案。また、μPがSPに比べて高品質な学習率転送を提供する理由を解明し、埋め込み層の学習率最大化が訓練の安定性とハイパーパラメータ転送を向上させることを示しました。さらに、ウェイト減衰はスケーリング則の適合を促進する一方で、固定トークン設定が外挿ロバスト性を損なう可能性も指摘しました。 Comment

関連:
- [Paper Note] Scaling Exponents Across Parameterizations and Optimizers, Katie Everett+, ICML'24
- [Paper Note] A Theory on Adam Instability in Large-Scale Machine Learning, Igor Molybog+, arXiv'23, 2023.04

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #mid-training #PostTraining #Selected Papers/Blogs #reading #One-Line Notes Issue Date: 2026-05-27 GPT Summary- LLMの訓練パイプラインを効率的にスケールするためにIntrospective Training(IXT)を提案。IXTはポスト訓練の情報を初期段階に活用し、自然言語によるフィードバックを付与することで、データの品質を意識した訓練を実現。これにより、トークンの扱いが変化し、計算効率は最大約2.8倍向上、特に数学やコード分野で優れた性能を達成。 Comment

元ポスト:

Loading…

LLMによってルーブリックに基づいて学習データに対するスコア、critiqueを生成し、データにprependして学習することで、学習効率が改善する。事前学習だけでなく、中間/事後学習にも適用できるようである。

image




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Selected Papers/Blogs #reading #One-Line Notes #needs-revision #Author Thread-Post Issue Date: 2026-05-27 GPT Summary- 大規模言語モデル(LLMs)の事前学習におけるスキル獲得の順序を理解するための「暗黙のカリキュラム仮説」を提案。シンプルかつ組み合わせ可能なタスクを用い、モデル間の一貫した出現順序を追跡。特定のパラメータ範囲で構成的なタスクが後に現れる傾向があり、モデルの表現に組み込まれていることを示す。予測可能な訓練経路を通じて、事前学習は構造化されていると示唆。 Comment

元ポスト:

Loading…

これは、著者ポストしっかり読みたい

- モデルファミリー・DataMixtureにはよらず、事前学習では構成的で、かつ予測可能なカリキュラムに則って学習が進行し、かつモデルの内部状態から各スキルがどのように学習されていくかを予測できるという仮説を立て、
- この仮説を検証するために、91種類の構成的なタスクを定義し、emergence(=当該タスクの性能が閾値を超えること)を4種類のモデルファミリーにおける9つのモデル、様々なDataMixtureの元で追跡した。タスクの例は以下:
- simple tasks: 文字列操作/形態素の変換/知識の抽出/翻訳など
- composite tasks: 複数の基礎的な操作のsequentialな組み合わせによって実現されるタスク
- たとえば、`gerund_upper` は大文字への変換➡︎動名詞への変換という順番で定義される。

image

- 様々なモデルファミリーをテストしたところ、LLMは事前学習の間におおむね(完璧ではないが)同じ順番でスキルを獲得していくことが明らかになった
- たとえば、Figure 1を見ると、性能の伸び方は異なるものの、閾値を50%としたときのemergenceの順番はモデルの間で一貫していることがわかる。Table2も参照のこと。

image

- composite tasksは、それらのタスクの構成要素が獲得された後にemergeすることが明らかになった(54/76ケース)
- 例外的に、composition taskが構成要素よりも先に習得されたものが3例ほど存在した
- また、あるcomposite taskの学習曲線を、類似したFunction Vectors [^1] を持つcomposite taskから予測できるか?(i.e., 類似したタスクは同じような学習曲線を持つか?)を検証。
- これを実施するために、composite taskに対してleave-one-outを実施し、類似したタスクのFunction Vectorsから学習の軌跡を予測できるかを実験したところ、R^2スコアが0.68--0.84程度の性能で予測することができた。
- Function Vectors: [Paper Note] Function Vectors in Large Language Models, Eric Todd+, arXiv'23, 2023.10

image

[^1]: Function Vectorsとは、LLMに遂行させるタスクのinput-outputの変換の関係性を保持し、タスクを遂行させる際にLLMに対して強い影響力を持つ内部のactivationsのことを指す。




Paper/Blog Link My Issue
#NLP #LanguageModel #Optimizer #read-later #Selected Papers/Blogs #Scheduler #Scheduler-free Issue Date: 2026-05-27 GPT Summary- Schedule-Free Learningは、任意の時点で効果的に訓練できる手法として、高い成果を挙げているが、これまで小規模なスケールでの適用に限られていた。私たちは、この手法を大規模モデルとバッチサイズに拡張するための修正を行い、学習率やスケジュールが不要なScheduleFree+を提案。これにより、従来のWSDスケジュールを上回る訓練が実現され、長時間の訓練で特に効果を発揮することが示された。パラメータあたりのトークン数が1000で、先端技術よりも31%の性能向上を達成した。さらに、この手法はモデル平均化とチェックポイントのマージ利用の理論的基盤も提供する。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #LowPrecision Issue Date: 2026-05-27 GPT Summary- 大規模言語モデルのFP4トレーニングにおいて、Wgradの量子化が収束低下を引き起こす主要な要因であることを示唆する研究。FpropとDgradのFP4適用は控えめな影響に留まる。実験結果により、トレーニングの不安定さは確率性ではなく、勾配経路に沿った構造的な誤差によって生じることが明らかになった。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #DataMixture Issue Date: 2026-05-27 GPT Summary- データ混合は、異なるソースを組み合わせる問題であり、言語モデルの訓練に重要な影響を与える。従来の手法は特定のフェーズに依存しており、単独での代理モデルや固定ドメインに頼ることが多い。我々は、訓練全体に適用可能なデータ混合アルゴリズムOP-Mixを提案し、候補データを低ランクアダプタ間で補間することでコストを削減し、探索をモデルの実際の学習に基づかせる。OP-Mixは、計算資源を大幅に削減しつつ、事前学習や継続学習での性能を向上させ、データから学ぶ単一の連続プロセスとしての新しい視点を提示する。 Comment

元ポスト:

Loading…

解説:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SyntheticData #One-Line Notes Issue Date: 2026-05-27 GPT Summary- LLMは、データ束縛型の局面に移行しているが、オーガニックデータを完全に活用しているわけではない。そこで、本研究では、合成データ生成フレームワーク「SynPro」を導入し、限られたオーガニックデータからの学習を強化する。SynProは、再表現と再フォーマットを通じて多様な情報を生成し、強化学習で最適化される。実験により、SynProは有効トークン数を3.7〜5.2倍に引き上げ、データ束縛の課題に対処できることが示された。コードはオープンソースで公開されている。 Comment

元ポスト:

Loading…

人間が作成したテキスト(organic data)の効果を最大限に引き出すためにデータを合成し、事前学習のlossがサチった際には合成データを生成するポリシーを更新し、現在のサチったモデルに対してより有効なデータとなるような合成データをorganic dataから(rephrasing/reformatにより)合成し学習コーパスに追加する(式10, 11, 12)。

image




Paper/Blog Link My Issue
#NLP #LanguageModel #Selected Papers/Blogs #reading #One-Line Notes #DownstreamTasks #Author Thread-Post Issue Date: 2026-05-27 GPT Summary- 信頼性の高い性能予測が必要な言語モデル開発において、クロスエントロピー損失や直接評価には限界があることを指摘し、代わりに専門家が執筆した解答のトークン分布からエントロピーや精度といったトークンレベルの統計を用いた代理指標を提案。これにより、モデル選択や事前学習データの選択、訓練時の予測において一貫して優れた結果を示し、専門家の軌跡がモデル能力評価において有用な信号であることを明らかにした。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

クロスエントロピーlossに代わるcandidate modelのdownstreamタスクの性能を間接的に測定するための代理指標の提案で、クロスエントロピーlossと比較。代理指標はexpertが作成したtrajectoryに対するcandidate modelのnext token predictionの分布(や、エントロピー等指標に基づく重みづけの組み合わせ)によって、算出される(式1, 2)。

image

6つの異なるモデルファミリーの18種類のreasoning modelにおいて、6種類のベンチマークにおいて、モデルのdownstreamタスク性能をランク付けできるかをSpearman Rhoで測定したところ、クロスエントロピーlossが0.36だったのに対し、提案した代理指標(を特徴量として用いたRankSVM)は0.81を記録。また、(あるLLMがある事前学習コーパスで学習された場合のdownstreamタスクでの性能の良さによって)事前学習コーパスの良さをランク付けするタスクの場合、ベースラインと比較して10,000倍計算コストを削減できたとのこと。

image

DataDecide testbed:
- [Paper Note] DataDecide: How to Predict Best Pretraining Data with Small Experiments, Ian Magnusson+, ICML'25, 2025.04




Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #Optimizer #Finetuning #Stability #Backbone #One-Line Notes #Author Thread-Post #Scheduler-free Issue Date: 2026-05-26 GPT Summary- Muonの直交化は、勾配の振動を引き起こす高曲率部分空間の影響を受けつつ、訓練の進展を加速する。一方、Anytime Muon(AMUSE)は、迅速な適応を図るために時間変化する補間係数を利用し、安定した平均化を通じて振動を抑制する。AMUSEは学習率スケジュールを排除し、視覚タスクと大規模言語モデルの事前トレーニングにおいて、性能を一貫して向上させる。 Comment

元ポスト:

Loading…

以下、上記著者ポストからの要約である。

MuonとScheduler-freeなoptimiserでの過去のtrajectoryの平均的な方向へ更新する考え方を組み合わせて、Muonの学習を安定させ、かつSchduler-freeを実現した模様。具体的には学習初期にはMuonの軌道を重視し、学習後半になるにつれ、ノイズの影響を低減するためにtrajectoryの平均方向に最適化する(時間変化する補完係数によって挙動が制御される)といったイメージのようである。

Muonがなぜうまくいくかの理論的な分析も実施されている。近年は損失関数の幾何構造をriver/valleyのようにたとえて表現するらしく、(Figure 1)、SGDは曲率の高い(勾配が急)な方向への更新される傾向があり振動をしながら川方向へ進むようだが、Muonはriver方向(曲率は小さいがモデルが最も学習が進捗する方向)への更新を増幅する働きがあるようである。しかし、ノイズとなる高曲率な谷方向への更新も増幅してしまいそれが振動や不安定さを生むため、それを是正するためにSchedule Freeな手法を組み合わせている、という気持ちのようである。また、先行研究に記載がある通り、WSDスケジューラをriver-valleyで説明する、Stableフェーズが川に沿った更新を促進し、Decayフェーズはパラメータを谷の底へ収束させる役割を果たしている、というイメージのようである。

image




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #read-later #Selected Papers/Blogs #DataFiltering #One-Line Notes #Reading Reflections #Author Thread-Post Issue Date: 2026-05-23 GPT Summary- 高計算資源を活用したスケーリング研究で、大規模モデルの事前学習におけるデータフィルタリングを検討。一般的に思われる高品質データのみが必要との見解に反し、実験は、十分な計算資源があればデータフィルターなしが最良であることを示す。訓練された大規模モデルは低品質や誤誘導データを受け入れ、むしろ「質の悪い」データからも恩恵を得ることが判明。 Comment

元ポスト:

Loading…

LLMの事前学習において、十分に大きなモデルサイズと計算量があれば、データフィルタリングをしない場合の方が最終的にperplexityがデータをフィルタリングしたモデルよりも上回る。これはbad data (e.g., トークンのシャッフル, ランダムな文字列の挿入)を追加した場合でも当てはまる。

データプールのサイズが大きな数な場合でも、フィルタリング手法とフィルタリングがない手法との交差点が変わるのみで、その交差点は現実的なエポック数に留まったままである。データのスケーリングの傾向に基づいて、インターネットサイズのデータサイズに外挿をすると、約1e30 FLOPsが必要となる試算になるが、数年以内に到達可能な計算量と考えられる。

ダウンストリームタスクへの性能にも(ノイジーだが)事前学習での改善は寄与する。ただし、事前学習させたトークン数が少ない場合はフィルタリングした方が性能が良く、十分な計算量を投じる必要がある。

といった話が著者ポストに書かれている。興味深い。

逆に言うとこの傾向は、モデルパラメータ、計算資源が十分に大きいことが前提だと考えられるので、PhiのようなSLM研究において得られた学習データの高品質化が重要という知見とは競合しないと思われる。

解説:

Loading…

関連:
- [Paper Note] When Bad Data Leads to Good Models, Kenneth Li+, ICML'25, 2025.05




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Tokenizer #read-later #Selected Papers/Blogs #Byte-level #Author Thread-Post Issue Date: 2026-05-22 GPT Summary- サブワードトークン化の訓練効率とモデル性能への影響を分離し、様々な次元で仮説を検証。バイトレベル環境でのシミュレーションにより、サブワードモデルの優位性を明らかにし、訓練スループットの向上とサブワード境界の重要性を強調。将来のモデル改良への洞察を提供。 Comment

LLMに記憶の更新(要約)。任せ、継続すると最初は性能が向上するが、じきに低下していき、記憶なしのモデルが上回るようになる。無条件にLLMに記憶を更新させるのではなく、要約をするタイミングを明示的に指定する、生のエピソードを最優先するといった対策があるといった感じかもだが、ちょっともう少しちゃんと読んだ方が良さそう。

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Architecture #LinearAttention Issue Date: 2026-05-22 GPT Summary- Gated DeltaNet-2は、線形アテンションの圧縮メモリを編集するためにGated Delta Rule-2を導入し、適応的忘却とチャネルごとの減衰を実現。チャネルごとの消去ゲートと書き込みゲートを分離し、それぞれの役割を明確にすることで性能を向上。13億パラメータでトレーニングされたモデルは、言語モデリングや常識推論において強力な結果を示し、特に長文のRULERベンチマークで顕著な利点を発揮。コードは公開中。 Comment

元ポスト:

Loading…

所見:

Loading…

解説:

Loading…




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #DataMixture #LowResource #One-Line Notes Issue Date: 2026-05-21 GPT Summary- 低リソース言語の事前学習におけるデータ制約を克服するために、ハイパーパラメータ調整と高リソース言語のデータ混合の二つのアプローチを比較。データ混合は検証損失と下流タスクの精度向上をもたらし、特にモデルサイズが大きいほどその効果が顕著。混合による性能向上は、ターゲットデータのユニークな量の2〜13倍に相当し、混合が正則化と知識供給に寄与するが、検証損失はその効果を過小評価している。実践的な指針として、高リソース言語の混合を優先し、ハイパーパラメータ調整よりも混合比に焦点を当てることを提案。 Comment

元ポスト:

Loading…

low resourceな言語での性能向上にはハイパーパラメータを調整するよりもHigh Resourceなデータを混合し、正則化の働きを促進するのと、low resourceなデータからでは得られない知識を注入する方が効果的




Paper/Blog Link My Issue
#NLP #LanguageModel #Scaling Laws #DataMixture #Initial Impression Notes Issue Date: 2026-05-21 GPT Summary- 希少なターゲットデータを扱う際、汎用データとの混合は重要だがトレードオフを伴う。ターゲットデータが少なすぎると露出不足、逆に多すぎると過学習のリスクが高まる。2,000件以上の訓練データを用いた調査から、繰り返しが性能向上の鍵であり、適切な繰り返し回数はデータのサイズやモデルのスケールによることを発見した。また、繰り返しを考慮した混合スケーリング則を提案し、効果的な混合構成を体系的に計算する手法を提供した。 Comment

元ポスト:

Loading…

汎用的なデータと少量しかないターゲットデータをMixする場合において、汎用的なデータは常に新しいトークンが供給される(ターゲットデータの過学習を防止する正則化の役割を果たす)状況で、ターゲットデータを繰り返し学習させら場合は:

> 希少なターゲットコーパスは15〜20回再利用可能で、最適な繰り返し回数はターゲットデータのサイズ、計算予算、モデルスケールに依存する。

ということらしい。

また、モデルサイズ、合計学習トークン、ターゲットデータのサイズ、混合比率、ターゲットデータの繰り返しの頻度、と、ターゲットドメインのlossの間のscaling lawsを導出したということらしい。

関連:
- [Paper Note] Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23




Paper/Blog Link My Issue
#NLP #LanguageModel #SmallModel #Architecture #read-later #Selected Papers/Blogs #LatentReasoning #RecurrentModels Issue Date: 2026-05-20 GPT Summary- HRMを用いた新たな言語モデルは、多タイムスケール処理を取り入れ、計算資源を大幅に節約しつつ高い性能を達成。指示-応答ペアに特化した訓練により、ゼロからの学習でもMMLUやARC-Cなどで顕著な結果を出し、公開モデルと対等以上の性能を示す。これは、アーキテクチャと学習目標の共設計によって、事前学習をよりアクセスしやすくする可能性を示唆している。 Comment

元ポスト:

Loading…

気になる




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Optimizer Issue Date: 2026-05-15 GPT Summary- フレオンという新たなシャッテンノルム基盤の最適化アルゴリズムを導入し、特異値の置換にもかかわらず優れた性能を発揮するKaonを提案。最適化性能は幾何構造ではなく、アライメントと降下ポテンシャルに依存し、ステップサイズ調整が重要であることを示す。ミューオンは理想的な幾何を追求するのではなく、ステップサイズの最適性によって成功する。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-05-13 GPT Summary- Token-Superposition Training(TST)は、事前学習中のデータスループットをFLOPあたり改善する新しい手法である。TSTは、トークンを一つのバッグにまとめてマルチホットクロスエントロピーで訓練するスーパーポジションフェーズと、標準的な訓練に戻す復元フェーズから成る。270Mおよび600Mパラメータで広範に評価され、10B A1Bモデルで最大2.5倍の事前学習時間短縮を達成し、ベースラインを一貫して上回ることを示した。 Comment

元ポスト:

Loading…

事前学習の序盤にbag of tokensを読み、bag of tokensを予測するシンプルな変更で、学習が最大2--3倍高速化される

所見:

Loading…

解説:

Loading…




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Tokenizer #Scaling Laws #read-later #Selected Papers/Blogs Issue Date: 2026-05-13 GPT Summary- トークンの情報粒度がスケーリング法則に与える影響を調査。988モデルを訓練し、圧縮率(トークンあたりのバイト数)を設定。実験結果は、モデルサイズは通常のトークン単位ではなく、データのバイト数に比例してスケールすることを示す。最適な圧縮率はBPEのものとは異なり、計算量が増すと低下。これらの発見は、トークン化スキームの選択において言語モデル開発者に有益な指針を提供。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Pruning #Distillation #SmallModel #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #Author Thread-Post Issue Date: 2026-05-13 GPT Summary- 大規模事前学習におけるエキスパート混成モデル(MoE)の圧縮を体系的に探求し、プルーニングと知識蒸留(KD)を適用する方法を検討。プルーニングは、スクラッチからの訓練よりも一貫して優れた初期化を提供し、異なる圧縮手法は同様の最終性能へ収束。簡易な部分保存型統合戦略で下流性能を向上させ、KDと損失を組み合わせることで効果を上げる。漸進的なプルーニングスケジュールはワンショット圧縮を上回り、最適化に寄与。結果として、Qwen3-Next-80A3Bモデルを圧縮し、競争力を維持する指針を提供。 Comment

元ポスト:

Loading…

大規模なMoEモデルから小規模なvariantを学習する方法に関する分析




Paper/Blog Link My Issue
#NLP #LanguageModel #Catastrophic Forgetting #ICML #mid-training #read-later #Selected Papers/Blogs #One-Line Notes #DownstreamTasks #Author Thread-Post Issue Date: 2026-05-12 GPT Summary- 事前訓練最適化手法は、基盤モデルの能力維持に影響を与える幾何学を考慮すべきである。本研究では、平坦な極小点を目指す三つのアプローチ(SAM、大きな学習率、短縮された学習率減衰)を分析し、モデルサイズが20M〜150Mパラメータの範囲で、ポスト訓練後のパフォーマンス向上と忘却の最大80%低減を実証した。また、OLMo-2-1Bモデルへの短いSAM訓練を適用することで、MetaMathでは忘却を31%、4ビット量子化後には40%低減できることが示された。 Comment

元ポスト:

Loading…

downstreamタスクでの性能を最大化するためには、baseモデルのlossではなく、モデルが重みを更新した時にどれだけ事前学習の知識が保持されるかが鍵であり、learning-forgettingのトレードオフを見るべきという話で、

なぜモデルの更新によって忘却が起きやすいかというと、モデルが急峻な極小点 (Sharp Minima) に収束してしまっているためで、これではわずかな重みの更新でも大幅な性能低下を起こしてしまう。このため、平坦な極小点(Flat Minima)に重みを収束させることでよりモデルの知識を安定させることができる。

Flat Minimaを見つけるために、Sharpness-Aware Minimization (SAM)と呼ばれる手法を採用し、式(5)で定義されるような、パラメータに摂動を加えた時のlossの最大値が最小となるようにパラメータを最適化する。

image




Paper/Blog Link My Issue
#NLP #LanguageModel #Normalization #read-later #Stability Issue Date: 2026-05-12 GPT Summary- LLMの事前学習における安定化技術の役割を明確化するため、MACROという新しい最適化フレームワークを導入。多様体制約が前方アクティベーションのスケールを制限し、安定した回転平衡を実現。理論的保証を保持しながら、高い性能を達成。 Comment

元ポスト:

Loading…

Geometric Manifold上に重みを制約する系の関連研究:
- Fantastic Pretraining Optimizers and Where to Find Them 2.1: Hyperball Optimization, Wen+, 2026.01
- [Paper Note] nGPT: Normalized Transformer with Representation Learning on the Hypersphere, Ilya Loshchilov+, ICLR'25, 2024.10




Paper/Blog Link My Issue
#NLP #LanguageModel #Scaling Laws #One-Line Notes #DataRepetition Issue Date: 2026-05-08 GPT Summary- 高品質なデータが限られる中、計算資源の最適配分が重要になる。従来のChinchillaスケーリング則は、一意なトレーニングトークンを前提としており、データ制約下の効果的な学習を妨げる。私たちは過剰損失を加法的な過学習ペナルティでモデル化し、最適な資源配分に関する新たな指針を提案する。一定のポイントを超えると、繰り返しは逆効果になり、モデル容量への投資が望ましいことを示す。さらに、この法則を用いることで、データ制約下での性能向上が明らかになり、過学習の影響を一つの係数に分離することで、トレーニング設定間の比較を可能にする。特に、強いウェイト減衰が過学習係数を約70%減少させ、最適なウェイト減衰が標準実践を上回ることを示すケーススタディも含む。 Comment

元ポスト:

Loading…

所見:

Loading…


Data Repetitionはデータの効率を改善するが、同時に過学習コストが生じており、これはモデルサイズと繰り返しが増えるほど増大する。強めの正則化を導入することで過学習コストが緩和される。




Paper/Blog Link My Issue
#NLP #LanguageModel #Scaling Laws #Reference Collection #DataRepetition Issue Date: 2026-05-08 GPT Summary- InfoLawを導入し、大規模言語モデルのデータ混合ウェイトと反復の影響を評価。スケーリング時の最適なデータレシピ選択を信頼性高く予測し、事前学習の情報蓄積をモデル化。未見データや大規模環境での性能予測を高精度で行い、効率的なデータレシピ選択を可能に。 Comment

元ポスト:

Loading…

解説:

Loading…




Paper/Blog Link My Issue
#ComputerVision #NLP #Transformer #MultiModal Issue Date: 2026-05-08 GPT Summary- GenLIPは、視覚トークンから直接言語トークンを予測する生成前訓練フレームワークで、マルチモーダル大規模言語モデル向けに設計されています。この手法は、単一のトランスフォーマーを用いて視覚とテキストを共同でモデル化することで簡潔性を持ち、データやモデルのスケーラビリティを高めるとともに、多様なベンチマークで優れた性能を示します。80億サンプルで訓練されたGenLIPは、限られた事前訓練データで強力な成果を上げ、さらにOCRやチャート理解などの細部に敏感なタスクでも改善が見られます。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Composition #read-later #One-Line Notes Issue Date: 2026-04-29 GPT Summary- 自然言語データはべき乗分布に従うが、再重み付けや均一分布によるモデル学習が効果的であるという直感に反し、べき乗分布での訓練が均一分布を一貫して上回ることを発見。最小限のスキル組成タスクを用いて、べき乗分布による学習が少ないデータで効果的であることを実証。理論的分析により、べき乗分布が非対称性をもたらし、モデルが高頻度スキルを効果的に学習し、長尾スキルに至る道筋を提供することを明示。結果はモデル訓練におけるデータ分布の新たな理解を促進。 Comment

元ポスト:

Loading…

学習データ中に内包されるスキルの非対称性により学習が促進される。

Geminiの解説では
> 高頻度のスキルと低頻度のスキルが混在する非対称なデータ分布(べき乗則)の下では、モデルがまず高頻度なスキルを容易に獲得し、それが『足がかり(stepping stone)』となることで、データを均等な分布にならして学習するよりも、かえって効率的に稀なスキル(ロングテール)を学習できる

ということである(要確認)




Paper/Blog Link My Issue
#ComputerVision #Transformer #ContrastiveLearning #Self-SupervisedLearning #ICLR #Encoder #Backbone #needs-revision #2D Reconstruction Issue Date: 2026-04-25 GPT Summary- Sapiens2は、高解像度トランスフォーマーのモデルファミリーで、人間中心のビジョンを重視する。4億〜50億パラメータを持ち、ネイティブ1K解像度を採用し、4K対応の階層的バリアントも提供。事前学習と後学習で大幅な性能向上を実現し、マスク済み画像再構成と自己蒸留型対比学習を統合したアプローチを採用。10億枚の高品質な人体画像データセットで事前学習を行い、アーキテクチャの進歩により安定性を向上。ポーズ推定や身体部位セグメンテーションなどのタスクで新たな最先端性能を達成。 Comment

openreview: https://openreview.net/forum?id=IVAlYCqdvW

元ポスト:

Loading…

HF: https://huggingface.co/facebook/sapiens2

人物ドメインに特化したViTエンコーダ。事前学習はEncoder-Decoderアーキテクチャを利用しMasked Image Modelingで学習する。この際に、Reconstruction lossだけでなく、




Paper/Blog Link My Issue
#ComputerVision #FoundationModel #read-later #Selected Papers/Blogs #UMM #Author Thread-Post Issue Date: 2026-04-23 GPT Summary- 画像生成モデルがゼロショット視覚理解を示すことは、LLMsの言語理解能力に似ている。視覚モデルは強力な理解能力を持つことが証明されておらず、本研究では画像生成がLLMの事前学習に似た役割を果たすことを示す。Vision Bananaを導入し、指示調整を行い、さまざまな視覚タスクで最先端の性能を達成。特に、セグメンテーションや深度推定タスクで競争力のある結果を得ており、画像生成が視覚学習において重要な役割を果たすことを示唆。生成的視覚の事前学習は、理解と生成の基盤となるFoundational Vision Modelsの構築において重要な変革をもたらす可能性がある。 Comment

pj page: https://vision-banana.github.io/#capabilities

元ポスト:

Loading…

著者ポスト:

Loading…

所見:

Loading…

Vision bananaの批判に対する第一著者によるレスポンスのサマリのようである:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #SyntheticData Issue Date: 2026-04-17 GPT Summary- ウェブテキストを合成前訓練データに再表現するための重要因子を特定するため、大規模な実験を行い、1兆トークン以上の生成を実施。構造化出力形式(表、数学問題、FAQ、チュートリアル)が従来の手法を上回ることが確認され、モデルのサイズを増加させても性能向上が見られないことが示された。また、元データの選択が重要であることも分析で明らかに。これらの結果を基に、FinePhraseというおよそ4,860億トークンのオープンデータセットを開発し、既存のベースラインを超え、生成コストを大幅に削減できることを示した。データセットと生成フレームワークは研究コミュニティに提供される。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #Optimizer #read-later #Selected Papers/Blogs #Generalization #DownstreamTasks #Initial Impression Notes Issue Date: 2026-04-17 GPT Summary- 大規模言語モデル(LLMs)の事前学習において、幾何学的問題を調査し、タスク固有のミニマの位置が下流の一般化に影響することを提案。勾配の類似性を最大化するNexus optimizerを導入し、パラメータサイズやデータに応じた実験で、下流パフォーマンスの向上を示した。特に3Bモデルでは、分布外データでの損失を低減し、複雑な推論タスクで精度を最大15.0%向上させる結果を得た。これは、事前学習損失以外の評価指標の重要性を示唆している。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…


モデルを更新する際に平均的に性能が良くなる方向ではなく、全ての異なるデータにおいて性能が改善する方向性で更新すると性能が改善するという感じだろうか。興味深い




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #mid-training #PostTraining #LowPrecision Issue Date: 2026-04-17 GPT Summary- 大型基盤モデルのトレーニングには高コストが伴うため、低精度トレーニング手法が求められている。本研究では、HiFloat4 FP4フォーマットを使用し、MXFP4と比較して4ビット精度での計算スループットとメモリ効率を最大4倍向上させる。全結合モデルとエキスパート混合モデルをFP4で評価し、安定化技術により数値的劣化を抑えつつ高精度を維持する結果を示した。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #OpenWeight #OpenSource #read-later #Selected Papers/Blogs #Reference Collection #Initial Impression Notes Issue Date: 2026-03-31 GPT Summary- 基盤となる事前学習はモデルの限界を決め、事後訓練で克服するのが難しい。daVinci-LLMは、産業規模の資源と研究の自由を結集し、透明性のある完全オープンなパラダイムで事前学習を進展させる。8兆トークンを用いた二段階適応カリキュラムを採用し、能力向上のプロセスを体系的に評価。処理の深さやドメイン特性が能力に与える影響を明らかにし、探索プロセスを公開することでコミュニティが知識を蓄積できる基盤を提供する。 Comment

元ポスト:

Loading…

github: https://github.com/GAIR-NLP/daVinci-LLM

オープン"ソース" (=コード, データ, モデルが公開されている(さらに厳密にはライセンスに問題がない))な関連研究:
- OpenLLaMA, Xinyang+, 2023.05
- Introducing Marin: An Open Lab for Building Foundation Models, marin-community, 2025.05
- Marin 32B Retrospective, marin-community, 2025.10
- [Paper Note] Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling, Stella Biderman+, arXiv'23, 2023.04
- [Paper Note] Olmo 3, Team Olmo+, arXiv'25, 2025.12
- [Paper Note] K2-Think: A Parameter-Efficient Reasoning System, Zhoujun Cheng+, arXiv'25, 2025.09
- [Paper Note] DataComp-LM: In search of the next generation of training sets for language models, Jeffrey Li+, NeurIPS'25, 2024.07
- [Paper Note] LLM-jp: A Cross-organizational Project for the Research and Development of Fully Open Japanese LLMs, LLM-jp+, arXiv'24, 2024.07
- [Paper Note] TinyLlama: An Open-Source Small Language Model, Peiyuan Zhang+, arXiv'24, 2024.01
- [Paper Note] BLOOM: A 176B-Parameter Open-Access Multilingual Language Model, BigScience Workshop+, arXiv'22, 2022.11
- [Paper Note] OLMo: Accelerating the Science of Language Models, Dirk Groeneveld+, arXiv'24, 2024.02
- OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini, AllenAI, 20250.3
- [Paper Note] GPT-NeoX-20B: An Open-Source Autoregressive Language Model, Sid Black+, arXiv'22, 2022.04
- SmolLM2, 2024.11
- [Paper Note] LLM360: Towards Fully Transparent Open-Source LLMs, Zhengzhong Liu+, COLM'24, 2023.12
- SmolLM3: smol, multilingual, long-context reasoner, HuggingFace, 2025.07
- The Smol Training Playbook: The Secrets to Building World-Class LLMs, Allal+, HuggingFace, 2025.10

この辺の研究を全て紐解いていったらどのような変遷が起きているだろうか?

- RedPajama, a project to create leading open-source models, starts by reproducing LLaMA training dataset of over 1.2 trillion tokens, together.ai, 2023.04
- [Paper Note] Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model, Ahmet Üstün+, arXiv'24, 2024.02
- SmolLM - blazingly fast and remarkably powerful, Allal+, HuggingFace, 2024.07

この辺も関連はしているが、データはオープンだがソースコードがおそらく公開されていない。

事後学習なら
- [Paper Note] Tulu 3: Pushing Frontiers in Open Language Model Post-Training, Nathan Lambert+, COLM'25, 2024.11




Paper/Blog Link My Issue
#NLP #LanguageModel #Scaling Laws #Batch Issue Date: 2026-03-25 GPT Summary- μ-Kurdyka-Łojasiewicz条件下での確率的条件付き勾配法におけるバッチサイズの影響を探求。モメンタムベースのアルゴリズムに注目し、バッチサイズ、ステップサイズ、ノイズの相互作用を分析。バッチサイズを増加させることで初期の精度向上が見られるが、臨界値を超えると利点は減少し得る。理論は最適なステップサイズを予測し、実際の経験則と合致。バッチサイズとステップサイズの選択に関する指針を提示し、適応戦略を提案。実験結果は理論を裏付け、大規模最適化に向けた設計指針を提供。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #Scaling Laws #HyperparameterTransfer Issue Date: 2026-03-24 GPT Summary- ハイパーパラメータ転送の重要性を論じ、特にモデルサイズ間の転送に焦点を当てる従来の方法に対抗して、Linear Minimization Oracle(LMO)に基づく新たなハイパーパラメータスケーリング法則を提案。学習率、モメンタム、バッチサイズの閉形式のべき法則スケジュールを導出し、文献の洞察を再現。モメンタムとバッチサイズのスケーリングの相互作用を強調し、最適な性能は多様なスケーリング戦略により達成可能であることを示す。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=4ERabDxDdl&referrer=%5Bthe%20profile%20of%20Antonio%20Orvieto%5D(%2Fprofile%3Fid%3D~Antonio_Orvieto3)




Paper/Blog Link My Issue
#NLP #LanguageModel #SyntheticData #read-later #Selected Papers/Blogs #KeyPoint Notes #Author Thread-Post Issue Date: 2026-03-22 GPT Summary- 合成データ拡張は、限られたデータでの事前学習に有効である。この研究では、有限の計算資源下での損失低減や、無限大に近づくときの損失スケーリングの改善を目指す。合成的再表現との混合で事前学習した場合、異なる分布からの合成データでもi.i.d.検証損失が改善され、データ効率は約1.48倍で頭打ちとなる。新たなアプローチとして、同文書からの合成再表現を用い、短文の代わりに長大なメガ長文を形成する手法を提案。これにより、損失とベンチマークの改善が見られ、データ効率は1.80倍に向上。合成データ生成が増えるほど、メガ長文による効果も増大することが示された。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

著者ポスト:

Loading…

- データよりもコンピューティングリソースのスケーリングの方が早く進んでおり、データ効率の高い事前学習レシピが重要となっている
- 事前学習において、合成データがi.i.d.なwebデータの損失減らすことに寄与するかを調査
- 300Mモデルで200M tokenを学習した際にどれだけi.i.d.なwebデータのlossを低減させられるかを調査
- 最初に最もシンプルなdata augmentationであるrephrasingを調査したところ、文書単位でのrephrasingの回数が増えるにつれて、web lossとdownstreamベンチマークでのエラー率が単調に改善
- 続いて、ある文書をrephraseした文書を結合することで、単一の大きな文書(=megadoc)を構成する手法を提案し、megadocを利用することでさらにlossが改善することを確認。megadocの構成方法として下記三種類を提案し:
- Real First Stitched: `文書に対するrephraseをG個生成し、それらを結合することでmegadocを構成する手法。実データを結合の頭にもってくる。
- Real Last Stitched: Real First Stichedと同様の処理をするが、実データを結合の末尾に持ってくる手法
- Latent Thoughts: 文書をG+1個の同じ長さのピースに分割し、ピース間を埋めるrationaleを合成して結合する手法。rationaleはタグで囲う。
- Real First Stitched と Real Last Stitched を比較したところ、後者の方が性能が良かった。
- 後者の方が性能が良い考察として、epiplexity [Paper Note] From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence, Marc Finzi+, arXiv'26, 2026.01 の観点から考察をしている。前提として実文書の方が複雑で情報量が多いと考えたときに、Real First Stitched の場合は実文書の情報からrephraseを学ぶという簡単な変換(生成)を実施すればよいのに対し、Real Last Stitchedの場合逆で、rephraseからより詳細で複雑な実文書に変換(生成)するというタスクを実施せねばならない。このため、後者の方がより計算的に困難な関数を学習する必要があり(すなわち、epiplexityが高い学習設定ということ; epiplexityが高い学習設定の方がモデルの汎化性能が高くなる)、学習の結果より高い汎化性能を獲得しているのではないか、と考察している。

image

- また、モデルをアンサンブルした場合の性質についても考察がされており、self-distillationは単体モデルの性能を向上させることに寄与するが、アンサンブルするモデルの数を増やすと実データを用いたモデルと最終的には性能が同等となることが予測され、達成可能なピーク性能がアンサンブルによってブーストされる効果は観測できなかった。一方で、Rephrasingによる合成データによって学習されたモデルはアンサンブルによって達成可能な性能のピーク値がブーストされると考えられる。
image

関連:
- [Paper Note] Rewriting Pre-Training Data Boosts LLM Performance in Math and Code, Kazuki Fujii+, ICLR'26, 2025.05




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT) #mid-training #PostTraining #Scheduler #One-Line Notes #DownstreamTasks Issue Date: 2026-03-20 GPT Summary- 学習率スケジューリングが大規模言語モデルの事前学習とSFT後の性能に与える影響を調査。特に、ウォームアップ後に学習率を一定に保つWarmup-Stable-Only(WSO)スケジューラが、減衰ベースのスケジューラよりも一貫してSFT後の性能を向上させることを示す。分析によれば、WSOは平坦な極小値を維持し、訓練戦略としての有用性を強調。これにより、モデルの適応性を高める指針を提供。 Comment

元ポスト:

Loading…

事前学習中にweight decayを実施しない方が、(事前学習終了時点での性能は劣化するが)SFT後のdownstreamタスクの性能を高める。




Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #Scaling Laws #mid-training #PostTraining #read-later #DataMixture #Initial Impression Notes Issue Date: 2026-03-20 GPT Summary- 専門化事前学習(SPT)を通じてドメインデータを再利用し、モデルの性能を向上。SPTは微調整後の一般能力を保持し、必要な事前学習トークン数を最大1.75倍削減。特定のドメインにおいて、SPTは3Bモデルを上回る性能を示し、過適合スケーリング則を導出。事前学習段階で専門ドメインデータを導入することで、一般性能も改善し、計算量を抑えた結果を得る。訓練の早い段階でのドメインデータの統合が重要。 Comment

Finetuningに使うデータをpretraining段階から混ぜておくとより効果的という話らしい。事前学習データの量が増えるためより多くのbudgetが必要になるので効果的なmixtureのためのスケーリング則も構築したとか。興味深い

元ポスト:

Loading…




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #DataMixture Issue Date: 2026-03-12 GPT Summary- データ混合は大規模言語モデルの訓練における異なるデータソースの組み合わせを指し、効果的な混合選択が下流性能に影響を与える。従来手法は高コストの探索や外挿の失敗に悩む。本研究では、容量認識型混合則(CAMEL)を提案し、モデルサイズと混合の相互作用を用いて検証損失をモデル化。検証損失から下流性能を予測し、計算予算を効果的に配分する方法を導入。最終的にMixture-of-Expertsモデルで実証し、混合最適化コストを50%削減し、下流性能を最大3%向上させることを示した。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #MoE(Mixture-of-Experts) #Selected Papers/Blogs #Reference Collection #Scalability #Author Thread-Post Issue Date: 2026-03-12 GPT Summary- MoEモデルのスケーリングには、パラメータの増加によるメモリ、通信、計算の制約が伴う。これを解決するために、メモリの再計算やオフロード、通信の最適化、計算のグループ化などを統合的に最適化するフレームワークを提案。これにより、長い文脈の効率化や低精度訓練サポートも実現。数兆パラメータのMoEモデルを数千台のGPUで訓練可能なオープンソースソリューションとして、実運用向けの指針を提供。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

所見:

Loading…

所見:

Loading…




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #mid-training #PostTraining #read-later #Selected Papers/Blogs #Scheduler #One-Line Notes #Data Issue Date: 2026-03-07 GPT Summary- ターゲット領域向けの言語モデルの構築には、汎用ウェブテキストでの事前学習とターゲットデータでのファインチューニングが行われる。驚くべきことに、ファインチューニング中に汎用データをリプレイすることで、ターゲットタスクの性能が向上することが確認された。具体的には、4百万トークンのターゲットデータを使用した場合、汎用リプレイによりデータ効率が最大1.87倍、ミッドトレーニングで2.06倍向上した。また、事前学習中にターゲットデータが少ないほどリプレイ効果が高いことが分かった。80億パラメータのモデルでの実験により、エージェントのウェブナビゲーション成功率やバスク語の質問応答精度が向上したことを示した。 Comment

元ポスト:

Loading…

事前学習以後の中間学習やファインチューニング(事後学習)において、特定のドメインやタスクに特化させるための追加の学習を行う際に、破壊的忘却を防ぐために一定量の事前学習データを混ぜることはよく行われていたが、実際には破壊的忘却を防ぐだけでなく、ターゲットドメインの学習効率を大幅に高める(1.5Bモデルの実験ではファインチューニングでは1.87倍、中間学習では2.06倍)ことがわかり、これは70B級の大規模なモデルでも同様に生じることが明らかになった、という話らしい。興味深い。

解説:

Loading…




Paper/Blog Link My Issue
#ComputerVision #NLP #Catastrophic Forgetting #Selected Papers/Blogs #Robotics #VisionLanguageActionModel #One-Line Notes #ContinualLearning Issue Date: 2026-03-06 GPT Summary- 継続学習はロボットの方策学習における課題で、VLAモデルは従来の小規模モデルに比べて忘却に対して頑健であることを発見。単純な経験再生が効果的で、小さなデータサイズでも忘却ゼロを達成可能。また、VLAは新タスク学習時に以前の知識を保持し、スキルの迅速な回復を可能にする。これにより、大規模事前訓練が継続学習のダイナミクスを変え、新しいスキルを獲得できるモデルを実現することが示唆される。 Comment

元ポスト:

Loading…

解説:

Loading…

モデルを大規模にすることで表現が安定し、継続学習による破壊的忘却が軽減される可能性が示された一方で、評価タスクが比較的単純でありVLAモデルでは既に解けている可能性があり、継続学習の評価ではなくzero-shotの能力の汎化を見ている可能性がある点には注意という話のようである。




Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #Transformer #MultiModal #Architecture #MoE(Mixture-of-Experts) #Scaling Laws #read-later #Selected Papers/Blogs #WorldModels #UMM #Author Thread-Post Issue Date: 2026-03-05 GPT Summary- 視覚的データは言語を超えるマルチモーダルモデルの進展に重要で、我々は制御された前訓練実験を通じてその要因を明らかにした。Transfusionフレームワークを用い、テキストや視覚データで統一的に訓練し、以下の洞察を得た:(i) RAEが最適な視覚表現を提供;(ii) 視覚とテキストは相補的で相乗効果を生む;(iii) 統一学習が世界モデリングに繋がる;(iv) MoEが効率的なスケーリングを可能にする。視覚データが言語より多く必要であることを示し、MoEが両者の調和を図ることを提案。 Comment

元ポスト:

Loading…

RAE:
- [Paper Note] Diffusion Transformers with Representation Autoencoders, Boyang Zheng+, arXiv'25, 2025.10

著者ポスト:

Loading…

解説:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #Optimizer Issue Date: 2026-02-28 GPT Summary- 大規模言語モデルの事前学習における効率的なオプティマイザーの必要性を強調。平坦な方向への更新に特化した行列ベースのオプティマイザーが良好な性能を示す中、リーマン幾何学的常微分方程式(ODE)フレームワークを構築し、一般的な適応アルゴリズムの相互作用を探求。新たに提案するLITEは、平坦な軌跡に沿った学習率の適用で訓練ダイナミクスを改善し、広範な条件下でMuonとSOAPの両方を加速。理論的に速い収束を確認し、効率的なLLM事前学習の体系的アプローチを提供。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #NLP #Zero/FewShotLearning #Robotics #VisionLanguageActionModel #EmbodiedAI #Author Thread-Post Issue Date: 2026-02-28 GPT Summary- LAPを用いてロボットの動作を自然言語で表現し、ゼロショット転移を実現。特定の体現に依存せず、LAP-3Bは複数のロボットやタスクでの成功率を50%超え、既存モデルに対して約2倍の改善を示す。アクション予測とVQAを統合することで効率的な適応が可能。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #DiffusionModel #ICLR #read-later #Selected Papers/Blogs #ImageSynthesis #Samplers #Author Thread-Post Issue Date: 2026-02-28 GPT Summary- Uniform-state離散拡散モデルは自己修正能力により優れた生成とガイダンスを実現していますが、ステップ数が増えるとサンプリング品質が限界に達します。本研究では、予測子-修正子(PC)サンプラーを導入し、任意のノイズ過程に対応可能な一般化手法を提案します。Uniform-state拡散と組み合わせることで、従来の手法を超える性能を発揮し、生成パープレキシティを低減させるとともに、サンプリングステップを増やすことで性能が向上します。また、効率的なカリキュラムを構築し、訓練時間を25%、メモリを33%削減しつつ、強力な下流タスク性能を維持します。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

openreview: https://openreview.net/forum?id=RSIoYWIzaP

著者コメント:

Loading…

openreview: https://openreview.net/forum?id=RSIoYWIzaP

著者ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #Data Issue Date: 2026-02-24 GPT Summary- ウェブからテキストを抽出する際、固定抽出器に依存する従来の方法がデータのカバレッジを最適化していないことを示す。異なる抽出器を組み合わせることで、DCLM-Baselineのトークン供給を71%増加させつつ、性能を維持。特に構造化コンテンツでは、抽出器の選択が下流タスクの成果に大きく影響し、WikiTQで最大10ポイント、HumanEvalで最大3ポイントの性能差が生じる。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #OpenWeight #MoE(Mixture-of-Experts) #Selected Papers/Blogs #Stability #Sparse Issue Date: 2026-02-21 GPT Summary- Arcee Trinity Largeは4000億パラメータを持ち、130億のスパースMoEとして設計されている。Trinity Nano(60億パラメータ)とTrinity Mini(260億パラメータ)も報告されており、各モデルには局所的およびグローバルな注意機構、ゲート付き注意、深さスケールされた正規化、MoEのシグモイド・ルーティングが採用されている。Trinity Largeには新しいMoEロードバランシング戦略のSMEBUが導入され、Muonオプティマイザーで訓練された。すべてのモデルは損失のスパイクなしで訓練を完了し、Trinity NanoとTrinity Miniは10兆トークン、Trinity Largeは17兆トークンで事前学習された。モデルのチェックポイントはHugging Faceで利用可能。 Comment

モデル:
- Trinity Large, Arcee, 2026.01




Paper/Blog Link My Issue
#Analysis #EfficiencyImprovement #NLP #LanguageModel #Supervised-FineTuning (SFT) #DiffusionModel #Scaling Laws #PostTraining #KeyPoint Notes #DownstreamTasks Issue Date: 2026-02-18 GPT Summary- 拡散型言語モデルは生成速度向上の可能性から自己回帰型モデルの代替手段となり、マスクド拡散が優位なアプローチとして注目されている。本研究では、一様状態拡散法と補間的離散拡散法のスケーリング法則を初めて提示し、マスクド拡散モデルが約12%のFLOPs効率向上を示すことを報告。パープレキシティは拡散ファミリー内で有用だが、他のファミリーとの比較では誤解を招くことがある。全手法を17億パラメータにスケールすると、一様状態拡散は依然として競争力を保ちつつ、GSM8Kで他モデルを上回りつつパープレキシティは悪化する結果となった。 Comment

元ポスト:

Loading…

pj page: https://s-sahoo.com/scaling-dllms/

Masked Diffusion Language Model (MDLM)はperplexityの観点では高い性能が出るが、異なるDiffusion Algorithmを比較する上でPerplexityが良い指標なのか?がResearch Questionで、3種類の拡散モデル[^1]に基づくモデルを同一の計算量の元でスケーリング時の挙動を分析したとのこと。

その結果、計算量を投入すればするほどARモデルのような綺麗なスケーリング則が全てのモデルで見出されたが、PerplexityがARと同等の性能に到達するためには、MDLMが14--16倍、Duoが23倍、Eso-LMが32倍の計算量を要した。
Perplexityの観点ではMDLMが良さそうだが、Perplexityが良いからといって、サンプル効率、あるいは下流タスクの性能が良いとは限らないため追加の分析を実施。

スループット(token/sec)を変化させて検証したところ、ARは品質が高いが遅く、スループットが高い領域ではDuoがサンプル効率と品質のパレート最適であることがわかり、中くらいの領域ではEso-LMがパレート最適、低い領域でさARがパレート最適であり、スループットと品質の観点ではMDLMは劣ることがわかった。

その後、パラメータ数を1.7Bに固定し、Nemotron Pretrainingデータセットで事前学習をし、zeroshotでの(尤度ベースでの)下流タスクの性能を見ると、MDLMよりもDuoの方が5/7のベンチマークで性能が良く、その後GSM8KでSFTすると、DuoのPerplexityは低かったにも関わらず、全てのモデルを上回った。

[^1]: MDLMに加えて、Uniform-state Diffusion (Duo), Interpolating Diffusion(Eso-LM)というモデルで比較しているようである。この辺はあまり詳しくないので勉強したい。

という話が元ポストに書かれている。




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Evaluation #read-later #Selected Papers/Blogs #Generalization #One-Line Notes #Initial Impression Notes #Contamination Issue Date: 2026-02-17 GPT Summary- LLMの訓練データがベンチマークのテストデータで汚染されると、分布外一般化にバイアスが生じる。従来のデコンタミネーション・フィルターは意味的重複を認識できず、私たちは「ソフト汚染」として訓練データの意味的重複を調査。Olmo3コーパスの解析から、汚染が広範囲に存在し、CodeForcesの78%、ZebraLogicの50%に意味的または厳密な重複を確認。また、ベンチマークデータの重複が訓練データに含まれることで性能が向上し、ファインチューニングが同じベンチマークの未使用データの性能も改善することが示された。これにより、最近のベンチマークの向上は本質的な能力向上とは異なる可能性があることを示唆している。 Comment

元ポスト:

Loading…

n-gramマッチングによるデータのdeaontaminationは表層レベルでしか捉えられないので、意味的に等価なサンプルをdecontamgnationできず(=Soft Contamination)効果が薄く、意味的なレベルでのコンタミネーションは広範に存在し[^1]、それらサンプルが学習データに含まれるとheldoutされたテストベンチマークのスコアも改善してしまう(=本当に計りたい汎化性能を測れていない)という話をしっかり分析した研究に見え、非常に重要な研究に見える。

[^1]:Olmo3で検証しており、ZebraLogicテストセットの50%とexactに一致するデータが含まれ、CodeForcesのテストセットのうち78%のサンプルと意味的に一致したサンプルが一件以上存在したとのこと。




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT) #One-Line Notes Issue Date: 2026-02-13 GPT Summary- 事前学習から教師ありファインチューニング(SFT)への移行を理解することは、モデル開発に重要。本研究では、モデルの精度と信頼度の持続性、信頼できるベンチマーク、スケールによる移行ダイナミクス、精度と信頼度の一致について調査。実験により、移行の信頼性は能力やベンチマーク、スケールによって異なり、精度と信頼度は異なるスケーリングダイナミクスを示すことが明らかに。これにより、ベンチマーク選定やデータキュレーションに関する実用的なガイダンスが提供される。 Comment

元ポスト:

Loading…

事前学習とSFTの間におけるAccuracyとConfidence(=モデルの回答のトークン確率)の相関を分析。モデルのスケールが大きい方が、SFT後のdownstreamタスクでのAccuracyと強い相関を持ち、confidence(=モデルが回答したときのトークンの確率)はモデルのスケールが小さい方が強い相関を持つ。このことから、よりモデルのスケールが大きい方がSFTにおいてAccuracyを維持するためにconfidenceの再形成を行っていることが示唆される、という話らしい。
image




Paper/Blog Link My Issue
#Tutorial #NLP #LanguageModel #read-later #Selected Papers/Blogs #DataMixture #One-Line Notes #Author Thread-Post Issue Date: 2026-02-13 GPT Summary- データミキシングは言語モデル(LM)トレーニングにおいて重要な課題であり、Olmixフレームワークを提案することで短所に対処。設定空間の理解が不足している中、強力なミキシング手法の設計選択を特定。ドメインセットの進化に対応し、受けた影響を考慮したミキシチャー再利用メカニズムを導入。これにより、計算量を74%削減し、下流タスクで11.6%の改善を実現。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

言語モデルを事前学習しようとしたときに、
- 先行研究で提案されている手法を自分のデータにどのように適用すべきか?ハイパーパラメータはどうすればよいか?tiny datasetの場合はoversamplingしてよいのか?といった課題に直面し
- 仮にgood mixが分かったとしても、データは静的ではなく、新たなデータセットがリリースされたり、同僚がデータセットを変更するかもしれない。そうなったときに、DataMixをどのようにアップデートすればよいのか?

といった実践的に困る場面が多いようであり、これらに対して本研究は実践的なDataMixingの設定に関するガイダンスとデータセットが進化したときに効果的にDataMixを更新する方法を提案しているとのこと。




Paper/Blog Link My Issue
#Embeddings #InformationRetrieval #NLP #RepresentationLearning #ContrastiveLearning #DiffusionModel Issue Date: 2026-02-12 GPT Summary- pplx-embedは、拡散事前学習された言語モデルを基盤にした多段階コントラスト学習を用いた多言語埋め込みモデルで、文脈内の双方向コンテキストを捉える。pplx-embed-v1は標準的な検索性能があり、pplx-embed-context-v1はConTEBベンチマークで新記録を達成。両モデルは実世界の大規模検索にも優れた性能を示し、モデルの有効性を確認した。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #SyntheticData #DataFiltering #Science #One-Line Notes #Environment Issue Date: 2026-02-12 GPT Summary- データの質がモデルのパフォーマンスに影響を与える中、データ・ダーヴィニズムという10段階の分類法を提唱。これに基づき、900BトークンのDarwin-Scienceコーパスを構築し、先進的なLLMを利用して生成的洗練(L4)と認知的補完(L5)を実現。事前トレーニングにより、3Bモデルで+2.12、7Bモデルで+2.95ポイントの性能向上を達成し、特定タスクでは更に高い改善を確認。共進化の原則に基づく開発を促進するため、データセットとモデルを公開。 Comment

元ポスト:

Loading…

学習データを処理するためのフレームワークを10段階のレベル(ただのデータの獲得から、前処理、合成、世界のシミュレーションまで)で定義し、それぞれのレベルにおいてどのような処理が必要で、どのような価値を生むのかといった点が体系化されている。レベルが上がるにつれてデータの量は基本的に減少するが、データのinformation densityや構造の複雑さは高まっていく。
image

また、下図に示されているように実際にLevel0 -- Level5までの処理を実施したことでどのようなgainがあるかも考察されているようである。
image




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT) #Regularization #PostTraining #KeyPoint Notes #DownstreamTasks #Reading Reflections Issue Date: 2026-02-12 GPT Summary- 事前訓練での重みの減衰がモデルの可塑性に与える影響を分析。高い減衰値が微調整時に性能向上を促進し、直感に反するトレードオフを引き起こすことを示す。重みの減衰が線形分離可能な表現を促進し、過学習を抑制する役割も明らかに。ハイパーパラメータ最適化における新たな評価指標の重要性を強調。 Comment

元ポスト:

Loading…

事前学習時にWeight Decayを大きくするとPerplexityは悪化する場合があるが、Perplexityが悪化していたとしてもSFTを通じて最終的に得られるdownstream task性能のgainが高い場合がある、という話に見える。つまり、Findings2に書かれている通り、事前学習時にPerplexityを最小化するようなWeight Decayの設定はdownstream性能を高めるという観点では必ずしも必須ではない。ではなぜこのようなことが起きるかというと、Weight Decayを大きくするとAttentionのQK matricesのpseudo-rank(=行列の95%を説明するのに必要な特異値の割合)が改善されることが実験により観察され、一般的に低ランクな表現は正則化の結果として現れることから、シンプルな表現によってよりモデルがロバストになるのでは、という点が考察されている。また、実際にValidation dataとTraining dataのlossの差分を見ることで、Weight Decayが大きいことによってtraining dataへのoverfitが抑制されていることが観測された。
image

Weight DecayはもともとRegularizationとしての働きがあるので、それはそうなのだろうな、という感想を持ったのだが、特にQK matrixが正則化の影響を強く受けるというのはおもしろかった。つまり、クエリ対してよりロバストな写像を学習できているということだと思われる。

Perplexityが事前学習の良さを測るために必ずしも良いわけではないよ、という意味での関連:
- [Paper Note] Perplexity Cannot Always Tell Right from Wrong, Petar Veličković+, arXiv'26, 2026.01




Paper/Blog Link My Issue
#NLP #LanguageModel #Optimizer #Scaling Laws #One-Line Notes #Robustness Issue Date: 2026-02-12 GPT Summary- 最適化手法がLLMの事前学習の質に与える影響を調査。Chinchillaスタイルのスケーリング則は条件が悪く、代わりに特有の再スケーリング因子を持つ共有の冪則指数を提案。これにより異なる最適化手法間の比較が可能に。最終的には、損失の分解に基づく理論的分析を行い、Chinchillaスタイルのスケーリング則の出現を説明。 Comment

元ポスト:

Loading…

(きちんと理解できているか怪しいが)従来のチンチラ則に代表されるL(N,D)に関する(モデルサイズ、データ量、最終損失)Scaling LawsはOptimiserを固定(AdamやAdamW)した上で求められていたが、本研究では異なるOptimiser(Muon, Shampoo, SOAPなど)が適用された場合にロバストではないことを指摘し、Optimiser間で共有のパラメータと、Optimiser毎にfittingさせる係数を用いた定式化(3)によって、よりOptimiser間でロバストなScaling Lawsを提案しOptimiser間での比較を可能にした模様。また、損失をQuadratic Lossを最適化する観点から分解し、Theorem 6.3で示される理論的なスケーリング則を導出。これらの個別の項を解釈すると、第一項L^*がチンチラ則のEに対応し(普遍的に生じる基本的な損失)、第二項Θ(λ^ω_d)は近似誤差(当該モデルサイズでの性能の限界による誤差)がチンチラ則でのparameter efficiency term A/(N^α)に対応し、第三項O(e^−2kλd)は最適化誤差を表すが、これがチンチラ則でのdata efficiency term B/(D^β)に対応すると解釈でき、自然とチンチラ則スタイルのスケーリング則が導出されることを理論的に示したようである。




Paper/Blog Link My Issue
#NLP #LanguageModel #read-later #Selected Papers/Blogs #DataFiltering #One-Line Notes #Adaptive #Author Thread-Post Issue Date: 2026-02-12 GPT Summary- 高品質な公的テキストが不足する中、データ選択の動的特性を無視した手法の限界を克服するために、最適化器誘導投影ユーティリティ選択(OPUS)を提案。OPUSは、効果的な更新を安定したプロキシから導き出すことでデータをスコアリングし、計算効率を考慮したゴースト手法とボルツマン・サンプリングを用いる。これにより、GPT-2 Large/XLやQwen3-8B-Baseにおいて優れた成果を上げ、事前トレーニングの効率を飛躍的に改善。 Comment

元ポスト:

Loading…

事前学習においてステップ単位で動的にバッチに含める学習データを選択する手法で、従来手法は単に勾配を考慮して選択していたが、実際にoptimizerによって更新される方向はmomentumなどによって異なるためgapが生じていた。これを埋めるために、optimizerが実際に重みを更新した際に、Validation setのlossがどれだけ低下するかによってUtilityを定義し、Utilityが大きくなるようにデータを動的に選択することで学習効率が向上する、といった話に見える。

image

image

著者ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Quantization #Architecture #LatentReasoning Issue Date: 2026-02-10 GPT Summary- 次の概念予測(NCP)を提案し、生成型の事前学習パラダイムを構築。NCPは複数トークンの概念を予測し、生成モデルConceptLMが隠れ状態の量子化を通して概念語彙を形成。70Mから1.5Bパラメータの範囲で最大300Bのデータを用い、13のベンチマークで従来モデルを上回る性能を示す。また、8BパラメータのLlamaモデルにおける実験から、NCPがトークン予測を改善する可能性を示唆。NCPは強力な言語モデルを生む有望なアプローチである。 Comment

元ポスト:

Loading…

先行研究:
- [Paper Note] Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture, Mahmoud Assran+, CVPR'23, 2023.01
- [Paper Note] Large Concept Models: Language Modeling in a Sentence Representation Space, LCM team+, arXiv'24, 2024.12
- [Paper Note] Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space, Xingwei Qu+, arXiv'25, 2025.12




Paper/Blog Link My Issue
#NLP #LanguageModel #Scaling Laws #Scheduler Issue Date: 2026-02-09 GPT Summary- FSLフレームワークを用いて最適学習率スケジュールを研究。損失ダイナミクスは信号学習速度源指数とノイズ忘却容量指数で支配され、固定トレーニングホライズンに基づく最適スケジュールを導出。易しいタスクでは指数減衰、難しいタスクではウォームアップ安定減衰の構造を示す。ピーク学習率のみを調整する固定スケジュールの強みと限界を評価し、一般的なスケジュールの原則的評価を行う。また、パワー減衰LRSをSGDに適用し、ミニマックス最適率を達成することを示した。実験が理論予測を支持。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #Scaling Laws #Scheduler Issue Date: 2026-02-09 GPT Summary- 学習率の設定は深層学習モデルのトレーニングにおいて重要だが、経験的な試行錯誤が多い。本研究では、SGDによるパワーロウランダムフィーチャーモデルに対する最適学習率スケジュールを探求し、簡単なフェーズと難しいフェーズが存在することを明らかにした。簡単なフェーズでは多項式的減衰が最適であり、難しいフェーズではウォームアップ安定減衰になる。学習率とバッチサイズの共同最適化を検討し、計算最適なスケーリング法則を予測。また、運動量の最適スケジュールも考慮し、モデルの性能向上を図った。実験により、提案スケジュールが他のベンチマークより優れた結果を示すことを確認した。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Optimal Learning-Rate Schedules under Functional Scaling Laws: Power Decay and Warmup-Stable-Decay, Binghui Li+, arXiv'26, 2026.02




Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #OpenWeight #Robotics #WorldModels #4D (Video) #Realtime #Physics #EgocentricView #Author Thread-Post Issue Date: 2026-02-09 GPT Summary- DreamDojoは、エゴセントリックな人間のビデオから学習した世界モデルで、巧妙なロボットタスクのシミュレーションを可能にします。44,000時間のデータを使用し、多様なシナリオとオブジェクトをカバーしており、アクションラベルの不足を連続的な潜在アクションで解決。物理理解とアクション制御能力を向上させるポストトレーニング後、10.81 FPSでのリアルタイム処理を実現。これにより、生成的世界モデルを基にした新しいアプリケーションを実現し、オープンワールドでのタスクシミュレーションの可能性を示します。 Comment

pj page: https://dreamdojo-world.github.io/

元ポスト:

Loading…

著者ポスト:

Loading…

著者ポスト:

Loading…

解説:

Loading…




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Explanation #RepresentationLearning #Transformer #Attention #One-Line Notes Issue Date: 2026-02-09 GPT Summary- セマンティック関連性を理解することは、言語モデルの一般化能力を高め、一貫性のあるテキスト生成に寄与します。本研究では、注意ベースの言語モデルにおいて自然言語データからの関連性の学習を、トレーニングダイナミクスの観点から分析します。勾配の主成分近似を用いて、重みの初期表現を開発し、セマンティック関連性の形成過程を説明。結果として、トランスフォーマーの重みは、ビグラムや文脈マッピングといった基底関数の合成として表現され、統計を反映した関連性の捉え方を明らかにします。実験では理論的な特性付けが学習重みに一致し、トランスフォーマーの学習された関連性の解釈を示します。 Comment

元ポスト:

Loading…

学習中にtransformerがどのようにtoken間の関連性を学習しているのかを分析




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Scaling Laws #read-later #Selected Papers/Blogs #KeyPoint Notes #Scalability #Physics Issue Date: 2026-02-05 GPT Summary- LLMのトレーニングは計算コストが高く、これはソフトマックスとクロスエントロピーの影響でべき法則的に収束する損失に起因する可能性がある。おもちゃモデルと実証的評価を通じて、この挙動が次トークン分布のピークから生じることを示し、損失のべき法則的なスケーリングが指数$1/3$で発生することを明らかにした。これにより、LLMトレーニングの効率向上に関する新たな方向性が示唆される。 Comment

元ポスト:

Loading…

LLMの事前学習によって学習時間とlossの関係性において、冪乗則に従ったscaling lawsが出現するのはデータの分布起因ではなく、softmax+cross
entropyによる目的関数に起因しているという主張のようで、特にnext token predictionのようなエントロピーが低い分布(特定のトークンだけがピークを持つ分布)にfittingすると、分布の非線形性によって、冪乗則で消失する勾配と損失が生じ、結果的に1/3を指数として持つ冪乗則が出現するといった感じの話らしい。




Paper/Blog Link My Issue
#ComputerVision #Zero/Few/ManyShotPrompting #TransferLearning #OpenWeight #read-later #Selected Papers/Blogs #Generalization #Robotics #WorldModels #Backbone #4D (Video) #WorldActionModel Issue Date: 2026-02-05 GPT Summary- 最先端のVLAモデルは新環境での物理的動作の一般化に困難を抱えている。DreamZeroは、動画と行動を共同でモデル化するWorld Action Model(WAM)を導入し、物理的ダイナミクスを学習。これにより、繰り返しデモなしで多様なスキルを学び、タスクや環境への一般化を2倍以上向上。14Bの自己回帰型ビデオ拡散モデルがリアルタイム制御を実現。また、動画デモによって未見タスクの性能が42%以上改善され、少数ショットでの適応も可能に。 Comment

pj page: https://dreamzero0.github.io/

元ポスト:

Loading…

関連:
- The Second Pre-training Paradigm, Jim Fan, X, 2026.02




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Scaling Laws #read-later #Selected Papers/Blogs #Stability #DataFiltering #Initial Impression Notes Issue Date: 2026-02-05 GPT Summary- ノイズデータがLLMの事前学習に与える影響を体系的に分析。合成ノイズを注入した実験で、ノイズがトレーニングロスの発散を引き起こすことを実証し、依存関係を特定。高学習率による発散とは異なるパターンも観察し、診断手法を提案。ノイズの影響に関する制御された洞察を提供。 Comment

元ポスト:

Loading…

- [Paper Note] Spike No More: Stabilizing the Pre-training of Large Language Models, Sho Takase+, COLM'25

のようにアーキテクチャの改善によって学習の安定性を担保する取り組みもあるが、アーキテクチャ側で解決した場合にノイズはどのような影響を与えるのだろうか?

takeawayが論文中にQAの形でまとめられている。




Paper/Blog Link My Issue
#NLP #LanguageModel #Infrastructure #SoftwareEngineering #mid-training #PostTraining #Stability Issue Date: 2026-02-03 GPT Summary- FT-HSDPという新しいトレーニングパラダイムを提案し、故障耐性を持つデータ並列レプリカを活用。故障時には影響を受けたレプリカのみがオフラインとなり、他のレプリカはトレーニングを継続。FTARプロトコルと非ブロッキングキャッチアップを用いることで、故障回復時間を短縮し、有効なトレーニング時間を大幅に増加。精度への悪影響もないことを確認。 Comment

元ポスト:

Loading…

100k GPU🤯




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #read-later #Selected Papers/Blogs #ModelMerge #DataMixture Issue Date: 2026-02-03 GPT Summary- データミクスの最適化はLLMの事前学習において重要であるが、効果的な探索手法が不足している。本研究では、訓練からデータミクス探索を切り離す「DeMix」を提案し、統合モデルを通じて最適なデータ比率を予測する。広範な実験により、DeMixは探索コストを抑えつつ高い性能を実現する。また、検証済みのミクスを含む22兆トークンのデータセット「DeMix Corpora」を公開。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] RegMix: Data Mixture as Regression for Language Model Pre-training, Qian Liu+, ICLR'25




Paper/Blog Link My Issue
#Analysis #Metrics #NLP #LanguageModel #Evaluation Issue Date: 2026-02-03 GPT Summary- パープレキシティはモデルの「驚き」を測る指標であり、損失関数や品質メトリックとして注目されている。しかし、トランスフォーマーの特性を基に、パープレキシティが適切なモデル選択指標でない可能性を示す。具体的には、特定の系列に低いパープレキシティが伴う場合、そのモデルが他の系列を正確に予測しないことを証明。また、等パープレキシティプロットの分析から、パープレキシティが必ずしも精度の向上を反映しないことも明らかにした。正確なモデル選択には自信の増加と精度の改善が必要である。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #Safety #read-later #Toxicity #Selected Papers/Blogs #SparseAutoEncoder Issue Date: 2026-01-30 GPT Summary- 事前学習段階での望ましくない能力の削減に焦点を当て、医療能力除去のためのトークンフィルタリングが効果的であることを示す。特に、トークンフィルタリングが文書フィルタリングよりも低コストで望ましくない能力に対する影響を減少させることを実証。大規模モデルでのフィルタリング効果を検証し、7000倍の計算遅延の引き起こしを明らかに。スパースオートエンコーダを用いたトークンラベリング手法と高品質な分類器の蒸留方法論を提案し、ノイズの多いラベルに対するフィルタリングのロバスト性を示す。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #SelfImprovement #mid-training #DPO #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-01-30 GPT Summary- 大規模言語モデルの安全性と品質を確保するための新しい事前学習法を提案。文書をストリームし、強化学習を用いて生成されたKトークンを改善。プロセス中、候補生成物を評価し、モデルの成長に応じて高品質な出力に報酬を与える。実験の結果、事実性と安全性でそれぞれ36.2%および18.5%の改善を達成し、生成品質も最大86.3%向上した。 Comment

元ポスト:

Loading…

事前学習の枠組みがnext token predictionから変わるかもしれないような話。気になる。

v2へアップデート:

Loading…

解説:

Loading…

関連:
- [Paper Note] Deep reinforcement learning from human preferences, Paul Christiano+, NIPS'17, 2017.06
- [Paper Note] Direct Preference Optimization: Your Language Model is Secretly a Reward Model, Rafael Rafailov+, arXiv'23, 2023.05



[Paper Note] Post-LayerNorm Is Back: Stable, ExpressivE, and Deep, Chen Chen+, arXiv'26, 2026.01


Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Architecture #Normalization #read-later #Stability #ResidualStream Issue Date: 2026-01-29 GPT Summary- LLMのスケーリングには限界があり、モデルの大きさやコンテキスト長の延長が表現力を向上させない一方、深さのスケーリングは有望だが訓練の安定性に課題がある。本研究では、Post-LayerNormの問題を再検討し、残差経路をハイウェイスタイルの接続に置き換えた「Keel」トランスフォーマーを提案。これにより勾配消失を防ぎ、1000層以上でも安定した訓練を可能にし、Pre-LNよりも性能を向上させる。Keelは、今後の深層アーキテクチャ構築の新たな基盤を提供する。 Comment

元ポスト:

Loading…

PostLNと言えばOlmo 2:
- OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini, AllenAI, 20250.3

1000 layerを超えるネットワークを安定して学習、、だと、、

関連:
- [Paper Note] 1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities, Wang+, NeurIPS'25 Best Paper Awards




Paper/Blog Link My Issue
#ComputerVision #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #Blog #OpenWeight #mid-training #PostTraining #read-later #Selected Papers/Blogs #VisionLanguageModel #UMM #KeyPoint Notes #Reference Collection #Initial Impression Notes #ContextFolding Issue Date: 2026-01-27 GPT Summary- Kimi K2.5は、テキストとビジョンの共同最適化を重視するオープンソースのマルチモーダルエージェンティックモデルです。共同プリアトレーニングや強化学習を用いて、エージェントが複雑なタスクをサブ問題に分解し同時に実行するAgent Swarmを導入。評価結果では、コーディングや推論タスクで最先端の成果を達成し、最大4.5倍のレイテンシ低減を実証しました。Kimi K2.5モデルのチェックポイントは、今後の研究や応用に活用可能です。 Comment

HF: https://huggingface.co/moonshotai/Kimi-K2.5

元ポスト:

Loading…

テクニカルレポートを受けての所見:

Loading…

Agenticなタスク(HLE, BrowsingによるQA, DeepSearch)に関するベンチでGPT-5.2(xhigh)などを超えてSoTAを達成。他のタスクではcodingではClaude-4.5-Opusの方が上、image関連のタスクではGemini 3 Proに軍配が上がっている。VideoではGeminiとcomparableという感じだろうか(GeminiはLong Contextに非常に強い印象があるがLongVideoBenchて上回っている)。この辺は各タスクごとに強いモデルの棲み分けが進んできた。
また、Kimi K2.5非常に美麗でinteractiveなフロントエンドのデモが掲載されている。

Agent Swarmは、タスクをサブタスクに分解して、複数のエージェントに並列に投げて実行(最大100 sub agent)できるような枠組みであり、それらが高性能かつ低latencyとなるように訓練れている模様。これにより性能を向上させつつlatencyを80%削減しているとのこと。
この話はContext Foldingに近い話と推察される:

- [Paper Note] Scaling Long-Horizon LLM Agent via Context-Folding, Weiwei Sun+, arXiv'25, 2025.10

How Kimi, Cursor, and Chroma Train Agentic Models with RL, PHILSCHMID, 2026.03 によると、AgentSwarmはサブタスクを実施するエージェントのパラメータはfreezeし、サブエージェントを作成し、その結果を集約する処理をOrchestratorと呼ばれるlearnableなモジュールが担っており、サブエージェントからの結果はある種環境からの観測結果として扱われ、タスクの成否はOrchestratorのみに委ねられているようである。
Context Foldingは、Context Managerとポリシーが同時にFoldGRPOを通じて学習されており、エージェントそのものがサブタスク実行、結果を受け取り圧縮、メインブランチに加えるという能力をContext Managerと協調しながら実施することを学習している点が異なるように感じる。

また、並列実行したCritical Stepと呼ばれる、各サブエージェントの最大ステップ数に関する指標が導入され、これらCritical Stepをすべてのステップで集約し、特定のサブエージェントにworkloadが集中しないようにOrchestratorが調整されるとのこと。

公式ポスト:

Loading…

OpenWeightモデルの中でソフトウェアエンジニアリングスキルでSoTA:

Loading…


日本語でのポスト:
Loading…

ポイント解説:
- How Kimi, Cursor, and Chroma Train Agentic Models with RL, PHILSCHMID, 2026.03




Paper/Blog Link My Issue
#ComputerVision #NLP #DiffusionModel #TextToImageGeneration #PostTraining #read-later #Selected Papers/Blogs #2D (Image) #Stability #KeyPoint Notes #ImageSynthesis #Scalability #AutoEncoder #Author Thread-Post Issue Date: 2026-01-24 GPT Summary- RAEsは高次元セマンティック空間での成果を活かし、自由形式のテキストから画像生成にスケール可能かを検証。デコーダーを用いてImageNetを超えたスケールアップを行い、特定ドメインの重要性を発見。スケーリングによりフレームワークが単純化される一方、ノイズスケジューリングは依然重要。また、RAEsは全てのモデルスケールでVAEsを上回り、安定した性能を確保し、生成品質の向上を示した。これにより、多モーダルモデルの新たな可能性を切り開く。 Comment

元ポスト:

Loading…

関連(RAE):
- [Paper Note] Diffusion Transformers with Representation Autoencoders, Boyang Zheng+, arXiv'25, 2025.10

この研究はざっくり言うとRAE[^1]がスケールするか否かを調査し、スケールするための条件を調査し、事前学習(GenEval, DPGEvalでVAEと比較して4倍早く収束)、ダウンストリームタスクの双方でVAEベースのtext2imageモデルをoutperformすることを示しており、

スケールさせる際の最初の課題はデコーダにあり、web-scale, syntheticデータをただ増やすだけではfidelityは向上するが特定のドメイン(e.g., text reconstruction)の能力は伸びず、text renderingデータなどの、dataの構成が必要不可欠で、

続いてオリジナルのRAEではアーキテクチャに工夫(decoder入力にノイズを足す、ヘッドをwideにする、その他安定化の工夫)をしていたが、モデル、データがスケールした場合シンプルなアーキテクチャ(次元依存のノイズスケジューリング)のみが必須で他は不要となったという知見が得られており、

RAEでは視覚理解と生成が同じ潜在空間の上で行われることがVAEとは異なる強みで、生成のための学習をしても理解能力が損なわれないことを示し、そして、潜在空間上で(VAEの潜在表現は生成に特化しているが、RAEは視覚理解と生成の双方を扱われており同じ空間上で操作可能なので)LLMが直接test time scalingすることを可能にする、

と言ったことが著者ポストで解説されている。
まだ完璧に理解できていないのでRAEの論文から読みたい、が非常にインパクトの大きな話に見える。

[^1]:encoderをSigLIPなどの強力なvision encoderを用いた上で、デコーダを学習する手法。VAEではCNN等で潜在表現を低次元に圧縮するが、表現力に乏しく結果的に意味的な表現を捉える能力に乏しかったが、より強力な事前学習されたエンコーダと高次元の潜在表現を扱うことでDiffusion Modelで扱う潜在表現を進化させる。




Paper/Blog Link My Issue
#NeuralNetwork #EfficiencyImprovement #MachineLearning #NLP #LanguageModel #Optimizer #Stability Issue Date: 2026-01-23 GPT Summary- 大規模モデルの最適化には、安定性と迅速な収束を保証する戦略が不可欠。新たに導入したスペクトルスフィアオプティマイザー(SSO)は、重みと更新に厳密なスペクトル制約を適用し、完全に安定した最適化プロセスを実現。多様なモデルアーキテクチャでの事前トレーニングにより、SSOはAdamWやMuonよりも一貫して高い性能を示し、安定性の向上も確認された。

Paper/Blog Link My Issue
#Embeddings #EfficiencyImprovement #NLP #Transformer #LongSequence #Architecture #read-later #Selected Papers/Blogs #Inference #Stability #Latency #Interpretability #Author Thread-Post Issue Date: 2026-01-17 GPT Summary- STEMは、Transformersに埋め込みモジュールを用いてスパーシティを効果的に処理し、安定したトレーニングを実現します。FNNのアッププロジェクションを埋め込みのルックアップに置き換え、トークンごとの計算を削減しつつ、性能を向上させます。知識の保存や解釈性を向上させ、長いコンテキストでも効果を発揮。350Mおよび1Bモデルで約3~4%の精度向上を達成し、知識や推論のベンチマークで優れた結果を示しました。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #LearningRate Issue Date: 2026-01-09 GPT Summary- 学習率の最適設定は大規模事前学習において重要な課題であり、本研究では「フィッティング」と「トランスファー」の2つのパラダイムを用いて調査。フィッティングでは探索因子のスケーリング法則を導入し、複雑さを削減。トランスファーでは$μ$TransferをMixture of Expertsアーキテクチャに拡張し、適用範囲を広げる。実証結果は$μ$Transferのスケーラビリティに疑問を投げかけ、トレーニングの安定性と特徴学習の観点から分析を行い、モジュールごとのパラメータ調整の劣位を明らかにする。産業レベルの事前学習最適化に向けた実践ガイドラインと理論的視点を提供。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NeuralNetwork #NLP #LanguageModel #Optimizer #read-later Issue Date: 2026-01-09 GPT Summary- 重み減衰(WD)を行列層に適用する際のノイズ平衡を改善するため、学習可能な乗数を導入。これにより、データに適応したスケールを学習し、性能を向上させる。行と列のノルムにも乗数を適用し、表現力を高める。提案手法は、計算オーバーヘッドを削減し、実用的な問題を解決。AdamおよびMuonオプティマイザでの検証により、下流評価での改善を確認。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #read-later #Batch #Scheduler #CriticalBatchSize Issue Date: 2026-01-09 GPT Summary- WSD学習率スケジューラに特化した改訂版E(S)関係を導出し、事前学習中のトレーニングデータ消費とステップのトレードオフを分析。最小バッチサイズと最適バッチサイズを特定し、動的バッチサイズスケジューラを提案。実験により、提案したスケジューリング戦略がトレーニング効率とモデル品質を向上させることを示した。 Comment

元ポスト:

Loading…

Critical batch sizeが提案された研究:
- [Paper Note] An Empirical Model of Large-Batch Training, Sam McCandlish+, arXiv'18, 2018.12




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #CrossLingual #read-later #Selected Papers/Blogs Issue Date: 2026-01-05 GPT Summary- 多言語大規模言語モデルは、単言語の事前学習にもかかわらず優れたクロスリンガル性能を示す。バイリンガルデータの影響を調査するため、単言語コーパスと比較した結果、バイリンガルデータを除去すると翻訳性能が56%低下するが、クロスリンガルQAや推論タスクには影響が少ないことが分かった。バイリンガルデータを並行データとコードスイッチングに分類し、並行データを再導入すると翻訳性能がほぼ回復したが、コードスイッチングの貢献は小さかった。これにより、翻訳は並行データの整合性に依存し、クロスリンガル理解はバイリンガルデータなしでも可能であることが示唆された。 Comment

元ポスト:

Loading…

これは非常に興味深い。

関連:
- [Paper Note] ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality, Shayne Longpre+, arXiv'25, 2025.10




Paper/Blog Link My Issue
#ComputerVision #Architecture #ICLR #Selected Papers/Blogs #VisionLanguageModel #UMM #KeyPoint Notes #Scalability Issue Date: 2025-10-19 GPT Summary- ネイティブなビジョン・ランゲージモデル(VLM)の課題を明確にし、効果的な構築指針を示す。具体的には、ピクセルと単語の整合、ビジョンとランゲージの統合、クロスモーダル特性の具現化を重視。新たに開発したNEOは、390Mの画像-テキスト例で視覚的知覚を効率的に発展させ、コスト効率の高いエコシステムを提供。 Comment

元ポスト:

Loading…

pj page: https://github.com/EvolvingLMMs-Lab/NEO

HFへのリンクもpj pageにある。

openreview: https://openreview.net/forum?id=DF6udvxuvY

新たなnative-VLMアーキテクチャを提案している。

従来のVLMは、事前学習されたVision EncoderとLLMをモジュールとして扱い両者を後から統合するタイプが多く、これらは異なるモダリティの特性を独立したモジュールで捉え、柔軟にモジュールを組み替えられる利点があるが、textとvisionモダリティのalignmentのコストや不整合といった課題が生じる。

これに対して、native-VLMとはモダリティごとに異なるモジュールを導入し組み合わせるのではなく、textとvisionのモダリティを統合されたアーキテクチャで扱うようなアーキテクチャのことである。

本研究では、ベースとなるLLMとしてQwen3を用いて、それを拡張することで構築されたnative-VLMのモデルファミリーNEOを構築し
- attentionブロックのQuery, Key計算時にtextual Token Tと、visual tokenのHeight H, Width Wを分離
- H, W, Tごとに独立した周波数でのRoPEの適用
- 画像に対するbidirectionalなattentionの適用
- vision/textを共通のembedding spaceに写像するtransformer layer (Pre Buffer)の導入

といったアーキテクチャの工夫がなされており、

image

このようなアーキテクチャが
- 事前学習: Patch Embedding Layer (PEL)、Pre Buffer, Pre Buffer適用後のpost-LLMにおける新たなQK部分のみを学習

した後、中間学習→SFT(instruction tuning)でモデル全体が学習される。

ここで、WELとはWord Embedding Layerのことである。
image




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Optimizer #ICLR #read-later #Selected Papers/Blogs #Reference Collection #Author Thread-Post Issue Date: 2025-09-03 GPT Summary- AdamWは言語モデルの事前学習で広く使用されているオプティマイザですが、代替オプティマイザが1.4倍から2倍のスピードアップを提供するという主張には二つの欠点があると指摘。これらは不均等なハイパーパラメータ調整と誤解を招く評価設定であり、10種類のオプティマイザを系統的に研究することで、公正な比較の重要性を示した。特に、最適なハイパーパラメータはオプティマイザごとに異なり、モデルサイズが大きくなるにつれてスピードアップ効果が減少することが明らかになった。最も高速なオプティマイザは行列ベースの前処理器を使用しているが、その効果はモデルスケールに反比例する。 Comment

元ポスト:

Loading…

重要そうに見える

関連:
- [Paper Note] Muon is Scalable for LLM Training, Jingyuan Liu+, arXiv'25
- [Paper Note] SOAP: Improving and Stabilizing Shampoo using Adam, Nikhil Vyas+, ICLR'25

著者ポスト:
-

Loading…

-
Loading…

考察:

Loading…

openreview: https://openreview.net/forum?id=2J51qUZ0iG




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Coding #Mathematics #ICLR #read-later #Diversity #Selected Papers/Blogs #Reference Collection #Author Thread-Post Issue Date: 2025-05-08 GPT Summary- 本研究では、公共データを体系的に書き換えることで大規模言語モデル(LLMs)の性能を向上させる2つのオープンライセンスデータセット、SwallowCodeとSwallowMathを紹介。SwallowCodeはPythonスニペットを洗練させる4段階のパイプラインを用い、低品質のコードをアップグレード。SwallowMathはボイラープレートを削除し、解決策を簡潔に再フォーマット。これにより、Llama-3.1-8Bのコード生成能力がHumanEvalで+17.0、GSM8Kで+12.4向上。すべてのデータセットは公開され、再現可能な研究を促進。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…

openreview: https://openreview.net/forum?id=45btPYgSSX




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #ICML #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-05-29 GPT Summary- 小規模な実験を用いて大規模言語モデルのデータ選択を効率化することは重要である。DataDecideと呼ばれる評価スイートを通じて、異なるデータセットに基づいた前訓練の実験を実施し、150Mパラメータのモデルが1Bパラメータでの最良モデルを約80%の精度で予測できることが示された。主にスケーリング法則に基づくベースラインと比較し、連続的尤度指標を使うことで、限られた資源でも高精度の予測が可能であることが明らかとなった。 Comment

大規模なモデルを学習するためにどのようなデータレシピに従って、どのようなデータを使うべきかを、小規模なモデルでの学習を通じて予測できることを示した(150Mモデルの学習で1Bモデルに対するデータレシピの優劣を80%のDecisionAccuracyで予測可能)。

25種類のデータレシピ(ソース, deduplication, filtering, mixingによって構成)を、14種類のモデルスケールに対して、計算コスト(token-to-parameterの比率)を固定し3種類のseedを用いて実験し、事前学習の結果を体系的に調査。

1Bパラメータのdownstreamタスクにおいて、25種類のデータレシピごとの平均性能によってpairwiseの優劣に関するペアを構成し、全てのペアに対する優劣をどれだけ予測できるかを評価(DecisionAccuracy)したところ、下記図のようになった。たとえば、150Mスケールのモデルを訓練するだけでDecisionAccuracyは80%に到達し、これには1Bモデルを学習した場合と比較して2パーセント程度の計算コストしか要さないことが明らかとなった。

image

HF: https://huggingface.co/collections/allenai/datadecide

openreview: https://openreview.net/forum?id=p9YlQPF8fE




Paper/Blog Link My Issue
#NLP #LanguageModel #Safety #ICML #Author Thread-Post Issue Date: 2026-05-01 GPT Summary- LLMにおける不安全なデータの検出には、効果的なフィルタリングが不可欠である。従来の手法は主にモデレーション分類器に依存し、効率が悪い。本研究では、Denoised Representation Attribution(DRA)という新たなデータアトリビューション手法を提案し、訓練表現とターゲット表現のデノイズ化を行う。これにより、不安全データ検出が改善され、特にジャイルブレイクフィルタリングやジェンダーバイアスの検出において、従来手法を上回る結果を得た。 Comment

元ポスト:

Loading…

関連:
- Where the goblins came from, OpenAI, 2026.04




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #COLM #DistributedLearning Issue Date: 2026-04-26 GPT Summary- 大規模言語モデルの学習において、通信帯域幅の要求を減少させるため、パラメータのサブセットのみを順次同期し、学習を継続しながらデータを量子化。これにより、必要な帯域幅を約100分の1に削減し、品質を維持したまま十億規模のパラメータの分散学習を実現。 Comment

先行研究:
- [Paper Note] DiLoCo: Distributed Low-Communication Training of Language Models, Arthur Douillard+, ICML'24 Workshop WANT

openreview: https://openreview.net/forum?id=yYk3zK0X6Q

DiLoCoでは、データをsplitし異なるノードに持たせ、それぞれのノードが独立して学習した後、定期的にモデルの重みを同期するような枠組みを提案した。

本研究では、重みを同期する際のボトルネックを
- 全ての重みを一度に同期するのではなく、サブセットを共有し、
- 共有する勾配を4bitに量子化することで通信に必要なピーク帯域幅を削減することでlatencyを最小化し、
- 重みを共有している間も学習は継続するstreamingの性質を持たせる

ことで、通信コストを低減しつつ学習効率を改善したようである。




Paper/Blog Link My Issue
#ComputerVision #NLP #Encoder #2D (Image) #3D (Scene) #Medical Issue Date: 2026-01-31 GPT Summary- 視覚と言語の事前学習を活用し、3D医療画像の報告生成を強化。画像のみのデータとペアデータを組み合わせ、COLIPRIエンコーダを開発。報告生成や分類で最先端の性能を達成。モデルは公開中。 Comment

HF: https://huggingface.co/microsoft/colipri

元ポスト:

Loading…

関連:
- [Paper Note] Developing Generalist Foundation Models from a Multimodal Dataset for 3D Computed Tomography, Ibrahim Ethem Hamamci+, arXiv'24, 2024.03




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ICLR #read-later #Diversity #Selected Papers/Blogs #DataMixture #Generalization #One-Line Notes #DownstreamTasks #Adaptive #Multi-Armed Bandit Issue Date: 2026-01-21 GPT Summary- データ選択は大規模言語モデルの事前トレーニングにおいて重要で、影響スコアでデータインスタンスの重要性を測定します。しかし、トレーニングデータの多様性不足や影響計算の時間が課題です。本研究では、品質と多様性を考慮したデータ選択手法\texttt{Quad}を提案します。アテンションレイヤーの$iHVP$計算を適応させ、データの品質評価を向上。データをクラスタリングし、選択プロセスでサンプルの影響を評価することで、全インスタンスの処理を回避します。マルチアームバンディット法を用い、品質と多様性のバランスを取ります。 Comment

openreview: https://openreview.net/forum?id=bMC1t7eLRc

あるモデルに対して、特定のデータセットD_rの性能を最大化するようにモデルを学習したいとする。このときに、全ての学習データD_cからD_rが学習の結果最大となるようなデータセットD_bを求めたい、という問題設定である。Influence Scoreを算出するモデルを活用する。

学習元データは事前にクラスタリングしておき、top-Kのクラスタを選択。選択したクラスタの中からmini-batchを抽出しinfluence scoreを計算し、influence scoreが一定の閾値を超えた場合にD_bに追加。その後計算したinfluence scoreと当該クラスタが選択された頻度情報に基づいてtop-kのクラスタを選択する際に用いるcluster scoreを更新。というiterationを繰り返しC_bを構築する、という方法に見える。
image




Paper/Blog Link My Issue
#NLP #LanguageModel #ICLR #Scaling Laws #DataMixture Issue Date: 2026-01-21 GPT Summary- データ混合法則に基づき、モデル性能を予測するための関数を提案し、混合比率が性能に与える影響を定量的に分析。これにより、未知のデータ混合物の性能を事前に評価できる。実験結果では、1Bモデルが最適化された混合物で、デフォルトの混合物に比べ48%の効率で同等の性能を達成。さらに、継続的なトレーニングへの応用を通じて、混合比率を正確に予測し、動的データスケジュールの可能性を提示。 Comment

openreview: https://openreview.net/forum?id=jjCB27TMK3




Paper/Blog Link My Issue
#NLP #LanguageModel #ICLR #DataMixture #Adaptive Issue Date: 2026-01-21 GPT Summary- トレーニングデータの最適な混合が言語モデルの性能に影響を与えるが、既存の手法は層化サンプリングを一貫して上回れない。これを解明するため、標準フレームワークで手法を統一し、混合法則が不正確であることを示した。新たに提案したオンライン手法Aioliは、トレーニング中に混合パラメータを推定し動的に調整。実験では、Aioliが層化サンプリングを平均0.27ポイント上回り、短いランで最大12.012ポイントの向上を達成した。 Comment

openreview: https://openreview.net/forum?id=sZGZJhaNSe




Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #ReinforcementLearning #Chain-of-Thought #MultiModal #DiffusionModel #TextToImageGeneration #PostTraining #read-later #One-Line Notes #ImageSynthesis Issue Date: 2026-01-06 GPT Summary- ThinkGenは、マルチモーダル大規模言語モデル(MLLM)のChain-of-Thought(CoT)推論を活用した初の思考駆動型視覚生成フレームワークである。MLLMが特化した指示を生成し、Diffusion Transformer(DiT)がそれに基づいて高品質な画像を生成する。さらに、MLLMとDiT間で強化学習を行うSepGRPOトレーニングパラダイムを提案し、多様なデータセットに対応した共同トレーニングを可能にする。実験により、ThinkGenは複数の生成ベンチマークで最先端の性能を達成した。 Comment

元ポスト:

Loading…

MLLMとDiTを別々にRLして、MLLMはDiTが好むplan/instructionを生成し、その後DiTとConnectorに対してplan/instructionに従うようなRLをするような手法のようである。図2,3,4を見ると概要がわかる。




Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Supervised-FineTuning (SFT) #ReinforcementLearning #OpenWeight #SSM (StateSpaceModel) #MoE(Mixture-of-Experts) #PostTraining #Hybrid Issue Date: 2025-12-28 GPT Summary- Nemotron 3 Nano 30B-A3Bは、Mixture-of-ExpertsハイブリッドMamba-Transformer言語モデルであり、25兆のテキストトークンで事前学習され、監視付きファインチューニングと強化学習を経て精度を向上。前世代のNemotron 2 Nanoよりも高精度で、フォワードパスごとに半分未満のパラメータを活性化し、同サイズのオープンモデルと比較して最大3.3倍の推論スループットを達成。エージェント的、推論、チャット能力が向上し、最大1Mトークンのコンテキスト長をサポート。事前学習済みモデルはHugging Faceで公開。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #Transformer #MultiModal #read-later #Selected Papers/Blogs #2D (Image) #Backbone #UMM #Omni #KeyPoint Notes Issue Date: 2025-12-20 GPT Summary- 生成的事前学習の原則を視覚学習に応用し、モデルが過去のパッチ埋め込みから未来の埋め込みを予測する「次埋め込み予測自己回帰(NEPA)」を提案。シンプルなTransformerを用いてImageNet-1kで高精度を達成し、タスク特有の設計を必要とせず、スケーラビリティを保持。NEPAは視覚的自己教師あり学習の新たなアプローチを提供する。 Comment

pj page: https://sihanxu.me/nepa/
HF: https://huggingface.co/collections/SixAILab/nepa

元ポスト:

Loading…

Autoregressiveにnext embedding prediction(≠reconstruction)をする。エンコーダ自身のembeddingとautoregressive headが生成したembeddingを比較することでlossが計算されるが、双方に勾配を流すとほぼ全てのパッチが同じembeddingを共有するという解に到達し何も学習されないので、エンコーダのエンコード結果(=target)のgradientをstopする。これにより、targetとしての勾配は受け取らないが(predictionに近づけようとする勾配)、文脈に応じたベクトルを作り、next embeddingを予測する入力としての勾配は受け取るので、エンコーダは文脈に応じた学習を続けることができる。

image

コミュニティからのフィードバックを受けて執筆されたブログ:
https://sihanxu.me/nepa/blog

元ポスト:

Loading…


NEPAを提案した背景に関して直感的な解説を実施している。興味深い。具体的には、omnimodalityモデルの困難さはインターフェースの問題であり、latent spaceがomnimodalityの共通のインタフェースになりうり、モダリティごとの予測対象とlossを個別に設計せずに済む方法の一つがAutoregressiveな予測であり、そういったインタフェースがスケーリングのために必要という意見と、omnimodalityにおいて過去のliteratureで扱われているdiscreteなtokenとcontinuous symbolsは得意なモダリティが異なり予測対象や前処理のメカニズムも異なるため同時に扱うことが難しい旨などが記述されている。




Paper/Blog Link My Issue
#NLP #LanguageModel #ACL #Findings #KeyPoint Notes #GenerativeVerifier Issue Date: 2025-12-19 GPT Summary- 自律的データ選択(AutoDS)は、言語モデルをゼロショットの生成分類器として利用し、高品質な数学テキストを自動キュレーションする手法です。従来の方法と異なり、人間の注釈やデータフィルターのトレーニングを必要とせず、モデルのロジットに基づいて数学的に有益なパッセージを判断します。AutoDSは事前トレーニングパイプラインに統合され、数学ベンチマークでの性能を大幅に向上させ、トークン効率を約2倍改善しました。さらに、キュレーションされたAutoMathTextデータセットを公開し、今後の研究を促進します。 Comment

元ポスト:

Loading…

以下のようなzero-shotのmeta-promptを用いてテキストをスコアリングし(Q1, Q2それぞれについてスコア(=logits)を算出し乗算)継続事前学習に利用することで性能が向上することを示した研究。
image

ベースライン:
- uniform: OpenWebMathから一様サンプリングする
- DSIR: source dataとtarget domain(今回はPile's Wikipedia splitを利用)のKL Divergenceを比較しデータを選択する。
- Qurating: Reward-modelをベースにした学習サンプルに対するeducational valueをランキングさせる手法

提案手法は
- OpenWebMath
- arXiv (from RedPajama)
- Algebraic Stack
の中からトップスコアのドキュメントを利用。DSIR, Quratingについてはデータソースが明示されていないが、おそらく提案手法揃えていると思われる。また学習する際のトークン量も手法間で(明示的に書かれていないように見えるが)同等にそろえていると思われる。

まずpreliminary experimentsとしてトークン数のbudgetを小さめにして実験。uniformと比較すると、別のmathドメインデータでFinetuningした後のパフォーマンスが向上している。トークン数のbudgetもexactに揃えられている。
image

続いてトークンのbudgetを増やして、~2.5Bトークンにスケールアップして比較(継続事前学習→1 epoch SFT)。提案手法が全体的にdownstreamタスクでの評価で高い性能を発揮。しかしこちらでは、いくつかでuniformの性能もよい。
image

また、最後に数学データでの継続事前学習が異なるドメインに対してどの程度転移するかを測ると、提案手法が平均して最もよかった。しかしこちらもでもuniformが結構強い結果に見える。
image

OpenWebMathがそもそもheuristicsとtrained classifierを用いてキュレーションされたデータとのことなので、ある程度高品質であることが想定される。




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #MoE(Mixture-of-Experts) #SoftwareEngineering #mid-training #PostTraining #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-12-19 GPT Summary- SonicMoEは、MoEモデルのフォワードおよびバックワードパスをメモリ効率良く計算するアルゴリズムを提案し、活性化メモリを45%削減。Hopper GPU上で7B MoEモデルの計算スループットを1.86倍改善し、トレーニングスループットは2130億トークン/日を達成。新しいトークンラウンディング手法により、カーネル実行時間で1.16倍のスピードアップを実現。すべてのカーネルはオープンソース化され、MoEモデルのトレーニングを加速。 Comment

元ポスト:

Loading…

MoEモデルの学習速度、メモリ使用が最大2倍効率化される実装らしい。ただしHopperに特化している模様。

Blackwellでも動作するようになった模様:

Loading…




Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #InductiveBias #Scaling Laws #One-Line Notes Issue Date: 2025-12-19 GPT Summary- 原子間ポテンシャルを学習する幾何学的タスクに関する実証研究を行い、等変性が大規模スケールで重要であることを示した。等変アーキテクチャは非等変モデルよりも優れたスケーリングを示し、高次の表現がより良いスケーリング指数に寄与することが分かった。データとモデルのサイズはアーキテクチャに関係なく連動してスケールすべきであり、対称性などの基本的な帰納的バイアスをモデルに発見させるべきではないと結論付けた。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=qyjaVda7t2

Inducive Bias(対称性vs.非対称性)によってスケーリング則の係数が変わることを原子間ポテンシャルを予測するタスクにおいて示した、という話っぽい?openreviewだとweaknessが多く指摘されている(この性質が一定の一般性を持つ話として記述されているが実験が限定的だからスコープを狭めるべきみたいな話やNLPから多くの手法を引っ張ってきているが原子間ポテンシャル予測は根本的に性質が異なるみたいな指摘など)ように見えるが果たして。




Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #Distillation #OpenWeight #mid-training #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2025-12-13 GPT Summary- Nanbeige4-3Bは、23兆の高品質トークンで事前学習し、3000万以上の指示でファインチューニングされた高性能な小規模言語モデルです。FG-WSDトレーニングスケジューラを用いて段階的にデータを洗練し、SFTデータの質向上のために共同メカニズムを設計しました。さらに、DPDメソッドを通じてモデルを蒸留し、強化学習フェーズで推論能力を強化しました。評価結果は、同等のパラメータスケールのモデルを大幅に上回り、より大きなモデルにも匹敵することを示しています。モデルのチェックポイントは、https://huggingface.co/Nanbeige で入手可能です。 Comment

元ポスト:

Loading…

3Bモデルにも関わらず10倍以上大きいモデルと同等以上の性能を発揮し、trainingのstrategyが非常に重要ということが伺える。元ポストにも各学習方法の概要が記載されているが、読みたい。




Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Transformer #2D (Image) #KeyPoint Notes #WarmUp Issue Date: 2025-12-11 GPT Summary- 視覚トランスフォーマー(ViTs)を手続き生成データで事前学習する新しい方法を提案。これにより、モデルは抽象的な計算的知識を内在化し、標準的な画像トレーニングでデータ効率やパフォーマンスが向上。ImageNet-1kで1%の手続き生成データを使用することで、精度が1.7%以上向上し、28%のデータに相当する効果を示す。新しい事前学習戦略の可能性を示唆。 Comment

元ポスト:

Loading…

特定のgrammarを持つ(意味情報を持たない予測可能な)シンボルトークン列(e.g.,規則的なアルファベットの羅列, 括弧による階層構造; 非画像データ)を用いてViTのTransformerブロックを事前学習することによって、MLPやattention Layerに対して構造情報を捉える能力がwarmupされ、その後実画像で事前学習をするとサンプル効率が上がる、という話らしい。

warmupでは、ViTにおける入力機構(画像パッチ+linear layer)は一切用いず、discreteなトークンと、それらをランダムに初期化したlookup table を用いる。このとき、embeddingとpositional encodingをfreezeすることで、MLP, Attention Layerに知識が埋め込まれることを保証する。




Paper/Blog Link My Issue
#NLP #LanguageModel #COLM #SpeculativeDecoding #KeyPoint Notes Issue Date: 2025-12-11 GPT Summary- プログレッシブトレーニングを用いて、異なるパラメータサイズの大規模言語モデル(LLMs)ファミリーを効率的に構築する方法を提案。これにより、計算コストを約25%削減しつつ、独立訓練モデルと同等の性能を維持。さらに、モデルサイズに応じた最大学習率の調整により、性能向上と一貫した挙動を実現。 Comment

openreview: https://openreview.net/forum?id=fuBrcTH8NM#discussion

LLMのモデルファミリーを構築する際に、従来は独立して異なるサイズのモデルをスクラッチから学習する必要があるが、小規模なモデルを学習した後、当該モデルをreusableモデルとみなしbert2BERTを用いることでモデルサイズを順次拡張していくことで、より小さな計算コストで一連のモデルファミリーを学習できるprogressive trainingを提案(たとえば実験では1,2,4,8Bのモデルファミリーを学習する際の計算コストが約25%削減)。また、モデルサイズが大きくなればなるほどモデルは学習率に対してsensitiveになることが先行研究で報告されており、モデルサイズに応じて最大学習率を線形に減少させるようなスケジューリングをすることで、独立に学習した場合よりも最終的に高い性能を獲得しているだけでなく、モデルファミリー間の挙動の一貫性も向上している。

bert2BERTでは2種類の拡張手法が提案されているが、Function Preserving Initialization (FPI; 同じinputに対して同じoutputが出力されるようにwidth, depthを拡張する(簡単な操作で実現できる。bert2BERT Figure4を参照))を採用している。
- [Paper Note] bert2BERT: Towards Reusable Pretrained Language Models, Cheng Chen+, ACL'22, 2021.10

興味深いのは独立して学習した場合よりもモデルファミリーの挙動が類似している点であり、これはspeculative decodingのacceptance rate向上に寄与しデコーディングの効率化に繋がるという明確な利点がある。




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #mid-training #PostTraining #read-later #Selected Papers/Blogs #PRM #KeyPoint Notes #Reference Collection #Author Thread-Post Issue Date: 2025-12-09 GPT Summary- 強化学習(RL)が言語モデルの推論能力を向上させるかどうかを検証するため、事前トレーニング、中間トレーニング、RLの因果的寄与を分離する実験フレームワークを開発。RLは事前トレーニングが十分な余地を残す場合にのみ真の能力向上をもたらし、文脈的一般化には適切な事前トレーニングが必要であることを示した。また、中間トレーニングがRLよりもパフォーマンスを向上させ、プロセスレベルの報酬が推論の忠実性を高めることを明らかにした。これにより、推論LMトレーニング戦略の理解と改善に寄与する。 Comment

元ポスト:

Loading…

RLはモデルの能力を精錬させる(=事前学習時に既に身についているreasoningパターンを(探索空間を犠牲により少ない試行で良い応答に辿り着けるよう)増幅させる;サンプリング効率を向上させる)と主張する研究たちと
- [Paper Note] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?, Yang Yue+, NeurIPS'25, 2025.04
- [Paper Note] The Invisible Leash: Why RLVR May Not Escape Its Origin, Fang Wu+, arXiv'25
- [Paper Note] Spurious Rewards: Rethinking Training Signals in RLVR, Shao+, 2025.05
- [Paper Note] Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, ICML'25

RLは事前学習で身につけたreasoning能力を超えてさらなるgainを得ることができる
- [Paper Note] Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs, Xumeng Wen+, arXiv'25, 2025.06
- From f(x) and g(x) to f(g(x)): LLMs Learn New Skills in RL by Composing Old Ones, Yuan+, 2025.09
- [Paper Note] On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models, Charlie Zhang+, arXiv'25, 2025.12

という対立する主張がliteratureで主張されているが、これは学習環境が制御されたものでないことに起因しており(=何が事前学習で既に獲得されていて、事後学習後に新規で獲得された能力なのか、既存の能力の精錬なのか弁別がつかない)、かつ最近のmid-trainingの隆盛([Paper Note] OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling, Zengzhi Wang+, arXiv'25 )を鑑みたときに、事前・中間・事後学習は互いにどのように作用しているのか?という疑問に応えることは重要であり、そのためのフレームワークを提案し分析した、という話な模様。非常に興味深い。takeawayはabstに書かれている通りなようだが、読みたい。

フレームワークは事前・中間・事後学習の個々の貢献を独立して測定できるフレームワークであり、
- 完全に制御された(明示的なアトミックなoperationに基づく)合成reasoningタスク

あとで書く

著者ポスト:

Loading…


takeaway1の話は、最近のRLにおける動的な難易度調整にも絡んでくる知見に見える。
takeaway2,3のRLはatomic skillを追加で学習することはできず、compositional skillを学習しcontextual generalizationを実現する、同等のbadgetの元でmid training+RLがpure RLよりも性能改善する、というのは特に興味深く、事後学習の効用を最大化するためにも事前・中間学習が(以前から言われていた通り)重要であることが示唆される。
takeaway4のPRMがreasoningのfidelityを高めるという話は、DeepSeek-V3.2でも観測されている話であり、本研究によってそれが完全に制御された実験の元示されたことになる。

RQ: 実データにおいて、事前学習時点だとPerplexityかdownstream taskの性能をwatchすると思うのだが、それらを通じてatomic skillをLLMがどれだけ身に付けられているか、というのはどれだけ測れているのだろうか、あるいはより良い方法はあるのだろうか

- [Paper Note] Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning, Haozhe Wang+, ICLR'26, 2025.09

(=RLの序盤は低レベルな手続的な実行(計算や公式)を習得し、その後高レベルな戦略的なplanningの学習が生じる)とはどのような関係があるだろうか。

解説:

Loading…

所見:

Loading…

解説:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning Issue Date: 2025-12-04 GPT Summary- プレトレインゼロという強化学習フレームワークを提案し、ドメイン特化型から一般的なプレトレーニングへと拡張。アクティブプレトレーニングで情報価値のある内容を特定し、自己教師あり学習で一般的なウィキペディアコーパスを用いてモデルをプレトレーニング。検証スケーリングにより推論能力を向上させ、MMLU-ProやSuperGPQAなどのベンチマークで性能を大幅に改善。プレトレーニングされたモデルは下流のタスクにも活用可能。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #read-later #Selected Papers/Blogs Issue Date: 2025-11-21 GPT Summary- ウェブデータの品質向上のため、MinerU-HTMLという新しい抽出パイプラインを提案。これは、言語モデルを用いてコンテンツ抽出をシーケンスラベリング問題として再定義し、意味理解を活用した二段階のフォーマットパイプラインを採用。実験では、MinerU-HTMLが81.8%のROUGE-N F1を達成し、従来の手法よりも構造化要素の保持率が優れていることを示した。AICCという多言語コーパスを構築し、抽出品質がモデルの性能に大きく影響することを確認。MainWebBench、MinerU-HTML、AICCを公開し、HTML抽出の重要性を強調。 Comment

元ポスト:

Loading…

pj page: https://opendatalab.com/ai-ready/AICC




Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #DiffusionModel #PositionalEncoding #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #DataMixture #2D (Image) #Routing #UMM #4D (Video) #Omni #KeyPoint Notes #audio #text Issue Date: 2025-11-18 GPT Summary- Uni-MoE 2.0は、Lycheeファミリーから発表されたオープンソースのオムニモーダル大規模モデルで、言語中心のマルチモーダル理解と生成を大幅に向上させる。動的容量のMixture-of-Experts設計や進行的トレーニング戦略を採用し、画像、テキスト、音声の生成が可能。約75Bトークンのデータでトレーニングされ、85のベンチマークで競争力のある性能を示し、特にビデオ理解やオムニモーダリティ理解で優れた結果を達成。 Comment

pj page: https://idealistxy.github.io/Uni-MoE-v2.github.io/

元ポスト:

Loading…

pj pageをみた感じ、アーキテクチャは下記で、モダリティごとのエンコーダを用意しトークン化し同じ空間上で各モダリティを学習するUnified Multi Modalモデルとなっている。MoEアーキテクチャを採用しモダリティごとのexpertと共有のexpert、null expert(パラメータも必要とせず何も処理しないexpertでアーキテクチャをMoEから変えずに不要な計算を排除して効率を向上可能)を用意しルータで制御する。また、speechやvideoなどの時系列性に対処するためにRoPEを3次元に拡張したPEを用いて、各モダリティがシームレスにalignmentをとれるようにしている。
image

事前学習ではまずテキストを中心としたクロスモーダルな学習をする。たとえば、image/audio/video-textタスクで学習をする。このフェーズで各モダリティをテキストのsemantic spaceに写像する能力を鍛える(Figure5 left)。

その後SFTで各モダリティに特化したexpertを学習する。ここでは段階的にSFTを実施し、まずまずAudio, Visualのexpertを同時にwarmupし、その後Textのexpertsを追加して次のアニーリングフェーズを学習しているように見える。

image
続いてアニーリングフェーズとして、様々なモダリティのデータをバランスさせてDataMixtureし、徐々に学習率を下げながら特定のタスクやモダリティに特化せず、全体の性能が向上するように学習する。その後、long sequenceのreasoningの能力を向上させるためにGSPO-DPOをiterativeに適用する。DPOの嗜好データはLLM as a Judgeでロールアウトに基づいて構成する、

という感じらしい。

Table2にDataMixtureの比率がかかれているし、各種データの概要も3.2節にかかれているように見える。素晴らしい。




Paper/Blog Link My Issue
#ComputerVision #Analysis #NLP #Dataset #LanguageModel #Selected Papers/Blogs #DataMixture #PhaseTransition Issue Date: 2025-11-12 GPT Summary- 本論文では、データを少なく使う方が良い場合についての理論的枠組みを提案し、小規模な厳選データセットが優れた性能を発揮する理由を探ります。データキュレーション戦略を通じて、ラベルに依存しない・依存するルールのテスト誤差のスケーリング法則を明らかにし、特定の条件下で小規模データが大規模データを上回る可能性を示します。ImageNetでの実証結果を通じて、キュレーションが精度を向上させることを確認し、LLMの数学的推論における矛盾する戦略への理論的説明も提供します。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=8KcjEygedc




Paper/Blog Link My Issue
#NLP #LanguageModel #Architecture #KeyPoint Notes #AutoEncoder Issue Date: 2025-11-03 GPT Summary- 大規模言語モデル(LLMs)の効率を向上させるため、連続自己回帰言語モデル(CALM)を提案。CALMは、次トークン予測から次ベクトル予測へのシフトを行い、Kトークンを連続ベクトルに圧縮することで生成ステップをK倍削減。新たなフレームワークを開発し、性能と計算コストのトレードオフを改善。CALMは、効率的な言語モデルへの道筋を示す。 Comment

pj page: https://shaochenze.github.io/blog/2025/CALM/

元ポスト:

Loading…

VAEを学習し(deterministicなauto encoderだと摂動に弱くロバストにならないためノイズを加える)、Kトークンをlatent vector zに圧縮、auto regressiveなモデルでzを生成できるように学習する。専用のヘッド(generative head)を用意し、transformerの隠れ状態からzを条件付きで生成する。zが生成できればVAEでdecodeすればKトークンが生成される。loss functionは下記のエネルギースコアで、第一項で生成されるトークンの多様性を担保しつつ(モード崩壊を防ぎつつ)、第二項でground truth yに近い生成ができるようにする、といった感じらしい。評価はautoregressiveにzを生成する設定なのでperplexityを計算できない。このため、BrierLMという指標によって評価している。BrierLMがどのようなものかは理解できていない。必要になったら読む。

image

future workにあるようにスケーリング特性がまだ明らかになっていないのでなんとも言えないという感想。

ポイント解説:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Selected Papers/Blogs #LatentReasoning #KeyPoint Notes #RecurrentModels #RecursiveModels #Author Thread-Post Issue Date: 2025-10-30 GPT Summary- Ouroは、推論を事前訓練フェーズに組み込むことを目指したループ言語モデル(LoopLM)であり、反復計算やエントロピー正則化を通じて性能を向上させる。1.4Bおよび2.6Bモデルは、最大12Bの最先端LLMに匹敵する性能を示し、知識操作能力の向上がその要因であることを実験で確認。LoopLMは明示的なCoTよりも整合した推論を生成し、推論の新たなスケーリングの可能性を示唆している。モデルはオープンソースで提供されている。 Comment

pj page: https://ouro-llm.github.io

元ポスト:

Loading…

解説:

Loading…

基本構造はdecoder-only transformerで
- Multi-Head Attention
- RoPE
- SwiGLU活性化
- Sandwich Normalization
が使われているLoopedTransformerで、exit gateを学習することで早期にloopを打ち切り、出力をすることでコストを節約できるようなアーキテクチャになっている。

より少ないパラメータ数で、より大きなパラメータ数のモデルよりも高い性能を示す(Table7,8)。また、Tを増やすとモデルの安全性も増す(=有害プロンプトの識別力が増す)。その代わり、再帰数Tを大きくするとFLOPsがT倍になるので、メモリ効率は良いが計算効率は悪い。

linear probingで再帰の次ステップ予測をしたところ浅い段階では予測が不一致になるため、思考が進化していっているのではないか、という考察がある。

また、再帰数Tを4で学習した場合に、inference時にTを5--8にしてもスケールしない(Table10)。

またAppendix D.1において、通常のtransformerのLoopLMを比較し、5種類の大きさのモデルサイズで比較。通常のtransformerではループさせる代わりに実際に層の数を増やすことで、パラメータ数を揃えて実験したところ、通常のtransformerの方が常に性能が良く、loopLMは再帰数を増やしてもスケールせず、モデルサイズが大きくなるにつれて差がなくなっていく、というスケーリングの面では残念な結果に終わっているようだ。

といった話が解説に書かれている。元論文は完全にskim readingして解説ポストを主に読んだので誤りが含まれるかもしれない点には注意。

著者による紹介: https://youtu.be/jwb_QNZJNyA?si=tEOkew8Qo8Rjab3Y




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Selected Papers/Blogs #One-Line Notes #German Issue Date: 2025-10-28 GPT Summary- 「German Commons」は、オープンライセンスのドイツ語テキストの最大コレクションで、41のソースから1545.6億トークンを提供。法律、科学、文化など7つのドメインを含み、品質フィルタリングや重複排除を行い、一貫した品質を確保。すべてのデータは法的遵守を保証し、真にオープンなドイツ語モデルの開発を支援。再現可能で拡張可能なコーパス構築のためのコードも公開。 Comment

HF: https://huggingface.co/datasets/coral-nlp/german-commons

元ポスト:

Loading…

最大級(154B)のドイツ語のLLM(事前)学習用データセットらしい

ODC-By Licence




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #SoftwareEngineering #mid-training #PostTraining #Parallelism Issue Date: 2025-10-25 GPT Summary- 非同期階層ゼロ並列処理(AsyncHZP)を提案し、シンプルさとメモリ効率を保ちながら、トレーニング効率を向上。従来のZeROの通信オーバーヘッドを削減し、パラメータや勾配の再シャーディングを適応的に行う。マルチストリーム非同期スケジューリングにより通信と計算を重ね合わせ、メモリの断片化を最小限に抑える。DenseおよびMixture-of-Expertsモデルでの評価により、AsyncHZPが従来のND並列処理を上回る性能を示した。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #Transformer #Self-SupervisedLearning #ICCV #Scalability Issue Date: 2025-10-20 GPT Summary- 視覚的自己教師あり学習(SSL)は、CLIPに比べて視覚的質問応答(VQA)でのパフォーマンスが劣るが、同じデータセットで訓練することで、視覚的SSLモデルがCLIPモデルよりもスケールが良いことを示した。視覚的SSLは、VQAや従来の視覚ベンチマークでCLIPレベルのパフォーマンスを達成できる可能性がある。これにより、視覚中心の表現学習に新たな機会が開かれる。 Comment

pj page: https://davidfan.io/webssl/

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #Self-SupervisedLearning Issue Date: 2025-10-20 GPT Summary- 新しい二段階トレーニングフレームワークを提案し、ピクセル空間生成モデルの性能と効率のギャップを埋める。第一段階で意味のあるセマンティクスをキャプチャし、第二段階でエンコーダとデコーダを統合してファインチューニング。ImageNetデータセットで優れた性能を示し、特に拡散モデルは従来手法を大きく上回り、一貫性モデルは高解像度画像での直接トレーニングに成功。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#Robotics #VisionLanguageActionModel #PseudoLabeling Issue Date: 2025-10-20 GPT Summary- D2E(Desktop to Embodied AI)フレームワークを提案し、デスクトップ環境での相互作用がロボティクスの具現化AIタスクの事前学習に有効であることを示す。OWAツールキット、Generalist-IDM、VAPTの3つのコンポーネントを用いて、1,300時間以上のデータで高い成功率を達成。デジタル相互作用の要素が物理的タスクに転送可能であることを検証し、デスクトップ事前学習の実用性を確立。関連データとモデルは公開予定。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #Quantization #Distillation #PostTraining #KeyPoint Notes Issue Date: 2025-10-19 GPT Summary- BitNet Distillation(BitDistill)は、フル精度LLMを1.58ビット精度にファインチューニングする軽量なパイプラインで、計算コストを抑えつつ高いタスク特化型パフォーマンスを実現します。主な技術には、SubLNモジュール、MiniLMに基づくアテンション蒸留、継続的な事前学習が含まれ、これによりフル精度モデルと同等の性能を達成し、メモリを最大10倍節約し、CPU上での推論を2.65倍高速化します。 Comment

元ポスト:

Loading…

SubLN, MiniLMについては
- [Paper Note] Magneto: A Foundation Transformer, Hongyu Wang+, ICML'23
- [Paper Note] MiniLMv2: Multi-Head Self-Attention Relation Distillation for Compressing Pretrained Transformers, Wenhui Wang+, ACL'21 Findings, 2020.12

を参照のこと。

既存LLMを特定タスクに1.58bitでSFTする際に、full-precisionと同等の性能を保つ方法を提案している研究。full-precision LLMを1.58 bitでSFTをするとfp16で学習した場合のbaselineと比較してパフォーマンスが大きく低下するが(そしてその傾向はモデルサイズが大きいほど強い)、提案手法を利用するとfp16でSFTした場合と同等の性能を保ちながら、inference-speed 2.65倍、メモリ消費量1/10になる模様。
image

手法としては、3段階で構成されており
- Stage1: low-bitに量子化されたモデルではactivationの分散が大きくなり学習の不安定さにつながるため、アーキテクチャとしてSubLNを導入して安定化を図る
- Stage2: Stage1で新たにSubLNを追加するので事前学習コーパスの継続事前学習する
- Stage3: full-precisionでSFTしたモデルを教師、1.58-bitに量子化したモデルを生徒とし、logits distillation (input x, output yが与えられた時に教師・生徒間で出力トークンの分布のKL Divergenceを最小化する)、MiniLMで提案されているMHAのdistillation(q-q/k-k/v-vの内積によってsquaredなrelation mapをQ, K, Vごとに作成し、relation mapのKL Divergenceが教師・生徒間で最小となるように学習する)を実施する
- 最終的に `L_CE + \lambda L_LD + \ganma L_AD` を最小化する。ここで、L_CEはdownstream datasetに対するcross-entropy lossであり、L_LD, L_ADはそれぞれ、logit distillation, Attention Distillationのlossである。

ポイント解説:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #LongSequence #Author Thread-Post Issue Date: 2025-10-18 GPT Summary- 未来要約予測(FSP)を提案し、長期的な推論や創造的な執筆の課題を解決。FSPは、長期的な未来のコンパクトな表現を予測する補助ヘッドを用い、情報を保持。手作りの要約と逆言語モデルによる学習要約の2つのバリアントを探求。大規模な実験により、FSPが数学、推論、コーディングのベンチマークでNTPおよびMTPを改善することを示した。 Comment

元ポスト:

Loading…

逆方向の言語モデルを学習しそのhidden stateを教師信号とし[^1]順方向の言語モデルに対して別のヘッドを用意しrepresentationを取得。l2 lossで順方向と逆方向のrepresentationが近くなるよう学習しバックボーンであるtransformerを学習するような事前学習手法。

[^1]:逆方向言語モデルのhidden stateはfuture contextに関する豊富な情報を含んでいるため

著者ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #Analysis #NLP #Dataset #LanguageModel #Evaluation #MultiModal #Reasoning #read-later #DataMixture #VisionLanguageModel Issue Date: 2025-10-15 GPT Summary- 大規模言語モデル(LLMs)は、テキストのみで訓練されながらも視覚的先入観を発展させ、少量のマルチモーダルデータで視覚タスクを実行可能にする。視覚的先入観は、言語の事前訓練中に獲得された知識であり、推論中心のデータから発展する。知覚の先入観は広範なコーパスから得られ、視覚エンコーダーに敏感である。視覚を意識したLLMの事前訓練のためのデータ中心のレシピを提案し、500,000 GPU時間をかけた実験に基づく完全なMLLM構築パイプラインを示す。これにより、視覚的先入観を育成する新しい方法を提供し、次世代のマルチモーダルLLMの発展に寄与する。 Comment

元ポスト:

Loading…

MLE Bench (Multi-Level Existence Bench)




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Optimizer Issue Date: 2025-10-15 GPT Summary- LLMの事前学習における計算効率向上のため、フルガウス-ニュートン(GN)前処理を最大150Mパラメータのトランスフォーマーモデルに適用。実験により、GN更新がトレーニングの反復回数を5.4倍削減し、層間情報を無視した層別GN前処理器がフルGNに近い性能を示すことが判明。これにより、GN近似の効果や層別ヘッセ行列の情報の重要性、近似手法と理想的な層別オラクルとの性能ギャップが明らかになった。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #DiffusionModel #NeurIPS Issue Date: 2025-10-14 GPT Summary- 階層的拡散言語モデル(HDLM)は、低レベルのトークンが高レベルのトークンにマッピングされる階層的な語彙に基づく新しい言語モデリング手法です。前方プロセスではトークンが高レベルの先祖に摂動され、逆プロセスでは詳細な意味を予測します。HDLMは、拡散の証拠下限(ELBO)の閉形式表現を導出し、既存のモデルを含む柔軟な実装が可能であることを示します。実験により、HDLMはベースラインよりも低い困惑度を達成し、その有効性が確認されました。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#MachineLearning #MultiModal #UMM #One-Line Notes #Author Thread-Post Issue Date: 2025-10-10 GPT Summary- UML(Unpaired Multimodal Learner)を提案し、非ペアのマルチモーダルデータを活用して表現学習を強化する新しいトレーニングパラダイムを示す。異なるモダリティからの入力を交互に処理し、明示的なペアを必要とせずにクロスモーダル構造から利益を得る。実験により、テキスト、音声、画像などの非ペアデータを用いることで、単一モダルターゲットのパフォーマンスが向上することを確認。 Comment

pj page: https://unpaired-multimodal.github.io

モダリティ間で(モダリティごとのエンコーダとデコーダ以外の)パラメータを共有し(UMMs)、通常はpair-dataで学習するが、unpaired data(+self-supervised / 分類ヘッドを用いた(ここはしっかり読めてないので自信ない)supervised learning)で学習する。これによりダウンストリームタスクでの性能が向上する。

unpaired dataで学習するという点が革新的に見える。unpaired dataで学習する枠組みにより大量のデータを活用し表現を学習できる。また、ペアデータで学習することによりパラメータに埋め込める知識やスキルが(おそらく)限られていたが、より広範な知識やスキルを埋め込めるのでは、という印象がある。

元ポスト:

Loading…

著者ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #Transformer #Decoder Issue Date: 2025-10-10 GPT Summary- Heptapodは、因果注意を用いた画像自動回帰モデルで、CFGへの依存を排除し、意味トークナイザーのトレンドを避ける。主な革新は、2D分布予測を行う因果Transformerで、画像の2D空間全体にわたる分布を学習する。これにより、生成的トレーニングを通じて画像の意味を捉えることが可能になる。ImageNet生成ベンチマークでFID値2.70を達成し、従来のアプローチを上回る成果を示した。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #COLM #read-later Issue Date: 2025-10-07 GPT Summary- 強化学習(RL)によるファインチューニングは、数学的推論やコーディングのための言語モデルの性能向上に寄与しているが、そのメカニズムは未解明である。本研究では、オープンなデータセットを用いて、さまざまなスケールのモデルに対するRLファインチューニングの効果を調査し、RLアルゴリズムが出力分布に収束し、事前学習データのパターンを増幅することを明らかにした。また、異なるスケールのモデルが異なる出力分布に収束することや、簡単な質問へのファインチューニングが難しい質問の性能向上に寄与する可能性を示した。これにより、RLの役割に関する新たな洞察が得られた。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #SmallModel #memory Issue Date: 2025-10-07 GPT Summary- 現代の言語モデルはパラメータのスケーリングに依存しているが、すべての世界知識を圧縮するのは非現実的である。これに対処するため、メモリ拡張アーキテクチャを提案し、小型言語モデルが階層的なメモリバンクにアクセスする仕組みを導入。実験により、160Mパラメータのモデルに18Mパラメータのメモリを追加することで、通常のモデルと同等の性能を達成。トランスフォーマーにおけるメモリの最適なタイプとサイズを研究し、提案したメモリが堅牢に機能することを確認。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #NeurIPS #read-later #Selected Papers/Blogs #DataMixture #One-Line Notes #PhaseTransition Issue Date: 2025-10-03 GPT Summary- LLMsの訓練において、知識が豊富なデータセットとウェブスクレイピングデータの混合が、知識獲得において位相転移を示すことを実証。モデルサイズを臨界値まで増加させると、記憶状態が急激に変化し、混合比率が臨界値を超えると急速に記憶が増加。これらの現象は容量配分に起因し、最適なデータ配分がモデルサイズや混合比率によって不連続に変わることを示す。 Comment

openreview: https://openreview.net/forum?id=tQZK5frjVU

高品質なデータ(knowledge-denseな合成データなど)とwebからスクレイピングしてきたような低品質なデータのDataMixtureの割合が一定ラインを超えると、(knowledge acquisitionの観点から)相転移が生じてスケーリングの挙動が変化することをコントロールされた実験によって示している模様。

DataMixtureの観点でいうと、モデルサイズを固定してDataMixtureの比率を変化させたときに、knowledge-denseなデータが一定閾値未満の場合は、モデルはこれらのデータから何も学習しないが、ある閾値を超えた途端に知識を学習し始める非線形な挙動となる。
一方DataMixtureの比率を固定して、モデルサイズを変化させた場合も同様の相転移が観測された、という感じらしい。
興味深い。




Paper/Blog Link My Issue
#NLP #LanguageModel #read-later #Selected Papers/Blogs #LatentReasoning Issue Date: 2025-10-03 GPT Summary- 本研究では、トランスフォーマーの新しい変種「Thoughtbubbles」を提案し、並列適応計算を潜在空間で実行する方法を示す。残差ストリームをフォークまたは削除することで、計算を効率化し、事前トレーニング中に学習可能。Thoughtbubblesは、従来の手法を上回る性能を示し、推論時のトレーニングとテストの挙動を統一する可能性を持つ。 Comment

元ポスト:

Loading…

重要論文に見える




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #SyntheticData #EMNLP #Selected Papers/Blogs #DataMixture #One-Line Notes #PhaseTransition Issue Date: 2025-10-03 GPT Summary- 合成データ技術はLLMのトレーニングデータの供給制限を克服する可能性を持つ。本研究では、自然なウェブデータと合成データの混合を比較し、言い換えた合成データのみでの事前トレーニングは自然なデータよりも速くないことを示した。1/3の言い換えた合成データと2/3の自然データの混合が、より効率的なトレーニングを可能にすることが分かった。教科書スタイルの合成データは小さなデータ予算で高い損失をもたらし、合成データの最適な比率はモデルサイズとデータ予算に依存する。結果は合成データの効果を明らかにし、実用的なガイダンスを提供する。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

合成データは適切な規模のモデルと比率でないと利点が現れない

関連:
- [Paper Note] Data Mixing Can Induce Phase Transitions in Knowledge Acquisition, Xinran Gu+, NeurIPS'25 Spotlight, 2025.05




Paper/Blog Link My Issue
#NLP #LanguageModel #MoE(Mixture-of-Experts) #Scaling Laws Issue Date: 2025-10-01 GPT Summary- Mixture-of-Experts (MoE)モデルのスケーリング法則を体系的に分析し、パフォーマンスに影響を与える5つの要因を特定。446の制御実験を通じて、包括的なMoEスケーリング法則を構築し、最適な専門家の数や共有比率がモデルアーキテクチャやデータサイズに依存しないことを示す。提案する法則は、MoEモデルの設計とトレーニングにおける指針となる可能性がある。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Towards Greater Leverage: Scaling Laws for Efficient Mixture-of-Experts Language Models, Changxin Tian+, arXiv'25




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #LowPrecision Issue Date: 2025-09-30 GPT Summary- 本研究では、NVFP4フォーマットを用いた大規模言語モデル(LLMs)の安定かつ正確なトレーニング手法を提案。ランダムハダマード変換や二次元量子化スキームを取り入れ、偏りのない勾配推定を実現。10兆トークンでのトレーニングにより、FP8と同等の性能を達成し、狭い精度のLLMトレーニングにおける進展を示した。 Comment

元ポスト:

Loading…

解説:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #SyntheticData #Reasoning #read-later Issue Date: 2025-09-25 GPT Summary- 思考の軌跡を用いてテキストデータを拡張する「Thinking augmented Pre-Training(TPT)」を提案し、LLMのデータ効率を向上。TPTはトレーニングデータを効果的に増加させ、高品質なトークンの学習を容易にする。実験により、TPTがLLMの性能を大幅に向上させ、特に3Bパラメータモデルで推論ベンチマークの性能を10%以上改善することを示した。 Comment

元ポスト:

Loading…

(斜め読みしかまだできていないが)2節に存在するプロンプトを用いて、ドキュメント全体をcontextとして与え、context中に存在する複雑な情報に関して深い分析をするようにthinking traceを生成し、生成したtrace tをconcatしてnext token predictionで事前学習する模様。数学データで検証し事前学習が3倍トークン量 vs. downstreamタスク(GSM8K, MATH)性能の観点効率的になっただかでなく(これは事後学習の先取りをしているみたいなものな気がするのでそうなるだろうなという気がする)、おなじトークン量で学習したモデルをSFTした場合でも、提案手法の方が性能が良かった模様(Table2, こっちの方が個人的には重要な気がしている)。

解説:

Loading…




Paper/Blog Link My Issue
#Analysis #DomainAdaptation #NLP #LanguageModel #CrossLingual #Japanese #DataMixture #Medical #LowResource Issue Date: 2025-09-24 GPT Summary- 低リソース言語の医療コーパスでは、PLMsの跨言語適応が難しい。本研究は、日本語と英語の医療知識ベンチマークにおける言語的特徴がパフォーマンスに与える影響を分析。異なる比率の英語と日本語テキストを用いた多言語コーパスでの継続的事前学習を通じて、専門知識を活用しつつターゲット言語の表現をカバーする最適化手法を提案。これにより、低リソース言語の専門分野での多言語モデル開発に寄与することを目指す。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #EMNLP #Stability #Findings #DownstreamTasks Issue Date: 2025-09-24 GPT Summary- LLMの訓練中に下流タスクのパフォーマンスが大きく変動する問題を分析し、チェックポイントの平均化とアンサンブル手法を用いて安定性を向上させることを提案。これにより、訓練手順を変更せずにパフォーマンスの変動を減少させることが実証された。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#MachineTranslation #NLP #Dataset #LanguageModel Issue Date: 2025-09-24 GPT Summary- 高リソース言語の英語から翻訳した高品質なテキストが、多言語LLMsの事前学習に寄与することを発見。英語のデータセットFineWeb-Eduを9言語に翻訳し、17兆トークンのTransWebEduを作成。1.3BパラメータのTransWebLLMを事前学習し、非英語の推論タスクで最先端モデルと同等以上の性能を達成。特に、ドメイン特化データを追加することで、いくつかの言語で新たな最先端を達成。コーパス、モデル、トレーニングパイプラインはオープンソースで公開。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Scaling Laws #read-later Issue Date: 2025-09-24 GPT Summary- RLPTという新しいトレーニング手法を導入し、LLMsの最適化を図る。従来の方法に依存せず、事前学習データから直接報酬信号を導出し、次のテキストセグメントを予測することでポリシーに報酬を与える。実験により、複数のベンチマークで性能が向上し、計算リソースの増加によるさらなる改善の可能性が示された。RLPTはLLMsの推論能力を拡張し、RLVRのパフォーマンス向上にも寄与する。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Reinforcement Pre-Training, Qingxiu Dong+, arXiv'25, 2025.06

所見:

Loading…

公式ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #SyntheticData #read-later #Concept (LLM PreTraining) #Author Thread-Post Issue Date: 2025-09-22 GPT Summary- Synthetic Bootstrapped Pretraining(SBP)は、文書間の関係を学習し、新しいコーパスを合成する言語モデルの事前学習手法です。従来の事前学習は単一文書内の因果関係に焦点を当てていますが、SBPは文書間の相関関係を効率的にモデル化します。3Bパラメータのモデルを用いた実験で、SBPは強力なベースラインを改善し、合成された文書は単なる言い換えを超えた新しい物語を構築することが示されました。SBPは自然なベイズ的解釈を許容し、関連文書間の潜在的な概念を学習します。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

興味深い。

著者ポスト:

Loading…

conceptを学習するという観点では以下が関連している気がするが、アプローチが大きく異なる:
- [Paper Note] Large Concept Models: Language Modeling in a Sentence Representation Space, LCM team+, arXiv'24, 2024.12




Paper/Blog Link My Issue
#NLP #LanguageModel #Ensemble #Scaling Laws #read-later Issue Date: 2025-09-20 GPT Summary- 計算能力の増加に対し、固定データでの事前学習のアプローチを考察。エポック数やパラメータ数の増加は過学習を引き起こすが、正則化を適切に調整することで改善可能。最適な重み減衰は標準の30倍で、正則化手法は損失を単調に減少させる。アンサンブルモデルは正則化手法よりも低い損失を達成し、データ使用量を5.17倍削減。学生モデルへの蒸留により、データ効率を向上させ、下流ベンチマークでの改善も確認。結果は、計算リッチな未来におけるデータ効率の良い事前学習の可能性を示す。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #NeurIPS #read-later #Selected Papers/Blogs #DataMixture Issue Date: 2025-09-19 GPT Summary- 事前学習用データセットの最適な混合を特定するのは依然として難題である。そこで、クラスタリングベースの反復データ混合ブートストラッピング手法(Nemotron-CLIMB)を提案。この自動フレームワークは、大規模データセットを意味空間に埋め込み、クラスタリングを行い、代理モデルを用いて反復的に最適な混合を探索する。最終的に、10億パラメータのモデルは最先端モデルを2.0%上回り、特定のドメイン最適化では5%の改善が見られた。また、Nemotron-ClimbLabとNemotron-ClimbMixという新しいデータセットも提供され、効率的な事前学習に寄与する。 Comment

pj page: https://research.nvidia.com/labs/lpr/climb/

元ポスト:

Loading…

datatet: https://huggingface.co/datasets/nvidia/Nemotron-ClimbMix




Paper/Blog Link My Issue
#NLP #LanguageModel #Zero/Few/ManyShotPrompting #In-ContextLearning Issue Date: 2025-09-17 GPT Summary- MachineLearningLMは、LLMにインコンテキスト学習能力を強化するための継続的事前学習フレームワークであり、数百万のMLタスクを合成する。ランダムフォレスト教師を用いて意思決定戦略を蒸留し、数値モデリングの堅牢性を向上。控えめなセットアップでも、金融や医療分野で強力なベースラインを約15%上回り、インコンテキストデモンストレーションの増加に伴い精度が向上。一般的なチャット能力も保持し、MMLUで75.4%を達成。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #FoundationModel #read-later Issue Date: 2025-09-17 GPT Summary- 大規模言語モデル(LLMs)を用いたエージェントシステムは、複雑な問題解決において進化しているが、ポストトレーニングアプローチではパフォーマンスが低下することが多い。これは、堅牢な基盤モデルの欠如が原因である。そこで、継続的な事前トレーニング(Agentic CPT)を導入し、強力なエージェント基盤モデルを構築することを提案。新たに開発したAgentFounderモデルは、10のベンチマークで最先端のパフォーマンスを達成し、特にBrowseComp-enで39.9%、BrowseComp-zhで43.3%、HLEでのPass@1で31.5%を記録した。 Comment

元ポスト:

Loading…

AI Agentのための基盤モデルを継続事前学習によって実現した模様




Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #read-later #DeepResearch Issue Date: 2025-09-17 GPT Summary- 新しいフレームワーク「WebResearcher」を提案し、AIエージェントが外部ソースから知識を自律的に発見・統合する方法を示す。WebResearcherは、深層研究をマルコフ決定過程として再定式化し、報告書に発見を統合することで文脈の問題を克服。また、スケーラブルなデータ合成エンジン「WebFrontier」を用いて高品質なトレーニングデータを生成し、ツール使用能力を向上させる。実験により、WebResearcherは最先端の性能を達成し、商用システムを上回ることが確認された。 Comment

元ポスト:

Loading…

blog: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

OpenAI DeepResearchとベンチマーク上で同等の性能を実現したopenweightモデル

ベンチマーク:
- [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25, 2025.01
- [Paper Note] BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, Jason Wei+, arXiv'25
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23
- [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25
- [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, NAACL'25
- [Paper Note] BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese, Peilin Zhou+, arXiv'25




Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #OpenWeight #OpenSource #Encoder #Backbone Issue Date: 2025-09-16 GPT Summary- 本論文では、OpenVisionのアーキテクチャを簡素化し、トレーニング効率を向上させる方法を提案。テキストエンコーダーと対照損失を削除し、キャプショニング損失のみを使用したOpenVision 2を導入。初期結果は、トレーニング時間を約1.5倍短縮し、メモリ使用量を約1.8倍削減することを示し、10億以上のパラメータにスケールアップ可能であることを強調。 Comment

元ポスト:

Loading…

事前学習時にtext, image encoderのcontrastive lossで学習していたが、text encoderを無くしimage encoderに入力されたimageからcaptionを生成するcaption lossのみにすることで性能を落とすことなく効率を改善




Paper/Blog Link My Issue
#NLP #LanguageModel #SmallModel #mid-training #PostTraining #read-later #Selected Papers/Blogs #DataMixture Issue Date: 2025-09-13 GPT Summary- 本研究では、推論能力の出現に必要なデータ量について再検討し、約2Tトークンの高品質データで強力な推論モデルが構築できることを示した。MobileLLM-R1というサブビリオンパラメータのモデルは、従来のモデルを大幅に上回る性能を発揮し、特にAIMEスコアで優れた結果を示した。さらに、Qwen3の36Tトークンコーパスに対しても、わずか11.7%のトークンでトレーニングされたMobileLLM-R1-950Mは、複数の推論ベンチマークで競争力を持つ。研究の詳細な情報は公開されている。 Comment

元ポスト:

Loading…

モデルカードを見ると、optimizerやスケジューリング、ハイパーパラメータの設定、pre/mid/post trainingにおける学習データとDavaMixについて簡潔に記述されており、レシピが公開されているように見える。素晴らしい。

関連:
- [Paper Note] MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases, Zechun Liu+, ICLR'24, 2024.02




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ICML #Scaling Laws #Privacy #DifferentiallyPrivate Issue Date: 2025-09-13 GPT Summary- スケーリング法則はLLMのトレーニングにおいて性能向上を予測し、ハイパーパラメータ選択の指針を提供する。LLMは機密性のあるユーザーデータに依存し、DPなどのプライバシー保護が必要だが、そのダイナミクスは未解明。本研究では、DP LLMトレーニングのスケーリング法則を確立し、計算、プライバシー、ユーティリティのトレードオフを考慮した最適なトレーニング構成を示す。 Comment

blog: https://research.google/blog/vaultgemma-the-worlds-most-capable-differentially-private-llm/

元ポスト:

Loading…

関連:
- Calibrating Noise to Sensitivity in Private Data Analysis, Dwork+, TCC'06

openreview: https://openreview.net/forum?id=DE6dqmcmQ9




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Optimizer #read-later Issue Date: 2025-09-03 GPT Summary- 最近のLLMsの発展に伴い、最適化手法の多様な主張があるが、実験プロトコルの違いにより比較が難しい。本研究では、標準化されたLLMの事前トレーニングにおける最適化技術を評価し、モデルサイズやバッチサイズを変化させて最適なオプティマイザを提案。研究が将来の最適化研究の方向性を示し、コードを公開することで再現性を確保し、手法の開発に寄与することを目指す。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Fantastic Pretraining Optimizers and Where to Find Them, Kaiyue Wen+, ICLR'26, 2025.09

上記論文と知見が一致する部分、異なる部分は何だろうか?

関連:
- APERTUS: DEMOCRATIZING OPEN AND COMPLIANT LLMS FOR GLOBAL LANGUAGE ENVIRONMENTS, Apertus Team, 2025.09




Paper/Blog Link My Issue
#NLP #LanguageModel #Optimizer #ICLR #Selected Papers/Blogs Issue Date: 2025-09-03 GPT Summary- Shampooという前処理法が深層学習の最適化タスクで効果的である一方、追加のハイパーパラメータと計算オーバーヘッドが課題である。本研究では、ShampooとAdafactorの関係を明らかにし、Shampooを基にした新しいアルゴリズムSOAPを提案。SOAPは、Adamと同様に第二モーメントの移動平均を更新し、計算効率を改善。実験では、SOAPがAdamWに対して40%以上のイテレーション数削減、35%以上の経過時間短縮を達成し、Shampooに対しても約20%の改善を示した。SOAPの実装は公開されている。 Comment

openreview: https://openreview.net/forum?id=IDxZhXrpNf




Paper/Blog Link My Issue
#NLP #LanguageModel #DataMixture Issue Date: 2025-09-02 GPT Summary- TiKMiXは、言語モデルの進化するデータ好みに応じてデータの混合を動的に調整する手法である。Group Influenceという指標を導入し、データ混合の最適化を実現。TiKMiX-Dは20%の計算リソースで最先端手法を上回り、TiKMiX-Mは9つのベンチマークで平均2%の性能向上を達成。実験により、データの好みが進化することを示し、動的調整が性能向上に寄与することを確認。 Comment

元ポスト:

Loading…

RegMix:
- [Paper Note] RegMix: Data Mixture as Regression for Language Model Pre-training, Qian Liu+, ICLR'25

openreview: https://openreview.net/forum?id=H8JAWv0HNr




Paper/Blog Link My Issue
#NLP #LanguageModel #ICLR #read-later #Selected Papers/Blogs #DataMixture #Initial Impression Notes Issue Date: 2025-09-01 GPT Summary- RegMixを提案し、データミクスチャの性能を回帰タスクとして自動的に特定。多様なミクスチャで小モデルを訓練し、最良のミクスチャを用いて大規模モデルを訓練した結果、他の候補を上回る性能を示した。実験により、データミクスチャが性能に大きな影響を与えることや、ウェブコーパスが高品質データよりも良好な相関を持つことを確認。RegMixの自動アプローチが必要であることも示された。 Comment

openreview: https://openreview.net/forum?id=5BjQOUXq7i

今後DavaMixtureがさらに重要になるという見方があり、実際にフロンティアモデルのDataMixtureに関する情報はテクニカルレポートには記載されず秘伝のタレ状態であるため、より良いDataMixtureする本研究は重要論文に見える。

code: https://github.com/sail-sg/regmix




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Regularization #Selected Papers/Blogs Issue Date: 2025-08-30 GPT Summary- ドロップアウトは過学習を防ぐ手法として知られているが、現代の大規模言語モデル(LLM)では過学習が抑えられるため使用されていない。本研究では、BERTやPythiaモデルの単一エポック事前学習においてドロップアウトの影響を調査した結果、ドロップアウトを適用しない方が下流の性能が向上することが判明。また、「早期ドロップアウト」も性能を低下させることが示された。ドロップアウトなしで訓練されたモデルは、モデル編集においてもより成功することがわかり、単一エポックの事前学習中にはドロップアウトを省くことが推奨される。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Dropout Reduces Underfitting, Zhuang Liu+, ICML'23




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Reasoning #Mathematics #read-later #Selected Papers/Blogs Issue Date: 2025-08-27 GPT Summary- 新しい数学コーパス「Nemotron-CC-Math」を提案し、LLMの推論能力を向上させるために、科学テキスト抽出のためのパイプラインを使用。従来のデータセットよりも高品質で、方程式やコードの構造を保持しつつ、表記を標準化。Nemotron-CC-Math-4+は、以前のデータセットを大幅に上回り、事前学習によりMATHやMBPP+での性能向上を実現。オープンソースとしてコードとデータセットを公開。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #OpenWeight #Architecture #PostTraining #Selected Papers/Blogs #DataMixture Issue Date: 2025-08-25 GPT Summary- Motif-2.6Bは、26億パラメータを持つ基盤LLMで、長文理解の向上や幻覚の減少を目指し、差分注意やポリノルム活性化関数を採用。広範な実験により、同サイズの最先端モデルを上回る性能を示し、効率的でスケーラブルな基盤LLMの発展に寄与する。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/Motif-Technologies/Motif-2.6B

- アーキテクチャ
- [Paper Note] Differential Transformer, Tianzhu Ye+, N/A, ICLR'25
- [Paper Note] Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models, Zhijian Zhuo+, arXiv'24
- 学習手法
- [Paper Note] Model Merging in Pre-training of Large Language Models, Yunshui Li+, arXiv'25, 2025.05
- 8B token学習するごとに直近6つのcheckpointのelement-wiseの平均をとりモデルマージ。当該モデルに対して学習を継続、ということを繰り返す。これにより、学習のノイズを低減し、突然パラメータがシフトすることを防ぐ
- [Paper Note] Effective Long-Context Scaling of Foundation Models, Wenhan Xiong+, arXiv'23, 2023.09
- Adaptive Base Frequency (RoPEのbase frequencyを10000から500000にすることでlong contextのattention scoreが小さくなりすぎることを防ぐ)
- [Paper Note] MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies, Shengding Hu+, COLM'24
- 事前学習データ
- [Paper Note] DataComp-LM: In search of the next generation of training sets for language models, Jeffrey Li+, NeurIPS'25, 2024.07
- TxT360, LLM360, 2024.10
- [Paper Note] FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language, Guilherme Penedo+, COLM'25

を利用したモデル。同程度のサイズのモデルとの比較ではかなりのgainを得ているように見える。興味深い。
DatasetのMixtureの比率などについても記述されている。

image




Paper/Blog Link My Issue
#NLP #LanguageModel #SyntheticData #read-later Issue Date: 2025-08-19 GPT Summary- 合成データ生成フレームワーク「BeyondWeb」を提案し、高品質な合成データの生成が可能であることを示す。BeyondWebは、従来のデータセットを超える性能を発揮し、トレーニング速度も向上。特に、3Bモデルが8Bモデルを上回る結果を示す。合成データの品質向上には多くの要因を最適化する必要があり、単純なアプローチでは限界があることを指摘。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #SmallModel #OpenWeight #SSM (StateSpaceModel) #Selected Papers/Blogs Issue Date: 2025-08-19 GPT Summary- Nemotron-Nano-9B-v2は、推論スループットを向上させつつ最先端の精度を達成するハイブリッドMamba-Transformerモデルである。自己注意層の一部をMamba-2層に置き換え、長い思考トレースの生成を高速化。12億パラメータのモデルを20兆トークンで事前トレーニングし、Minitron戦略で圧縮・蒸留。既存モデルと比較して、最大6倍の推論スループットを実現し、精度も同等以上。モデルのチェックポイントはHugging Faceで公開予定。 Comment

元ポスト:

Loading…

事前学習に利用されたデータも公開されているとのこと(Nemotron-CC):

Loading…

解説:

Loading…

サマリ:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #MoE(Mixture-of-Experts) #HyperparameterTransfer Issue Date: 2025-08-14 GPT Summary- 本研究では、Mixture-of-Experts(MoE)モデルに対する$\mu$-Parameterization($\mu$P)を提案し、ルーターとエキスパートの特徴学習に関する理論的保証を提供します。また、エキスパートの数と粒度のスケーリングが最適な学習率に与える影響を実証的に検証します。 Comment

元ポスト:

Loading…

関連: mu transfer, muP
- [Paper Note] Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer, Greg Yang+, NeurIPS'21
- [Paper Note] Feature Learning in Infinite-Width Neural Networks, Greg Yang+, ICML'21




Paper/Blog Link My Issue
#ComputerVision #ContrastiveLearning #Encoder Issue Date: 2025-08-07 GPT Summary- PS3を用いてCLIPスタイルの視覚事前学習を4K解像度にスケールアップし、計算コストを抑えつつ高解像度の視覚認識を改善。VILA-HDモデルは、低解像度でのグローバル画像エンコードを行い、局所的な高解像度領域を選択的に処理。これにより、従来のベースラインと比較して高い性能を発揮し、トークン使用量を最大4.3倍削減。PS3は解像度のスケーリング特性を持ち、複数のベンチマークで優れた効率を達成。新たに提案された4KProベンチマークでは、VILA-HDが他のMLLMを上回る結果を示した。 Comment

元ポスト:

Loading…

商用利用は不可な模様




Paper/Blog Link My Issue
#NLP #LanguageModel #DiffusionModel #Scaling Laws #read-later #Initial Impression Notes #Author Thread-Post Issue Date: 2025-07-22 GPT Summary- マスク付き拡散モデルは、データ制約のある設定で自己回帰(AR)モデルを大幅に上回ることを発見。拡散モデルはデータを効果的に活用し、検証損失を低下させ、下流のパフォーマンスを向上させる。新しいスケーリング法則を見つけ、拡散がARを上回る臨界計算閾値を導出。データがボトルネックの場合、拡散モデルはARの魅力的な代替手段となる。 Comment

元ポスト:

Loading…

いつかdLLMの時代きそうだなあ

著者ポスト:

Loading…

追加実験結果:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #MultiModal #Scaling Laws #DataMixture #VisionLanguageModel Issue Date: 2025-07-18 GPT Summary- 本研究では、スケーリング法則を用いて任意のターゲットドメインに対する最適なデータ混合比率を決定する方法を提案。特定のドメイン重みベクトルを持つモデルの損失を正確に予測し、LLM、NMM、LVMの事前訓練における予測力を示す。少数の小規模な訓練実行でパラメータを推定し、高価な試行錯誤法に代わる原則的な選択肢を提供。

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Transformer #Architecture #NeurIPS #LatentReasoning #memory #RecurrentModels #RecursiveModels #Author Thread-Post Issue Date: 2025-07-17 GPT Summary- Mixture-of-Recursions(MoR)というフレームワークを提案し、再帰型トランスフォーマー内でパラメータ共有と適応計算を同時に実現。MoRは、レイヤーの再利用とトークンごとの再帰深さの動的割り当てにより、メモリアクセス効率を向上させる。135Mから1.7Bパラメータのモデルで、トレーニングFLOPsを維持しつつ、困惑度を低下させ、少数ショット精度を向上。MoRは大規模モデルのコストを抑えつつ、品質向上に寄与することを示す。 Comment

元ポスト:

Loading…

解説:

Loading…

関連:
- [Paper Note] Universal Transformers, Mostafa Dehghani+, ICLR'19
- [Paper Note] Looped Transformers for Length Generalization, Ying Fan+, ICLR'25
- [Paper Note] Looped Transformers are Better at Learning Learning Algorithms, Liu Yang+, ICLR'24

著者ポスト:

Loading…




Paper/Blog Link My Issue
#Analysis #DiffusionModel #ICML #Decoding Issue Date: 2025-07-15 GPT Summary- マスク付き拡散モデル(MDMs)は、自己回帰モデル(ARMs)と比較してトレーニングの複雑さと推論の柔軟性をトレードオフする新しい生成モデルです。本研究では、MDMsが自己回帰モデルよりも計算上解決不可能なサブ問題に取り組むことを示し、適応的なトークンデコード戦略がMDMsの性能を向上させることを実証しました。数独の論理パズルにおいて、適応的推論により解決精度が$<7$%から$\approx 90$%に向上し、教師強制でトレーニングされたMDMsがARMsを上回ることを示しました。 Comment

openreview: https://openreview.net/forum?id=DjJmre5IkP

ICML'25 outstanding papers

日本語解説:

Loading…




Paper/Blog Link My Issue
#ComputerVision #Transformer #PEFT(Adaptor/LoRA) #ICML #Finetuning #KeyPoint Notes Issue Date: 2025-07-14 GPT Summary- PEFT技術を用いたExPLoRAは、事前学習済みビジョントランスフォーマー(ViT)を新しいドメインに適応させる手法で、教師なし事前学習を通じて効率的にファインチューニングを行う。実験では、衛星画像において最先端の結果を達成し、従来のアプローチよりも少ないパラメータで精度を最大8%向上させた。 Comment

元ポスト:

Loading…

これまでドメイン適応する場合にラベル付きデータ+LoRAでFinetuningしていたのを、ラベル無しデータ+継続事前学習の枠組みでやりましょう、という話のようである。
image

手法は下記で、事前学習済みのモデルに対してLoRAを適用し継続事前学習する。ただし、最後尾のLayer、あるいは最初と最後尾のLayerの両方をunfreezeして、trainableにする。また、LoRAはfreezeしたLayerのQ,Vに適用し、それらのLayerのnormalization layerもunfreezeする。最終的に、継続事前学習したモデルにヘッドをconcatしてfinetuningすることで目的のタスクを実行できるようにする。詳細はAlgorithm1を参照のこと。

image

同じモデルで単にLoRAを適用しただけの手法や、既存手法をoutperform

image

画像+ViT系のモデルだけで実験されているように見えるが、LLMとかにも応用可能だと思われる。




Paper/Blog Link My Issue
#NLP #LanguageModel #Batch #One-Line Notes #Reference Collection Issue Date: 2025-07-12 GPT Summary- 小さなバッチサイズに対するAdamのハイパーパラメータをスケーリングする新しいルールを提案。これにより、小さなバッチサイズでも安定したトレーニングが可能で、大きなバッチサイズと同等以上のパフォーマンスを達成。勾配蓄積は推奨せず、実用的なハイパーパラメータ設定のガイドラインを提供。 Comment

元ポスト:

Loading…


論文中のFigure1において、AdamWにおいてbatchsizeが1の方が512の場合と比べてlearning_rateの変化に対してロバストである旨が記述されている。

image

似たような話でMTでバッチサイズ小さいほうが性能良いです、みたいな話が昔あったような

(追記)
気になって思い出そうとしていたが、MTではなく画像認識の話だったかもしれない(だいぶうろ覚え)
- [Paper Note] Revisiting Small Batch Training for Deep Neural Networks, Dominic Masters+, arXiv'18

参考:

Loading…

関連:
- How Does Critical Batch Size Scale in Pre-training?, Hanlin Zhang+, ICLR'25

解説:

Loading…

実際に8Bモデルの事前学習においてβ2を0.99にしたところ、学習が不安定になり、かつ最終的なPerplexityも他の設定に勝つことができなかったとのこと:

Loading…




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #COLM #Selected Papers/Blogs #Stability #KeyPoint Notes #Author Thread-Post Issue Date: 2025-07-11 GPT Summary- 大規模言語モデルの事前学習中に発生する損失のスパイクは性能を低下させるため、避けるべきである。勾配ノルムの急激な増加が原因とされ、サブレイヤーのヤコビ行列の分析を通じて、勾配ノルムを小さく保つための条件として小さなサブレイヤーと大きなショートカットが必要であることを示した。実験により、これらの条件を満たす手法が損失スパイクを効果的に防ぐことが確認された。 Comment

元ポスト:

Loading…

small sub-layers, large shortcutsの説明はこちらに書かれている。前者については、現在主流なLLMの初期化手法は満たしているが、後者はオリジナルのTransformerの実装では実装されている[^1]が、最近の実装では失われてしまっているとのこと。
image

下図が実験結果で、条件の双方を満たしているのはEmbedLN[^2]とScaled Embed[^3]のみであり、実際にスパイクが生じていないことがわかる。
image

[^1]:オリジナル論文 [Paper Note] Attention Is All You Need, Ashish Vaswani+, NeurIPS'17, 2017.07 の3.4節末尾、embedding layersに対してsqrt(d_model)を乗じるということがサラッと書いてある。これが実はめちゃめちゃ重要だったという…
[^2]: positional embeddingを加算する前にLayer Normalizationをかける方法
[^3]: EmbeddingにEmbeddingの次元数d(i.e., 各レイヤーのinputの次元数)の平方根を乗じる方法

前にScaled dot-product attentionのsqrt(d_k)がめっちゃ重要ということを実験的に示した、という話もあったような…
(まあそもそも元論文になぜスケーリングさせるかの説明は書いてあるけども)

著者ポスト(スライド):

Loading…


非常に興味深いので参照のこと。初期化の気持ちの部分など勉強になる。




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #SyntheticData #Coding #Mathematics #mid-training #COLM Issue Date: 2025-07-10 GPT Summary- MegaMathは、数学に特化したオープンデータセットで、LLMの数学的推論能力を向上させるために作成された。ウェブデータの再抽出、数学関連コードの特定、合成データの生成を通じて、371Bトークンの高品質なデータを提供し、既存のデータセットを上回る量と品質を実現した。 Comment

元ポスト:

Loading…

非常に大規模な数学の事前学習/mid-training向けのデータセット

CommonCrawlのHTMLから、さまざまなフィルタリング処理(reformatting, 2 stageのHTML parserの活用(片方はnoisyだが高速、もう一方は高性能だが遅い), fasttextベースの分類器による抽出, deduplication等)を実施しMegaMath-Webを作成、また、MegaMathWebをさらに分類器で低品質なものをフィルタリングし、LLMによってノイズ除去、テキストのreorganizingを実施し(≠ピュアな合成データ)継続事前学習、mid-training向けの高品質なMegaMath-Web-Proを作成。

MegaMathCodeはThe Stack V2 ([Paper Note] StarCoder 2 and The Stack v2: The Next Generation, Anton Lozhkov+, arXiv'24 ) をベースにしており、mathematical reasoning, logic puzzles, scientific computationに関するコードを収集。まずこれらのコードと関連が深い11のプログラミング言語を選定し、そのコードスニペットのみを対象とする。次にstrong LLMを用いて、数学に関するrelevanceスコアと、コードの品質を0--6のdiscrete scoreでスコアリングし学習データを作成。作成した学習データでSLMを学習し大規模なフィルタリングを実施することでMegaMath-Codeを作成。

最後にMegaMath-{Web, code}を用いて、Q&A, code data, text&code block dataの3種類を合成。Q&Aデータの合成では、MegaMath-WebからQAペアを抽出し、多様性とデータ量を担保するためQwen2.5-72B-Instruct, Llama3.3-70B-Instructの両方を用いて、QAのsolutionを洗練させる(reasoning stepの改善, あるいはゼロから生成する[^1])ことで生成。また、code dataでは、pythonを対象にMegaMath-Codeのデータに含まれるpython以外のコードを、Qwen2.5-Coder-32B-Instructと、Llamd3.1-70B-Instructによってpythonに翻訳することでデータ量を増やした。text&code blockデータでは、MegaMath-Webのドキュメントを与えて、ブロックを生成(タイトル、数式、結果、コードなど[^1])し、ブロックのverificationを行い(コードが正しく実行できるか、実行結果とanswerが一致するか等)、verifiedなブロックを残すことで生成。

image

image

image

[^1]: この辺は論文の記述を咀嚼して記述しており実サンプルを見ていないので少し正しい認識か不安




Paper/Blog Link My Issue
#ComputerVision #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #MultiModal #RLHF #Reasoning #LongSequence #mid-training #RewardHacking #PostTraining #CurriculumLearning #RLVR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-03 GPT Summary- 視覚言語モデルGLM-4.1V-Thinkingを発表し、推論中心のトレーニングフレームワークを開発。強力な視覚基盤モデルを構築し、カリキュラムサンプリングを用いた強化学習で多様なタスクの能力を向上。28のベンチマークで最先端のパフォーマンスを達成し、特に難しいタスクで競争力のある結果を示す。モデルはオープンソースとして公開。 Comment

元ポスト:

Loading…

Qwen2.5-VLよりも性能が良いVLM
image

アーキテクチャはこちら。が、pretraining(データのフィルタリング, マルチモーダル→long context継続事前学習)->SFT(cold startへの対処, reasoning能力の獲得)->RL(RLVRとRLHFの併用によるパフォーマンス向上とAlignment, RewardHackingへの対処,curriculum sampling)など、全体の学習パイプラインの細かいテクニックの積み重ねで高い性能が獲得されていると考えられる。
image




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Dataset #LanguageModel #MultiLingual #COLM #Selected Papers/Blogs Issue Date: 2025-06-28 GPT Summary- 多言語LLMsの性能向上のために、FineWebに基づく新しい事前学習データセットキュレーションパイプラインを提案。9つの言語に対して設計選択肢を検証し、非英語コーパスが従来のデータセットよりも高性能なモデルを生成できることを示す。データセットの再バランス手法も導入し、1000以上の言語にスケールアップした20テラバイトの多言語データセットFineWeb2を公開。 Comment

元ポスト:

Loading…

v1
- [Paper Note] The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale, Guilherme Penedo+, NeurIPS'24

abstを見る限りFinewebを多言語に拡張した模様

openreview: https://openreview.net/forum?id=jnRBe6zatP#discussion




Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #OpenWeight #OpenSource #Selected Papers/Blogs #ICCV #Encoder #Backbone Issue Date: 2025-06-26 GPT Summary- OpenVisionは、完全にオープンでコスト効果の高いビジョンエンコーダーのファミリーを提案し、CLIPと同等以上の性能を発揮します。既存の研究を基に構築され、マルチモーダルモデルの進展に実用的な利点を示します。5.9Mから632.1Mパラメータのエンコーダーを提供し、容量と効率の柔軟なトレードオフを実現します。 Comment

元ポスト:

Loading…

v2へアップデート:

Loading…


事前学習時にtext, image encoderのcontrastive lossで学習していたが、text encoderを無くしimage encoderに入力されたimageからcaptionを生成するcaption lossのみにすることで性能を落とすことなく効率を改善

テクニカルペーパーが出た模様

- [Paper Note] OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning, Yanqing Liu+, arXiv'25

HF: https://huggingface.co/collections/UCSC-VLAA/openvision-681a4c27ee1f66411b4ae919
pj page: https://ucsc-vlaa.github.io/OpenVision/

CLIP, SigLIPとは異なり完全にオープンなVision Encoder
image

v2の解説:

Loading…




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #MoE(Mixture-of-Experts) #ICLR #KeyPoint Notes Issue Date: 2025-06-25 GPT Summary- Drop-Upcycling手法を提案し、MoEモデルのトレーニング効率を向上。事前にトレーニングされた密なモデルの知識を活用しつつ、一部の重みを再初期化することで専門家の専門化を促進。大規模実験により、5.9BパラメータのMoEモデルが13B密なモデルと同等の性能を達成し、トレーニングコストを約1/4に削減。すべての実験リソースを公開。 Comment

OpenReview: https://openreview.net/forum?id=gx1wHnf5Vp

関連:
- [Paper Note] Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints, Aran Komatsuzaki+, ICLR'23

提案手法の全体像とDiversity re-initializationの概要。元のUpcyclingでは全てidenticalな重みでreplicateされていたため、これが個々のexpertがlong termでの学習で特化することの妨げになり、最終的に最大限のcapabilityを発揮できず、収束が遅い要因となっていた。これを、Upcyclingした重みのうち、一部のindexのみを再初期化することで、replicate元の知識を保持しつつ、expertsの多様性を高めることで解決する。
image
image

提案手法は任意のactivation function適用可能。今回はFFN Layerのactivation functionとして一般的なSwiGLUを採用した場合で説明している。

Drop-Upcyclingの手法としては、通常のUpcyclingと同様、FFN Layerの重みをn個のexpertsの数だけreplicateする。その後、re-initializationを実施する比率rに基づいて、[1, intermediate size d_f]の範囲からr*d_f個のindexをサンプリングする。最終的にSwiGLU、およびFFNにおける3つのWeight W_{gate, up, down}において、サンプリングされたindexと対応するrow/columnと対応する重みをre-initializeする。

re-initializeする際には、各W_{gate, up, down}中のサンプリングされたindexと対応するベクトルの平均と分散をそれぞれ独立して求め、それらの平均と分散を持つ正規分布からサンプリングする。

学習の初期から高い性能を発揮し、long termでの性能も向上している。また、learning curveの形状もscratchから学習した場合と同様の形状となっており、知識の転移とexpertsのspecializationがうまく進んだことが示唆される。
image

解説: https://llm-jp.nii.ac.jp/news/post-566/




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #SyntheticData #COLM #Author Thread-Post Issue Date: 2025-06-25 GPT Summary- スケーリング法則に基づき、低品質なウェブデータを再利用する手法「REWIRE」を提案。これにより、事前学習データの合成表現を増やし、フィルタリングされたデータのみでのトレーニングと比較して、22のタスクで性能を向上。生データと合成データの混合が効果的であることを示し、ウェブテキストのリサイクルが事前学習データのスケーリングに有効であることを示唆。 Comment

元ポスト:
-

Loading…

-
Loading…

学習データの枯渇に対する対処として別の方向性としては下記のような研究もある:
- [Paper Note] Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23

data: https://huggingface.co/datasets/facebook/recycling_the_web




Paper/Blog Link My Issue
#NLP #LanguageModel #NeurIPS #Tokenizer #Byte-level Issue Date: 2025-06-23 GPT Summary- 自己回帰型U-Netを用いてトークン化の柔軟性を向上させ、モデルが生のバイトから単語や単語のペアを生成することでマルチスケールの視点を提供。深い段階では広範な意味パターンに注目し、浅い段階はBPEベースラインに匹敵する性能を発揮。これにより、文字レベルのタスクやリソースの少ない言語間での知識移転が可能となる。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=FnFf7Ru2ur




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Reference Collection Issue Date: 2025-06-12 GPT Summary- Reinforcement Pre-Training(RPT)を導入し、次トークン予測を強化学習(RL)による推論タスクに再定式化。文脈に応じた正確な予測に対して報酬を与えることで、言語モデルの精度を向上。大規模テキストデータを活用し、強化微調整の基盤を提供することで、次トークン推論の精度が向上することを示した。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#Analysis #LanguageModel #Transformer #PostTraining #Selected Papers/Blogs #COLT #One-Line Notes #Reading Reflections #Author Thread-Post Issue Date: 2025-06-01 GPT Summary- Transformerベースの言語モデルの学習可能性を、k-fold 合成タスクにおいて検討。具体的には、k 個の入力置換と隠れた置換の交互合成を倍の効率で実行可能とし、統計的クエリ下界も証明。さらに、O(log k) 層のトランスフォーマーで勾配降下による効率的な学習が可能であることを示した。データの提示方法によって、容易な例と難しい例が存在することが重要であるとの知見を得た。 Comment

元ポスト:

Loading…

こちらはまず元ポストのスレッドを読むのが良いと思われる。要点をわかりやすく説明してくださっている。

元ポストとalphaxivでざっくり理解したところ、

Transformerがcontextとして与えられた情報(σ)とparametric knowledge(π)をk回の知識マッピングが必要なタスク(k-fold composition task)を学習するにはO(log k)のlayer数が必要で、直接的にk回の知識マッピングが必要なタスクを学習するためにはkの指数オーダーのデータ量が最低限必要となることが示された。これはkが大きくなると(すなわち、複雑なreasoning stepが必要なタスク)になると非現実的なものとなるため、何らかの方法で緩和したい。学習データを簡単なものから難しいものをmixingすること(カリキュラム学習)ことで、この条件が緩和され、指数オーダーから多項式オーダーのデータ量で学習できることが示された

といった感じだと思われる。

じゃあ最新の32Bモデルよりも、よりパラメータ数が大きくてlayer数が多い古いモデルの方が複雑なreasoningが必要なタスクを実は解けるってこと!?直感に反する!と一瞬思ったが、おそらく最近のモデルでは昔のモデルと比べてparametric knowledgeがより高密度に適切に圧縮されるようになっていると思われるので、昔のモデルではk回の知識マッピングをしないと解けないタスクが、最新のモデルではk-n回のマッピングで解けるようになっていると推察され、パラメータサイズが小さくても問題なく解けます、みたいなことが起こっているのだろう、という感想を抱くなどした




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Scaling Laws #Reference Collection #Initial Impression Notes Issue Date: 2025-05-21 GPT Summary- 言語モデルのスケーリングにおいて、パラメータや出力トークンの増加に伴うコストを軽減する新たなアプローチ「並列スケーリング(ParScale)」を提案。モデルの並列計算を増やし、$P$ 個の多様な変換を実行することで、推論効率を向上させ、$O(\log P)$ のパラメータスケーリングと同等の効果を実現。メモリ増加を最大22倍、レイテンシを最大6倍削減可能。少量のトークンでのポストトレーニングを通じて、既製のモデルを再利用可能で、より強力なモデルの展開を促進。 Comment

元ポスト:

Loading…

- [Paper Note] Prefix-Tuning: Optimizing Continuous Prompts for Generation, Xiang Lisa Li+, arXiv'21, 2021.01

と考え方が似ている




Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #ModelMerge #Reference Collection Issue Date: 2025-05-20 GPT Summary- モデルマージは大規模言語モデルの性能向上に有望だが、事前学習での探究は不十分。本研究では、DenseおよびMixture-of-Expertsアーキテクチャでのモデルマージ手法を検討し、一定の学習率でのチェックポイントのマージが性能を著しく改善し、学習率のアニーリング挙動を予測可能にすることを示した。これにより、モデル開発とトレーニングコストの効率化が可能となる。包括的な実験分析を通じて、効果的なモデルマージのための実践的なガイドラインを提供。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Dataset #LanguageModel #ACL #Selected Papers/Blogs Issue Date: 2025-05-10 GPT Summary- FineWeb-EduとDCLMは、モデルベースのフィルタリングによりデータの90%を削除し、トレーニングに適さなくなった。著者は、アンサンブル分類器や合成データの言い換えを用いて、精度とデータ量のトレードオフを改善する手法を提案。1Tトークンで8Bパラメータモデルをトレーニングし、DCLMに対してMMLUを5.6ポイント向上させた。新しい6.3Tトークンデータセットは、DCLMと同等の性能を持ちながら、4倍のユニークなトークンを含み、長トークンホライズンでのトレーニングを可能にする。15Tトークンのためにトレーニングされた8Bモデルは、Llama 3.1の8Bモデルを上回る性能を示した。データセットは公開されている。

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #NeurIPS #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2025-05-10 GPT Summary- DataComp for Language Models(DCLM)を紹介し、240Tトークンのコーパスと53の評価スイートを提供。DCLMでは、モデルスケール412Mから7Bパラメータのデータキュレーション戦略を実験可能。DCLM-Baselineは2.6Tトークンでトレーニングし、MMLUで64%の精度を達成し、従来のMAP-Neoより6.6ポイント改善。計算リソースも40%削減。結果はデータセット設計の重要性を示し、今後の研究の基盤を提供。 Comment

openreview: https://openreview.net/forum?id=CNWdWn47IE

最近多くの著名なモデルでDCLMを事前学習データとして利用している文献を目にするようになった




Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #Safety #ICML #DPO #Toxicity #ActivationSteering/ITI #Selected Papers/Blogs #KeyPoint Notes #Author Thread-Post Issue Date: 2025-05-09 GPT Summary- 本論文では、LLMの事前学習におけるデータの質の再検討を行い、有害データが事後学習における制御を向上させる可能性を探ります。トイ実験を通じて、有害データの割合が増加することで有害性の概念が線形表現に影響を与えることを発見し、有害データが生成的有害性を増加させつつも除去しやすくなることを示しました。評価結果は、有害データで訓練されたモデルが生成的有害性を低下させつつ一般的な能力を保持する良好なトレードオフを達成することを示唆しています。 Comment

元ポスト:

Loading…

これは面白そう

Webコーパスなどを事前学習で利用する際は、質の高いデータを残して学習した方が良いとされているが、4chanのようなtoxicなデータを混ぜて事前学習して、後からdetox(Inference Time Intervention [Paper Note] Inference-Time Intervention: Eliciting Truthful Answers from a Language Model, Kenneth Li+, NeurIPS'23 , SFT, DPO)することで、最終的なモデルのtoxicなoutputが減るという話らしい。これはそもそも事前学習時点でtoxicなデータのsignalが除外されることで、モデルがtoxicな内容のrepresentationを学習できず、最終的にtoxicか否かをコントロールできなくなるため、と考察している(っぽい)
image
image

有害な出力を減らせそうなことは分かったが、Activation Steeringによってどの程度モデルの性能に影響を与えるのかが気になる、と思ったがAppendixに記載があった。細かく書かれていないので推測を含むが、各データに対してToxicデータセットでProbingすることでTopKのheadを決めて、Kの値を調整することでinterventionの強さを調整し、Toxicデータの割合を変化させて評価してみたところ、モデルの性能に大きな影響はなかったということだと思われる(ただし1Bモデルでの実験しかない)

image

おそらく2,3節あたりが一番おもしろいポイントなのだと思われるがまだ読めていない。

openreview: https://openreview.net/forum?id=SsLGTZKXf1

解説:

Loading…




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT) #ICLR #read-later #Selected Papers/Blogs #One-Line Notes #Author Thread-Post Issue Date: 2025-03-27 GPT Summary- 大規模言語モデルの事前学習において、トークン予算の増加がファインチューニングを難しくし、パフォーマンス低下を引き起こす「壊滅的な過学習」を提唱。3Tトークンで事前学習されたOLMo-1Bモデルは、2.3Tトークンのモデルに比べて2%以上の性能低下を示す。実験と理論分析により、事前学習パラメータの感度の増加が原因であることを示し、事前学習設計の再評価を促す。 Comment

著者によるポスト:

Loading…

事前学習のトークン数を増やすとモデルのsensitivityが増し、post-trainingでのパフォーマンスの劣化が起こることを報告している。事前学習で学習するトークン数を増やせば、必ずしもpost-training後のモデルの性能がよくなるわけではないらしい。
image

ICLR'25のOutstanding Paperに選ばれた模様:

Loading…


きちんと読んだ方が良さげ。




Paper/Blog Link My Issue
#NLP #LanguageModel #ACL #Scaling Laws #Findings #Initial Impression Notes Issue Date: 2025-03-23 GPT Summary- スケーリング法則はLLM開発において重要であり、特に計算最適化によるトレードオフが注目されている。本研究では、スケーリング法則が知識や推論に基づくスキルに依存することを示し、異なるデータミックスがスケーリング挙動に与える影響を調査した。結果、知識とコード生成のスキルは根本的に異なるスケーリング挙動を示し、誤指定された検証セットが計算最適なパラメータ数に約50%の影響を与える可能性があることが明らかになった。 Comment

元ポスト:

Loading…

知識を問うQAのようなタスクはモデルのパラメータ量が必要であり、コーディングのようなReasoningに基づくタスクはデータ量が必要であり、異なる要素に依存してスケールすることを示している研究のようである。

image

直感的な理解としては、

多くの知識はMLP(だけではないが)に格納されているとされており、1パラメータあたりに格納可能な知識量がある程度決まっているため、知識が必要なタスクはパラメータ数が必要であり、
Reasoningのようなタスクはどれだけ学習データ側でReasoningのパターンを学習できるかに性能が依存するため、データ量が必要、

というものになるのかなという気がする。




Paper/Blog Link My Issue
#NLP #LanguageModel #ICLR #Concept (LLM PreTraining) #Author Thread-Post Issue Date: 2025-02-14 GPT Summary- 次のトークン予測を最適化する大規模言語モデルに、新たに提案するCoCoMixフレームワークを導入。これは、離散的な予測と連続概念を交互に混ぜ込む手法で、隠れ表現を改善。実験により、サンプル効率が高く、複数のベンチマークで標準的手法を上回る性能を確認。概念学習と交互配置が性能向上に重要で、モデルの内部推論を透明にする機能も提供。 Comment

著者による一言解説:

Loading…

openreview: https://openreview.net/forum?id=wTGcb3DxOn




Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #NLP #LanguageModel #ICLR #Batch #One-Line Notes #CriticalBatchSize Issue Date: 2024-11-25 GPT Summary- 大規模モデルの訓練には、クリティカルバッチサイズ(CBS)を考慮した並列化戦略が重要である。CBSの測定法を提案し、C4データセットで自己回帰型言語モデルを訓練。バッチサイズや学習率などの要因を調整し、CBSがデータサイズに比例してスケールすることを示した。この結果は、ニューラルネットワークの理論的分析によって支持され、ハイパーパラメータ選択の重要性も強調されている。 Comment

Critical Batch Sizeはモデルサイズにはあまり依存せず、データサイズに応じてスケールする
image
image

Critical batch sizeが提案された研究:
- [Paper Note] An Empirical Model of Large-Batch Training, Sam McCandlish+, arXiv'18, 2018.12




Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #Subword #Tokenizer #KeyPoint Notes Issue Date: 2024-11-12 GPT Summary- LBPEは、長いトークンを優先する新しいエンコーディング手法で、トークン化データセットにおける学習の不均衡を軽減します。実験により、LBPEは従来のBPEを一貫して上回る性能を示しました。 Comment

BPEとは異なりトークンの長さを優先してマージを実施することで、最終的なトークンを決定する手法で (Figure1),
BPEよりも高い性能を獲得し、
image
トークンの長さがBPEと比較して長くなり、かつ5Bトークン程度を既存のBPEで事前学習されたモデルに対して継続的事前学習するだけで性能を上回るようにでき (Table2)、同じVocabサイズでBPEよりも高い性能を獲得できる手法 (Table4)、らしい




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ICLR #Stability Issue Date: 2026-04-26 GPT Summary- 大規模なTransformerモデルの訓練不安定性を小規模モデルで再現・研究。特に、アテンション層のロジット増大と出力ロジットの発散に注目。高い学習率で不安定性が現れることを示し、既存の緩和策が小規模モデルにも有効であることを確認。ウォームアップやウェイト減衰を駆使し、損失の安定性を維持できる手法を検討。最後に、不安定性が現れる前に予測できるケースを分析。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=d8w0pmvXbZ




Paper/Blog Link My Issue
#NLP #LanguageModel #SmallModel #OpenWeight #OpenSource Issue Date: 2026-03-31 GPT Summary- TinyLlamaは、1.1Bパラメータのコンパクトな言語モデルで、約1兆トークンを用いて事前学習されている。Llama 2のアーキテクチャを基に、FlashAttentionやLit-GPTなどの進歩を活用し、計算効率を向上させている。小さいサイズにもかかわらず、TinyLlamaは下流タスクで顕著な性能を発揮し、同等のオープンソースモデルを大きく上回る。モデルのチェックポイントとコードはGitHubで公開されている。 Comment

日本語解説: https://qiita.com/sergicalsix/items/7cd7665ab90b9f3b343c

HF: https://huggingface.co/TinyLlama

github: https://github.com/jzhang38/TinyLlama




Paper/Blog Link My Issue
#NLP #LanguageModel #NeurIPS #DataMixture #Adaptive Issue Date: 2026-03-18 GPT Summary- 「9l training」を提唱し、トークンごとに異なる損失パターンを取り入れた新しい言語モデルRho-1を導入。Selective Language Modelingを採用し、望ましいトークンのみを選択的に学習。OpenWebMathコーパスでの事前学習を通じて、9つの数学タスクにおいてfew-shot精度を最大30%改善し、最先端のMATHデータセット結果を達成。80Bの一般トークンでも多様なタスクで平均6.8%の性能向上を実現。 Comment

日本語解説: https://techblog.cccmkhd.co.jp/entry/2024/12/10/081653

openreview: https://openreview.net/forum?id=0NMzBwqaAJ




Paper/Blog Link My Issue
#NLP #LanguageModel #ICLR #Scaling Laws #DataMixture #One-Line Notes #Adaptive Issue Date: 2026-01-21 GPT Summary- ADOは事前学習データの最適化をオンラインで行うアルゴリズムで、モデル訓練と同時にデータ分布を調整。外部知識やプロキシモデルを必要とせず、ドメインごとの学習ポテンシャルを推定してスケーラブルなデータ混合を実現。実験では、従来法と同等またはそれ以上の性能を示しつつ計算効率を維持する効果的な解決策を提供。スケーリング則を通じて新たなデータ収集戦略の視点も提示。 Comment

openreview: https://openreview.net/forum?id=aqok1UX7Z1

ドメインごとのneural scaling lawsを学習をする中で構築し、scaling lawsに従って動的にドメインのデータをどの程度サンプリングするかを決定するようなオンラインでのDataMixture決定手法、に見える。小規模モデルの実験結果を活用する不確実性やSarrogate modelを用いて推論するといった計算コストの高い方法はおそらく不要?




Paper/Blog Link My Issue
#NLP #LanguageModel #Coding #DataMixture #One-Line Notes Issue Date: 2025-11-04 GPT Summary- コードデータが一般的なLLMのパフォーマンスに与える影響を体系的に調査。アブレーション実験により、コードがコーディングタスクを超えた一般化に重要であり、コード品質の向上が全タスクに大きな影響を与えることを確認。特に、コードの追加により自然言語推論で最大8.2%、世界知識で4.2%、生成的勝率で6.6%の向上を示し、コードパフォーマンスでは12倍の改善を達成。研究は、コード品質への投資がポジティブな影響をもたらすことを示唆。 Comment

元ポスト:

Loading…

事前学習におけるコードの割合を増やすとコーディングタスクの性能は線形に増加する。全体の平均タスク性能の観点で言うとコードの割合を25%にするのが最適で、コードの割合を増やすほど自然言語による推論、世界知識が問われるタスクの性能は悪化していき、コードの割合が75%を超えると急激に悪化する(Figure4)。




Paper/Blog Link My Issue
#NLP #LanguageModel #NeurIPS #Memorization Issue Date: 2025-09-03 GPT Summary- 「ゴールドフィッシュロス」を導入し、トレーニング中にランダムに選ばれたトークンをロス計算から除外することで、プライバシーや著作権リスクを軽減。10億規模のLlama-2モデルの実験により、下流のベンチマークに影響を与えずに記憶の削減を実証。 Comment

元ポスト:

Loading…

クロスエントロピーのloss計算からランダムにtokenを除外せることでdownstream taskの性能を損なうことなくmemorizationを防げますよ、という話らしい

openreview: https://openreview.net/forum?id=DylSyAfmWs&referrer=%5Bthe%20profile%20of%20Jonas%20Geiping%5D(%2Fprofile%3Fid%3D~Jonas_Geiping1)




Paper/Blog Link My Issue
#Analysis #NLP #Transformer #Optimizer #ICML #read-later #HyperparameterTransfer #LearningRate Issue Date: 2025-08-31 GPT Summary- モデルのスケーリングには、パラメータ化やオプティマイザの選択が重要である。本研究では、パラメータとデータの整合性に関する新しい視点を提案し、広範なオプティマイザと学習率の組み合わせで数万のモデルを訓練した結果、最適な学習率スケーリングが重要であることを発見。新しい層ごとの学習率の処方は従来の方法を上回る性能を示し、Adamのイプシロンパラメータの適切なスケーリングが必要であることを明らかにし、数値的に安定した新しいAdamバージョンであるAdam-atan2を提案した。

Paper/Blog Link My Issue
#ComputerVision #MultiModal #FoundationModel #CVPR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-08-23 GPT Summary- 大規模視覚-言語基盤モデル(InternVL)は、60億パラメータで設計され、LLMと整合させるためにウェブ規模の画像-テキストデータを使用。視覚認知タスクやゼロショット分類、検索など32のベンチマークで最先端の性能を達成し、マルチモーダル対話システムの構築に寄与。ViT-22Bの代替として強力な視覚能力を持つ。コードとモデルは公開されている。 Comment

既存のResNetのようなSupervised pretrainingに基づくモデル、CLIPのようなcontrastive pretrainingに基づくモデルに対して、text encoder部分をLLMに置き換えて、contrastive learningとgenerativeタスクによる学習を組み合わせたパラダイムを提案。
image

InternVLのアーキテクチャは下記で、3 stageの学習で構成される。最初にimage text pairをcontrastive learningし学習し、続いてモデルのパラメータはfreezeしimage text retrievalタスク等でモダリティ間の変換を担う最終的にQlLlama(multilingual性能を高めたllama)をvision-languageモダリティを繋ぐミドルウェアのように捉え、Vicunaをテキストデコーダとして接続してgenerative cossで学習する、みたいなアーキテクチャの模様(斜め読みなので少し違う可能性あり

image

現在のVLMの主流であるvision encoderとLLMをadapterで接続する方式はここからかなりシンプルになっていることが伺える。




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Coding #ICML #Selected Papers/Blogs Issue Date: 2025-08-16 GPT Summary- 本研究では、大規模言語モデルを複数の将来のトークンを同時に予測するように訓練する手法を提案し、サンプル効率の向上を図る。具体的には、n個の独立した出力ヘッドを用いて次のnトークンを予測し、訓練時間にオーバーヘッドをかけずに下流の能力を向上させる。特に、コーディングタスクにおいて、提案モデルは強力なベースラインを上回る性能を示し、推論時に最大3倍の速度向上も実現。 Comment

next tokenだけでなく、next 4-tokenを予測して学習することで、MBPP/HumanEvalにおいて、モデルのパラメータサイズが1.3Bを超えた時点でベースライン(=同じパラメータサイズとなるように調整されたnext-token prediction)をoutperformしはじめ、モデルサイズが大きくなるにつれて性能の差が顕著に表れることを示した。コーディングドメインにおいて事前学習、およびfinetuningの双方で効果がある。ただし、3.7節で示されている通り、これはコーディングドメインでのみこのような顕著な改善がみられており、自然言語データに対してはここまで顕著な改善はしていないように見える(5.1節で考察されていそう; 昨今のLLMでは事前学習データにコーディングなどのデータが入るのが普通なので利用する恩恵はありそう; Abstractive Summarizationでは性能が改善している(Figure6); GSM8Kでは200Bまではnext 2 tokenを予測すると性能が改善しているが500B token学習するとnext token predictionの方が性能が良くなる)。全体的にperplexityの改善(=次のトークンにおいて正解トークンの生成確率を改善する)というよりは、モデルの"最終的な生成結果”にフォーカスした評価となっている。

モデルは共有のトランクf_s (おそらくhead間でパラメータを共有している一連のtransformerブロック) を持っておりinput x_t:1に対応するlatent representation z_t:1を生成する。latent representationをoutput headにinputすることで、それぞれのheadが合計でn個のnext tokenを予測する。
image

next n-tokenを予測する際には、GPUメモリを大幅に食ってしまう (logitsのshapeが(n, V)となりそれらの勾配も保持しなければならない) ことがボトルネックとなるが、f_sまでforward passを実行したら、各headに対してforward/backward passを順番に実行して、logitsの値は破棄し勾配の情報だけf_sに蓄積することで、長期的に保持する情報を各headのから逆伝搬された勾配情報のみにすることでこれを解決している。
image

実際にinferenceをするときはnext tokenを予測するヘッドの出力を活用することを前提としているが、全てのヘッドを活用することで、t時点でt+nトークンの予測を可能なため、self-speculative decodingを実施しinference timeを短縮することができる。

3.4で示されているように、nの値は大きければ大きいほど良いというわけではなく、4程度(byte levelなモデルの場合は8 bytes)が最適なようである。が、Table1を見ると、データによってはn=6が良かったり(i.e., 最適なnは学習データ依存)複数エポック学習するとmulti token predictionの効果が薄くなっていそう(i.e., 同じトークンの予測を複数回学習するので実質multi token predictionと似たようなことをやっている。言い換えると、multi token predictionは複数epochの学習を先取りしているとみなせる?)なのは注意が必要そう。

全体的に複数epochを学習すると恩恵がなくなっていく(コーディング) or next token predictionよりも性能が悪化する(自然言語)ので、LLMの事前学習において、複数epochを学習するような当たり前みたいな世界線が訪れたら、このアーキテクチャを採用すると性能はむしろ悪化しそうな気はする。

MBPP/HumanEval:
- [Paper Note] Program Synthesis with Large Language Models, Jacob Austin+, arXiv'21
- [Paper Note] Evaluating Large Language Models Trained on Code, Mark Chen+, arXiv'21




Paper/Blog Link My Issue
#NLP #LanguageModel #SoftwareEngineering #mid-training #PostTraining #read-later #MemoryOptimization Issue Date: 2025-07-16 GPT Summary- 本研究では、Llamaアーキテクチャにおける4D並列トレーニングに対して、メモリ使用量を正確に推定する公式を提案。A100およびH100 GPUでの454回の実験を通じて、一時バッファやメモリの断片化を考慮し、推定メモリがGPUメモリの80%未満であればメモリ不足エラーが発生しないことを示した。この公式により、メモリオーバーフローを引き起こす並列化構成を事前に特定でき、最適な4D並列性構成に関する実証的な洞察を提供する。

Paper/Blog Link My Issue
#NLP #LanguageModel #ICML #mid-training #Selected Papers/Blogs #Workshop #One-Line Notes #needs-revision #DistributedLearning Issue Date: 2025-07-15 GPT Summary- 分散最適化アルゴリズム「DiLoCo」を提案し、接続が不十分なデバイスでのLLMトレーニングを可能にする。DiLoCoは、通信量を500分の1に抑えつつ、完全同期の最適化と同等の性能をC4データセットで発揮。各ワーカーのデータ分布に対して高いロバスト性を持ち、リソースの変動にも柔軟に対応可能。 Comment

openreview: https://openreview.net/forum?id=pICSfWkJIk&referrer=%5Bthe%20profile%20of%20MarcAurelio%20Ranzato%5D(%2Fprofile%3Fid%3D~MarcAurelio_Ranzato1)

言語モデルの分散学習における通信量をいかに抑えるかにフォーカスした研究で、クライアントごとに異なるデータsplitを持ち、当該データによってモデルをローカルでAdamWを用いてH step更新。その後、更新された重みの差分をouter gradientとして共有し、重み更新の差分を平均化することでローカルモデルを集約するという処理を繰り返す。

先行研究:
- [Paper Note] Communication-Efficient Learning of Deep Networks from Decentralized Data, H. Brendan McMahan+, AISTATS'17, 2016.02




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Coding Issue Date: 2025-07-13 GPT Summary- BigCodeプロジェクトは、責任あるCode LLMsの開発に焦点を当て、StarCoder2を発表。Software Heritageと提携し、The Stack v2を構築し、619のプログラミング言語を含む大規模なトレーニングセットを作成。StarCoder2モデルは3B、7B、15Bのパラメータを持ち、徹底的なベンチマーク評価で優れた性能を示す。特にStarCoder2-15Bは、同等の他モデルを大幅に上回り、数学やコード推論でも高い性能を発揮。モデルの重みはOpenRAILライセンスで公開され、トレーニングデータの透明性も確保。 Comment

関連:
- StarCoderBase/StarCoder, 2023




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Dataset #LanguageModel #NeurIPS #Selected Papers/Blogs Issue Date: 2025-05-10 GPT Summary- 本研究では、15兆トークンからなるFineWebデータセットを紹介し、LLMの性能向上に寄与することを示します。FineWebは高品質な事前学習データセットのキュレーション方法を文書化し、重複排除やフィルタリング戦略を詳細に調査しています。また、FineWebから派生した1.3兆トークンのFineWeb-Eduを用いたLLMは、MMLUやARCなどのベンチマークで優れた性能を発揮します。データセット、コードベース、モデルは公開されています。 Comment

日本語解説: https://zenn.dev/deepkawamura/articles/da9aeca6d6d9f9

openreview: https://openreview.net/forum?id=n6SCkn2QaG#discussion




Paper/Blog Link My Issue
#InstructionTuning #ACL #PerplexityCurse Issue Date: 2025-01-06 GPT Summary- 新しい文書からの知識更新には、事前指示調整(PIT)を提案。これは、文書の訓練前に質問に基づいて指示調整を行う手法で、LLMが新しい情報を効果的に吸収する能力を向上させ、標準的な指示調整を17.8%上回る結果を示した。 Comment

興味深い

SNLP'24での解説スライド: https://speakerdeck.com/s_mizuki_nlp/instruction-tuned-language-models-are-better-knowledge-learners-in-acl-2024




Paper/Blog Link My Issue
#NLP #LanguageModel #Catastrophic Forgetting #mid-training Issue Date: 2025-01-02 GPT Summary- LLMの進展は多様なタスクでの能力を示し、開発が加速しているが、既存の微調整済みモデルに継続的な事前学習を行うと壊滅的忘却が生じる可能性がある。研究では、この忘却現象を調査し、出力形式や知識、信頼性などの次元で継続的事前学習の影響を評価。実験結果は、忘却対策の難しさ、特に反復性の課題を明らかにする。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #Transformer #NeurIPS #KeyPoint Notes Issue Date: 2024-12-12 GPT Summary- Visual AutoRegressive modeling (VAR)を提案し、画像生成において自己回帰学習を次のスケール予測として再定義。VARは、GPTのようなARモデルが拡散トランスフォーマーを上回ることを実現し、ImageNet 256x256ベンチマークでFIDを18.65から1.73、ISを80.4から350.2に改善。推論速度は約20倍向上し、画像品質やデータ効率でも優れた性能を示す。VARはゼロショット一般化能力を持ち、スケーリング法則を示す。全モデルとコードを公開し、視覚生成の研究を促進。 Comment

NeurIPS2024のベストペーパー

OpenReview: https://openreview.net/forum?id=gojL67CfS8

Next Token Prediction, Next Image Token Generation (従来手法), Next Scale (resolution) prediction (提案手法)の違いの図解。非常に分かりやすい。next token predictionでは次トークンのみを予測するがVARでは、次の解像度画像の全体のトークンマップを予測する。

image

学習方法の概要。2-Stageで学習される。最初のステージでK種類の解像度の画像(=K種類のマルチスケールのtoken maps r_k)を得るためにAutoEncoderを学習し、次のステージでblock-wiseのcausal attention maskを用いて、K_各r_kをデコードする際にr_image

従来手法と比べより小さいパラメータで高い性能を実現し、inference timeも非常に早い。
image

ScalingLawsも成立する。
image




Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal Issue Date: 2024-11-25 GPT Summary- 新しい手法AIMV2を用いて、大規模なビジョンエンコーダの事前学習を行う。これは画像とテキストを組み合わせたマルチモーダル設定に拡張され、シンプルな事前学習プロセスと優れた性能を特徴とする。AIMV2-3BエンコーダはImageNet-1kで89.5%の精度を達成し、マルチモーダル画像理解において最先端のコントラストモデルを上回る。

Paper/Blog Link My Issue
#Analysis #EfficiencyImprovement #NLP #LanguageModel #Supervised-FineTuning (SFT) #Japanese #read-later #One-Line Notes #LowPrecision Issue Date: 2024-11-17 GPT Summary- 大規模言語モデル(LLMs)は、その言語理解能力と適用可能性から注目を集めており、特にLlama 3シリーズは4050億パラメータを持つ。トレーニングの効率化が求められる中、NVIDIAのH100 GPUはFP8フォーマットを導入し、トレーニング時間を短縮する可能性がある。初期研究ではFP8が性能を損なわずに効率を向上させることが示唆されているが、トレーニングの安定性や下流タスクへの影響はまだ不明である。本研究は、LLMsのトレーニングにおけるBF16とFP8のトレードオフを探る。 Comment

元ポスト:

Loading…

FP8で継続的事前学習をするとスループットは向上するが、lossのスパイクを生じたり、downstreamタスクの性能がBF16よりも低下したりする(日本語と英語の両方)との報告のようである。現状アブストと付録しか記載がないが、内容はこれから更新されるのだろうか。

image




Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #Optimizer #Stability #One-Line Notes Issue Date: 2024-11-06 GPT Summary- ADOPTという新しい適応勾配法を提案し、任意のハイパーパラメータ$\beta_2$で最適な収束率を達成。勾配の二次モーメント推定からの除去と更新順序の変更により、Adamの非収束問題を解決。広範なタスクで優れた結果を示し、実装はGitHubで公開。 Comment

画像は元ツイートからの引用:
ライブラリがあるようで、1行変えるだけですぐ使えるとのこと。

image
元ツイート:

Loading…

Adamでは収束しなかった場合(バッチサイズが小さい場合)でも収束するようになっている模様
image

openreview: https://openreview.net/forum?id=rzvVm0LsyK&referrer=%5Bthe%20profile%20of%20Go%20Nagahara%5D(%2Fprofile%3Fid%3D~Go_Nagahara1)




Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #SyntheticData #PostTraining #KeyPoint Notes Issue Date: 2024-10-21 GPT Summary- 本研究では、人間のアノテーションなしでモデルの評価者を改善するための合成データを利用したアプローチを提案する。ラベルなしの指示から始め、自己改善のスキームを用いて対照的なモデル出力を生成し、LLMを訓練する。自己学習型評価器は、ラベル付きデータがなくても、強力なLLMの性能を大幅に向上させ、一般的なLLMジャッジやトップクラスの報酬モデルと同等の結果を達成する。 Comment

LLMのアラインメント等をSFTする際に、preferenceのラベル付きデータが必要になるが、このようなデータを作るのはコストがかかって大変なので自動生成して、より良いreward modelを作りたいよね、という話。
具体的には、LLMを用いて good responseと、instructionを変化させてbad sesponseを生成し、JudgeモデルM_tにpairwiseでどちらが良いかをjudgeさせることで学習データを作成。新たに作成されたデータを用いてJudgeモデルを再学習し、同様のプロセスを繰り返すことで、人手の介在なく強力なJudgeモデルが完成する。
image
image

openreview: https://openreview.net/forum?id=I7uCwGxVnl




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2024-10-20 GPT Summary- L-Mulアルゴリズムを提案し、整数加算器を用いて浮動小数点乗算を高精度で近似。これにより、計算リソースを削減し、8ビット浮動小数点乗算よりも高い精度を達成。エネルギーコストも95%削減可能。評価では、4ビット仮数のL-Mulが従来の浮動小数点乗算と同等、3ビット仮数でより高い精度を発揮すると示され、トランスフォーマーモデルでも高精度を維持。

Paper/Blog Link My Issue
#Tools #NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #ICLR #PostTraining #KeyPoint Notes #Reading Reflections Issue Date: 2024-10-20 GPT Summary- ToolGenは、LLMとツールの統合を革新する新しいアプローチを提案する。ツールをユニークなトークンとして表現し、ツール知識を直接LLMのパラメータに組み込むことで、ツール呼び出しと生成をシームレスに実現する。このフレームワークにより、追加ステップなしで多数のツールにアクセスでき、性能とスケーラビリティが向上する。47,000以上のツールでの実験結果は、ToolGenが自律的なタスク完遂において優れた成果を示し、多様な領域に適応可能なAIエージェントの新時代を切り開くことを示唆している。さらに、エンドツーエンドのツール学習を可能にし、他の高度な技術との統合機会を提供することで、LLMsの実践的な能力を拡張する。 Comment

昔からよくある特殊トークンを埋め込んで、特殊トークンを生成したらそれに応じた処理をする系の研究。今回はツールに対応するトークンを仕込む模様。

斜め読みだが、3つのstepでFoundation Modelを訓練する。まずはツールのdescriptionからツールトークンを生成する。これにより、モデルにツールの情報を覚えさせる(memorization)。斜め読みなので読めていないが、ツールトークンをvocabに追加してるのでここは継続的事前学習をしているかもしれない。続いて、(おそらく)人手でアノテーションされたクエリ-必要なツールのペアデータから、クエリに対して必要なツールを生成するタスクを学習させる。最後に、(おそらく人手で作成された)クエリ-タスクを解くためのtrajectoryペアのデータで学習させる。
image
image

学習データのサンプル。Appendix中に記載されているものだが、本文のデータセット節とAppendixの双方に、データの作り方の詳細は記述されていなかった。どこかに書いてあるのだろうか。
imageimage

最終的な性能
image

特殊トークンを追加のvocabとして登録し、そのトークンを生成できるようなデータで学習し、vocabに応じて何らかの操作を実行するという枠組み、その学習手法は色々なタスクで役立ちそう。

openreview: https://openreview.net/forum?id=XLMAMmowdY




Paper/Blog Link My Issue
#NLP #Supervised-FineTuning (SFT) #SyntheticData Issue Date: 2024-09-29 GPT Summary- 高品質な合成データを生成するために、強力なSEモデルと安価なWCモデルのトレードオフを再検討。WCモデルからのデータはカバレッジと多様性が高いが偽陽性率も高い。ファインチューニングの結果、WC生成データでトレーニングされたモデルがSE生成データのモデルを上回ることが示され、WCが計算最適なアプローチである可能性を示唆。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#Analysis #NLP #Supervised-FineTuning (SFT) Issue Date: 2024-08-19 GPT Summary- 大規模なテキストコーパスで事前学習された複数の中間事前学習モデルのチェックポイントを微調整することによって、事前学習と微調整の関係を調査した。18のデータセットでの結果から、i)継続的な事前学習は、微調整後にモデルを改善する潜在的な方法を示唆している。ii)追加の微調整により、モデルが事前学習段階でうまく機能しないデータセットの改善が、うまく機能するデータセットよりも大きいことを示している。iii)監督された微調整を通じてモデルは恩恵を受けるが、以前のドメイン知識や微調整中に見られないタスクを忘れることがある。iv)監督された微調整後、モデルは評価プロンプトに対して高い感度を示すが、これはより多くの事前学習によって緩和できる。

Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #Evaluation #OpenWeight #Safety #Japanese #OpenSource #mid-training #PostTraining #Selected Papers/Blogs #One-Line Notes #needs-revision Issue Date: 2024-07-10 GPT Summary- 日本語のLLMを開発するプロジェクト「LLM-jp」を紹介。1,500人以上が参加し、オープンソースの高性能モデルを目指す。設立背景、活動概要、および技術報告を示し、最新情報は公式サイトで確認可能。 Comment

llm.jpによるテクニカルレポート




Paper/Blog Link My Issue
#LanguageModel #InstructionTuning #EMNLP #read-later #Selected Papers/Blogs #needs-revision Issue Date: 2024-07-08 GPT Summary- 教師なしのマルチタスク事前学習は成功の要因だが、監督付きの可能性も高い。本研究ではInstruction Pre-Trainingを提案し、大規模な指示-応答ペアを用いて言語モデルの前処理を行う。この手法により、40以上のタスクで2億のペアを合成し、その効果を示した。Instruction Pre-Trainingは、基盤モデルの性能を向上させ、追加の指示調整からも利益を得ることができ、Llama3-8BをLlama3-70Bに匹敵する性能へと引き上げた。モデルとデータは公開されている。 Comment

参考:

Loading…




Paper/Blog Link My Issue
#Analysis #LanguageModel #Evaluation #COLM #Selected Papers/Blogs #One-Line Notes #DownstreamTasks Issue Date: 2024-04-17 GPT Summary- LLMsが知性を反映するかを圧縮の観点から検討。知性を下流ベンチマークのスコアで評価し、31の公開LLMを分析したところ、圧縮能力と知性にほぼ線形の相関があることが判明。これにより、より優れた圧縮が高い知性を示すという仮説が支持され、圧縮効率が信頼性のある評価指標として機能する可能性が示された。圧縮データセットはオープンソース化され、今後の研究に貢献することが期待される。 Comment

参考:

Loading…

openreview: https://openreview.net/forum?id=SHMj84U5SH

external corpora (≠学習データ)で測定したモデルのBit Per Character (BPC) とdownstreamタスクのベンチマークスコアは、全体で平均で見ても、個別のドメインでみても、linearに相関する。
image




Paper/Blog Link My Issue
#ComputerVision #NLP #Transformer #InstructionTuning #MultiModal #SpeechProcessing #CVPR #Selected Papers/Blogs #Encoder-Decoder #Robotics #UMM #EmbodiedAI #KeyPoint Notes #Surface-level Notes Issue Date: 2023-12-29 GPT Summary- 初の自己回帰型マルチモーダルモデル「Unified-IO 2」を提案し、画像、テキスト、音声、アクションを統一した意味空間で処理。トレーニングの安定化のためにアーキテクチャを改善し、120のデータセットで微調整を行い、GRITベンチマークで最先端のパフォーマンスを達成。35以上のベンチマークにおいて強力な結果を示し、すべてのモデルを公開。 Comment

画像、テキスト、音声、アクションを理解できる初めてのautoregressive model。AllenAI

モデルのアーキテクチャ図
image

マルチモーダルに拡張したことで、訓練が非常に不安定になったため、アーキテクチャ上でいくつかの工夫を加えている:

- 2D Rotary Embedding
- Positional EncodingとしてRoPEを採用
- 画像のような2次元データのモダリティの場合はRoPEを2次元に拡張する。具体的には、位置(i, j)のトークンについては、Q, Kのembeddingを半分に分割して、それぞれに対して独立にi, jのRoPE Embeddingを適用することでi, j双方の情報を組み込む。
- QK Normalization
- image, audioのモダリティを組み込むことでMHAのlogitsが非常に大きくなりatteetion weightが0/1の極端な値をとるようになり訓練の不安定さにつながった。このため、dot product attentionを適用する前にLayerNormを組み込んだ。
- Scaled Cosine Attention
- Image Historyモダリティにおいて固定長のEmbeddingを得るためにPerceiver Resamplerを扱ったているが、こちらも上記と同様にAttentionのlogitsが極端に大きくなったため、cosine類似度をベースとしたScaled Cosine Attention [Paper Note] Swin Transformer V2: Scaling Up Capacity and Resolution, Ze Liu+, arXiv'21 を利用することで、大幅に訓練の安定性が改善された。
- その他
- attention logitsにはfp32を適用
- 事前学習されたViTとASTを同時に更新すると不安定につながったため、事前学習の段階ではfreezeし、instruction tuningの最後にfinetuningを実施

image

目的関数としては、Mixture of Denoisers (UL2: Unifying Language Learning Paradigms, Yi Tay+, N/A, ICLR'23 )に着想を得て、Multimodal Mixture of Denoisersを提案。MoDでは、
- \[R\]: 通常のspan corruption (1--5 token程度のspanをmaskする)
- \[S\]: causal language modeling (inputを2つのサブシーケンスに分割し、前方から後方を予測する。前方部分はBi-directionalでも可)
- \[X\]: extreme span corruption (12>=token程度のspanをmaskする)

の3種類が提案されており、モダリティごとにこれらを使い分ける:
- text modality: UL2 (UL2: Unifying Language Learning Paradigms, Yi Tay+, N/A, ICLR'23 )を踏襲
- image, audioがtargetの場合: 2つの類似したパラダイムを定義し利用
- \[R\]: patchをランダムにx%マスクしre-constructする
- \[S\]: inputのtargetとは異なるモダリティのみの情報から、targetモダリティを生成する

訓練時には prefixとしてmodality token \[Text\], \[Image\], \[Audio\] とparadigm token \[R\], \[S\], \[X\] をタスクを指示するトークンとして利用している。

また、image, audioのマスク部分のdenoisingをautoregressive modelで実施する際には普通にやるとdecoder側でリークが発生する(a)。これを防ぐには、Encoder側でマスクされているトークンを、Decoder側でteacher-forcingする際にの全てマスクする方法(b)があるが、この場合、生成タスクとdenoisingタスクが相互に干渉してしまいうまく学習できなくなってしまう(生成タスクでは通常Decoderのinputとして[mask]が入力され次トークンを生成する、といったことは起きえないが、愚直に(b)をやるとそうなってしまう)。ので、(c)に示したように、マスクされているトークンをinputとして生成しなければならない時だけ、マスクを解除してdecoder側にinputする、という方法 (Dynamic Masking) でこの問題に対処している。
image




Paper/Blog Link My Issue
#ComputerVision #Analysis #NLP #LanguageModel #CVPR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2023-12-14 GPT Summary- 最近の大規模言語モデルの成功により、ビジュアル言語モデル(VLM)が進歩している。本研究では、VLMの事前学習のためのデザインオプションを検討し、以下の結果を示した:(1) LLMを凍結することでゼロショットのパフォーマンスが達成できるが、文脈に基づいた学習能力が不足している。(2) 交互に行われる事前学習データは有益であり、画像とテキストのペアだけでは最適ではない。(3) テキストのみの指示データを画像とテキストのデータに再ブレンドすることで、VLMのタスクの精度を向上させることができる。VILAというビジュアル言語モデルファミリーを構築し、最先端モデルを凌駕し、優れたパフォーマンスを発揮することを示した。マルチモーダルの事前学習は、VILAの特性を向上させる。 Comment

関連:
- Improved Baselines with Visual Instruction Tuning, Haotian Liu+, N/A, CVPR'24




Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #ICLR #One-Line Notes Issue Date: 2023-10-26 GPT Summary- 本研究では、大規模言語モデル(LLMs)を訓練するためのデータの検出問題を研究し、新しい検出方法であるMin-K% Probを提案します。Min-K% Probは、LLMの下で低い確率を持つアウトライアーワードを検出することに基づいています。実験の結果、Min-K% Probは従来の方法に比べて7.4%の改善を達成し、著作権のある書籍の検出や汚染された下流の例の検出など、実世界のシナリオにおいて効果的な解決策であることが示されました。 Comment

実験結果を見るにAUCは0.73-0.76程度であり、まだあまり高くない印象。また、テキストのlengthはそれぞれ32,64,128,256程度。
image

openreview: https://openreview.net/forum?id=zWqr3MQuNs




Paper/Blog Link My Issue
#NLP #LanguageModel #One-Line Notes Issue Date: 2023-10-10 GPT Summary- 言語モデルのトレーニングと推論において、遅延を導入することでモデルの性能を向上させる手法を提案しました。具体的には、入力に特定のトークンを追加し、そのトークンが現れるまでモデルの出力を遅らせることで、追加の計算を行うことができます。実験結果では、この手法が推論タスクにおいて有益であり、特にQAタスクでの性能向上が見られました。今後は、この遅延予測の手法をさらに研究していく必要があります。 Comment

この研究は興味深いが、事前学習時に入れないと効果が出にくいというのは直感的にわかるので、実用的には活用しづらい。
また、promptでこの研究をimitateする方法については、ZeroShot CoTにおいて、思考プロセスを明示的に指定するようなpromptingと同様のことを行っており、これは実際に効果があると思う。




Paper/Blog Link My Issue
#ComputerVision #Transformer #ImageSegmentation #FoundationModel #One-Line Notes Issue Date: 2023-04-30 GPT Summary- 医用画像分割は診断や治療計画に不可欠だが、既存手法は特定のモダリティや疾患に限られがち。そこで、10の画像モダリティと30種以上のがんに対応する基盤モデルMedSAMを提案。1,570,263の画像-マスクペアで訓練され、精度と頑健性で専門モデルを上回ることを実証。MedSAMは診断ツールの進化と個別化治療計画を加速する可能性を秘めている。 Comment

SAMの性能は医療画像に対しては限定的だったため、11の異なるモダリティに対して200kのマスクをした医療画像を用意しfinetuningしたMedSAMによって、医療画像のセグメンテーションの性能を大幅に向上。
コードとモデルはpublicly available




Paper/Blog Link My Issue
#NLP #LanguageModel #OpenWeight Issue Date: 2026-03-31 GPT Summary- LLaMAは、7Bから65Bパラメータまでの基盤言語モデルのコレクションを提供し、数兆のトークンを使用して訓練されました。公開可能なデータセットのみを用いて最先端モデルを実現し、特にLLaMA-13Bは多くのベンチマークでGPT-3を上回り、LLaMA-65BはChinchillaやPaLMと競争力を持つ。全てのモデルは研究コミュニティに公開されます。 Comment

初代LLaMAをメモっていなかったようなのでメモ

LLaMA series:
- [Paper Note] Llama 2: Open Foundation and Fine-Tuned Chat Models, Hugo Touvron+, arXiv'23, 2023.07
- LLaMA3, Meta, 2024.04
- Llama 3.1, 2024.07
- Llama 3.2: Revolutionizing edge AI and vision with open, customizable models, Meta, 2024.09
- Llama 4 Series, Meta, 2025.04

Llama 3.3もメモっていないようだ




Paper/Blog Link My Issue
#NLP #LanguageModel #OpenWeight #OpenSource #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-03-29 GPT Summary- Pythiaは、異なるスケールの16のLLMを対象にしたモデルセットで、トレーニングの進化や発展を探求する。154のチェックポイントを公開し、訓練データローダーの再構築ツールも提供する。記憶化、新規結果、few-shot性能への語頻度の影響、ジェンダーバイアスの低減を含むケーススタディを通じて、LLMsの訓練ダイナミクスに関する新たな洞察を提示する。モデルや分析コードは公開されている。 Comment

github: https://github.com/EleutherAI/pythia

pythiaもメモっていなかった。70M--12Bモデルまでの16個のLLM群で、全てのモデルが同じ順序で学習され、かつ中間チェックポイントも公開。




Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #NLP #MultiModal #ICML #VisionLanguageModel #Encoder #2D (Image) Issue Date: 2026-02-06 GPT Summary- BLIP-2は、視覚と言語の事前学習を効率化する新しい戦略で、既存の画像エンコーダと大規模言語モデルを活用。軽量なクエリトランスフォーマーにより二段階での事前学習を実施し、視覚と言語の表現を効果的に結合。トレーニング可能なパラメータは少ないながらも、ゼロショットタスクで優れた性能を発揮し、Flamingo80Bを上回る成果を示した。 Comment

日本語解説: https://qiita.com/moufuyu/items/94418980ec0598671221

BLIP:
- [Paper Note] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation, Junnan Li+, ICML'22, 2022.01

Flamingo:
- [Paper Note] Flamingo: a Visual Language Model for Few-Shot Learning, Jean-Baptiste Alayrac+, NeurIPS'22, 2022.04




Paper/Blog Link My Issue
#ComputerVision #RepresentationLearning #Transformer #Self-SupervisedLearning #CVPR #read-later #Selected Papers/Blogs #WorldModels #One-Line Notes #LatentRepresentation Issue Date: 2025-07-24 GPT Summary- 本論文では、手作りのデータ拡張に依存せずに意味的な画像表現を学習するI-JEPAという自己教師あり学習アプローチを提案。I-JEPAは、単一のコンテキストブロックから異なるターゲットブロックの表現を予測する。重要な設計選択として、意味的に大きなターゲットブロックと情報量の多いコンテキストブロックのサンプリングが挙げられる。実験により、I-JEPAはVision Transformersと組み合わせることでスケーラブルであり、ImageNet上で強力な下流性能を達成した。 Comment

Joint-Embedding Predictive Architecture (JEPA)を提案した研究。ピクセルやトークンのreconstruction lossではなく、潜在表現を再構成するようなself-supervised learningによってより意味的な特徴を学習するように誘導するもの(と思われるがこれが本質的な理解として正しいかは自信がない)。




Paper/Blog Link My Issue
#ComputerVision #LanguageModel #MultiModal #ContrastiveLearning #Selected Papers/Blogs #ICCV #Scalability #needs-revision Issue Date: 2025-06-29 GPT Summary- シンプルなペアワイズシグモイド損失(SigLIP)を提案し、画像-テキストペアに基づく言語-画像事前学習を改善。シグモイド損失はバッチサイズの拡大を可能にし、小さなバッチサイズでも性能向上を実現。SigLiTモデルは84.5%のImageNetゼロショット精度を達成。バッチサイズの影響を研究し、32kが合理的なサイズであることを確認。モデルは公開され、さらなる研究の促進を期待。 Comment

SigLIP論文




Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #Supervised-FineTuning (SFT) #MoE(Mixture-of-Experts) #PostTraining #KeyPoint Notes Issue Date: 2024-11-25 GPT Summary- スパース活性化モデルは、計算コストを抑えつつ密なモデルの代替として注目されているが、依然として多くのデータを必要とし、ゼロからのトレーニングは高コストである。本研究では、密なチェックポイントからスパース活性化Mixture-of-Expertsモデルを初期化する「スパースアップサイクリング」を提案。これにより、初期の密な事前トレーニングのコストを約50%再利用し、SuperGLUEやImageNetで密なモデルを大幅に上回る性能を示した。また、アップサイクリングされたモデルは、ゼロからトレーニングされたスパースモデルよりも優れた結果を得た。 Comment

斜め読みしかできていないが、Mixture-of-Expertsを用いたモデルをSFT/Pretrainingする際に、既存のcheckpointの重みを活用することでより効率的かつ性能向上する方法を提案。MoE LayerのMLPを全て既存のcheckpointにおけるMLPの重みをコピーして初期化する。Routerはスクラッチから学習する。
image

継続事前学習においては、同じ学習時間の中でDense Layerを用いるベースラインと比較してでより高い性能を獲得。
image
Figure2で継続事前学習したモデルに対して、フルパラメータのFinetuningをした場合でもUpcyclingは効果がある(Figure3)。

特にPretrainingではUpcyclingを用いたモデルの性能に、通常のMoEをスクラッチから学習したモデルが追いつくのに時間がかかるとのこと。特に図右側の言語タスクでは、120%の学習時間が追いつくために必要だった。
image

Sparse Upcycingと、Dense tilingによる手法(warm start; 元のモデルに既存の層を複製して新しい層を追加する方法)、元のモデルをそれぞれ継続事前学習すると、最も高い性能を獲得している。
image

(すごい斜め読みなのでちょっも自信なし、、、)




Paper/Blog Link My Issue
#NLP #LanguageModel #MultiModal #ICLR #Encoder #Encoder-Decoder #KeyPoint Notes Issue Date: 2024-09-26 GPT Summary- 本論文では、事前学習モデルの普遍的なフレームワークを提案し、事前学習の目的とアーキテクチャを分離。Mixture-of-Denoisers(MoD)を導入し、複数の事前学習目的の効果を示す。20Bパラメータのモデルは、50のNLPタスクでSOTAを達成し、ゼロショットやワンショット学習でも優れた結果を示す。UL2 20Bモデルは、FLAN指示チューニングにより高いパフォーマンスを発揮し、関連するチェックポイントを公開。 Comment

OpenReview: https://openreview.net/forum?id=6ruVLB727MC

encoder-decoder/decoder-onlyなど特定のアーキテクチャに依存しないアーキテクチャagnosticな事前学習手法であるMoDを提案。
MoDでは3種類のDenoiser [R] standard span corruption, [S] causal language modeling, [X] extreme span corruption の3種類のパラダイムを活用する。学習時には与えらえたタスクに対して適切なモードをスイッチできるようにparadigm token ([R], [S], [X])を与え挙動を変化させられるようにしており[^1]、finetuning時においては事前にタスクごとに定義をして与えるなどのことも可能。

image

[^1]: 事前学習中に具体的にどのようにモードをスイッチするのかはよくわからなかった。ランダムに変更するのだろうか。




Paper/Blog Link My Issue
#NLP #LanguageModel #Chain-of-Thought Issue Date: 2023-11-21 GPT Summary- 言語モデルにおける推論能力向上のため、明示的な思考の連鎖推論ではなく、隠れ状態を用いた暗黙の推論を提案。教師モデルから蒸留したステップで、層間の隠れ状態を利用し、効率的な推論を実現。実験により、明示的チェーンなしで課題を解決し、推論速度も維持されることを示した。 Comment

これは非常に興味深い話

openreview: https://openreview.net/forum?id=9cumTvvlHG




Paper/Blog Link My Issue
#NLP #LanguageModel #FoundationModel #Mathematics #mid-training #One-Line Notes #Reading Reflections Issue Date: 2023-10-29 GPT Summary- Llemmaという数学の大規模言語モデルを提案。Proof-Pile-2でCode Llamaの前訓練を行い、科学論文や数学コードを含む複合データセットで強化。MATHベンチマークで全ての公開モデルを凌ぎ、未公開のMinervaモデル群にも勝利。追加ファインチューニングなしでツール使用や形式的定理証明が可能。70億および340億パラメータのモデルや実験コードを公開。 Comment

CodeLLaMAを200B tokenの数学テキスト(proof-pile-2データ;論文、数学を含むウェブテキスト、数学のコードが含まれるデータ)で継続的に事前学習することでfoundation modelを構築
image

約半分のパラメータ数で数学に関する性能でGoogleのMinervaと同等の性能を達成
image

元ツイート:

Loading…

まだ4-shotしてもAcc.50%くらいなのか。




Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #SyntheticData #COLM #PostTraining #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2023-10-28 GPT Summary- ユーザーの意図に応じた小型言語モデルを目指し、dSFTに基づくモデルの整合性向上を図る。AIフィードバックからの選好データを用い、dDPOを適用することで、意図の整合性が向上したチャットモデルを学習。追加サンプリングなしで数時間の訓練で最先端のZephyr-7Bを実現し、MT-BenchでLlama2-Chat-70Bを上回る成果を達成。コードやデータは公開。 Comment

7BパラメータでLlaMa70Bと同等の性能を達成したZephyrの論文。

image

- dSFT:既存データからpromptをサンプリングし、user,assistantのmulti turnの対話をLLMでシミュレーションしてデータ生成しSFT
- AIF:既存データからpromstをサンプリングし、異なる4つのLLMのレスポンスをGPT4でランクづけしたデータの活用
- dDPO: 既存データからpromptをサンプリングし、ベストなレスポンスとランダムにサンプリングしたレスポンスの活用

人手を一切介していない。
image

Blog: https://huggingface.co/blog/Isamu136/understanding-zephyr

openreview: https://openreview.net/forum?id=aKkAwZB6JV




Paper/Blog Link My Issue
#EfficiencyImprovement #MachineLearning #NLP #LanguageModel #SyntheticData #Distillation #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2023-09-13 GPT Summary- 小型TransformerモデルTinyStoriesから、1.3十億パラメータのphi-1を開発し、教科書品質データ生成を提案。新モデルphi-1.5は、常識的推論に焦点を当て、小学校レベルの数学やコーディング課題で、非最先端LLMを上回る性能を示す。能力には一歩ずつ考えることや初歩的なインコンテキスト学習が含まれ、幻覚や偏見生成も注意が必要だが、ウェブデータの不使用により改善が見られる。phi-1.5はオープンソース化され、さらなる研究を促進。 Comment

[Paper Note] Textbooks Are All You Need, Suriya Gunasekar+, arXiv'23, 2023.06 に続く論文

20Kのトピックから、commonsense reasmning, general knowledge(科学, 日常生活, theory of mlndなど)に関するtext book likeなデータを20B合成して事前学習に活用(どのモデルで合成されたかは明記されていないように見える)

既存のより大規模なモデル(7B--13B)、web dataをフィルタリングしたデータのみで学習したモデル(phi-1.5-web-only)、phi-1でのデータ 7Bに対して上記20Bを追加したデータで学習したモデル(phi-1.5)、フィルタリングしたwebデータ、phi-1のコードデータ、phi-1.5データを40%,20%,40%でmixしたモデル(phi-1.5-web)を比較したところ、phi-1.5の全てのモデル群が.より大きな7B--13B級のモデルを上回った。

web onlyの性能は他二つと比べて悪く、後者二つの性能が高く僅差でphi-1.5-webの性能が良かった。

このことより、
- テキストブックスタイルの合成データは、様々なドメインで有用に働き巨大モデルをSLMで上回れる
- 合成データだけでなくフィルタリングしたwebデータ自体を混ぜるとさらに効果的

という話に見える。

論文のメッセージとは違うかもだが、より現代的な観点を加えると、
- より大規模なモデルから合成したデータによってデータを通じた蒸留が起き、小規模モデルに能力が転移する

という話でもある。




Paper/Blog Link My Issue
#MachineLearning #NLP #In-ContextLearning #ACL Issue Date: 2023-07-18 GPT Summary- インコンテキスト学習は、タスクの例と文脈からタスクを実行する方法であり、注目されています。しかし、現在の方法では十分に活用されていないため、私たちはPICLというフレームワークを提案します。これは、一般的なテキストコーパスでモデルを事前学習し、文脈に基づいてタスクを推論して実行する能力を向上させます。私たちは、PICLでトレーニングされたモデルのパフォーマンスを評価し、他のモデルを上回ることを示しました。コードはGitHubで公開されています。

Paper/Blog Link My Issue
#ComputerVision #NLP #Transformer #MultiModal Issue Date: 2023-07-12 GPT Summary- Emuは、マルチモーダルなコンテキストで画像とテキストを生成するためのTransformerベースのモデルです。このモデルは、単一モダリティまたはマルチモーダルなデータ入力を受け入れることができます。Emuは、マルチモーダルなシーケンスでトレーニングされ、画像からテキストへのタスクやテキストから画像へのタスクなど、さまざまなタスクで優れたパフォーマンスを示します。また、マルチモーダルアシスタントなどの拡張機能もサポートしています。

Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal Issue Date: 2023-07-12 GPT Summary- エゴセントリックビデオ言語の事前学習の第2世代(EgoVLPv2)は、ビデオと言語のバックボーンにクロスモーダルの融合を直接組み込むことができる。EgoVLPv2は強力なビデオテキスト表現を学習し、柔軟かつ効率的な方法でさまざまなダウンストリームタスクをサポートする。さらに、提案されたバックボーン戦略は軽量で計算効率が高い。EgoVLPv2は幅広いVLタスクで最先端のパフォーマンスを達成している。詳細はhttps://shramanpramanick.github.io/EgoVLPv2/を参照。

Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #KnowledgeGraph #One-Line Notes Issue Date: 2023-06-25 GPT Summary- LLMs(大規模言語モデル)とKGs(知識グラフ)の統合は、互いの利点を活かすために重要である。本論文では、KGを活用したLLMsの強化、LLMsを利用したKGの向上、そして両者が相互に利益をもたらす枠組みを示すロードマップを提示。これにより、既存の研究を整理し、今後の研究の方向性を明らかにする。 Comment

LLMsとKGの統合に関するロードマップを提示。KGをLLMの事前学習や推論に組み込む方法、KGタスクにLLMを利用する方法、LLMとKGの双方向のreasonieg能力を高める方法などをカバーしている。
image




Paper/Blog Link My Issue
#EfficiencyImprovement #MachineLearning #NLP #LanguageModel #SmallModel #Selected Papers/Blogs #One-Line Notes Issue Date: 2023-06-25 GPT Summary- phi-1は1.3BパラメータのTransformerベースの大規模言語モデルで、競合モデルより小型ながらHumanEvalで50.6%、MBPPで55.5%の高精度を達成。8台のA100 GPUを用いて、教科書品質データと合成生成データを組み合わせて訓練。phi-1-baseやphi-1-smallと比べても驚くべき創発特性を示す。 Comment

参考:

Loading…

教科書のような品質の良いテキストで事前学習すると性能が向上し(グラフ真ん中)、さらに良質なエクササイズでFinetuningするとより性能が向上する(グラフ右)
image

日本語解説: https://dalab.jp/archives/journal/introduction-textbooks-are-all-you-need/

ざっくり言うと、教科書で事前学習し、エクササイズでFinetuningすると性能が向上する(= より大きいモデルと同等の性能が得られる)。




Paper/Blog Link My Issue
#NLP #LanguageModel #DataDistillation #NeurIPS #Selected Papers/Blogs #DataMixture #One-Line Notes Issue Date: 2023-05-21 GPT Summary- ドメイン混合割合が言語モデル(LM)の性能に影響を与える中、本論文はドメイン再重み付け(DoReMi)を提案。DoReMiは、まず代理モデルを使ってドメイン重みを生成し、その後データをリサンプリングして大規模モデルを効率的に訓練。実験では、DoReMiを用いた代理モデルが、パープレキシティを改善し、少数ショット精度を6.5ポイント向上、訓練ステップは2.6倍少なくて済むと示した。GLaMデータセットでは、ドメイン重み無しでも高い性能を達成。 Comment

事前学習する際の各ドメインのデータをどのような比率でmixtureするかの話。各ドメインごとに小さなproxy modelを訓練し、downstream taskの知識無しでドメインごとの重みを生成。データセットを生成されたドメインごとの重みに従いリサンプリングすることで、(1/30のプロキシモデルを用いた場合)オリジナルのデータより2.6倍高速で、6.5%oneshotのaccuracyを向上させることに成功
image

openreview: https://openreview.net/forum?id=lXuByUeHhd




Paper/Blog Link My Issue
#NeuralNetwork #Embeddings #NLP #Library #RepresentationLearning #MultiModal #SpeechProcessing #ContrastiveLearning #Speech #One-Line Notes #text #ICASSP Issue Date: 2023-04-25 GPT Summary- 音声データと自然言語説明を組み合わせたコントラスト学習による音声表現開発のパイプラインを提案。633,526の音声-テキストペアからなるLAION-Audio-630Kを公開し、音声エンコーダとテキストエンコーダを用いたモデルを構築。特徴融合メカニズムを採用し、可変長の音声入力に対応。テキストから音声検索や音声分類に関する実験により、特にテキスト検索で優れた性能を示し、ゼロショット設定でも最先端の結果を達成。LAION-Audio-630Kとモデルは公開済み。 Comment

テキストとオーディオをエンコードするMLPエンコーダをそれぞれ用意し、大量のペアをcontrastive learningで事前学習することで、テキストとオーディオ間を同じ空間に写像し、類似度を測れるようにしたモデル。zero-shotでaudio分類などが可能。




Paper/Blog Link My Issue
#ComputerVision #Transformer #Self-SupervisedLearning #CVPR #Selected Papers/Blogs #Encoder #Backbone #One-Line Notes #AutoEncoder #2D Reconstruction Issue Date: 2026-04-29 GPT Summary- MAEは、入力画像のランダムなパッチをマスクし、欠損部分を再構成するシンプルな自己教師付き学習モデルである。非対称のエンコーダ-デコーダ構造を用い、エンコーダは可視パッチのみを処理。75%をマスクすることで、非自明な自己教師付きタスクを生み出し、高速かつ効果的なモデル訓練を実現。一般化性能に優れ、ViT-HugeモデルがImageNet-1Kデータで最高精度(87.8%)を達成し、転移性能も監督付き事前学習を上回る。 Comment

元ポスト:

Loading…

AutoEncoderを通じてMaskされたパッチを再構築できるように学習する(25%のパッチから予測する)ことで、(decoderを排除した場合に)downstream taskで良い性能を発揮するViTエンコーダを学習する。デコーダのパラメータ数は意図的に小さくし、Encoder側で特徴がきちんと学習されるように誘導する。




Paper/Blog Link My Issue
#NLP #LanguageModel #OpenWeight #OpenSource #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-03-31 GPT Summary- 大規模言語モデル(LLMs)を使い、新しいタスクを少ないデモや指示で実行可能にしたBLOOMを紹介。これは1760億パラメータのオープンアクセス言語モデルで、46の自然言語と13のプログラミング言語をカバー。競争力のある性能を発揮し、マルチタスクのファインチューニングを通じてさらに向上。モデルとコードは責任あるAIライセンスで公開し、今後の研究と応用の促進を目指す。 Comment

HF: https://huggingface.co/bigscience/bloom

透明性を持ったLLMを構築し民主化を図る方向性のパイオニア的研究




Paper/Blog Link My Issue
#ComputerVision #FoundationModel #4D (Video) #One-Line Notes #VideoActionModel Issue Date: 2026-02-27 GPT Summary- オンラインのラベルなし動画を用いた半教師付き模倣学習により、逐次決定領域へインターネット規模の事前学習を拡張。逆ダイナミクスモデルを利用して、少量のラベル付きデータから一般的な行動知識を獲得。これにより、模倣学習と強化学習でのファインチューニングが可能となり、困難な探索課題に対するゼロショット能力を示す。初めて、ダイヤモンドの道具を作成できるコンピュータエージェントが報告され、人間レベルの性能を実現。 Comment

Inverse Dynamics Model (IDM)

observationによる状態の変化が、どのアクションによって引き起こされたかを推定するモデル(Inverse Dynamics Model)を学習し(すべてのobservationのtrajectoryから時刻tでのアクションを予測するモデル)アクション-状態遷移のダイナミクスの知識を理解したモデルを学習。その後大量のunlabeled dataに対してIDM Modelによって、アクションをラベル付けし、当該アクションラベルを教師として、Forward Dynamics Model (時刻tまでの状態遷移が与えられた時に次にどのようなアクションが実施されるかを予測するモデル)を学習することで事前学習をする手法な模様。




Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal #NeurIPS #Selected Papers/Blogs #VisionLanguageModel #ImageToTextGeneration Issue Date: 2026-02-06 GPT Summary- 視覚と言語を融合したモデル「Flamingo」は、少数の注釈付き例で新たなタスクに迅速に適応可能。強力な視覚および言語モデルを組み合わせ、シーケンスとして視覚データとテキストを交互に処理し、画像や動画を取り込む柔軟性を持つ。徹底評価により、視覚的質問応答やキャプション作成など多様なタスクへの迅速な適応が確認され、少数ショット学習で新たな最先端を達成した。Flamingoは、多くのベンチマークでファインチューニングモデルを上回る性能を示した。 Comment

openreview: https://openreview.net/forum?id=EbMuimAbPbs




Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #MultiModal #ICML #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2026-02-06 GPT Summary- 視覚と言語の理解と生成両方に対応する新しいVLPフレームワーク、BLIPを提案。BLIPは、合成キャプション生成とノイズ除去を用いてウェブデータを活用し、視覚と言語タスクで最先端の性能を達成。ゼロショット転送にも優れた一般化能力を示し、幅広いタスクにおいて成果を上げる。 Comment

元ポスト:

Loading…

以下の3つを組み合わせることで、生成・理解両方のタスクの性能を向上した現在のVLMにつながる内容研究(CLIPは理解に特化していた):
- CLIP likeなimage-captionにおけるconstrastive loss (ITC)
- image-caption matchを二値分類するloss (ITC)
- caption生成におけるnext token prediction loss (LM)

データをクリーンにしさらに性能を改善する方法も提案されている。

日本語解説:
https://yuiga.dev/blog/posts/blip_bootstrapping_language-image_pre-training_for_unified_vision-language_understanding_and_generation/




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Transformer #ACL #Encoder #Decoder Issue Date: 2025-12-11 GPT Summary- bert2BERTは、既存の小規模事前学習モデルの知識を大規模モデルに転送し、事前学習効率を向上させる手法。二段階の事前学習を提案し、トレーニングコストを大幅に削減。BERT_BASEとGPT_BASEの事前学習で約45%および47%の計算コストを節約。

Paper/Blog Link My Issue
#NLP #LanguageModel #ACL #Selected Papers/Blogs #Deduplication Issue Date: 2025-09-04 GPT Summary- 既存の言語モデルデータセットには重複した例が多く含まれ、訓練されたモデルの出力の1%以上が訓練データからコピーされている。これを解決するために、重複排除ツールを開発し、C4データセットからは60,000回以上繰り返される文を削除。重複を排除することで、モデルの記憶されたテキスト出力を10倍減少させ、精度を維持しつつ訓練ステップを削減。また、訓練とテストの重複を減らし、より正確な評価を実現。研究の再現とコードは公開されている。 Comment

下記スライドのp.9にまとめが記述されている:
https://speakerdeck.com/takase/snlp2023-beyond-neural-scaling-laws?slide=9




Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #NeurIPS #Scaling Laws #Deduplication Issue Date: 2025-09-04 GPT Summary- データセットサイズに対する誤差のスケーリングを研究し、高品質なデータプルーニングメトリックを用いることで誤差を指数スケーリングに減少させる可能性を示す。CIFAR-10、SVHN、ImageNetでの実験により、冪法則スケーリングを超える改善を確認。ImageNetにおける10種類のデータプルーニングメトリックのベンチマークを実施し、従来のメトリックに代わる新しい自己教師ありプルーニングメトリックを開発。良好なデータプルーニングメトリックがニューラルスケーリング法則の改善とリソースコスト削減に寄与する可能性を示唆。 Comment

openreview: https://openreview.net/forum?id=UmvSlP-PyV

日本語解説スライド: https://speakerdeck.com/takase/snlp2023-beyond-neural-scaling-laws




Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #MultiModal #CLIP #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-05-06 GPT Summary- LAION-5Bは、5.85億のCLIPフィルタリングされた画像-テキストペアから成る大規模データセットで、英語のペアが2.32B含まれています。このデータセットは、CLIPやGLIDEなどのモデルの再現とファインチューニングに利用され、マルチモーダルモデルの研究を民主化します。また、データ探索やサブセット生成のためのインターフェースや、コンテンツ検出のためのスコアも提供されます。 Comment

openreview: https://openreview.net/forum?id=M3Y74vmsMcY




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Transformer #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #JMLR Issue Date: 2025-02-11 GPT Summary- Switch Transformerを提案し、Mixture of Experts (MoE)の複雑さや通信コスト、トレーニングの不安定性を改善。これにより、低精度フォーマットでの大規模スパースモデルのトレーニングが可能になり、最大7倍の事前トレーニング速度向上を実現。さらに、1兆パラメータのモデルを事前トレーニングし、T5-XXLモデルに対して4倍の速度向上を達成。

Paper/Blog Link My Issue
#ICLR Issue Date: 2025-01-06 GPT Summary- 大規模言語モデル(LMs)の知識が陳腐化する問題に対処するため、「継続的知識学習(CKL)」という新しい継続的学習問題を定式化。CKLでは、時間不変の知識の保持、陳腐化した知識の更新、新しい知識の獲得を定量化するためのベンチマークとメトリックを構築。実験により、CKLが独自の課題を示し、知識を信頼性高く保持し学習するためにはパラメータの拡張が必要であることが明らかに。ベンチマークデータセットやコードは公開されている。

Paper/Blog Link My Issue
#MachineLearning #Self-SupervisedLearning Issue Date: 2023-07-22 GPT Summary- 共有埋め込み自己教示学習(JE-SSL)は、成功の視覚的な手がかりが欠如しているため、展開が困難である。本研究では、JE-SSL表現の品質を評価するための非教示基準であるRankMeを開発した。RankMeはラベルを必要とせず、ハイパーパラメータの調整も不要である。徹底的な実験により、RankMeが最終パフォーマンスのほとんど減少なしにハイパーパラメータの選択に使用できることを示した。RankMeはJE-SSLの展開を容易にすることが期待される。

Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #TabularData #One-Line Notes Issue Date: 2022-12-01 GPT Summary- 深層学習モデルは、GBDTと競争できるものの、事前学習手法の有効性や選択基準は明確でない。本研究では、表形式データに対する深層学習モデルの事前学習のベストプラクティスを特定し、ターゲットラベルを活用することが性能向上に寄与することを示した。適切な事前学習により、深層学習モデルはGBDTをしばしば上回る。 Comment

Tabular Dataを利用した場合にKaggleなどでDeepなモデルがGBDT等に勝てないことが知られているが、GBDT等とcomparable になる性能になるようなpre-trainingを提案したよ、的な内容っぽい

ICLR 2023 OpenReview: https://openreview.net/forum?id=kjPLodRa0n




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Transformer #NeurIPS #read-later #HyperparameterTransfer #One-Line Notes Issue Date: 2025-08-28 GPT Summary- ハイパーパラメータチューニングは高コストであり、特に大規模なニューラルネットワークにおいて負担が大きい。新たに提案するmuTransferは、最大更新パラメータ化(muP)を利用し、小さなモデルでチューニングしたHPをフルサイズモデルにゼロショットで転送する手法である。実験により、1300万パラメータのモデルからBERT-largeを超える性能を達成し、4000万パラメータからはGPT-3を上回る結果を得た。チューニングコストはそれぞれ事前学習コストの同等または7%に抑えられた。 Comment

openreview: https://openreview.net/forum?id=Bx6qKuBM2AD

小規模なモデルに対してハイパーパラメータのチューニングを実施し、同様のベースモデルで、**各layerのwidthが大きいもの**に対しても、小規模モデルで最適であったハイパーパラメータをzero-shotで転移することで near optimalなハイパーパラメータで学習できるmu Transferを提案。

モデルの深さ(以外にも下表中の*印のパラメータ)に対しても限定的に転移可能な模様。Post-Layer NormのTransformerやではあまりうまくいかないことが11節に記述されている(実験はpre-Layer Norm Transformer, ResNetに対して行われている模様)。
また、6.1節では、(実験的に)利用する小規模モデルのスケールとして幅256, 深さ4, バッチサイズ32, sequence長128, 訓練ステップ数5000を最低満たしており、かつスケールさせる幅が妥当な範囲内である必要がある、といった話が記述されている。

前提知識(muP)や条件が多そうな気がするので、しっかり確認した方がよさそう。
たとえば、muPで初期化されている必要があることや、転送可能なハイパーパラメータに限りがある(e.g. 学習率)、異なるデータに対するfinetuningなどは転送できないなど。


image

muP:
- [Paper Note] Feature Learning in Infinite-Width Neural Networks, Greg Yang+, ICML'21




Paper/Blog Link My Issue
#ComputerVision #Transformer #Architecture #Backbone Issue Date: 2025-07-19 GPT Summary- 本論文では、大規模ビジョンモデルのトレーニングと応用における課題に対処するための3つの技術を提案。具体的には、トレーニングの安定性向上のための残差後正規化法、低解像度から高解像度への転送を可能にする位置バイアス法、ラベル付きデータの必要性を減少させる自己教師あり学習法を用いる。これにより、30億パラメータのSwin Transformer V2モデルをトレーニングし、複数のビジョンタスクで新記録を樹立。トレーニング効率も向上し、ラベル付きデータと時間を大幅に削減。

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #NLP #LanguageModel #Transformer #MultiModal Issue Date: 2023-08-22 GPT Summary- VLP(Vision-and-Language Pre-training)のアプローチは、ビジョンと言語のタスクでのパフォーマンスを向上させているが、現在の方法は効率性と表現力の面で問題がある。そこで、本研究では畳み込みフリーのビジョンと言語のトランスフォーマ(ViLT)モデルを提案する。ViLTは高速でありながら競争力のあるパフォーマンスを示し、コードと事前学習済みの重みはGitHubで利用可能である。 Comment

日本語解説: https://tech.fusic.co.jp/posts/2021-12-29-vilt/




Paper/Blog Link My Issue
#NeuralNetwork #NLP #TransferLearning #PostTraining #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-05-12 GPT Summary- 転移学習はNLPにおいて強力な技術であり、本論文ではテキストをテキストに変換する統一フレームワークを提案。事前学習の目的やアーキテクチャを比較し、最先端の結果を達成。データセットやモデル、コードを公開し、今後の研究を促進する。 Comment

T5もメモっていなかったので今更ながら追加。全てのNLPタスクをテキスト系列からテキスト系列へ変換するタスクとみなし、Encoder-DecoderのTransformerを大規模コーパスを用いて事前学習をし、downstreamタスクにfinetuningを通じて転移する。

個人的に、Transformer-decoderのスケーラビリティのみならず、T5全てのタスクをテキスト系列の変換とみなす考え方が、現在のLLMの基盤となっていると感じている。




Paper/Blog Link My Issue
#NeuralNetwork #Unsupervised #NLP #EMNLP #Encoder-Decoder #KeyPoint Notes Issue Date: 2017-12-31 GPT Summary- 本研究では、seq2seqモデルの精度向上のために、事前学習済みの言語モデルの重みでエンコーダとデコーダを初期化し、ラベル付きデータでファインチューニングする教師なし学習手法を提案。機械翻訳や抽象的要約のベンチマークで性能が大幅に向上し、特にWMT英語→ドイツ語タスクで最先端の結果を達成。BLEUスコアで1.3の改善を記録し、抽象的要約においても教師あり学習のベースラインを有意に上回った。 Comment

seq2seqにおいてweightのpretrainingを行う手法を提案

seq2seqでは訓練データが小さいとoverfittingしやすいという弱点があるので、大規模なデータでunsupervisedにpretrainingし、その後目的のデータでfinetuneすることで精度を向上させましょう、というお話。

WMTの翻訳タスクにおいて、1.3ポイント BLEUスコアが改善、abstractive summarizationでも実験したが、精度は向上せず。しかしながら要約ではpretrainingによってrepetitionが減少したと主張。



encoder, decoderそれぞれを切り離して考えると、それぞれ言語モデルとみなすことができるため(encoderにはoutput-layerを追加)、それぞれの言語モデルを独立に大規模なラベルなしデータでpretrainingする。

fine-tuneする際は、targetデータだけでなく、pretrainingする際のデータも同時に学習を続ける(LM Objective)

LM Objectiveは、target側のobjective functionにpretraining側のobjective functionの項を重み付きで追加したもの。



Abltion studyによると、MTにおいてはsoftmax-layerをpretrainingすることが重要。softmax-layerのpretrainingをablationするとBLEUスコアが1.6ポイント減少。

LM objectiveをなくすと、pretrainingの効果がほとんどなくなる(BLEUスコア-2.0ポイント)。

sumarizationにおいては、embeddingのpretrainingが大幅なROUGEスコアの改善を見せた。また、MTと異なり、encoder側のpretrainingがスコア向上に寄与。



LM Objectiveは結構使えそうな印象




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #SSM (StateSpaceModel) #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #Reference Collection #LowPrecision #LinearAttention #Author Thread-Post Issue Date: 2026-06-05 Comment

元ポスト:

Loading…

アーキテクチャ解説:

Loading…


Mamba2 layer, Latent MoE, GQA

ポイント解説:

Loading…

HF: https://huggingface.co/collections/nvidia/nvidia-nemotron-v3

所見:

Loading…

所見:

Loading…




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #SyntheticData #Blog #Reasoning #Safety #Selected Papers/Blogs #Initial Impression Notes #Author Thread-Post Issue Date: 2026-05-25 Comment

元ポスト:

Loading…

**事前学習の時点で**Harmful/良性/ニュートラルな文書にReflectionに関するassistantの思考過程(何が間違っていて/間違っていなくて、それはなぜか)をappendすることで、道徳的に推論することを学ぶ。




Paper/Blog Link My Issue
#Article #Tutorial #ComputerVision #Transformer #MultiModal #ContrastiveLearning #Video #read-later #VisionLanguageModel #Backbone Issue Date: 2026-05-21 Comment

関連:
- [Paper Note] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, Alexey Dosovitskiy+, ICLR'21
- [Paper Note] Sigmoid Loss for Language Image Pre-Training, Xiaohua Zhai+, ICCV'23
- [Paper Note] PaliGemma: A versatile 3B VLM for transfer, Lucas Beyer+, arXiv'24, 2024.07

元ポスト:

Loading…




Paper/Blog Link My Issue
#Article #FoundationModel #Blog #Generalization #Robotics #VisionLanguageActionModel #EmbodiedAI #Scalability #EmergentAbilities #Initial Impression Notes Issue Date: 2026-04-05 Comment

元ポスト:

Loading…

シンプルなタスクにおいて99%の成功率を測り、従来」りも3倍高速で、臨機応変に(1時間未満の当該ロボットのデータによるチューニングを経て)対応可能なモデルを開発し、それはスケーリング則の恩恵に預かれるような効率的な事前学習モデルに基づいています、といった話らしい?

関連:
- GEN-0 / Embodied Foundation Models That Scale with Physical Interaction, Generalist AI Team, 2025.11

ざーっと読んでみたが、事前学習に関する細かな話は記述されていないように見え、どちらかというとmasteryに関する定義や関連するmetiicについての言及や、それがGEN-0と比較して今回どの程度改善したのか、といったマーケティングメッセージが多いように感じた。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #OpenWeight #Japanese #OpenSource #mid-training #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-04-03 Comment

8BモデルはLlama-2アーキテクチャ、32B-A3.8BモデルはQwen3-MoEアーキテクチャで、フルスクラッチ学習をすることで実現[^1]。

19.5Tトークン(概算として、日本語0.7Tトークン、英語17.8Tトークン、中国語・韓国語0.85Tトークン、プログラムコード0.2Tトークン)のインターネット上の公開データや政府・国会の文書を収集し(LLM-jp-3.1のデータの6倍の規模)し事前学習データを構築、DataMixtureを最適化し10.5Tトークンを事前学習で利用。

中間学習では、事前学習データにInstruction Pretraining[^2]データを含む合成データを加え1.2Tトークンを利用。

その後最終的にInstruction Tuningを、日本語、英語合計22種類のデータで実施(元記事ではチューニングと呼称されているがおそらくInstruction Tuningだと思われる)。

MTBenchでは、GPT-4o, gpt-oss-20B, Qwen3-8Bと同等以上の性能、日本語MTBench[^3]では、GPT-4o, gpt-oss-20B, Qwen3-8Bを上回る性能とのこと。MTBenchで用いるLLM-as-a-JudgeのモデルとしてはGPT-5.4を利用とのこと。

[^1]: つまり、モデルのパラメータは完全に新規で学習されており、ベースとして既存OpenWeightモデルを利用していない点に注意。
[^2]: Instruction Pretrainingは、LLM-jp-3.1の頃から実施されている:
LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05
[Paper Note] Instruction Pre-Training: Language Models are Supervised Multitask Learners, Daixuan Cheng+, arXiv'24, 2024.06
[^3]: MT-Benchの概要については
[Paper Note] Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena, Lianmin Zheng+, NeurIPS'23, 2023.06 も参照のこと。

フルスクラッチモデル点に関する説明:

Loading…

HF: https://huggingface.co/collections/llm-jp/llm-jp-4-models

Reasoningモデルもある!!!

関連:
- PLaMo 3.0 Prime β版, PFN, 2026.03

上記PLaMo 3.0に続いて、国内でのフルスクラッチReasoningモデルは二例目だろうか。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #OpenWeight #OpenSource #Selected Papers/Blogs Issue Date: 2026-03-29 Comment

github: https://github.com/marin-community/marin

issueのExperimentsが興味深い

関連:
- Marin 32B Retrospective, marin-community, 2025.10

Marin projectのアナウンスをメモっていなかったので今更ながらメモ

- open-weight, open-sourceを超えて、LLMのopen-developmentを実現するための完全な透明性を持ったopen lab

image

- すべての実験はgithub issueで管理され公開される
- marinのコードベースを使い誰でも実験をコード中に記述しpull repuestを送れ、誰でもレビューできる
- プルリクが承認されると実験が実際に実行され、誰でもWandB上の経過をリアルタイムで観察できる

Delphi[^1]の実験において、25Bパラメータモデルがweight decayフェーズに突入し、Marin-32Bでは以前はweight decayフェーズでloss spikeが頻発したが、Delphiでは安定していそうな見込み、という話がポストされている:

Loading…


[^1]: 現代版のPythiaを構築しましょうという話で、Pythiaのモデルパラメータを70Bまでスケールアップし、学習に用いるトークン数もチンチラ則従いモデルサイズに応じてスケールアップ、The PileデータなどのデータセットをNemotron-CCなどのlarge scaleモデル用のデータセットに置換する、といった話が含まれる。Marin Issue 1337を参照のこと。

129B-A16Bの学習を開始したとのこと:

Loading…




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SyntheticData #read-later #Selected Papers/Blogs #KeyPoint Notes #Reading Reflections Issue Date: 2026-03-17 Comment

元ポスト:

Loading…

- インターネットのデータ枯渇問題が指摘されながらも、合成データによって事前学習は進化を続けている
- LLMは事後学習で性能を向上させられるが、事前学習時点で伸ばせる上限が決まっているとされている
- 事前学習データの投入量はChinchilla則のパラメータ量の20倍から現在は60倍まで増加
- MoEは過学習しやすくパラメータ数の40倍は必要
- 学習データの多様性が重要で繰り返し同じデータを見ても性能は改善しない
- 合成データをそのまま用いるとmode collapseが生じ出力が単調化するため、実データを混ぜるか言い換えをしたデータで是正する(弱めのdata augmentationで良い)
- 最近重要な合成データはコードと推論過程を含むデータで、これらが事前学習データに含まれていると汎用な表現、思考能力、推論能力を事前学習時点から獲得できる可能性がある

というような話が元ポストに書かれている。

- [Paper Note] Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23

のようにrepetitionは4回までが効果的といった知見が報告されているが、現在はどこまで当てはまるのだろうか?

後ほど関連するissueのリンクを貼りたい

うーんおもしろそう、p.15, p.20, p.26, p.28, p.35, p.36 あたりが気になる。

てかこれが大学の講義...?楽しすぎでは。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SyntheticData #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-03-10 Comment

12.7 GPU yearを使い、90回の実験、1 Trillion tokenの生成を経て見つけた、合成事前学習データの構築方法のbest recipeが紹介されている模様。先行研究を上回る学習効率を達成している。

image

元ポスト:

Loading…




Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #SpeechProcessing #Self-SupervisedLearning #read-later #2D (Image) #FlowMatching #4D (Video) #Omni #RectifiedFlow #audio Issue Date: 2026-03-10 Comment


backbone modelは下記のFLUX.2と呼ばれるモデル:
FLUX Commercial Licensing: https://bfl.ai/licensing

先行研究:
- The Simulation Company, Simile, 2026.02

先行研究から読みたい

元ポスト:

Loading…




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Attention #OpenWeight #mid-training #read-later #Selected Papers/Blogs #One-Line Notes #RecurrentModels #Hybrid #LinearAttention Issue Date: 2026-03-06 Comment

元ポスト:

Loading…

x1のFull Attention + x3のGated DeltaNetによるハイブリッドアーキテクチャで、75%のattentionをlinear attention (recurrent module)に置換。x3のSliding Window Attentionを用いているOlmo3と比較した結果
- 事前学習におけるデータ効率がより高く(約2倍)
- mid-training後の評価では、数学、コード、STEM, non-STEM, QA、long-contextなどの主要なドメインにおいてOlmo3と同と床それ以上の性能を達成。特に、long-contextにおけるベンチマでは大幅な性能向上(Recurrentなアーキテクチャの恩恵)

関連:
- [Paper Note] Gated Delta Networks: Improving Mamba2 with Delta Rule, Songlin Yang+, ICLR'25, 2024.12

元ポスト:

Loading…

関連:

Loading…

所見:

Loading…




Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Japanese #mid-training #PostTraining #Selected Papers/Blogs #DataMixture #Initial Impression Notes Issue Date: 2026-02-27 Comment

元ポスト:

Loading…

関連:
- Qwen3-Swallow & GPT-OSS-Swallow, Kazuki Fujii, 2026.02

まだしっかり読めていないのだが、適切なDataMixtureはどのようにして決めているのだろうか?

- 数学データによる学習がコーディングにのみ転移
- 英語データを邦訳したデータが学習に寄与するためcross-lingualで能力が転移する
- RLはpass@1を改善するが、Pass@10などの改善幅は縮小する
- この辺の話は資料中でも先行研究が引用されており、実際に確認されたということだと思われる
...




Paper/Blog Link My Issue
#Article #ComputerVision #FoundationModel #DiffusionModel #ComputerUse #4D (Video) #One-Line Notes #VideoActionModel Issue Date: 2026-02-27 Comment

元ポスト:

Loading…

公式ポスト:

Loading…

関連:
- [Paper Note] Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos, Bowen Baker+, arXiv'22, 2022.06

Training Recipeの部分を読むと、上記研究で提案されているVideo PreTrainingと同じ手法を用いているように見える。
つまり、Inverse Dynamics Modelを学習し、大量のvideoデータに対してアクションラベルを付与し、付与されたアクションラベルを用いて半教師あり学習によるnext action predictionを実施することによって基盤モデルを学習する、というアプローチ。

この基盤モデルによってたとえば1時間のサンフランシスコをdrivingしている動画によってfinetuningすることで、自動運転をするようなモデルが学習できる、といったことが実現可能な模様。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #Japanese #mid-training #PostTraining #read-later #RLVR #Selected Papers/Blogs Issue Date: 2026-02-21 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Accelerating Large Language Model Training with 4D Parallelism and Memory Consumption Estimator, Kazuki Fujii+, arXiv'24, 2024.11
- FP8 trainingを支える技術 1, Kazuki Fujii, 2026.02




Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #Post #Robotics #WorldModels #One-Line Notes Issue Date: 2026-02-05 Comment

事前学習がnext word predictionから過去の行動と状態によって条件付けられ次の(ある期間の)世界の状態を予測するワールドモデリング(next physical state prediction)へのパラダイムシフトの予想(というよりこのパラダイムシフトの真っ只中にいる)。人間の脳が処理する情報の多くは視覚であり、言語的な領域は部分的なことであることや、猿は言語的な能力が低くても視覚や運動、触覚などの感覚的情報から世界の物理法則を理解し知的なアクションをとるメンタルモデルを確立していることなどを引き合いに説明している。




Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #OpenWeight #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #Stability #One-Line Notes #Reference Collection #Sparse #Initial Impression Notes Issue Date: 2026-01-29 Comment

テクニカルレポート: https://github.com/arcee-ai/trinity-large-tech-report/
HF: https://huggingface.co/arcee-ai

GLM4.7やDeepSeekV3と比較してスループットやTTFTが二倍以上。

非常にsparseなMoE(400B-A13B, 4/256のexpertsにルーティング)であるため学習を安定させるためにDense layerを増やし、モメンタムを考慮したexpertのバランシングや、z-lossと呼ばれるlogitのスケールをコントロールするような手法を導入することで安定した学習を実現。2048 Nvidia B300 GPUsで、17Tトークンの事前学習33日で完了

元ポスト:

Loading…

これほどsparseなMoEをここまで安定させて学習できるのは非常に興味深いと思われる。

インタビュー:

Loading…


やると決めてチームビルディングも含めて非常に短期間(6ヶ月)で達成したとのことだが、気になる。

解説:

Loading…

所見(風刺):

Loading…

ポイント解説:

Loading…

アーキテクチャ解説:

Loading…




Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #MoE(Mixture-of-Experts) #read-later #VisionLanguageModel #Routing #Sparse #Initial Impression Notes Issue Date: 2026-01-23 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning, Lili Yu+, arXiv'23

MoEがトークン単位でactivateするweightをサブセットにするweight sparcityによって効率化を実現する手法とみなしたときに、それぞれのinputに情報量の濃淡があることから現在のトークンごとにweightを割り当てるのではなく、weightごとにトークンを割り当てるというもう一つの軸を考えることができ(=Data Sparcity)、これをweightごとにトークンのsubsetしか持たないような実現方法をとるとcontextが損なわれauto-regressiveの前提が崩れるためtrain-inference-mismatchが生じるので、null experts(受け取ったトークンに対して何もしない)を実装して実現するみたいな話のように見えるが全くまだ読めていない。




Paper/Blog Link My Issue
#Article #NeuralNetwork #EfficiencyImprovement #NLP #LanguageModel #Optimizer #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-01-22 Comment

元ポスト:

Loading…

シンプルな手法で、先行研究によってモデルのパラメータサイズやデータのスケールが大きくなるとMuonのような行列ベースのoptimiserの高速化の恩恵が小さくなる現象を改善しているとのこと。

具体的には、重みを更新する際にweight decayのようなソフトにweightのノルムをコントロールするような仕組みを入れるのではなく、optimiserの重みに対する更新量と、更新後のネットワークの重みをフロベニウスノルムで正規化し、最適化の軌跡を半径Rの超球面の表面上に位置するように明示的に制約する(ここで、Rは最初の重み行列のフロベニウスノルム)。Muonを含む様々なoptimiserでも機能して学習効率を高めるため、インパクトの大きな重要研究に見える。

関連(concurrent works):
- [Paper Note] Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models, Yonggan Fu+, arXiv'25, 2025.11
- [Paper Note] Controlled LLM Training on Spectral Sphere, Tian Xie+, arXiv'26, 2026.01

関連:
- [Paper Note] Fantastic Pretraining Optimizers and Where to Find Them, Kaiyue Wen+, ICLR'26, 2025.09




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SyntheticData #Post #Selected Papers/Blogs #DataMixture #PhaseTransition Issue Date: 2026-01-07 Comment

関連(4-epochまで再利用するのがコスパが良いことを示した研究):
- [Paper Note] Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23

関連(合成データの比率によるPhaseTransition):
- [Paper Note] Data Mixing Can Induce Phase Transitions in Knowledge Acquisition, Xinran Gu+, NeurIPS'25 Spotlight, 2025.05
- [Paper Note] Demystifying Synthetic Data in LLM Pre-training: A Systematic Study of Scaling Laws, Benefits, and Pitfalls, Feiyang Kang+, EMNLP'25, 2025.10
- [Paper Note] Why Less is More (Sometimes): A Theory of Data Curation, Elvis Dohmatob+, arXiv'25, 2025.11




Paper/Blog Link My Issue
#Article #FoundationModel #Selected Papers/Blogs #DataMixture #Robotics #VisionLanguageActionModel #4D (Video) #EmbodiedAI #KeyPoint Notes #EmergentAbilities #EgocentricView #DomainGap #Author Thread-Post Issue Date: 2025-12-18 Comment

元ポスト:

Loading…

pi_0.5と呼ばれる基盤モデルのfinetuningにおいてロボット用の学習データに追加して人間のegocentricなvideoをmixtureするだけで創発現象が生じ、人間の動画側にしか存在しない4種類のgeneralizationが必要なシナリオにおいて2倍の性能を示した。そしてこの傾向は、事前学習における基盤モデルのサイズをスケールさせる、ロボットのデータをより多く投入することでより顕著となった。
image

人間とロボットの特徴量を2D plotした散布図を見ると、事前学習で利用するロボットの学習データ(事前学習時点では人間の動画は含まれないことに注意)をスケールさせると、両者の特徴量が重なるようになったので、human-robotのalignmentをモデルが獲得していることが示唆される。
これにより、今後VLAを学習する際に、domain gapを埋めるための特別な処理が不要となる可能性がある、といった話らしい。

これが真だとすると、たとえば以下のように、人間のegocentric viewデータを大量に保有したところが有利にはなりそうではある。
- Interactive Intelligence from Human Xperience, Ropedia, 2025.12




Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #TabularData #Mathematics #MultiLingual #DataFiltering #One-Line Notes Issue Date: 2025-10-22 Comment

元ポスト:

Loading…

2023年時点で公開されたWikipediaデータをさらに洗練させたデータセット。文字のレンダリング、数式、latex、テーブルの保持(従来は捨てられてしまうことが多いとのこと)、記事に関係のないコンテンツのフィルタリング、infoboxを本文から分離してメタデータとして保持するなどの、地道な前処理をして洗練化させたとのこと。




Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #ChatGPT #Repository #mid-training #GRPO #read-later #Selected Papers/Blogs #Inference #MinimalCode #KV Cache Issue Date: 2025-10-22 Comment

元ポスト:

Loading…

新たなスピードランが...!!

FP8で記録更新とのこと:

Loading…

nano chatの過去の改善のポイントまとめ:

Loading…

nanochatにおいてKarpathy氏がAIによる自動改善をするエージェントをセットアップしたところ、12時間で110の変更が加わり、ValLossを0.864215から0.85039まで改善しているとのこと。

Loading…


現在の最高性能は2時間で0.71854なのでまだまだ及んでいないが、このまま回しておいたらどこまで改善するだろうか?

ポストに本人が返信をしているが、Karpathy氏の関心は、どのハーネスがnanochatに最も大きな改善をもたらすか、という点らしい。




Paper/Blog Link My Issue
#Article #MachineLearning #NLP #LanguageModel #ReinforcementLearning #AIAgents #In-ContextLearning #Blog #RewardHacking #PostTraining #Diversity #Selected Papers/Blogs #PRM #Generalization #Cultural #Emotion #ContinualLearning Issue Date: 2025-10-20 Comment

元ポスト:

Loading…

関連:
- In-context Steerbility: [Paper Note] Spectrum Tuning: Post-Training for Distributional Coverage and In-Context Steerability, Taylor Sorensen+, arXiv'25, 2025.10

(整理すると楽しそうなので後で関連しそうな研究を他にもまとめる)

とても勉強になる!AIに代替されない20%, 1%になるには果たして

所見:

Loading…




Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #SyntheticData #Blog Issue Date: 2025-09-13 Comment

cosmopedia dataset: https://huggingface.co/datasets/HuggingFaceTB/cosmopedia

大部分を合成データで学習したPhi-1.5([Paper Note] Textbooks Are All You Need II: phi-1.5 technical report, Yuanzhi Li+, arXiv'23, 2023.09 )のデータ合成のレシピの詳細は明かされておらず、学習データ自体も公開されていないことを受け、事前学習で利用可能な数百Mサンプルの合成データを生成するレシピはなんなのか?を探った話。

最終的に、30Mのpromptをprompt engineeringをMixtral-8x7B-Instruct-v0.1を通じて作成し、高品質なpretrainingのための広範なトピックの文書群を作成。合成された内容の重複は1%未満。

Phi-1.5の論文の記述に基づくと、20k topicsをseedとし新たなsynthetic dataを作成、web sampleを活用して多様性を担保した、という記述がある。これに基づくと、仮に1ファイルの長さを1000 tokenであると仮定すると、20Mのpromptが活用されたことになる。しかしながら、web sampleを組み合わせる方法と、多様性を増やす方法がクリアではなかった。

Cosmopediaのアプローチとしては、2つのアプローチがある。まず curated educational sources (Khan Academy, OpenStax, WikiHow, Stanford courses)を利用する方法で、これらの全てのユニットを合計しても260k程度であった。これでは到底20Mには届かないため、生成する文書の `style` と `audience` に幅を持たせることで、promptの数を増やした。
具体的には、styleとして、academic textbook / blog post / wikihow articles の3種類、audienceとして young children / high school students / college students / researchers の4種類を用意した。このとき、単にprompt中で特定のaudience/styleで記述するよう指示をしても、同じような内容しか出力されない課題があったため、prompt engineeringによって、より具体的な指示を加えることで解決(Figure3)。

続いてのアプローチはweb dataを活用するアプローチで、収集されたweb samplesを145のクラスタに分類し、各クラスタごとに10個のランダムなサンプルを抽出し、Mixtralにサンプルから共通のトピックを抽出させることでクラスタのトピックを得る。
その後不適切なトピックは除外(e.g., アダルトコンテンツ, ゴシップ等)。その後、クラスタのweb sampleとトピックの双方をpromptに与えて関連するtextbookを生成させるpromptを作成 (Figure 4)。このとき、トピックラベルの生成がうまくいっていない可能性も考慮し、トピックをgivenにしないpromptも用意した。最終的にこれにより23Mのpromptを得た。また、scientificな内容を増やすために、AutoMathText (数学に関して収集されたデータセット)も加えた。

上記promptで合成したデータでモデルを学習したところ、モデルにcommon senseやgrade school educationにおける典型的な知識が欠けていることが判明したため、UltraChatやOpenHermes2.5から日常に関するストーリーを抽出してseed dataに加えた。

下記が最終的なseed-data/format/audienceの分布となる。seed-dataの大部分はweb-dataであることがわかる。
image

最終的に合成データのうち、10-gram overlapに基づいて、contaminationの疑いがある合成データを抽出。ベンチマークデータのうち、50%のsub-stringとマッチした文書は除外することでdecontaminationを実施。
下表がdecontaminationの結果で、()内の数字がユニーク数。decontaminationをしなければこれらが学習データに混入し、ベンチマーキング性能に下駄をはかせることになってしまっていたことになる。
image

1Bモデルを訓練した結果、半分程度のベンチマークでTinyLlama 1.1Bよりも高いスコアを達成。Qwen-1.5-1BやPhi-1.5に対しては全体としてスコアでは負けているように見える。このことより、より高品質な合成データ生成方法があることが示唆される。
image

以後、SmolLM構築の際にCosmopediaのpromptに挿入するサンプルをトピックごとにより適切に選択する(文書を合成するモデルをMixtralから他のモデルに変更してもあまり効果がなかったとのこと)などの改善を実施したCosmopedia v2が構築されている。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #DiffusionModel #Selected Papers/Blogs Issue Date: 2025-08-09 Comment

dLLMは学習データの繰り返しに強く、データ制約下においては十分な計算量を投入してepochを重ねると、性能向上がサチらずにARモデルを上回る。

image

- [Paper Note] Diffusion Beats Autoregressive in Data-Constrained Settings, Mihir Prabhudesai+, arXiv'25
- 追記: 上記研究の著者による本ポストで取り上げられたissueに対するclarification
  -

Loading…


でも同様の知見が得られている。
が、スレッド中で両者の違いが下記のように(x rollrng reviewなるものを用いて)ポストされており、興味がある場合は読むといいかも。(ところで、x rolling reviewとは、、?もしやLLMによる自動的な査読システム?)

image

- [Paper Note] Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23

において、ARモデルではrepetitionは4回までがコスパ良いという話と比べると、dLLMにとんでもない伸び代があるような話に見える。

(話が脱線します)
個人的にはアーキテクチャのさらなる進化は興味深いが、ユーザが不完全な質問をLLMに投げた時に、LLMがユーザの意図が「不明な部分のcontextを質問を返すことによって補う」という挙動があると嬉しい気がするのだが、そういった研究はないのだろうか。

ただ、事前学習時点でそういったデータが含まれて知識として吸収され、かつmid/post-trainingでそういった能力を引き出すと言う両軸で取り組まないと、最悪膨大な計算資源を投じたものの「わからない!どういうこと!?」と返し続けるLLMが完成し全く役に立たない、ということになりそうで怖い。

gpt5が出た時に、「3.9と3.11はどちらが大きいですか?」というクエリを投げた際にいまだに「3.11」と回答してくる、みたいなポストが印象的であり、これはLLMが悪いと言うより、ユーザ側が算数としての文脈できいているのか、ソフトウェアのバージョンの文脈できいているのか、を指定していないことが原因であり、上記の回答はソフトウェアのバージョニングという文脈では正答となる。LLMが省エネになって、ユーザのデータを蓄積しまくって、一人一人に対してあなただけのLLM〜みたいな時代がくれば少しは変わるのだろうが、それでもユーザがプロファイルとして蓄積した意図とは異なる意図で質問しなければならないという状況になると、上記のような意図の取り違えが生じるように思う。
なのでやはりりLLM側が情報が足りん〜と思ったら適切なturn数で、最大限の情報をユーザから引き出せるような逆質問を返すみたいな挙動、あるいは足りない情報があったときに、いくつかの候補を提示してユーザ側に提示させる(e.g., 算数の話?それともソフトウェアの話?みたいな)、といった挙動があると嬉しいなぁ、感。

んでそこの部分の性能は、もしやるな、promptingでもある程度は実現でき、それでも全然性能足りないよね?となった後に、事前学習、事後学習でより性能向上します、みたいな流れになるのかなぁ、と想像するなどした。

しかしこういう話をあまり見ないのはなぜだろう?私の観測範囲が狭すぎる or 私のアイデアがポンコツなのか、ベンチマーク競争になっていて、そこを向上させることに業界全体が注力してしまっているからなのか、はたまた裏ではやられているけど使い物にならないのか、全然わからん。

続報:
- Diffusion Language Models are Super Data Learners, Ni+, 2025.10

ポイント解説:

Loading…


dLLMはtoolcallを含む生成ができない、というのは確かにそうだと思った。




Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #Transformer #Repository #Optimizer #Selected Papers/Blogs #Decoder Issue Date: 2025-07-15 Comment

NanoGPT speedrun

関連:
- [Paper Note] The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements, Bingchen Zhao+, arXiv'25
- きみはNanoGPT speedrunを知っているか?, PredNext, 2025.07

MuonとAdamWのweight decayをHyperball optimizationに置き換えることで記録更新されたようである:

Loading…


Hyperball optimizationについては以下:
- Fantastic Pretraining Optimizers and Where to Find Them 2.1: Hyperball Optimization, Wen+, 2026.01

SOAP preconditioningをMuon直交化の前に加えることでSoTAとのこと。
関連:
- [Paper Note] SOAP: Improving and Stabilizing Shampoo using Adam, Nikhil Vyas+, ICLR'25

Loading…




Paper/Blog Link My Issue
#Article #Tutorial #NLP #Dataset #LanguageModel #Evaluation #Blog #OpenWeight #Japanese #PostTraining Issue Date: 2025-06-25 Comment

関連
- [Paper Note] Instruction Pre-Training: Language Models are Supervised Multitask Learners, Daixuan Cheng+, arXiv'24, 2024.06
- [Paper Note] Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data, Fahim Tajwar+, ICML'24
- [Paper Note] AnswerCarefully: A Dataset for Improving the Safety of Japanese LLM Output, Hisami Suzuki+, arXiv'25




Paper/Blog Link My Issue
#Article #ComputerVision #EfficiencyImprovement #NLP #LanguageModel #Transformer #Supervised-FineTuning (SFT) #MultiModal #Blog #SSM (StateSpaceModel) #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-03-24 Comment

関連:
- Hunyuan T1, Tencent, 2025.03

TransformerのSelf-attention LayerをMamba2 Layerに置換することで、様々なベンチマークで同等の性能、あるいは上回る性能で3倍程度のInference timeの高速化をしている(65536 input, 1024 output)。

56B程度のmediumサイズのモデルと、8B程度の軽量なモデルについて述べられている。特に、8BモデルでMambaとTransformerのハイブリッドモデルと、通常のTransformerモデルを比較している。学習データに15 Trillion Tokenを利用しており、このデータ量でのApple to Appleのアーキテクチャ間の比較は、現状では最も大規模なものとのこと。性能は多くのベンチマークでハイブリッドにしても同等、Commonsense Understandingでは上回っている。

また、学習したNemotron-Hをバックボーンモデルとして持つVLMについてもモデルのアーキテクチャが述べられている。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #AES(AutomatedEssayScoring) #Surface-level Notes Issue Date: 2024-11-28 Comment

SASでは回答データが限られているので、限られたデータからより効果的に学習をするために、事前に他のデータでモデルをpre-finetuningしておき、対象データが来たらpre-finetuningされたモデルをさらにfinetuningするアプローチを提案。ここで、prompt中にkeyphraseを含めることが有用であると考え、実験的に有効性を示している。

image

image



BERTでfinetuningをした場合は、key-phraseを含めた方が性能が高く、特にfinetuningのサンプル数が小さい場合にその差が顕著であった。

image



次に、LLM(swallow-8B, 70B)をpre-finetuningし、pre-finetuningを実施しない場合と比較することで、pre-finetuningがLLMのzero-shot、およびICL能力にどの程度影響を与えるかを検証した。検証の結果、pre-finetuningなしでは、そもそも10-shotにしてもQWKが非常に低かったのに対し、pre-finetuningによってzero-shotの能力が大幅に性能が向上した。一方、few-shotについては3-shotで性能が頭打ちになっているようにみえる。ここで、Table1のLLMでは、ターゲットとする問題のpromptでは一切finetuningされていないことに注意する(Unseenな問題)。

image



続いて、LLMをfinetuningした場合も検証。提案手法が高い性能を示し、200サンプル程度ある場合にHuman Scoreを上回っている(しかもBERTは200サンプルでサチったが、LLMはまだサチっていないように見える)。また、サンプル数がより小さい場合に、提案手法がより高いgainを得ていることがわかる。

image



また、個々の問題ごとにLLMをfinetuningするのは現実的に困難なので、個々の問題ごとにfinetuningした場合と、全ての問題をまとめてfinetuningした場合の性能差を比較したところ、まとめて学習しても性能は低下しない、どころか21問中18問で性能が向上した(LLMのマルチタスク学習の能力のおかげ)。

image

[Perplexity(hallucinationに注意)]( https://www.perplexity.ai/search/tian-fu-sitalun-wen-wodu-mi-ne-3_TrRyxTQJ.2Bm2fJLqvTQ#0)




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #OpenWeight #Japanese #One-Line Notes Issue Date: 2024-11-25 Comment

MoE Layerの説明、Sparse Upcyclingの説明、MoEモデルを学習する際に、学習時の学習率の設定が大きすぎると初期に損失が増大し、小さすぎると損失の増大は防げるがlong runで学習した際の性能向上が小さかったこと、元のモデルのパラメータを毀損しないように、Upcyclingをした元モデルの最終的な学習率を踏襲して学習をし、学習率をさらに減衰させていったこと、などが記載されている。

また、性能評価として同等のactivation parameter数を持つモデルと日本語のQAタスクで比較した結果も載っている。

- [Paper Note] Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints, Aran Komatsuzaki+, ICLR'23

MoE Layerについては
- [Paper Note] Mixtral of Experts, Albert Q. Jiang+, arXiv'24, 2024.01

も参照のこと




Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #Supervised-FineTuning (SFT) #One-Line Notes #Reference Collection Issue Date: 2024-11-07 Comment

ZeROの説明がわかりやすい

こちらの記事もわかりやすい

https://zenn.dev/turing_motors/articles/d00c46a79dc976

DeepSpeedのコンフィグの一覧

https://www.deepspeed.ai/docs/config-json/

transformersにおけるdeepspeedのドキュメント:
https://huggingface.co/transformers/v4.9.2/main_classes/deepspeed.html

参考: deepspeedの使い方まとめ
https://note.com/fukudawataru/n/n5152e6f587c8

ZeRO Stage3を使う場合、ページ後方にしれっととんでもなく重要なことが書いてあるので気をつけましょう。。。。

https://huggingface.co/docs/transformers/v4.17.0/en/main_classes/deepspeed#constructing-massive-models



image

ZeROはparameterとoptimizerのmemory footprintの最適化を頑張っていて、activation memory footprint(バッチをforward passに流す時に消費されるメモリ)の削減は、tiling, activation/gradient checkpointingとかで頑張ってねという



という話が本家issueの4047に記載されている。

結論: つまづいたらDeepSpeedのIssueをエラーメッセージで検索かけるのが一番効果的




Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Blog #KeyPoint Notes Issue Date: 2024-07-08 Comment

LLMの事前学習における知見がまとまっている記事とのこと

・Megatron LMで学習
 → 3D Parallelismなどの分散学習手法によりHF Trainerより高速
 → Data Parallelim、Tensor Parallelism、 Pipeline Parallelismを組み合わせたもの
・GPUメンテナンス、不良で学習が継続できなかった場合はcheckpointをロードして学習
・学習曲線が安定しているように見えるがSpikeは発生している。発生時はgradient normが急激に上昇する
・LlamaなどのLLMからの継続的事前学習ではなくfrom scratchから学習しているので透明性が高い
・Transformer engineを利用
・AdamWを利用
・attention dropout, hidden dropoutは0.0

>この際、 通信を多く必要とする分散手法のワーカー(Tensor Parallelワーカー)はノード内に配置するようにMegatron-LMのデフォルトではなっているため、今回もそれを利用しました。このようにする理由は、ノード内の通信はNVLinkにより、ノード間通信よりも高速であるためです。また、Data Parallelの勾配平均化のための通信を考慮して、Data Parallelワーカーも可能な限りノード内に配置するMegatron-LMデフォルトの挙動を利用しました。
Pipeline Parallelismは他の並列化手法と比較して通信量が少ないP2P(Point-to-Point)通信であるため、パイプラインステージはノード間で配置するようにしました。これも、Megatron-LMデフォルトの挙動です。

勉強になる

・通常のデータ並列はoptimizer stateをworker間で複製するので遅い。Deep Speed Zero 1のように分散して保有することで高速化
・Tensor Parallelでself attention, MLPの計算を並列化できる
・LayerNormalization, Dropoutの演算もメモリ効率の観点から並列化
・学習を安定させるためにz-lossを利用
・batch skippingとは、gradient clippingを行っていてもなおspikeが生じる場合に、100 step前に戻り、spikeが生じた付近のデータを数百iteration程度スキップすること