ModelMerge
[Paper Note] UI-Venus-1.5 Technical Report, Veuns-Team+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #NLP #ReinforcementLearning #AIAgents #mid-training #Off-Policy #On-Policy #VisionLanguageModel #One-Line Notes #Rubric-based #Initial Impression Notes #GUI Issue Date: 2026-02-12 GPT Summary- 統合型エンドツーエンドGUIエージェントUI-Venus-1.5を紹介。さまざまなアプリケーションに対応する2B、8B、および30B-A3Bのモデルバリアントを持ち、10億トークンを活用したMid-Training、オンライン強化学習、ドメイン固有モデルの統合を実施。評価においてScreenSpot-Pro、VenusBench-GD、AndroidWorldで新たな最先端パフォーマンスを達成し、中国のモバイルアプリでも効果的なナビゲーションを実現。 Comment
元ポスト:
Mid-training(navigation, grounding, reasoning, GUI-VQA, アイコンの認識等の精緻な認識能力)でGUIに関する知識を身につけさせ、オフラインRLで特定のタスクに特化した能力(grounding, navigation等)を向上し、オンラインRLで実シナリオでのエージェントのtrajectoryレベルでの能力を向上させる。これらのモデルはモバイルとwebでそれぞれ学習され、最終的にモデルマージを通じて単一のend-to-endにタスクを実現可能なエージェントを構築する。
コールドスタートの対策のためにSFTではなくオフポリシーRLを使っているのが特徴
下記研究において、SFTが各trajectoryがトークン単位で一致したときに1となるrewardを用いたRLと一致することが示されており、汎化能力に課題があることが指摘されている[^1]。汎化性能は後回しにして、特定の能力にとにかくまずは強化したいという用途であればSFTでも良いかもしれないが、downstreamなタスクがend-to-endで多様なタスクとなる場合は、オフラインRLを用いて汎化性能も考慮しつつ多面的な能力をwarmupするのが良いのかもしれない。
- [Paper Note] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification, Yongliang Wu+, ICLR'26, 2025.08
[^1]: ポリシーがexpertのtrajectoryに対して低い尤度を示すとimportance weightingにより非常に大きい重みがかけられることで分散が大きく、かつ報酬シグナルがsparseなことが課題であることが指摘されている。
[Paper Note] Decouple Searching from Training: Scaling Data Mixing via Model Merging for Large Language Model Pre-training, Shengrui Li+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #NLP #LanguageModel #read-later #Selected Papers/Blogs #DataMixture Issue Date: 2026-02-03 GPT Summary- データミクスの最適化はLLMの事前学習において重要であるが、効果的な探索手法が不足している。本研究では、訓練からデータミクス探索を切り離す「DeMix」を提案し、統合モデルを通じて最適なデータ比率を予測する。広範な実験により、DeMixは探索コストを抑えつつ高い性能を実現する。また、検証済みのミクスを含む22兆トークンのデータセット「DeMix Corpora」を公開。 Comment
元ポスト:
関連:
- [Paper Note] RegMix: Data Mixture as Regression for Language Model Pre-training, Qian Liu+, ICLR'25
[Paper Note] MergeMix: Optimizing Mid-Training Data Mixtures via Learnable Model Merging, Jiapeng Wang+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #mid-training #DataMixture Issue Date: 2026-01-27 GPT Summary- MergeMixは、データ混合比率を効率的に最適化する新しいアプローチを提案。低コストで高忠実度なパフォーマンスプロキシを再利用し、最小限のトークンでドメイン特化型のエキスパートをトレーニング。実験では、手動調整と同等以上の成果を上げ、コストを大幅に削減。高い順位の一貫性とスケーラブルな自動化ソリューションを示した。 Comment
元ポスト:
[Paper Note] GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training, Tong Wei+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #NLP #ReinforcementLearning #PostTraining #VisionLanguageModel Issue Date: 2025-12-27 GPT Summary- GTR-Turboは、マルチモーダルエージェントのためのマルチターン強化学習を効率化する手法で、教師モデルに依存せずにパフォーマンスを維持。RLトレーニング中に生成されたチェックポイントの重みを統合し、監視付きファインチューニングを通じて後続のRLをガイド。これにより、トレーニングの安定性が向上し、精度が10-30%向上、トレーニング時間を50%、計算コストを60%削減。 Comment
元ポスト:
[Paper Note] Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance, Shalini Maiti+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#NLP #LanguageModel #read-later #Souping Issue Date: 2025-11-19 GPT Summary- モデルスーピングを用いた「カテゴリ専門家のスープ(SoCE)」アプローチを提案。最適なモデル候補を特定し、非均一重み平均を適用することで性能を向上。従来の均一平均と異なり、低相関のカテゴリクラスタに対して専門家モデルを特定し、最適化された重みで組み合わせる。SoCEはマルチリンガル能力や数学などで性能を向上させ、バークレー関数呼び出しリーダーボードで最先端の結果を達成。 Comment
元ポスト:
Model Souping...後で読む!
関連:
- [Paper Note] Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time, Mitchell Wortsman+, ICML'22, 2022.03
[Paper Note] RobustMerge: Parameter-Efficient Model Merging for MLLMs with Direction Robustness, Fanhu Zeng+, arXiv'25, 2025.02
Paper/Blog Link My Issue
#NLP #LanguageModel #PEFT(Adaptor/LoRA) Issue Date: 2025-11-16 GPT Summary- 事前学習済みモデルをファインチューニングし、マルチタスク能力を強化するためにユニバーサルモデルへの統合が進んでいるが、効率的なマージ手法は不足している。本研究では、方向のロバスト性が効率的なモジュールのマージに重要であることを明らかにし、RobustMergeという新しい手法を提案。特異値のプルーニングとスケーリング、クロスタスク正規化を用いて、タスク干渉を避けつつ一般化能力を向上させる。実験により、提案手法の優れた性能を示した。 Comment
元ポスト:
[Paper Note] Model Merging with Functional Dual Anchors, Kexuan Shi+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #LanguageModel #PostTraining #Robustness Issue Date: 2025-10-27 GPT Summary- モデルマージングの新しい戦略として、Functional Dual Anchors(FDAs)を提案。FDAsはタスク特有の機能的シフトを捉え、共同マルチタスクトレーニングとポストホックマージングを結びつける。実験により、FDAsがモデルマージングにおいて効果的であることを示した。 Comment
pj page: https://spherelab.ai/fda/
元ポスト:
[Paper Note] MergeBench: A Benchmark for Merging Domain-Specialized LLMs, Yifei He+, NeurIPS'25
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #NeurIPS Issue Date: 2025-09-19 GPT Summary- モデルマージングは、ファインチューニングされたモデルを組み合わせることでマルチタスクトレーニングの効率的なデプロイを可能にする手法です。本研究では、モデルマージングを大規模に評価するための評価スイート「MergeBench」を導入し、指示遵守や数学、多言語理解など5つのドメインをカバーします。8つのマージング手法を評価し、より強力なベースモデルがより良いパフォーマンスを発揮する傾向を示しましたが、大規模モデルの計算コストやドメイン内パフォーマンスのギャップなどの課題も残っています。MergeBenchは今後の研究の基盤となることが期待されています。 Comment
[Paper Note] Competition and Attraction Improve Model Fusion, João Abrantes+, GECCO'25
Paper/Blog Link My Issue
#NLP #LanguageModel Issue Date: 2025-08-25 GPT Summary- モデルマージング(M2N2)は、複数の機械学習モデルの専門知識を統合する進化的アルゴリズムで、動的なマージ境界調整や多様性保持メカニズムを特徴とし、最も有望なモデルペアを特定するヒューリスティックを用いる。実験により、M2N2はゼロからMNIST分類器を進化させ、計算効率を向上させつつ高性能を達成。また、専門的な言語や画像生成モデルのマージにも適用可能で、堅牢性と多様性を示す。コードは公開されている。 Comment
元ポスト:
PLaMo Translate: 翻訳特化大規模言語モデルの開発,今城+, Jxiv'25, 2025.08
Paper/Blog Link My Issue
#MachineTranslation #NLP #LanguageModel #Supervised-FineTuning (SFT) #SmallModel #Japanese #DPO #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-08-22 Comment
元ポスト:
SFT->Iterative DPO->Model Mergeのパイプライン。SFTでは青空文庫などのオープンなデータから指示追従性能の高いDeepSeek-V3-0324によって元データ→翻訳, 翻訳→再翻訳データを合成し活用。また、翻訳の指示がprompt中に存在せずとも(本モデルを利用するのは翻訳用途であることが自明であるからと推察される)翻訳を適切に実行できるよう、独自のテンプレートを学習。文体指定、常体、敬体の指定、文脈考慮、語彙指定それぞれにういて独自のタグを設けてフォーマットを形成し翻訳に特化したテンプレートを学習。
IterativeDPOでは、DeepSeekV3に基づくLLM-as-a-Judgeと、MetricX([Paper Note] MetricX-24: The Google Submission to the WMT 2024 Metrics Shared Task, Juraj Juraska+, arXiv'24
)に基づいてReward Modelをそれぞれ学習し、1つの入力に対して100個の翻訳を作成しそれぞれのRewardモデルのスコアの合計値に基づいてRejection Samplingを実施することでPreference dataを構築。3段階のDPOを実施し、段階ごとにRewardモデルのスコアに基づいて高品質なPreference Dataに絞ることで性能向上を実現。
モデルマージではDPOの各段階のモデルを重み付きでマージすることで各段階での長所を組み合わせたとのこと。
2025.1010配信の「岡野原大輔のランチタイムトーク Vol.52 番外編「なぜPLaMo翻訳は自然なのか?」において詳細が語られているので参照のこと。特になぜ日本語に強いLLMが大事なのか?という話が非常におもしろかった。
ガバメントAI源内での利用が決定:
[Paper Note] WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training, Changxin Tian+, arXiv'25
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Optimizer #read-later #Selected Papers/Blogs #Stability Issue Date: 2025-08-02 GPT Summary- 学習率スケジューリングの新たなアプローチとして、Warmup-Stable and Merge(WSM)を提案。WSMは、学習率の減衰とモデルマージの関係を確立し、さまざまな減衰戦略を統一的に扱う。実験により、マージ期間がモデル性能において重要であることを示し、従来のWSDアプローチを上回る性能向上を達成。特に、MATHで+3.5%、HumanEvalで+2.9%、MMLU-Proで+5.5%の改善を記録。 Comment
元ポスト:
Weight Decayを無くせるらしい
エッセンスの解説:
チェックポイントさえ保存しておいて事後的に活用することだで、細かなハイパラ調整のための試行錯誤する手間と膨大な計算コストがなくなるのであれば相当素晴らしいのでは…?
解説:
Model Merging in Pre-training of Large Language Models, Yunshui Li+, arXiv'25
Paper/Blog Link My Issue
#Pretraining #MachineLearning #NLP #LanguageModel Issue Date: 2025-05-20 GPT Summary- モデルマージングは大規模言語モデルの強化に有望な技術であり、本論文ではその事前学習プロセスにおける包括的な調査を行う。実験により、一定の学習率で訓練されたチェックポイントをマージすることで性能向上とアニーリング挙動の予測が可能になることを示し、効率的なモデル開発と低コストのトレーニングに寄与する。マージ戦略やハイパーパラメータに関するアブレーション研究を通じて新たな洞察を提供し、実用的な事前学習ガイドラインをオープンソースコミュニティに提示する。 Comment
元ポスト:
解説ポスト:
[Paper Note] Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages, Shih-Cheng Huang+, ACL'24
Paper/Blog Link My Issue
#NLP #LanguageModel #ACL Issue Date: 2025-06-25 GPT Summary- オープンソースの大規模言語モデル(LLMs)の多くは英語に偏っている問題に対処するため、chat vectorという概念を導入。これは、事前学習済みモデルの重みからチャットモデルの重みを引くことで生成され、追加のトレーニングなしに新しい言語でのチャット機能を付与できる。実証研究では、指示に従う能力や有害性の軽減、マルチターン対話においてchat vectorの効果を示し、さまざまな言語やモデルでの適応性を確認。chat vectorは、事前学習済みモデルに対話機能を効率的に実装するための有力な解決策である。 Comment
日本語解説: https://qiita.com/jovyan/items/ee6affa5ee5bdaada6b4
下記ブログによるとChatだけではなく、Reasoningでも(post-trainingが必要だが)使える模様
Reasoning能力を付与したLLM ABEJA-QwQ32b-Reasoning-Japanese-v1.0の公開, Abeja Tech Blog, 2025.04:
https://tech-blog.abeja.asia/entry/geniac2-qwen25-32b-reasoning-v1.0
Knowledge Fusion of Large Language Models, Fanqi Wan+, N_A, ICLR'24
Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #ICLR #read-later Issue Date: 2024-01-23 GPT Summary- 本研究では、既存の事前訓練済みの大規模言語モデル(LLMs)を統合することで、1つの強力なモデルを作成する方法を提案しています。異なるアーキテクチャを持つ3つの人気のあるLLMsを使用して、ベンチマークとタスクのパフォーマンスを向上させることを実証しました。提案手法のコード、モデルの重み、およびデータはGitHubで公開されています。
[Paper Note] LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion, Dongfu Jiang+, arXiv'23, 2023.06
Paper/Blog Link My Issue
#PairWise #NLP #LanguageModel #Ensemble #ACL #needs-revision Issue Date: 2023-06-16 GPT Summary- LLM-Blenderは、複数のオープンソースLLMの強みを活かすアンサンブルフレームワークで、PairRankerとGenFuserのモジュールから構成され、最適なLLMの選択を改善します。PairRankerは候補間の詳細な比較を行い、GenFuserはトップランクの候補を統合して出力を向上させます。MixInstructデータセットを用いた実験により、LLM-Blenderは他の手法を大きく上回る性能を示しました。
LongCat-Flash-Thinking, meituan-longcat, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #OpenWeight #read-later #Selected Papers/Blogs Issue Date: 2025-09-22 Comment
元ポスト:
ポイント解説:
関連:
- LongCat-Flash-Chat, meituan-longcat, 2025.08
- [Paper Note] Libra: Assessing and Improving Reward Model by Learning to Think, Meng Zhou+, arXiv'25, 2025.07
PLaMo-100B, PFN, 2024.08
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #SyntheticData #Blog #Proprietary #Japanese #DPO #KeyPoint Notes Issue Date: 2024-08-08 Comment
日本語のベンチマークでGPT4を超える性能を達成。
SFT, DPOで学習。学習データは、Publicなもの、プログラムで作成したもの、LLM自身に作成させたものを利用した。また、最終的なモデルに複数の候補があったのでモデルマージで良いところ取りをした。DPOで利用するpreferenceデータは、事後学習途中のモデルによって自動生成。
[Paper Note] Evolutionary Optimization of Model Merging Recipes, Takuya Akiba+, N_A, Nature Machine Intelligence, Vol.7, 2025.01
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #Selected Papers/Blogs #KeyPoint Notes #Nature Machine Intelligence Issue Date: 2024-03-21 GPT Summary- 進化アルゴリズムを使用した新しいアプローチを提案し、強力な基盤モデルの自動生成を実現。LLMの開発において、人間の直感やドメイン知識に依存せず、多様なオープンソースモデルの効果的な組み合わせを自動的に発見する。このアプローチは、日本語のLLMと数学推論能力を持つモデルなど、異なるドメイン間の統合を容易にし、日本語VLMの性能向上にも貢献。オープンソースコミュニティへの貢献と自動モデル構成の新しいパラダイム導入により、基盤モデル開発における効率的なアプローチを模索。 Comment
複数のLLMを融合するモデルマージの話。日本語LLMと英語の数学LLNをマージさせることで日本語の数学性能を大幅に向上させたり、LLMとVLMを融合したりすることで、日本にしか存在しない概念の画像も、きちんと回答できるようになる。
著者スライドによると、従来のモデルマージにはbase modelが同一でないとうまくいかなかったり(重みの線型結合によるモデルマージ)、パラメータが増減したり(複数LLMのLayerを重みは弄らず再配置する)。また日本語LLMに対してモデルマージを実施しようとすると、マージ元のLLMが少なかったり、広範囲のモデルを扱うとマージがうまくいかない、といった課題があった。本研究ではこれら課題を解決できる。
著者による資料(NLPコロキウム):
https://speakerdeck.com/iwiwi/17-nlpkorokiumu
