Pruning
[Paper Note] DeepPrune: Parallel Scaling without Inter-trace Redundancy, Shangqing Tu+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Test-Time Scaling #Decoding #Parallel Issue Date: 2025-10-12 GPT Summary- DeepPruneという新しいフレームワークを提案し、並列スケーリングの計算非効率を解決。80%以上の推論トレースが同一の回答を生成する問題に対処し、焦点損失とオーバーサンプリング技術を用いた判定モデルで同等性を予測。オンラインの貪欲クラスタリングで冗長な経路をプルーニングし、80%以上のトークン削減を達成しつつ、精度を維持。効率的な並列推論の新基準を確立。 Comment
pj page: https://deepprune.github.io
HF: https://huggingface.co/collections/THU-KEG/deepprune-68e5c1ea71f789a6719b2c1c
元ポスト:
[Paper Note] Adaptive Computation Pruning for the Forgetting Transformer, Zhixuan Lin+, COLM'25
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Transformer #Attention #LongSequence #Architecture Issue Date: 2025-09-16 GPT Summary- Forgeting Transformer(FoX)は、忘却ゲートを用いたソフトマックスアテンションを特徴とし、従来のTransformerと比較して優れた性能を示す。FoXの特性を活かし、適応計算プルーニング(ACP)を提案し、計算を動的にプルーニングすることで、FLOPsとメモリアクセスを約70%削減。これにより、アテンションの実行時間を50%から70%短縮し、トレーニングスループットを10%から40%向上させた。性能の劣化はなく、長い文脈長ではさらなる計算コストの節約が可能である。 Comment
code: https://github.com/zhixuan-lin/forgetting-transformer
元ポスト:
openreview: https://openreview.net/forum?id=xNj14CY5S1#discussion
[Paper Note] The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities, Venkatesh Balavadhani Parthasarathy+, arXiv'24, 2024.08
Paper/Blog Link My Issue
#Tutorial #MachineLearning #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #MultiModal #PPO (ProximalPolicyOptimization) #PEFT(Adaptor/LoRA) #LLMServing #DPO #PostTraining #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-10-17 GPT Summary- 本報告書では、大規模言語モデル(LLMs)のファインチューニングに関する理論と実践を統合的に検討し、歴史的な進化やファインチューニング手法の比較を行っています。7段階の構造化されたパイプラインを紹介し、不均衡データセットの管理やパラメータ効率の良い手法(LoRA、Half Fine-Tuning)に重点を置いています。また、PPOやDPOなどの新しいアプローチや、検証フレームワーク、デプロイ後のモニタリングについても議論し、マルチモーダルLLMsやプライバシー、説明責任に関する課題にも触れています。研究者や実務者に実用的な洞察を提供する内容です。 Comment
元ポスト:
Compact Language Models via Pruning and Knowledge Distillation, Saurav Muralidharan+, NeurIPS'24
Paper/Blog Link My Issue
#NLP #LanguageModel #Distillation #NeurIPS Issue Date: 2025-03-16 GPT Summary- 本論文では、既存の大規模言語モデル(LLMs)をプルーニングし、少量のトレーニングデータで再トレーニングする手法を提案。深さ、幅、注意、MLPプルーニングを知識蒸留と組み合わせた圧縮ベストプラクティスを開発し、Nemotron-4ファミリーのLLMを2-4倍圧縮。これにより、トレーニングに必要なトークン数を最大40倍削減し、計算コストを1.8倍削減。Minitronモデルは、ゼロからトレーニングした場合と比較してMMLUスコアが最大16%改善され、他のモデルと同等の性能を示す。モデルの重みはオープンソース化され、補足資料も提供。 Comment
(あとでメモを追記)
[Paper Note] What Matters in Transformers? Not All Attention is Needed, Shwai He+, arXiv'24, 2024.06
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Transformer #KeyPoint Notes Issue Date: 2024-10-22 GPT Summary- トランスフォーマー内の冗長性を調査し、アテンションレイヤーの大部分が高い類似性を示すことが判明。Llama-2-70Bはアテンションレイヤーを半分削除しても僅か2.4%の性能低下で48.4%のスピードアップを達成。トレーニング全体を通じて冗長性が一貫しており、アテンションとMLPレイヤーの共同削除によりさらなる効率化を模索。31レイヤー削除でもLlama-2-13Bは90%の性能を維持。研究はネットワークアーキテクチャ設計に新たな洞察を提供。 Comment
通常LLMはtransformer decoderのブロックをstackすることで形成されるが、積み上げたブロック、あるいはlayerってほんとに全部必要なの?という疑問に答えてくれる論文のようである。
transformer blockそのもの、あるいはMLP layerを削除するとpeformanceは大幅に低下するが、attention layerを削除してもperformanceの低下が起きなかった模様。これにより高速化が実現可能。
削除するブロックやlayerはinputとoutputのコサイン類似度が高いものを削除することによって実現。
比較的パラメータサイズが小さい7B, 13Bモデルでの実験結果
より大きなモデルでの実験結果
パフォーマンスが変わらない範囲だと、attention layer dropにより、7B, 13Bモデルの場合は23%程度、70Bの場合は35%のスループット向上
openreview (ICLR'25):
https://openreview.net/forum?id=YLTWwEjkdx
openreview (TMLR):
https://openreview.net/forum?id=xnYT0HjBsT
The Unreasonable Ineffectiveness of the Deeper Layers, Andrey Gromov+, N_A, arXiv'24
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel Issue Date: 2024-04-22 GPT Summary- 一般的なオープンウェイトの事前学習されたLLMのレイヤー剪定戦略を研究し、異なる質問応答ベンチマークでのパフォーマンスの低下を最小限に抑えることを示しました。レイヤーの最大半分を削除することで、最適なブロックを特定し、微調整して損傷を修復します。PEFT手法を使用し、実験を単一のA100 GPUで実行可能にします。これにより、計算リソースを削減し、推論のメモリとレイテンシを改善できることが示唆されます。また、LLMがレイヤーの削除に対して堅牢であることは、浅いレイヤーが知識を格納する上で重要な役割を果たしている可能性を示唆しています。 Comment
下記ツイートによると、学習済みLLMから、コサイン類似度で入出力間の類似度が高い層を除いてもタスクの精度が落ちず、特に深い層を2-4割削除しても精度が落ちないとのこと。
参考:
VRAMに載せるのが大変なので、このような枝刈り技術が有効だと分かるのはありがたい。LoRAや量子化も利用しているっぽい。
[Paper Note] A Simple and Effective Pruning Approach for Large Language Models, Mingjie Sun+, arXiv'23, 2023.06
Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #One-Line Notes Issue Date: 2023-06-26 GPT Summary- 大規模言語モデルのプルーニング手法としてWandaを提案。再訓練なしで活用可能で、入力アクティベーションと掛け合わせたウェイトの絶対値を最小化することでスパース性を誘導。LLaMAおよびLLaMA-2で徹底評価し、絶対値プルーニングを超える性能を実現。 Comment
LLMのネットワークのpruning手法を提案。再訓練、パラメータ更新無しで、性能低下が少なくて刈り込みが可能。
[Paper Note] Pruning Pre-trained Language Models Without Fine-Tuning, Ting Jiang+, arXiv'22, 2022.10
Paper/Blog Link My Issue
#NLP #LanguageModel #ACL #needs-revision Issue Date: 2023-07-13 GPT Summary- プルーニングによる事前学習済み言語モデル(PLMs)の圧縮手法を提案。特にStatic Model Pruning(SMP)は、一階法の剪定のみでPLMsを下流タスクに適応させ、スパース性を達成。新たなマスキング関数と訓練目的関数を設計し、広範な実験で顕著な性能向上を示す。SMPはファインチューニングを不要とし、パラメータ効率が良好。
How to Fix Your Context, dbreunig.com, 2025.07
Paper/Blog Link My Issue
#Article #DocumentSummarization #InformationRetrieval #NLP #AIAgents #RAG(RetrievalAugmentedGeneration) #Blog #SoftwareEngineering #ContextEngineering Issue Date: 2025-09-28 Comment
Context Poisoning, Context Distraction, Context Confusion,
Context Clashの定義とそれらの対処法について書かれている。後ほど追記する
Llama-3_1-Nemotron-Ultra-253B-v1, Nvidia, 2025.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #InstructionTuning #Reasoning #OpenWeight Issue Date: 2025-04-08 Comment
DeepSeek-R1をGPQA Diamond GPQA: A Graduate-Level Google-Proof Q&A Benchmark, David Rein+, N/A, COLM'24
, AIME2024/2025, Llama4 Maverickを
BFCLv2(Tool Calling, BFCLv2, UC Berkeley, 2024.08
), IFEVal Instruction-Following Evaluation for Large Language Models, Jeffrey Zhou+, N/A, arXiv'23
で上回り, そのほかはArenaHardを除きDeepSeekR1と同等
DeepSeekR1が671B(MoEで37B Activation Param)に対し、こちらは253B(ただし、Llama3.1がベースなのでMoEではない)で同等以上の性能となっている。
ReasoningをON/OFFする能力も備わっている。
モデルがどのように訓練されたかを示す全体図がとても興味深い:
特に [Paper Note] Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, arXiv'25
でも有効性が示されているように、SFTをしてからReasoningを強化する(強化というより元々持っている能力を引き出す?)RLを実施している。
詳細は下記Blogとのこと:
https://developer.nvidia.com/blog/build-enterprise-ai-agents-with-advanced-open-nvidia-llama-nemotron-reasoning-models/
元ポスト:
