MemoryOptimization
#Analysis
#Pocket
#NLP
#LanguageModel
#Quantization
#Reasoning
#Test-Time Scaling
#One-Line Notes
Issue Date: 2025-10-15 [Paper Note] Not All Bits Are Equal: Scale-Dependent Memory Optimization Strategies for Reasoning Models, Junhyuck Kim+, arXiv'25, 2025.10 GPT Summary- 4ビット量子化はメモリ最適化に有効ですが、推論モデルには適用できないことを示す。体系的な実験により、モデルサイズとKVキャッシュの影響を発見。小規模モデルは重みを優先し、大規模モデルは生成にメモリを割り当てることで精度を向上。LLMのメモリ最適化はスケールに依存し、異なるアプローチが必要であることを示唆。 Comment
Issue Date: 2025-10-15 [Paper Note] Not All Bits Are Equal: Scale-Dependent Memory Optimization Strategies for Reasoning Models, Junhyuck Kim+, arXiv'25, 2025.10 GPT Summary- 4ビット量子化はメモリ最適化に有効ですが、推論モデルには適用できないことを示す。体系的な実験により、モデルサイズとKVキャッシュの影響を発見。小規模モデルは重みを優先し、大規模モデルは生成にメモリを割り当てることで精度を向上。LLMのメモリ最適化はスケールに依存し、異なるアプローチが必要であることを示唆。 Comment
元ポスト:
Reasoning Modelにおいて、メモリのbudgetに制約がある状況下において、
- モデルサイズ
- 重みの精度
- test-time compute (serial & parallel)
- KV Cacheの圧縮
において、それらをどのように配分することでモデルのAcc.が最大化されるか?という話しな模様。