NeuralArchitectureSearch

#NeuralNetwork #MachineLearning #Pocket #NLP #ICLR
Issue Date: 2025-09-27 [Paper Note] STAR: Synthesis of Tailored Architectures, Armin W. Thomas+, ICLR'25, 2024.11 GPT Summary- 新しいアプローチ(STAR)を提案し、特化したアーキテクチャの合成を行う。線形入力変動システムに基づく探索空間を用い、アーキテクチャのゲノムを階層的にエンコード。進化的アルゴリズムでモデルの品質と効率を最適化し、自己回帰型言語モデリングにおいて従来のモデルを上回る性能を達成。 Comment

openreview: https://openreview.net/forum?id=HsHxSN23rM



#EfficiencyImprovement #Pocket #NLP #LanguageModel #SmallModel #Reference Collection
Issue Date: 2025-08-26 [Paper Note] Jet-Nemotron: Efficient Language Model with Post Neural Architecture Search, Yuxian Gu+, arXiv'25 GPT Summary- Jet-Nemotronは新しいハイブリッドアーキテクチャの言語モデルで、フルアテンションモデルと同等以上の精度を持ちながら生成スループットを大幅に改善します。Post Neural Architecture Search(PostNAS)を用いて開発され、事前トレーニングされたモデルから効率的にアテンションブロックを探索します。Jet-Nemotron-2Bモデルは、他の先進モデルに対して高い精度を達成し、生成スループットを最大53.6倍向上させました。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

解説:

Loading…

所見:

Loading…

解説:

Loading…

続報:

Loading…


コードとチェックポイントがリリース

code: https://github.com/NVlabs/Jet-Nemotron
HF: https://huggingface.co/collections/jet-ai/jet-nemotron-68ac76e8356b5399ef83ac9c


#NeuralNetwork #MachineLearning #LanguageModel
Issue Date: 2023-04-27 Can GPT-4 Perform Neural Architecture Search? Zhang+, The University of Sydney, arXiv'23 Comment

ドメイン知識の必要のないプロンプトで、ニューラルモデルのアーキテクチャの提案をGPTにしてもらう研究。accをフィードバックとして与え、良い構造を提案するといったループを繰り返す模様



image

Neural Architecture Search (NAS)においては、ランダムベースラインがよく採用されるらしく、比較した結果ランダムよりよかった

image



NAS201と呼ばれるベンチマーク(NNアーキテクチャのcell blockをデザインすることにフォーカス; 探索空間は4つのノードと6つのエッジで構成される密接続のDAGとして表される; ノードはfeature mapを表し、エッジはoperationに対応;利用可能なoperationが5つあるため、可能な検索空間の総数は5の6乗で15,625通りとなる)でも評価した結果、提案手法の性能がよかったとのこと。

image