GPUKernel


Paper/Blog Link My Issue
#NLP #ReinforcementLearning #AIAgents #SyntheticData #Coding #Rubric-based #Environment Issue Date: 2026-03-04 GPT Summary- CUDAカーネル最適化は深層学習の核だが、専門知識が求められる。大規模言語モデル(LLMs)は従来のCUDAコード生成において限界があり、内部最適化能力が向上しない。私たちはCUDA Agentを提案し、データ合成、信頼性の高い報酬信号の提供、安定した強化学習を通じてCUDAカーネルの専門知識を育成。KernelBenchで最先端の結果を達成し、torch.compileよりも各レベルで大幅に高速化。最強商用モデルを約40%上回る性能を示す。 Comment

pj page: https://cuda-agent.github.io/

元ポスト:

Loading…




Paper/Blog Link My Issue
#Multi #NLP #ReinforcementLearning #AIAgents #Test-Time Scaling #PostTraining #LongHorizon #Environment Issue Date: 2026-02-06 GPT Summary- 高品質のカーネル生成はスケーラブルなAIシステムの鍵であり、そのためのLLM訓練には十分なデータと堅牢な環境が必要です。本研究では、KernelGYMを設計し、報酬ハッキングを防ぐマルチターンRL手法を検討します。TRLOOを提案し、偏ったポリシー勾配問題を解決。訓練されたDr.Kernel-14Bは高性能を達成し、生成されたカーネルの31.6%がTorch参照に対して1.2倍のスピードアップを実現しました。全リソースはGitHubで公開されています。 Comment

元ポスト:

Loading…