GPUKernel
[Paper Note] CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation, Weinan Dai+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #ReinforcementLearning #AIAgents #SyntheticData #Coding #Rubric-based #Environment Issue Date: 2026-03-04 GPT Summary- CUDAカーネル最適化は深層学習の核だが、専門知識が求められる。大規模言語モデル(LLMs)は従来のCUDAコード生成において限界があり、内部最適化能力が向上しない。私たちはCUDA Agentを提案し、データ合成、信頼性の高い報酬信号の提供、安定した強化学習を通じてCUDAカーネルの専門知識を育成。KernelBenchで最先端の結果を達成し、torch.compileよりも各レベルで大幅に高速化。最強商用モデルを約40%上回る性能を示す。 Comment
pj page: https://cuda-agent.github.io/
元ポスト:
[Paper Note] Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations, Wei Liu+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Multi #NLP #ReinforcementLearning #AIAgents #Test-Time Scaling #PostTraining #LongHorizon #Environment Issue Date: 2026-02-06 GPT Summary- 高品質のカーネル生成はスケーラブルなAIシステムの鍵であり、そのためのLLM訓練には十分なデータと堅牢な環境が必要です。本研究では、KernelGYMを設計し、報酬ハッキングを防ぐマルチターンRL手法を検討します。TRLOOを提案し、偏ったポリシー勾配問題を解決。訓練されたDr.Kernel-14Bは高性能を達成し、生成されたカーネルの31.6%がTorch参照に対して1.2倍のスピードアップを実現しました。全リソースはGitHubで公開されています。 Comment
元ポスト:
FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling, together.ai, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #Transformer #Attention #Chip #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-03-06 Comment
元ポスト:
関連:
これは読まねば。。。
ThunderKittens, HazyResearch, 2026.01
Paper/Blog Link My Issue
#Article #Library Issue Date: 2026-02-21 Comment
元ポスト:
ParallelKittens: Simple and Fast Multi-GPU AI Kernels, Hazy Research, 2025.11
Paper/Blog Link My Issue
#Article #Blog #SoftwareEngineering #read-later Issue Date: 2025-11-18 Comment
元ポスト:
読みたい
FlashInfer-Bench: Building the Virtuous Cycle for AI-driven LLM Systems, FlashInfer Community, 2025.10
Paper/Blog Link My Issue
#Article #NeuralNetwork #MachineLearning #Dataset #Transformer #AIAgents #Evaluation #SoftwareEngineering Issue Date: 2025-10-22 Comment
元ポスト:
GPUカーネルのエージェントによる自動最適化のためのベンチマークとのこと。
