GPUKernel
[Paper Note] GPU Forecasters: Language Models as Selective Surrogates for Kernel Runtime Optimization, Zaid Khan+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Evaluation #PostTraining #Author Thread-Post Issue Date: 2026-06-03 GPT Summary- 提案された方法は、LLMを用いてGPUカーネルの性能を予測し、評価コストを削減することを目指す。LLMがカーネルの真の性能を正確に予測できれば、GPUによる評価を選択的に行える。強化学習を活用することで予測の精度を向上させ、結果として同一のGPU評価予算でより多くの候補を検討し、高速なカーネルを見つけられる。これはLLMがカーネル最適化において重要な役割を果たす可能性を示唆している。 Comment
元ポスト:
[Paper Note] Sparser, Faster, Lighter Transformer Language Models, Edoardo Cetin+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #One-Line Notes #Sparse #Author Thread-Post Issue Date: 2026-05-09 GPT Summary- 非構造的スパース性を活用することで、LLMの計算コストを削減し、フィードフォワード層の効率を向上させる新しいCUDAカーネルを導入。99%超のスパース性を誘導しつつも、パフォーマンスへの影響は最小限。これにより、モデル規模の拡大に伴うスループット、エネルギー効率、メモリ使用量の改善を実証。すべてのコードはオープンソースで公開し、スパース性の実用性を推進。 Comment
元ポスト:
現在の言語モデルではFFNの計算が計算コストの多くを占めているが、ReLUやL1正則化によってFFN中で必要なactivationを99%程度sparseにすることができ、sparseになったFFNに対して最適なデータ形式と高速に動作するGPUKernelを構築することで、downstream taskへの性能劣化無しに、省コストでの推論が可能になる、という話に見える。
解説:
[Paper Note] AdaExplore: Failure-Driven Adaptation and Diversity-Preserving Search for Efficient Kernel Generation, Weihua Du+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Author Thread-Post Issue Date: 2026-04-30 GPT Summary- AdaExploreは、カーネルコード生成のためのエージェントフレームワークで、自己改善を可能にする。失敗駆動適応と探索を通じて正確性と最適化性能を向上させ、再利用可能な記憶を活用する。エージェントはタスクを合成し、局所的改良と構造再生成を交互に行い、最適化の地形を探索する。実験により、KernelBenchのベンチマークで3.12倍および1.72倍のスピードアップを達成した。 Comment
元ポスト:
[Paper Note] Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization, He Du+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #PostTraining #EvolutionaryAlgorithm Issue Date: 2026-04-05 GPT Summary- Kernel-Smithは、高性能GPUカーネルと演算子生成のためのフレームワークで、評価駆動型進化エージェントを用いて候補プログラムを改善。NVIDIAとMetaXのバックエンド特化評価サービスを活用し、トレーニングは強化学習信号とステップ中心の監督を結合。Kernel-Smith-235B-RLは、NVIDIA Tritonバックエンドにおいて総合性能の最先端を達成し、他モデルを上回る。さらに、MetaX MACAバックエンドでの適応も成功し、本番システムへの実用的な寄与を示す。 Comment
元ポスト:
[Paper Note] CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation, Weinan Dai+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #ReinforcementLearning #AIAgents #SyntheticData #Coding #Rubric-based #Environment Issue Date: 2026-03-04 GPT Summary- CUDAカーネル最適化は深層学習の核だが、専門知識が求められる。大規模言語モデル(LLMs)は従来のCUDAコード生成において限界があり、内部最適化能力が向上しない。私たちはCUDA Agentを提案し、データ合成、信頼性の高い報酬信号の提供、安定した強化学習を通じてCUDAカーネルの専門知識を育成。KernelBenchで最先端の結果を達成し、torch.compileよりも各レベルで大幅に高速化。最強商用モデルを約40%上回る性能を示す。 Comment
pj page: https://cuda-agent.github.io/
元ポスト:
解説:
[Paper Note] Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations, Wei Liu+, ICML'26, 2026.02
Paper/Blog Link My Issue
#Multi #NLP #ReinforcementLearning #AIAgents #ICML #Test-Time Scaling #PostTraining #LongHorizon #Environment #Author Thread-Post Issue Date: 2026-02-06 GPT Summary- 高品質のカーネル生成はスケーラブルなAIシステムの鍵であり、そのためのLLM訓練には十分なデータと堅牢な環境が必要です。本研究では、KernelGYMを設計し、報酬ハッキングを防ぐマルチターンRL手法を検討します。TRLOOを提案し、偏ったポリシー勾配問題を解決。訓練されたDr.Kernel-14Bは高性能を達成し、生成されたカーネルの31.6%がTorch参照に対して1.2倍のスピードアップを実現しました。全リソースはGitHubで公開されています。 Comment
元ポスト:
[Paper Note] Optimization Techniques for GPU Programming, ACM Computing Surveys, Volume 55, Issue 11, 2023.03
Paper/Blog Link My Issue
#Article #Survey #SoftwareEngineering #read-later Issue Date: 2026-05-27 Comment
元ポスト:
mKernel: Fast Multi-GPU, Multi-Node Fused Kernels, Ziming Mao, and the UCCL team, 2026.05
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #Infrastructure #read-later #Author Thread-Post Issue Date: 2026-05-26 Comment
元ポスト:
> mKernel is our attempt at the missing piece: GPU-driven, fused kernels that deliver fine-grained compute–communication overlap across both intra-node NVLink and inter-node RDMA, while staying portable across various networking backends (ConnectX-7, AWS EFA, and more on the way).
pyptx: A Python DSL to write Nvidia PTX for Hopper and Blackwell in JAX and PyTorch, patrick-toulme, 2026.04
Paper/Blog Link My Issue
#Article #NeuralNetwork #EfficiencyImprovement #NLP #LanguageModel #python #SoftwareEngineering Issue Date: 2026-04-27 Comment
元ポスト:
pythonの記法で、PTX(どの世代のNVIDIA GPUでも理解可能な仮想的なアセンブリ言語)を記述可能で自動最適化は一切入らないDSLとのこと。
PTXについては以下を読んだ:
PTXってなんだ?〜GPUの「共通語」仮想アセンブリを完全理解〜,GeneLab_999, 2026.01
https://qiita.com/GeneLab_999/items/5c49a21e5fd7e618b671
マルチエージェントシステムでGPUカーネルを38%高速化, Cursor, 2026.04
Paper/Blog Link My Issue
#Article #Multi #NLP #LanguageModel #AIAgents #Coding #SoftwareEngineering #Author Thread-Post #AgentHarness Issue Date: 2026-04-15 Comment
元ポスト:
自律的に長期間稼働し235件の問題を1回の実行で解くマルチエージェントハーネスに関するレポートで、3週間程度でBlackwell GPUカーネルをゼロから構築・最適化し38%高速化とのこと。
CuLA, InclusionAI, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #Attention #SoftwareEngineering #One-Line Notes #LinearAttention Issue Date: 2026-04-04 Comment
元ポスト:
Hopper(SM90), Blackwell(SM10X)において、flash-linear-attention(FLA)よりも最大2.45倍、平均1.52倍速いlinear attention kernelらしい
FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling, together.ai, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #Transformer #Attention #Chip #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-03-06 Comment
元ポスト:
関連:
これは読まねば。。。
ThunderKittens, HazyResearch, 2026.01
Paper/Blog Link My Issue
#Article #Library Issue Date: 2026-02-21 Comment
元ポスト:
ParallelKittens: Simple and Fast Multi-GPU AI Kernels, Hazy Research, 2025.11
Paper/Blog Link My Issue
#Article #Blog #SoftwareEngineering #read-later Issue Date: 2025-11-18 Comment
元ポスト:
読みたい
FlashInfer-Bench: Building the Virtuous Cycle for AI-driven LLM Systems, FlashInfer Community, 2025.10
Paper/Blog Link My Issue
#Article #NeuralNetwork #MachineLearning #Dataset #Transformer #AIAgents #Evaluation #SoftwareEngineering Issue Date: 2025-10-22 Comment
元ポスト:
GPUカーネルのエージェントによる自動最適化のためのベンチマークとのこと。
