Environmentに関する論文・技術記事メモの一覧

Environment

[Paper Note] Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations, Wei Liu+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#Multi #Pocket #NLP #ReinforcementLearning #AIAgents #Test-Time Scaling #LongHorizon #GPUKernel Issue Date: 2026-02-06 GPT Summary- 高品質のカーネル生成はスケーラブルなAIシステムの鍵であり、そのためのLLM訓練には十分なデータと堅牢な環境が必要です。本研究では、KernelGYMを設計し、報酬ハッキングを防ぐマルチターンRL手法を検討します。TRLOOを提案し、偏ったポリシー勾配問題を解決。訓練されたDr.Kernel-14Bは高性能を達成し、生成されたカーネルの31.6%がTorch参照に対して1.2倍のスピードアップを実現しました。全リソースはGitHubで公開されています。 Comment

元ポスト:

Loading…

[Paper Note] OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis, Li+, 2026.02

Paper/Blog Link My Issue
#Article #InformationRetrieval #Pocket #NLP #Search #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SyntheticData #OpenSource #Selected Papers/Blogs #Reproducibility #DeepResearch #One-Line Notes #LongHorizon #Initial Impression Notes Issue Date: 2026-02-10 Comment

元ポスト:

Loading…

APIに依存せずオフラインコーパスと検索を利用し、高品質なDeepResearchのlong horizonなtrajectoryを合成可能な環境を構築。合成したtrajectoryでNemotron-3-nano-30B-A3B-BaseをSFTすることで、Kimi-K2, GLM-4.6などの10倍以上大きいサイズのモデルよりもBrowseCompで高い性能を獲得。同サイズのTongyiDeepResearchもoutperform。

Deterministicなプロセスで、オフラインコーパスからデータを合成し外部APIに依存しないため完全に再現性があり、かつAPIのコストやrate limitにも引っかからないという利点がある。検索エンジン、コード、データ、合成データ、モデル、全てを公開。

完全に再現性のある研究は素晴らしい。