Post
Towards Efficient World Models, Moonlake, 2026.03
Paper/Blog Link My Issue
#Article #read-later #WorldModels Issue Date: 2026-03-07 Comment
関連:
- Building Multimodal Worlds with Moonlake's World Modeling Agent, Moonlake, 2026.02
NEO-unify: Building Native Multimodal Unified Models End to End, SenseTime, 2026.03
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #Architecture #VisionLanguageModel #UMM #One-Line Notes #Pixel-based Issue Date: 2026-03-06 Comment
Vision EncoderやVAEを用いずに、pixel,wordの入力でnativeなunified modelを構築する。
takeawayとしては
- エンコーダーフリーなアーキテクチャでも、意味とピクセルの表現の両方を保持できる
- image reconstruction, image editingの両者において高い性能を獲得
- understandingとgenerationのtransformerを別々に事前学習し、その後両者を組み合わせて(Mixture of Transformer)追加のSFTをしているようだが、その際に両者のtransformerがconflictすることなく、understandingタスクは安定したままgenerationタスクは素早く収束するといった挙動を示した
- mid-training後により大規模なweb-scaleでの事前学習をするようだが、その際に競合モデルよりもよりデータ効率良く学習ができた
という感じらしい
Coding agents progress over the past two months, Andrej Karpathy, X, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #SoftwareEngineering #Reading Reflections Issue Date: 2026-02-28 Comment
やっぱ英語で指示ださないとあかんか...(小並感)
関連:
LLM/VLA等の学習ライブラリ回りでは、人間が細かく実装方針分析を指示した上で、実装部分のみを移譲すると今のところ一番うまくいくとのこと。
The third era of AI software development, Michael Turuell, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #SoftwareEngineering #read-later Issue Date: 2026-02-28
10 open-weight LLM releases in January and February 2026, Sebaschan Raschka, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #read-later #Selected Papers/Blogs Issue Date: 2026-02-28 Comment
- Trinity Large, Arcee, 2026.01
- [Paper Note] Kimi K2.5: Visual Agentic Intelligence, Kimi Team+, arXiv'26, 2026.02
- [Paper Note] Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters, Ailin Huang+, arXiv'26, 2026.02
- Qwen3-Coder-Next: Pushing Small Hybrid Models on Agentic Coding, QwenTeam, 2026.02
- [Paper Note] GLM-5: from Vibe Coding to Agentic Engineering, GLM-5 Team+, arXiv'26, 2026.02
- MiniMax M2.5: SOTA in Coding and Agent, designed for Agent Universe, MiniMax, 2026.02
- [Paper Note] Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts, Chen Yang+, arXiv'26, 2026.02
- Qwen3.5: Towards Native Multimodal Agents, Qwen Team, 2026.02
- Ling-2.5-1T, inclusionAI, 2026.02
- Ring-1T-2.5-FP8, inclusionAI, 2026.02
- Cohere Labs Launches Tiny Aya, Making Multilingual AI Accessible, COHERE LABS TEAM, 2026.02
元ポストには書かれていないがLLMというくくりで言うと以下もある:
- New ARENA material: 8 exercise sets on alignment science & interpretability, CallumMcDougall, 2026.02
- LFM2-24B-A2B: Scaling Up the LFM2 Architecture, LiquidAI, 2026.02
- Qwen3 Swallow, Swallow LLM, 2026.02
- Japanese
- GPT-OSS Swallow, Swallow LLM, 2026.02
- Japanese
- GLM-4.7-Flash, Z.ai, 2026.01
- LongCat-Flash-Thinking-2601, Meituan, 2026.01
- Introducing LFM2.5: The Next Generation of On-Device AI, LiquidAI, 2026.01
Omniモデルを含めると以下:
- Ming-omni-tts-0.5B, inclusionAI, 2026.02
- [Paper Note] Features as Rewards: Scalable Supervision for Open-Ended Tasks via Interpretability, Aaditya Vikram Prasad+, arXiv'26, 2026.02
- MiniCPM-o-4_5, OpenBMB, 2026.02
World Modelsを含めると以下?:
- [Paper Note] Causal-JEPA: Learning World Models through Object-Level Latent Interventions, Heejeong Nam+, arXiv'26, 2026.02
- [Paper Note] Code2World: A GUI World Model via Renderable Code Generation, Yuhao Zheng+, arXiv'26, 2026.02
- [Paper Note] DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos, Shenyuan Gao+, arXiv'26, 2026.02
- [Paper Note] World Action Models are Zero-shot Policies, Seonghyeon Ye+, arXiv'26, 2026.02
- [Paper Note] Advancing Open-source World Models, Robbyant Team+, arXiv'26, 2026.01
- Project Genie: Experimenting with infinite, interactive worlds, Google Deepmind, 2026.01
- Waypoint-1: Real-time Interactive Video Diffusion from Overworld, Overworld, 2026.01
確実に見落としがあるけど。
New in Claude Code: Remote Control, Anthropic, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #SoftwareEngineering Issue Date: 2026-02-27 Comment
スマホからターミナルのClaude Codeに対してリモートで制御が可能になったらしい
Lessons from Building Claude Code: Prompt Caching Is Everything, Thariq, X, 2026.02
Paper/Blog Link My Issue
#Article #ContextEngineering Issue Date: 2026-02-21
How We Reached 74.8% on terminal-bench with Terminus-KIRA, Kangwook Lee, 2026.02
Paper/Blog Link My Issue
#Article #read-later Issue Date: 2026-02-20
Agents: Inner Loop vs Outer Loop , PHILSCHMID, 2026.02
Paper/Blog Link My Issue
#Article #AIAgents #read-later Issue Date: 2026-02-19
The Simulation Company, Simile, 2026.02
Paper/Blog Link My Issue
#Article #MachineLearning #NLP #FoundationModel #WorldModels #Initial Impression Notes Issue Date: 2026-02-13 Comment
やはり次のFoundation Modelsの軸としてWorld Modelsやシミュレーションが注目されているように感じる。実際、シミュレーションによって様々なデータが合成できれば現在の基盤モデルをさらに引き上げると思われる。
関連:
Karpathy氏のポスト:
続報:
The Second Pre-training Paradigm, Jim Fan, X, 2026.02
Paper/Blog Link My Issue
#Article #ComputerVision #Pretraining #NLP #LanguageModel #MultiModal #Robotics #WorldModels #One-Line Notes Issue Date: 2026-02-05 Comment
事前学習がnext word predictionから過去の行動と状態によって条件付けられ次の(ある期間の)世界の状態を予測するワールドモデリング(next physical state prediction)へのパラダイムシフトの予想(というよりこのパラダイムシフトの真っ只中にいる)。人間の脳が処理する情報の多くは視覚であり、言語的な領域は部分的なことであることや、猿は言語的な能力が低くても視覚や運動、触覚などの感覚的情報から世界の物理法則を理解し知的なアクションをとるメンタルモデルを確立していることなどを引き合いに説明している。
A few random notes from claude coding quite a bit last few weeks., Andrej Karpathy, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #SoftwareEngineering Issue Date: 2026-01-27
A well known important feature to stabilize RL training is implementing the LM head in fp32 precision to help with gradients ... , Nathan Lambert, X, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #PostTraining #Stability #One-Line Notes Issue Date: 2026-01-24 Comment
関連:
- MiniMax-M1, MiniMax, 2025.06
- [Paper Note] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning
Attention, MiniMax+, arXiv'25, 2025.06
RLを安定化するためのtipsとそれによりMiniMax M1のplotが再現できたという話な模様。RLはこういった細かいテクニックが大事だと思うので、共有して頂けるのは大変ありがたい。
関連:
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10
- train-inference-gap && ReinforcementLearning ラベルが紐づいたissueも参照のこと
New post: nanochat miniseries v1,
Paper/Blog Link My Issue
#Article #LanguageModel #read-later Issue Date: 2026-01-09
The next equalizer is not model architecture, but mastery over data behavior, gm8xx8, 2025.12
Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #SyntheticData #Selected Papers/Blogs #DataMixture #PhaseTransition Issue Date: 2026-01-07 Comment
関連(4-epochまで再利用するのがコスパが良いことを示した研究):
- Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23
関連(合成データの比率によるPhaseTransition):
- [Paper Note] Data Mixing Can Induce Phase Transitions in Knowledge Acquisition, Xinran Gu+, NeurIPS'25 Spotlight, 2025.05
- [Paper Note] Demystifying Synthetic Data in LLM Pre-training: A Systematic Study of Scaling Laws, Benefits, and Pitfalls, Feiyang Kang+, EMNLP'25, 2025.10
- [Paper Note] Why Less is More (Sometimes): A Theory of Data Curation, Elvis Dohmatob+, arXiv'25, 2025.11
Today's conversations about AI-assisted programming are strikingly similar to those from decades ago about the choice between low-level languages like C versus high-level languages like Python, Arvind Narayanan, 2025.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #SoftwareEngineering Issue Date: 2025-12-31
Hot topics in RL, Kimbo, X, 2025.12
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #PostTraining #Diversity #train-inference-gap Issue Date: 2025-12-22 Comment
ロールアウト側のエンジンと、学習側のエンジンのトークンのlogprobのミスマッチによりon-policy RLを実施しているつもりが実はoff policyになってしまっているという話と
- Your Efficient RL Framework Secretly Brings You Off-Policy RL Training, Yao+, 2025.08
- [Paper Note] Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale
Thinking Model, Ling Team+, arXiv'25, 2025.10
- [Paper Note] Stabilizing MoE Reinforcement Learning by Aligning Training and
Inference Routers, Wenhan Ma+, arXiv'25, 2025.10
長いロールアウトを待っている間がアイドルタイムとなり学習が非常に遅くなる問題を、長すぎるロールアウトは待たないでモデルの重みをロールアウトの途中でもかけてしまい、新しいポリシーでロールアウトを継続すると学習は崩壊せずに高速化できるよ(=in flight updates)という話と
- [Paper Note] PipelineRL: Faster On-policy Reinforcement Learning for Long Sequence
Generation, Alexandre Piché+, arXiv'25, 2025.09
- PipelineRL, Piche+, ServiceNow, 2025.04
RLVRはもともとモデルが事前学習時に保持しているReasoningの能力を広げるわけではなく効率化するだけだよ、という主張と、
- [Paper Note] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?, Yang Yue+, NeurIPS'25, 2025.04
効率化するだけという主張と、Reasoning能力を拡大しているよ、という相反する主張がコミュニティでされているがそれらをphysics of language modelsに則り完全にコントロールされた条件下で実験し、どのような条件でどのような挙動になるかを明らかにしたよ、という話
- [Paper Note] On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models, Charlie Zhang+, arXiv'25, 2025.12
RLVRはPass@1を報酬としているとみなせるが、それをPass@kにすることで、モデルがRL中に探索する能力が向上し、downstreamタスクのPass@kが向上するよ
- [Paper Note] Pass@k Training for Adaptively Balancing Exploration and Exploitation of
Large Reasoning Models, Zhipeng Chen+, arXiv'25
といったこの辺の話がホットトピックとして挙げられている。
train-inference-mismatchについては、以下もおもしろかった:
- SID-1 Technical Report: Test-Time Compute for Retrieval, SID Research, 2025.12
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10
Launch two tightly connected milestones in the Physics of LM series: a sharpened Part 4.1 (v2.0) and a brand new Part 4.2, Zeyuan Allen-Zhu, X, 2025.12
Paper/Blog Link My Issue
#Article Issue Date: 2025-12-17
Why Training MoEs is So Hard, _xjdr, X Post
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SmallModel #MoE(Mixture-of-Experts) #read-later #reading Issue Date: 2025-12-08
[Thread Memo] 最近の最適化に関する研究についての見解, Seunghyun Seo, 2025.10
Paper/Blog Link My Issue
#Article #NeuralNetwork #Optimizer Issue Date: 2025-10-28 Comment
関連:
- [Paper Note] Weight Decay may matter more than muP for Learning Rate Transfer in
Practice, Atli Kosson+, arXiv'25, 2025.10
- [Paper Note] Robust Layerwise Scaling Rules by Proper Weight Decay Tuning, Zhiyuan Fan+, arXiv'25, 2025.10
- [Paper Note] WHEN DOES SECOND-ORDER OPTIMIZATION SPEED UP TRAINING?, Ishikawa+, ICLR'24 Tiny Paper
- [Paper Note] Fantastic Pretraining Optimizers and Where to Find Them, Kaiyue Wen+, arXiv'25
A few prompt engineering tips that Ilya Sutskever picked up at OpenAI, Ilya Sutskever, 2024.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Prompting Issue Date: 2024-09-08
