Post


Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #Architecture #VisionLanguageModel #UMM #One-Line Notes #Pixel-based Issue Date: 2026-03-06 Comment

Vision EncoderやVAEを用いずに、pixel,wordの入力でnativeなunified modelを構築する。

takeawayとしては
- エンコーダーフリーなアーキテクチャでも、意味とピクセルの表現の両方を保持できる
- image reconstruction, image editingの両者において高い性能を獲得
- understandingとgenerationのtransformerを別々に事前学習し、その後両者を組み合わせて(Mixture of Transformer)追加のSFTをしているようだが、その際に両者のtransformerがconflictすることなく、understandingタスクは安定したままgenerationタスクは素早く収束するといった挙動を示した
- mid-training後により大規模なweb-scaleでの事前学習をするようだが、その際に競合モデルよりもよりデータ効率良く学習ができた

という感じらしい




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #SoftwareEngineering #Reading Reflections Issue Date: 2026-02-28 Comment

やっぱ英語で指示ださないとあかんか...(小並感)

関連:

Loading…


LLM/VLA等の学習ライブラリ回りでは、人間が細かく実装方針分析を指示した上で、実装部分のみを移譲すると今のところ一番うまくいくとのこと。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #read-later #Selected Papers/Blogs Issue Date: 2026-02-28 Comment

- Trinity Large, Arcee, 2026.01
- [Paper Note] Kimi K2.5: Visual Agentic Intelligence, Kimi Team+, arXiv'26, 2026.02
- [Paper Note] Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters, Ailin Huang+, arXiv'26, 2026.02
- Qwen3-Coder-Next: Pushing Small Hybrid Models on Agentic Coding, QwenTeam, 2026.02
- [Paper Note] GLM-5: from Vibe Coding to Agentic Engineering, GLM-5 Team+, arXiv'26, 2026.02
- MiniMax M2.5: SOTA in Coding and Agent, designed for Agent Universe, MiniMax, 2026.02
- [Paper Note] Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts, Chen Yang+, arXiv'26, 2026.02
- Qwen3.5: Towards Native Multimodal Agents, Qwen Team, 2026.02
- Ling-2.5-1T, inclusionAI, 2026.02
- Ring-1T-2.5-FP8, inclusionAI, 2026.02
- Cohere Labs Launches Tiny Aya, Making Multilingual AI Accessible, COHERE LABS TEAM, 2026.02

元ポストには書かれていないがLLMというくくりで言うと以下もある:
- New ARENA material: 8 exercise sets on alignment science & interpretability, CallumMcDougall, 2026.02
- LFM2-24B-A2B: Scaling Up the LFM2 Architecture, LiquidAI, 2026.02
- Qwen3 Swallow, Swallow LLM, 2026.02
- Japanese
- GPT-OSS Swallow, Swallow LLM, 2026.02
- Japanese
- GLM-4.7-Flash, Z.ai, 2026.01
- LongCat-Flash-Thinking-2601, Meituan, 2026.01
- Introducing LFM2.5: The Next Generation of On-Device AI, LiquidAI, 2026.01

Omniモデルを含めると以下:
- Ming-omni-tts-0.5B, inclusionAI, 2026.02
- [Paper Note] Features as Rewards: Scalable Supervision for Open-Ended Tasks via Interpretability, Aaditya Vikram Prasad+, arXiv'26, 2026.02
- MiniCPM-o-4_5, OpenBMB, 2026.02

World Modelsを含めると以下?:
- [Paper Note] Causal-JEPA: Learning World Models through Object-Level Latent Interventions, Heejeong Nam+, arXiv'26, 2026.02
- [Paper Note] Code2World: A GUI World Model via Renderable Code Generation, Yuhao Zheng+, arXiv'26, 2026.02
- [Paper Note] DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos, Shenyuan Gao+, arXiv'26, 2026.02
- [Paper Note] World Action Models are Zero-shot Policies, Seonghyeon Ye+, arXiv'26, 2026.02
- [Paper Note] Advancing Open-source World Models, Robbyant Team+, arXiv'26, 2026.01
- Project Genie: Experimenting with infinite, interactive worlds, Google Deepmind, 2026.01
- Waypoint-1: Real-time Interactive Video Diffusion from Overworld, Overworld, 2026.01

確実に見落としがあるけど。




Paper/Blog Link My Issue
#Article #MachineLearning #NLP #FoundationModel #WorldModels #Initial Impression Notes Issue Date: 2026-02-13 Comment

やはり次のFoundation Modelsの軸としてWorld Modelsやシミュレーションが注目されているように感じる。実際、シミュレーションによって様々なデータが合成できれば現在の基盤モデルをさらに引き上げると思われる。

関連:

Loading…

Karpathy氏のポスト:

Loading…

続報:

Loading…




Paper/Blog Link My Issue
#Article #ComputerVision #Pretraining #NLP #LanguageModel #MultiModal #Robotics #WorldModels #One-Line Notes Issue Date: 2026-02-05 Comment

事前学習がnext word predictionから過去の行動と状態によって条件付けられ次の(ある期間の)世界の状態を予測するワールドモデリング(next physical state prediction)へのパラダイムシフトの予想(というよりこのパラダイムシフトの真っ只中にいる)。人間の脳が処理する情報の多くは視覚であり、言語的な領域は部分的なことであることや、猿は言語的な能力が低くても視覚や運動、触覚などの感覚的情報から世界の物理法則を理解し知的なアクションをとるメンタルモデルを確立していることなどを引き合いに説明している。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #PostTraining #Stability #One-Line Notes Issue Date: 2026-01-24 Comment

関連:
- MiniMax-M1, MiniMax, 2025.06
- [Paper Note] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention, MiniMax+, arXiv'25, 2025.06

RLを安定化するためのtipsとそれによりMiniMax M1のplotが再現できたという話な模様。RLはこういった細かいテクニックが大事だと思うので、共有して頂けるのは大変ありがたい。

関連:
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10
- train-inference-gap && ReinforcementLearning ラベルが紐づいたissueも参照のこと




Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #SyntheticData #Selected Papers/Blogs #DataMixture #PhaseTransition Issue Date: 2026-01-07 Comment

関連(4-epochまで再利用するのがコスパが良いことを示した研究):
- Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23

関連(合成データの比率によるPhaseTransition):
- [Paper Note] Data Mixing Can Induce Phase Transitions in Knowledge Acquisition, Xinran Gu+, NeurIPS'25 Spotlight, 2025.05
- [Paper Note] Demystifying Synthetic Data in LLM Pre-training: A Systematic Study of Scaling Laws, Benefits, and Pitfalls, Feiyang Kang+, EMNLP'25, 2025.10
- [Paper Note] Why Less is More (Sometimes): A Theory of Data Curation, Elvis Dohmatob+, arXiv'25, 2025.11




Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #PostTraining #Diversity #train-inference-gap Issue Date: 2025-12-22 Comment

ロールアウト側のエンジンと、学習側のエンジンのトークンのlogprobのミスマッチによりon-policy RLを実施しているつもりが実はoff policyになってしまっているという話と
- Your Efficient RL Framework Secretly Brings You Off-Policy RL Training, Yao+, 2025.08
- [Paper Note] Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model, Ling Team+, arXiv'25, 2025.10
- [Paper Note] Stabilizing MoE Reinforcement Learning by Aligning Training and Inference Routers, Wenhan Ma+, arXiv'25, 2025.10

長いロールアウトを待っている間がアイドルタイムとなり学習が非常に遅くなる問題を、長すぎるロールアウトは待たないでモデルの重みをロールアウトの途中でもかけてしまい、新しいポリシーでロールアウトを継続すると学習は崩壊せずに高速化できるよ(=in flight updates)という話と
- [Paper Note] PipelineRL: Faster On-policy Reinforcement Learning for Long Sequence Generation, Alexandre Piché+, arXiv'25, 2025.09
- PipelineRL, Piche+, ServiceNow, 2025.04

RLVRはもともとモデルが事前学習時に保持しているReasoningの能力を広げるわけではなく効率化するだけだよ、という主張と、
- [Paper Note] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?, Yang Yue+, NeurIPS'25, 2025.04

効率化するだけという主張と、Reasoning能力を拡大しているよ、という相反する主張がコミュニティでされているがそれらをphysics of language modelsに則り完全にコントロールされた条件下で実験し、どのような条件でどのような挙動になるかを明らかにしたよ、という話
- [Paper Note] On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models, Charlie Zhang+, arXiv'25, 2025.12

RLVRはPass@1を報酬としているとみなせるが、それをPass@kにすることで、モデルがRL中に探索する能力が向上し、downstreamタスクのPass@kが向上するよ
- [Paper Note] Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models, Zhipeng Chen+, arXiv'25

といったこの辺の話がホットトピックとして挙げられている。

train-inference-mismatchについては、以下もおもしろかった:
- SID-1 Technical Report: Test-Time Compute for Retrieval, SID Research, 2025.12
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10




Paper/Blog Link My Issue
#Article Issue Date: 2025-12-17

Paper/Blog Link My Issue
#Article #NeuralNetwork #Optimizer Issue Date: 2025-10-28 Comment

関連:
- [Paper Note] Weight Decay may matter more than muP for Learning Rate Transfer in Practice, Atli Kosson+, arXiv'25, 2025.10
- [Paper Note] Robust Layerwise Scaling Rules by Proper Weight Decay Tuning, Zhiyuan Fan+, arXiv'25, 2025.10
- [Paper Note] WHEN DOES SECOND-ORDER OPTIMIZATION SPEED UP TRAINING?, Ishikawa+, ICLR'24 Tiny Paper
- [Paper Note] Fantastic Pretraining Optimizers and Where to Find Them, Kaiyue Wen+, arXiv'25