Scalabilityに関する論文・技術記事メモの一覧

Scalability

[Paper Note] A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces, Mingxuan Du+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #RAG(RetrievalAugmentedGeneration) #Test-Time Scaling #One-Line Notes #Adaptive #Initial Impression Notes Issue Date: 2026-02-06 GPT Summary- A-RAGは、階層的な取得インターフェースを通じてエージェント型のRAGシステムを実現し、モデルが適応的に情報を検索・取得できる能力を向上させる。キーワード検索、意味検索、チャンク読み取りの3つのツールを提供し、既存の方法と比較して一貫した優れた性能を示す。モデルのスケーリング特性についても体系的に検討し、今後の研究のためにコードを公開予定。 Comment

元ポスト:

Loading…

固定されたワークフローでのRAGではなく、エージェントが自ら考えて最適な検索ツールを模索し情報を自動的に取得するAgentic RAGな枠組みを提案している。研究としての新規性はweaknessだと感じるが、実務的に有効な方法だと思う。LLM側のreasoning effortやmax tokenを増やすことで性能がスケーリングするため（Test Time Scaling)これもまた実用的な手法だと感じる。

[Paper Note] Universal One-third Time Scaling in Learning Peaked Distributions, Yizhou Liu+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #Scaling Laws #read-later #Selected Papers/Blogs #KeyPoint Notes #Physics Issue Date: 2026-02-05 GPT Summary- LLMのトレーニングは計算コストが高く、これはソフトマックスとクロスエントロピーの影響でべき法則的に収束する損失に起因する可能性がある。おもちゃモデルと実証的評価を通じて、この挙動が次トークン分布のピークから生じることを示し、損失のべき法則的なスケーリングが指数$1/3$で発生することを明らかにした。これにより、LLMトレーニングの効率向上に関する新たな方向性が示唆される。 Comment

元ポスト:

Loading…

LLMの事前学習によって学習時間とlossの関係性において、冪乗則に従ったscaling lawsが出現するのはデータの分布起因ではなく、softmax+cross
entropyによる目的関数に起因しているという主張のようで、特にnext token predictionのようなエントロピーが低い分布（特定のトークンだけがピークを持つ分布）にfittingすると、分布の非線形性によって、冪乗則で消失する勾配と損失が生じ、結果的に1/3を指数として持つ冪乗則が出現するといった感じの話らしい。

[Paper Note] Scaling Small Agents Through Strategy Auctions, Lisa Alazraki+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#Analysis #EfficiencyImprovement #NLP #LanguageModel #AIAgents #SmallModel #SelfCorrection #memory #KeyPoint Notes Issue Date: 2026-02-05 GPT Summary- 小規模言語モデルはエージェント型AIの有望なアプローチとして注目されているが、複雑なタスクでは大型モデルが必要な場合が多い。本研究では、SALEというフレームワークを提案し、エージェントが短期的な戦略計画でタスクを効率化し、コストを削減しながら自己改善を行う様子を示す。SALEは、最大エージェントへの依存を53%減少させ、コストを35%低下させることができる。これらの結果は、小型エージェントが複雑な業務には限界があるが、協調的なタスク割り当てを通じてスケールアップ可能であることを示唆している。 Comment

元ポスト:

Loading…

AIエージェントにおいて、小規模モデルは費用対効果が良い選択として期待されているが、結局のところ困難なタスクでは大規模なモデルと比較して性能が低下することから限界を指摘。費用対効果を最大化するためにフリーランスを参考に、候補となるエージェントによる入札方式を採用。エージェントはタスクを解くための戦略をプランニングし、提出された戦略をスコアリングし、かつ推定されるコストから最も費用対効果の良いエージェントを採用することでタスクを解かせるような枠組みを提案している模様。入札に負けたエージェントは、過去の入札履歴が長期メモリに蓄積されるため、それらをcontextに組み込むことで重み更新なしで自身のプランニングを改善していくことができる、というような話に見える。

[Paper Note] SWE-Universe: Scale Real-World Verifiable Environments to Millions, Mouxiang Chen+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #SyntheticData #Coding #MultiLingual #SoftwareEngineering #mid-training #PostTraining #read-later #Selected Papers/Blogs #Verification Issue Date: 2026-02-05 GPT Summary- SWE-Universeは、GitHubのプルリクエストから自動的に検証可能なソフトウェア工学環境を構築するためのスケーラブルなフレームワーク。カスタムトレーニングされたビルディングエージェントが反復自己検証とハッキング検出を用いて信頼性の高いタスク生成を実現。これにより、実世界の多言語SWE環境が100万以上増加し、Qwen3-Max-Thinkingにおいて75.3％のスコアを達成。次世代コーディングエージェントの発展に寄与。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

これまでと比較して非常に大規模な実PRに基づいた、さまざまなプログラミング言語に基づくverifiableな学習用の合成データを構築できる環境で、一つ一つの品質はSWE Benchなどには及ばないが、量が圧倒的

[Paper Note] Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders, Shengbang Tong+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #DiffusionModel #TextToImageGeneration #PostTraining #read-later #Selected Papers/Blogs #2D (Image) #Stability #KeyPoint Notes #ImageSynthesis #AutoEncoder Issue Date: 2026-01-24 GPT Summary- RAEsは高次元セマンティック空間での成果を活かし、自由形式のテキストから画像生成にスケール可能かを検証。デコーダーを用いてImageNetを超えたスケールアップを行い、特定ドメインの重要性を発見。スケーリングによりフレームワークが単純化される一方、ノイズスケジューリングは依然重要。また、RAEsは全てのモデルスケールでVAEsを上回り、安定した性能を確保し、生成品質の向上を示した。これにより、多モーダルモデルの新たな可能性を切り開く。 Comment

元ポスト:

Loading…

この研究はざっくり言うとRAE[^1]がスケールするか否かを調査し、スケールするための条件を調査し、事前学習（GenEval, DPGEvalでVAEと比較して4倍早く収束）、ダウンストリームタスクの双方でVAEベースのtext2imageモデルをoutperformすることを示しており、

スケールさせる際の最初の課題はデコーダにあり、web-scale, syntheticデータをただ増やすだけではfidelityは向上するが特定のドメイン（e.g., text reconstruction)の能力は伸びず、text renderingデータなどの、dataの構成が必要不可欠で、

続いてオリジナルのRAEではアーキテクチャに工夫（decoder入力にノイズを足す、ヘッドをwideにする、その他安定化の工夫）をしていたが、モデル、データがスケールした場合シンプルなアーキテクチャ（次元依存のノイズスケジューリング）のみが必須で他は不要となったという知見が得られており、

RAEでは視覚理解と生成が同じ潜在空間の上で行われることがVAEとは異なる強みで、生成のための学習をしても理解能力が損なわれないことを示し、そして、潜在空間上で（VAEの潜在表現は生成に特化しているが、RAEは視覚理解と生成の双方を扱われており同じ空間上で操作可能なので）LLMが直接test time scalingすることを可能にする、

と言ったことが著者ポストで解説されている。
まだ完璧に理解できていないのでRAEの論文から読みたい、が非常にインパクトの大きな話に見える。

[^1]:encoderをSigLIPなどの強力なvision encoderを用いた上で、デコーダを学習する手法。VAEではCNN等で潜在表現を低次元に圧縮するが、表現力に乏しく結果的に意味的な表現を捉える能力に乏しかったが、より強力な事前学習されたエンコーダと高次元の潜在表現を扱うことでDiffusion Modelで扱う潜在表現を進化させる。

[Paper Note] EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience, Taofeng Xue+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SyntheticData #OpenWeight #SelfImprovement #ComputerUse #PostTraining #read-later #VisionLanguageModel #Initial Impression Notes Issue Date: 2026-01-23 GPT Summary- EvoCUAは、ネイティブコンピュータ使用エージェントの新モデルで、静的模倣に頼らずデータ生成とポリシー最適化を統合。自律的にタスクを生成し、検証可能な合成エンジンでデータ不足を解消。スケーラブルなインフラにより多様な経験を収集し、反復進化学習でポリシーを動的に調整。OSWorldベンチマークで56.7%の成功率を達成し、従来のモデルを大幅に超えた。このアプローチは、さまざまな基盤モデルでの性能向上を実証し、ネイティブエージェントの機能強化に寄与することを示唆している。 Comment

HF: https://huggingface.co/meituan/EvoCUA-32B-20260105

元ポスト:

Loading…

合成データ生成（タスク合成からVerifierの定義まで？)と学習のループを回すことでデータのスケーラビリティを向上し性能向上（これまでは事前に静的に合成されたtrajectoryでの学習が主流）。Rejection Samplingをして成功したtrajectoryでSFTしつつ、工夫されたDPOが用いられている模様。あとで読みたい。

[Paper Note] SWE-smith: Scaling Data for Software Engineering Agents, John Yang+, NeurIPS'25 Spotlight, 2025.04

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SyntheticData #NeurIPS #SoftwareEngineering #PostTraining #One-Line Notes #Environment Issue Date: 2026-02-17 GPT Summary- ソフトウェア工学向け言語モデル（LM）のトレーニングデータ収集は依然として課題であり、データセットは小さく、編纂に数百時間かかる。これを解決するために、SWE-smithという新しいデータ生成パイプラインを提案。任意のPythonコードベースを基にタスク例を自動合成し、約5万件のデータセットを作成。このデータで訓練したSWE-agent-LM-32Bが、最先端の解決率を達成。SWE-smithをオープンソース化し、参入障壁を下げることを目指す。 Comment

元ポスト:

Loading…

データの構築方法はあまりしっかり読めていないが、モデルの学習方法がabstからよくわからなかったのでざっくり読むと、SWE-Smithのinstanceに対してstrong model(実験ではClaude)でtrajectoryを生成しベースモデルをSFTするようである。

openreview: https://openreview.net/forum?id=63iVrXc8cC&referrer=%5Bthe%20profile%20of%20Carlos%20E.%20Jimenez%5D(%2Fprofile%3Fid%3D~Carlos_E._Jimenez1)

[Paper Note] R2E-Gym: Procedural Environments and Hybrid Verifiers for Scaling Open-Weights SWE Agents, Naman Jain+, COLM'25, 2025.04

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #SyntheticData #Coding #Test-Time Scaling #SoftwareEngineering #COLM #PostTraining #Verification #KeyPoint Notes #Hybrid #Environment Issue Date: 2026-02-17 GPT Summary- AgentGymは、GitHubのIssue解決を目的としたSWEタスクのための手続き的にキュレーションされた大規模な実行可能ジム環境で、8,700以上のタスクから構成されています。主な貢献は、合成データキュレーションの手法SYNGENによるスケーラブルな環境構築と、実行ベースおよび実行不要の検証機を用いたハイブリッド・テスト時スケーリングです。これにより、SWE-Bench Verifiedベンチマークで51%のパフォーマンスを達成し、従来のプロプライエタリモデルと競合する能力を示しました。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=7evvwwdo3z#discussion

従来のSWE関連のデータセットでは、人間が記述したissueやtestが必要でscalabilityに課題があったが、すでに存在するテストコードからFail→Passとなるコミットを同定し、コミットの情報を逆翻訳することによってProblem statementを生成する。従来手法ではIssueの記述をそのまま使っていたが、スケーラブルではないので異なるアプローチが求められる。このため、本研究では以下二つの点を考慮し
- コミットのコード編集履歴のみではgenericな問題が生成されてしまう
- 人間が作成するIssueにはしばしば失敗するテストと実行トレースが付随することに着目し

Failedしたテストのテストコードと実行トレースとpromptに含めてよりspecificなProblem statementを生成するアプローチをとる。

また、SWEエージェントが出力するパッチの中からより良いパッチをランキング付けするためのtest-time scaling手法も提案している。具体的には、task description D, agent trajectory T, Patch Pが与えられた時にPatch PのスコアSを得る問題として定式化できる。このスコアを得る方法として、execution basedなverifierとexecution freeなverifierの2種類を分析し、最終的に両者のハイブリッドによってより良いtest-time scalingのgainが得られることを示している。

具体的には、前者はtest codeを自動生成するエージェントを学習し、taskに必要な機能に関するテストと、taskを解くための実装によって既存の機能が壊れていないかに関するテスト（回帰テスト）の2種類によって構成され、回帰テストのスコアが最も良いパッチに対して、テストがどれだけパスしたかによってスコアリングをする。
後者については、D, T, Pが与えられた時に、各Trajectory tが正しいものがどうかを2値分類するverifierを学習し、全体のtrajectoryの数に対するyesの割合によってスコアを定義する。

これらのverifierを分析した結果、双方共にtest-time scalingに対してgainを得られることがわかったが、前者はパッチの正しさに対して直接的なシグナルを得られるが、パッチそのものの質を識別する能力が低く、後者はパッチの質の識別力は高いが、エージェントの思考によるバイアスが課題として存在することがわかった。これより、両者は補完的な関係にあると考えられ、両者をハイブリッドすることによって、より良好なtest-time scalingによるgainを得ることが可能なことが示されている。興味深いのは、editing agent (i.e., パッチを生成するエージェント）のロールアウト数をスケープすることでも性能が改善するが、testing agentのロールアウト数をスケールすることで、editing agentのロールアウトを単にスケールするよりもより効率的なスケーリング性能を得られることである。

[Paper Note] MiniOneRec: An Open-Source Framework for Scaling Generative Recommendation, Xiaoyu Kong+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#RecommenderSystems #LanguageModel #ReinforcementLearning #VariationalAutoEncoder #PostTraining #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-26 GPT Summary- MiniOneRecを提案し、SID構築から強化学習までのエンドツーエンドの生成レコメンデーションフレームワークを提供。実験により、モデルサイズの増加に伴いトレーニング損失と評価損失が減少し、生成アプローチのパラメータ効率が確認された。さらに、SID整合性の強制と強化学習を用いたポストトレーニングパイプラインにより、ランキング精度と候補の多様性が大幅に向上。 Comment

github: https://github.com/AkaliKong/MiniOneRec

元ポスト:

Loading…

興味深い話ではあるが、generativeなRecSysはlatencyの面で厳しいものがあるという認識ではある。読みたい。

[Paper Note] VIRAL: Visual Sim-to-Real at Scale for Humanoid Loco-Manipulation, Tairan He+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#Selected Papers/Blogs #Robotics #Sim-to-Real #Loco-Manipulation Issue Date: 2025-11-21 GPT Summary- VIRALというフレームワークを用いて、ヒューマノイドロボットのロコマニピュレーションをシミュレーションから実世界に展開。教師-生徒の強化学習を通じて、視覚ベースのポリシーを訓練し、計算規模が成功に重要であることを示す。シミュレーションと実世界の整合性を確保し、Unitree G1ヒューマノイドでの実験により、専門家レベルの性能に近づくことを確認。 Comment

pj page: https://viral-humanoid.github.io/

元ポスト:

Loading…

解説:

Loading…

discussionの部分が興味深い

[Paper Note] Scaling Language-Free Visual Representation Learning, David Fan+, ICCV'25, 2025.04

Paper/Blog Link My Issue
#ComputerVision #Pretraining #Transformer #Self-SupervisedLearning #ICCV Issue Date: 2025-10-20 GPT Summary- 視覚的自己教師あり学習（SSL）は、CLIPに比べて視覚的質問応答（VQA）でのパフォーマンスが劣るが、同じデータセットで訓練することで、視覚的SSLモデルがCLIPモデルよりもスケールが良いことを示した。視覚的SSLは、VQAや従来の視覚ベンチマークでCLIPレベルのパフォーマンスを達成できる可能性がある。これにより、視覚中心の表現学習に新たな機会が開かれる。 Comment

pj page: https://davidfan.io/webssl/

元ポスト:

Loading…

[Paper Note] Scaling Test-Time Compute to Achieve IOI Gold Medal with Open-Weight Models, Mehrzad Samadi+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #LanguageModel #Coding #LLM-as-a-Judge #Test-Time Scaling #One-Line Notes Issue Date: 2025-10-19 GPT Summary- 競技プログラミングはLLMsの能力を評価する重要なベンチマークであり、IOIはその中でも特に権威ある大会です。本論文では、オープンウェイトモデルがIOI金メダルレベルのパフォーマンスを達成するためのフレームワーク「GenCluster」を提案します。このフレームワークは、生成、行動クラスタリング、ランキング、ラウンドロビン戦略を組み合わせて多様な解決空間を効率的に探索します。実験により、GenClusterは計算リソースに応じてスケールし、オープンシステムとクローズドシステムのギャップを縮小することが示され、IOI 2025で金メダルを達成する可能性を示唆しています。 Comment

元ポスト:

Loading…

OpenWeight modelで初めてIOI金メダル級のパフォーマンスを実現できるフレームワークで、まずLLMに5000個程度の潜在的なsolutionを生成させ、それぞれのsolutionを100種のtest-caseで走らせて、その後solutionをbehaviorに応じてクラスタリングする。これによりアプローチのユニークさにそってクラスタが形成される。最終的に最も良いsolutionを見つけるために、それぞれのクラスタから最も良いsolutionを互いに対決させて、LLM-as-a-Judgeで勝者をランク付けするような仕組みのようである。

[Paper Note] From Pixels to Words -- Towards Native Vision-Language Primitives at Scale, Haiwen Diao+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #Pretraining #Selected Papers/Blogs #VisionLanguageModel #UMM Issue Date: 2025-10-19 GPT Summary- ネイティブなビジョン・ランゲージモデル（VLM）の課題を明確にし、効果的な構築指針を示す。具体的には、ピクセルと単語の整合、ビジョンとランゲージの統合、クロスモーダル特性の具現化を重視。新たに開発したNEOは、390Mの画像-テキスト例で視覚的知覚を効率的に発展させ、コスト効率の高いエコシステムを提供。 Comment

元ポスト:

Loading…

pj page: https://github.com/EvolvingLMMs-Lab/NEO

HFへのリンクもpj pageにある。

[Paper Note] Scaling Instruction-Finetuned Language Models, Hyung Won Chung+, JMLR'24, 2022.10

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #InstructionTuning #OpenWeight #Selected Papers/Blogs #One-Line Notes #JMLR Issue Date: 2023-04-26 GPT Summary- 指示に基づくファインチューニングは、言語モデルの性能と一般化を向上させる。特に、タスク数やモデルサイズのスケーリング、チェーン・オブ・思考データでの適用が効果的。Flan‑PaLM 540Bは1,800件のタスクでファインチューニングを行い、PaLM 540Bを平均+9.4%上回り、最先端の結果を出している。Flan‑T5も強力なFew-shot性能を示し、指示に基づくファインチューニングがモデルの性能向上に寄与することを確認した。 Comment

T5をinstruction tuningしたFlanT5の研究

HF: https://huggingface.co/docs/transformers/model_doc/flan-t5

先行研究:
- [Paper Note] Finetuned Language Models Are Zero-Shot Learners, Jason Wei+, ICLR'22, 2021.09

Qwen3.5: Towards Native Multimodal Agents, Qwen Team, 2026.02

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #ReinforcementLearning #MultiModal #MultiLingual #OpenWeight #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #VisionLanguageModel #UMM #KeyPoint Notes #Environment Issue Date: 2026-02-17 Comment

元ポスト:

Loading…

最新のQwenがリリース・・・！！

- Vision+TextのUMMを採用。
- real-world agentsのために訓練
- hybrid linear attention + sparse MoE + 環境スケーリングに基づくlarge scale RLを実施
- decodingのスループットがQwen3-Maxと比較して8.6--19.0倍
- 201の言語と方言をサポート
- 397B-A17B
- Gated DeltaNet
- Gated Attention
- context length: 262k
- Multi token prediction
- 言語系タスクではGPT5.2と比較して少し劣る程度、agenticなベンチマークでは大きく上回るものも存在（ただし、Claude 4.5 Opusには届いていないベンチマークが多いように見える）
- Vision系タスクでは全体的にGPT5.2, Opus 4.5よりも優秀に見え、Gemini 3 Proと同等か少し劣る程度に見える。

世はlinear attention時代

所見:

Loading…

INT4モデル:

Loading…

Composer 1.5 のご紹介, Cursor Team, 2026.02

Paper/Blog Link My Issue
#Article #NLP #ReinforcementLearning #AIAgents #GenerativeAI #Blog #Coding #SoftwareEngineering #PostTraining #One-Line Notes Issue Date: 2026-02-10 Comment

事前学習モデルに対して、RLをさらにスケールさせることで性能が継続的に向上し、自己要約能力も備えさせることでcontext windowの問題に対処しているとのこと。

（関連）Composer: 強化学習で構築する高速フロンティアモデル:
https://cursor.com/ja/blog/composer

IsoCompute Playbook: Optimally Scaling Sampling Compute for RL Training of LLMs, Cheng+, 2026.01

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Blog #PostTraining #KeyPoint Notes Issue Date: 2026-01-22 Comment

元ポスト:

Loading…

RLにおけるロールアウト数nのスケーリングは、シグモイド関数のような形状になりどこかのポイントで明確にサチるポイントが存在し、それ以上増やしても少量のゲインしか得られないポイントが存在する。これらのトレンドはeasy/hardな問題の双方で共通して見出されるが、原因は大きく異なっており、nを大きくするとeasyな問題ではworst@kが改善し、hardな問題ではbest@kが改善することで性能が向上する。つまり、簡単な問題に対してはより安定して正解できてミスが減り、困難な問題に対しては探索空間が広がり1回でも正解できる可能性が高まる。また、また、ハードウェア制約によりバッチサイズは基本的に固定されるので、ロールアウト数nと1バッチあたりに含められる問題数はトレードオフの関係となる。

このロールアウト数nに関する性質は、異なるベースモデル間で共通して生じるが、サチるポイントが異なる。問題セットのサイズで見ると、サイズが小さいと早々にoverfitするためサチるnのポイントも早くなる。問題難易度の分布がmixしているものであればnによるスケーリングのトレンドは維持されるが、評価する際のmetricsによってサチるぽいんとが左右される。nのスケーリングはdownstreamタスクの性能も向上させる。

と言った話らしい。

SID-1 Technical Report: Test-Time Compute for Retrieval, SID Research, 2025.12

Paper/Blog Link My Issue
#Article #InformationRetrieval #NLP #LanguageModel #ReinforcementLearning #AIAgents #Proprietary #Selected Papers/Blogs #KeyPoint Notes #train-inference-gap Issue Date: 2025-12-15 Comment

元ポスト:

Loading…

Figure4の話が非常に興味深い。rolloutの結果をtraining engineに渡す間のchat_templateによる抽象化では、マルチターン+tooluseにおいては、たとえばtool call周辺のホワイトスペースに関する情報を消してしまう問題がある。具体的には、一例として、ポリシーがホワイトスペースを含まないフォーマットの誤りがあるrolloutを生成した場合（＝B）を考える。これをtraining engineに渡す際は、以下のような操作を伴うが

>apply_chat_template(parse(B))=G′

この際に、parse→apply_chat_templateの過程でtoolcall周辺のホワイトスペースが補完されるためtraining側ではホワイトスペースが含まれたrollout時とはトークン列が与えられる。この結果、フォーマットに誤りがある状態でrolloutされたにも関わらず、trainingエンジン側では正しい生成結果に擬似的に見える（＝G')のだが、ホワイトスペースが含まれたことでトークナイズ結果が変わり、変化したトークンの部分が極端に小さなlogprobを持つことになる（i.e., ホワイトスペースは実装上の都合で生じ、ポリシーはそのトークンを（尤度が低く）出力していないにもかかわらず、出力されたことにされて学習される）。その結果、見かけ上は正しい生成結果なのだが、負のAdvantageを持つことになり、GRPOではそのような生成がされないように学習されてしまう。これが繰り返されることで、学習の安定性を損なう、という話である。