Author Thread-Postに関する論文・技術記事メモの一覧

Loading…

著者ポスト2:

Loading…

[Paper Note] DynaFLIP: Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation, Jusuk Lee+, arXiv'26, 2026.05

Paper/Blog Link My Issue
Issue Date: 2026-06-03 GPT Summary- DynaFLIPは、ロボット操作のためのダイナミクスを意識した多モーダル事前学習フレームワークで、運動理解を知覚に統合します。異種の人間とロボットのビデオから構築したトリプレットを用い、画像のみのエンコーダを訓練。三つのモダリティが小さなシンプレックス体積を形成するよう促し、その体積が小さいほど整合が強くなります。シンプレックス体積最小化をコサイン正則化項と対照学習と組み合わせ、重要な制御関連領域に焦点を当てたダイナミクス認識表現を得て、視覚バックボーンとして機能します。多様なシミュレーションと実世界の設定で検証した結果、分布外の状況下で最大+22.5%の改善を達成。視覚表現が行動による世界の変化をエンコードすることで、ロボットの一般化能力が向上することを示唆しています。 Comment

pj page: https://dynaflip-robotics.github.io/

元ポスト:

Loading…

[Paper Note] Automated Benchmark Auditing for AI Agents and Large Language Models, Junlin Wang+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#read-later Issue Date: 2026-05-31 GPT Summary- 現代のAIベンチマークでは、複雑なタスクが多く含まれ、人間の注釈では検知が難しい問題が存在します。これを解決するために、Auto Benchmark Audit（ABA）を導入し、168のベンチマークを調査。ABAは、あいまいなタスク設計や実行環境の衝突など、25.7%以上のタスクで重大な問題を特定。問題のあるタスクがモデル評価を歪めることを示し、除外することでパフォーマンスが9.9%及び9.6%向上することを確認。今後のベンチマーク発展のため、これらのツールとタスク注釈を公開します。 Comment

元ポスト:

Loading…

[Paper Note] ReasonOps: Operator Segmentation for LLM Reasoning Traces, Daniel Lee+, arXiv'26, 2026.05

Paper/Blog Link My Issue
Issue Date: 2026-05-31 GPT Summary- ReasonOpsは、チェーン・オブ・ソートの痕跡を分析するための教師なし手法であり、推論の過程を注釈付けするための普遍的な演算子を提供します。12のモデルから44,662の痕跡を分析した結果、共通の構成的な構造が明らかになりました。特に、バックトラッキングや仮説設定などの再発する演算子が全モデルに見られ、内省的演算子は難問でより効果的であることが示されました。演算子のシーケンスを用いることでモデルの高精度な識別が可能になり、早期の品質推定も実現しました。ReasonOpsは、LLMの推論痕跡に対する深いインサイトを提供し、性能予測の強化に寄与します。 Comment

元ポスト:

Loading…

Paper/Blog Link My Issue
#read-later Issue Date: 2026-05-31 GPT Summary- 感情知性（EI）の評価が重要になる中、AttuneBenchを紹介。実際の複数ターンの人間－モデル対話200件に基づき、感情状態とモデルの挙動をターンごとに注釈。11モデルの評価結果は感情認識や応答品質に関する能力が分離可能であることを示し、嗜好の整合と応答品質の判断がモデル識別に強く寄与することを明らかに。AttuneBenchは、感情的に重要な会話の評価枠組みを提供し、モデルの強みや弱点を診断する。 Comment

元ポスト:

Loading…

[Paper Note] Unified Neural Scaling Laws, Ethan Caballero+, arXiv'26, 2026.05

Paper/Blog Link My Issue
Issue Date: 2026-05-31 GPT Summary- UNSLと呼ばれる関数形を提案し、複数の次元が同時に変化する際の深層ニューラルネットワークのスケーリング挙動を正確にモデル化。モデルパラメータ、データセットサイズ、トレーニングおよび推論ステップ数、計算量などが影響を与える様子を示し、大規模なビジョン、言語、数学、強化学習タスクに適用。既存のスケーリング関数と比べ、より精度の高い外挿を実現。 Comment

元ポスト:

Loading…

[Paper Note] CUA-Gym: Scaling Verifiable Training Environments and Tasks for Computer-Use Agents, Bowen Wang+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#ComputerVision #ComputerUse Issue Date: 2026-05-31 GPT Summary- 検証可能な報酬を用いる強化学習（RLVR）は、従来の手作業ベンチマークの限界を超えるために、スケーラブルなデータ生成パイプラインCUA-Gymを提案。Generatorエージェントが環境を構築し、Discriminatorエージェントが報酬関数を記述。両者を反復的に駆動し、高忠実度のモックWebアプリを用いて訓練データを拡張。CUA-Gymデータセットは32,112件のタプルを含み、訓練環境を超えた性能向上も示現。全プロセスはオープンソース化される予定。 Comment

pj page: https://cua-gym.xlang.ai/

元ポスト:

Loading…

[Paper Note] Intent-aligned Formal Specification Synthesis via Traceable Refinement, Zhe Ye+, arXiv'26, 2026.04

Paper/Blog Link My Issue
Issue Date: 2026-05-31 GPT Summary- 自然言語からコード生成における正確性を高めるため、私たちはVeriSpecGenを提案します。これは、帰属と修正を通じて意図に沿った仕様を合成するリファインメント・フレームワークです。自然言語を原子レベルの要件に分解し、明示的な追跡マップで生成された仕様を検証します。検証失敗時には、追跡マップを基に修正が可能です。VeriSpecGenはVERINA SpecGenタスクで86.6%の成績を収め、他のモデルより最大31.8ポイント上回ります。また、343,000件の訓練例を生成し、仕様合成を62–106%改善し、一般的な推論能力にも貢献することを示しました。 Comment

元ポスト:

Loading…

[Paper Note] Parallax: Parameterized Local Linear Attention for Language Modeling, Yifei Zuo+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#NLP #LanguageModel #Attention #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-05-30 GPT Summary- 大規模言語モデル（LLMs）用にスケール可能な局所線形アテンション（LLA）を提案するParallaxを導入。LLAの数値解法を排除し、アテンション機構を効率化。FlashAttentionに対して高い演算強度を実現し、事前学習全体で一貫したパープレキシティ改善を確認。新たな現象MuonによりParallaxの能力を向上させた。この研究は、注意機構のアーキテクチャとオプティマイザの共同設計の重要性を示す初の例である。 Comment

元ポスト:

Loading…

Muonと組み合わせると非常に高い性能を発揮するようである

早速nanoGPT speedrunでParallaxによってSoTAが更新されたようである：

Loading…

[Paper Note] MRT: Masked Region Transformer for Layered Image Generation and Editing at Scale, Zhicong Tang+, CVPR'26, 2026.05

Paper/Blog Link My Issue
#ComputerVision #Transformer #DiffusionModel #CVPR #2D (Image) #Editing #ImageSynthesis #Initial Impression Notes Issue Date: 2026-05-28 GPT Summary- 多層透明画像の生成と編集に特化した200億パラメータのマスク領域拡散モデル「MRT」を提案。テキストおよび画像からのレイヤー生成を統合し、柔軟なレイヤー単位の操作を実現。オーバーフロー対応のキャンバスレイヤーによって、透明な背景合成をサポートし、リアルタイムの生成を可能に。実験により、従来の技術を大きく上回る性能を示し、特に編集品質や推論速度で優位を獲得。 Comment

元ポスト:

Loading…

pj page: https://mrt-cvpr.github.io/

画像生成ではなく、layer生成にフォーカスした研究で、text-to-layer generation, image-to-layer decomposition, layer-to-layer addition, layer-to-layer restylizationなどが可能なようである。

[Paper Note] Guiding LLM Post-training Data Engineering with Model Internals from Sparse Autoencoders, Yi Jing+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#NLP #LanguageModel #PostTraining #CurriculumLearning #DataFiltering #One-Line Notes #SparseAutoEncoder #Data Issue Date: 2026-05-28 GPT Summary- モデル内部情報がLLMのデータ処理方法に重要である一方、外部信号に依存したデータエンジニアリングは内在信号を無視していることを指摘。SAERLを提案し、Sparse Autoencoderを用いて多様性、難易度、品質の三つのデータ特性をモデル化。これにより、バッチ多様性や難易度の順序づけ、データフィルタリングを実現。SAERLは平均精度を3.00%向上させ、少ないトレーニングステップで目標精度に達することを示し、効果的なデータエンジニアリングツールとしての役割を果たすことが確認された。 Comment

元ポスト:

Loading…

SAEのrepresentationを、interpretabilityに活用するのではなく、post-trainingの学習データに対するdata engineeringに使うことで、costのかかる手法ではなく**より低コストで**data engineeringを実現したい、という気持ちの研究。提案手法では、SAEによって獲得されるrepresentationに基づいてpost-trainingの学習データに対して、
- 多様性: SAErepresentationを用いてクラスタリングを実施し活用
- 難易度: 軽量なElasticNetに基づく回帰モデル（特徴量はSAE representation）によって難易度予測モデルを学習し、クラスタIDに基づいて難易度をキャリブレーション
- 品質: SAE representationに基づいてqualityを判断する二値分類器を学習しその確率値を使うようである

ぱっと見よくわからないのが、
- difficulty-labeledなsubsetの正体はなんなのか？
- それは幅広いドメインで入手可能なものなのか？
- in-distributionな難易度であればElasticNetで予測できたということだが、in-distributionなdifficulty-labeledなデータがないと提案手法は原則として適用できないということなのか？

という疑問はある。

[Paper Note] SpatialBench: Is Your Spatial Foundation Model an All-Round Player?, Haosong Peng+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#ComputerVision #Dataset #Evaluation #OOD #Generalization #SpatialUnderstanding Issue Date: 2026-05-27 GPT Summary- 空間基盤モデルの真の一般化能力を評価するために、決定論的サンプリングを用いた新しいベンチマークSpatialBenchを提案。これにより、19データセットと546シーンを通じて5つの空間ドメインで41モデルを評価。結果は現行モデルが「万能プレーヤー」には至っていないことを明らかにし、精度向上には全文脈アテンションが有効で、有限メモリ戦略がスケーラビリティを改善することを示した。身体性を伴うタスクでは、高品質データが性能向上に重要であることも明らかになった。さらに、評価を超えてDA-Next-5MデータセットとDA-Nextモデルを導入し、空間表現学習の可能性を広げる。 Comment

pj page: https://ropedia.github.io/SpatialBench/

元ポスト:

Loading…

[Paper Note] PowLU: An Activation Function for Stable Pre-Training of LLMs, Peijie Jiang+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Stability #ActivationFunction #Initial Impression Notes #LowPrecision Issue Date: 2026-05-27 GPT Summary- 大規模言語モデル（LLM）において、SwiGLU活性化関数は非線形性を導入するが、大きな入力での数値的不安定性が問題。これを解決するために、新たに提案したPowLU活性化関数は、安定した訓練を実現し、表現力を向上させる。実験では、PowLUがSwiGLUやSwiGLU-Clipと比較して競争力のある結果を示し、スケーラビリティの向上も確認された。 Comment

元ポスト:

Loading…

Layerが深いモデルや、低精度（FP8/FP4)に対して、事前学習の安定性を高める活性化関数

[Paper Note] Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference, Sangyun Lee+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#NLP #LanguageModel #LongSequence #SSM (StateSpaceModel) #reading #LinearAttention Issue Date: 2026-05-27 GPT Summary- トランスフォーマーに基づく大規模言語モデルのアテンション機構が長期タスクでスケールしにくい問題を解決するため、睡眠様の統合機構を提案。モデルは睡眠中に文脈をファストウェイトに変換し、指定されたタスクでオフラインで学習を行う。実験により、提案手法がより深い推論を必要とするタスクで性能向上を示し、従来のトランスフォーマーとハイブリッドモデルに対する優位性を証明。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] Forecasting Scientific Progress with Artificial Intelligence, Sean Wu+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #AIAgents #ScientificDiscovery #Initial Impression Notes #autoresearch Issue Date: 2026-05-27 GPT Summary- AIは科学的発見に活用されつつあるが、科学の進歩を予測可能かは不明。本研究では、科学進歩予測のための評価フレームワークCUSPを提案し、4,760件の科学イベントを分析。最先端モデルには体系的・領域依存的な限界があり、科学的進歩の実現を信頼性高く予測できず、特に生物学・化学・物理学での予測が異なる。モデルは不確実性推定の信頼性に欠け、過信や応答バイアスを示し、現行のAIシステムは科学進歩予測には不十分であることを示唆。知識へのアクセスが信頼性に結びつかないことも明らかになった。 Comment

元ポスト:

Loading…

現在のモデルはブレイクスルーの要素技術となるようなアプローチを認識できるが、実際にいつブレイクスルーが起きるかを正確には予測できず（ほぼランダムと同等）、dateがgivenで4種類のイベントが与えられて以下のどれが起きるか？といったMCQだったらそこそこ予測できる、という感じだろうか。

ブレイクスルーがいつ起きるか、dateを予測するというタスク設定にはノイズが多すぎて無理があるのでは...?と最初は思ったが、MCQと対比して予測能力の限界を示すという観点では興味深い。また、もしautoresearchが本格的に実施されるようになった未来があったとして、投入される計算機リソースとモデルが一定だとしたら、少し状況は変わるのかもしれない。

データセットの構築方法、BinaryがどのようなQuestionによって実施されたのか（negationを用いていると記述されているが）、FRQとdate predictionの違いは何か、といったあたりはしっかりわかっていない。

[Paper Note] CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs, Han Guo+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#NeuralNetwork #EfficiencyImprovement #NLP #LanguageModel #Transformer #reading Issue Date: 2026-05-27 GPT Summary- CODAは、トランスフォーマーのオペレータをGEMMプラスエピローグとして再パラメータ化し、計算をメモリ書き込み前に実行可能にするGPUカーネルの抽象化である。このアプローチにより、データ移動のボトルネックを軽減し、標準的なTransformerブロックの計算を効率化。代表的なワークロードで高性能を達成し、生産性と効率を両立する道を示す。 Comment

元ポスト:

Loading…

[Paper Note] （Sparse） Attention to the Details: Preserving Spectral Fidelity in ML-based Weather Forecasting Models, Maksim Zhdanov+, ICLR'26, 2026.04

Paper/Blog Link My Issue
#ComputerVision #Transformer #ICLR #One-Line Notes #SparseAttention Issue Date: 2026-05-27 GPT Summary- 本研究では、MLベースの気象予測のスペクトル劣化に対応する確率的モデル「Mosaic」を提案。三つの故障モードを扱い、アンサンブルメンバーを生成する。1.5°解像度で214Mパラメータを持つMosaicは、高解像度モデルに匹敵する性能を示し、ほぼ完璧なスペクトル整合性を達成。予報は高速に実行可能で、コードも公開中。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=u0KcfOaRc7&referrer=%5Bthe%20profile%20of%20Max%20Welling%5D(%2Fprofile%3Fid%3D~Max_Welling1)

block-sparse attentionによるtransformerベースの天気予報モデル

[Paper Note] On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists, Seungone Kim+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Selected Papers/Blogs #reading #Initial Impression Notes #Reviwer Issue Date: 2026-05-27 GPT Summary- AIレビュアーの導入が進む中、その能力と信頼性には疑問が残る。多くの科学者はAIを専門知識を欠くシステムと見なす一方、他の研究者は楽観的である。AIレビュアーの評価を理解するため、本研究では、専門家による2,960件のレビューを評価し、その結果、GPT-5.2が人間レビュアーを上回る性能を示した一方で、他のAIレビュアーは最低評価の人間を上回った。ただし、AIレビュアーは重複や限定的知識に課題を持ち、人間の代わりではなく補完としての役割に留まることが明らかとなった。 Comment

元ポスト:

Loading…

Natureの82本の論文に対してAIにレビューを実施させ、人間の専門家がレビュー結果に対して大規模なアノテーションを実施し、現在のAIレビュワーの能力を評価。その結果、AIレビュワーは
- 根拠が明確で重要な問題点を明らかにし、人間よりも多くの問題点を指摘できるが
- レビューの結果は多様性に乏しく、重複した指摘が多い。
- また、コミュニティや分野における暗黙の了解や規範が欠如した指摘をしたり (W1: missing community / field norms)、過剰に厳しい、あるいはスコープ外や非現実的な要求を実施したりする (W2: over-harsh, out-of-scope, or unrealistic demands)

などの欠点があることが明らかになった、ということのようである。

[Paper Note] AstraFlow: Dataflow-Oriented Reinforcement Learning for Agentic LLMs, Haizhong Zheng+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#Tools #NLP #LanguageModel #ReinforcementLearning #AIAgents #PostTraining #Asynchronous Issue Date: 2026-05-27 GPT Summary- AstraFlowは、強化学習（RL）システムのデータフロー管理を自律的なコンポーネントに分離し、マルチポリシー協調訓練を効率的にサポートする新しいアプローチを提供する。これにより、従来のトレーナー中心の制御から脱却し、異種かつ跨地域の計算リソースを効果的に活用する。AstraFlowは、数学やコーディング、検索のワークロードで、既存RLシステムに匹敵する精度を保ちつつトレーニング時間を2.7倍短縮したことが示された。 Comment

元ポスト:

Loading…

github: https://github.com/Infini-AI-Lab/astraflow

[Paper Note] What do Language Models Learn and When? The Implicit Curriculum Hypothesis, Emmy Liu+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #Selected Papers/Blogs #reading #One-Line Notes #needs-revision Issue Date: 2026-05-27 GPT Summary- 大規模言語モデル（LLMs）の事前学習におけるスキル獲得の順序を理解するための「暗黙のカリキュラム仮説」を提案。シンプルかつ組み合わせ可能なタスクを用い、モデル間の一貫した出現順序を追跡。特定のパラメータ範囲で構成的なタスクが後に現れる傾向があり、モデルの表現に組み込まれていることを示す。予測可能な訓練経路を通じて、事前学習は構造化されていると示唆。 Comment

元ポスト:

Loading…

これは、著者ポストしっかり読みたい

- モデルファミリー・DataMixtureにはよらず、事前学習では構成的で、かつ予測可能なカリキュラムに則って学習が進行し、かつモデルの内部状態から各スキルがどのように学習されていくかを予測できるという仮説を立て、
- この仮説を検証するために、91種類の構成的なタスクを定義し、emergence（=当該タスクの性能が閾値を超えること）を4種類のモデルファミリーにおける9つのモデル、様々なDataMixtureの元で追跡した。タスクの例は以下:
- simple tasks: 文字列操作/形態素の変換/知識の抽出/翻訳など
- composite tasks: 複数の基礎的な操作のsequentialな組み合わせによって実現されるタスク
- たとえば、`gerund_upper` は大文字への変換➡︎動名詞への変換という順番で定義される。

- 様々なモデルファミリーをテストしたところ、LLMは事前学習の間におおむね（完璧ではないが）同じ順番でスキルを獲得していくことが明らかになった
- たとえば、Figure 1を見ると、性能の伸び方は異なるものの、閾値を50%としたときのemergenceの順番はモデルの間で一貫していることがわかる。Table2も参照のこと。

- composite tasksは、それらのタスクの構成要素が獲得された後にemergeすることが明らかになった（54/76ケース）
- 例外的に、composition taskが構成要素よりも先に習得されたものが3例ほど存在した
- また、あるcomposite taskの学習曲線を、類似したFunction Vectors [^1] を持つcomposite taskから予測できるか？（i.e., 類似したタスクは同じような学習曲線を持つか？）を検証。
- これを実施するために、composite taskに対してleave-one-outを実施し、類似したタスクのFunction Vectorsから学習の軌跡を予測できるかを実験したところ、R^2スコアが0.68--0.84程度の性能で予測することができた。
- Function Vectors: [Paper Note] Function Vectors in Large Language Models, Eric Todd+, arXiv'23, 2023.10

[^1]: Function Vectorsとは、LLMに遂行させるタスクのinput-outputの変換の関係性を保持し、タスクを遂行させる際にLLMに対して強い影響力を持つ内部のactivationsのことを指す。

[Paper Note] Medmarks: A Comprehensive Open-Source LLM Benchmark Suite for Medical Tasks, Benjamin Warner+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #Medical Issue Date: 2026-05-27 GPT Summary- 医療分野でのLLMs評価は、ベンチマークの飽和やデータ制限のため困難である。30のベンチマークを含むオープンソース評価スイートMedmarksを導入し、61モデルを71設定で評価。その結果、最先端のモデルが最高性能を示し、ファインチューニングされたモデルが汎用モデルを上回ることが確認された。評価は医療推論のLLMsのポストトレーニング環境としても利用可能。 Comment

元ポスト:

Loading…

Carbon: Decoding the Language of Life, Allal+, bioRxiv'26, 2026.05.25

Paper/Blog Link My Issue
#NLP #LanguageModel #FoundationModel #OpenWeight Issue Date: 2026-05-27 Comment

元ポスト:

Loading…

著者ポスト2:

Loading…

github: https://github.com/huggingface/carbon

genomic foundation model

[Paper Note] Forecasting Downstream Performance of LLMs With Proxy Metrics, Arkil Patel+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Selected Papers/Blogs #reading #One-Line Notes #DownstreamTasks Issue Date: 2026-05-27 GPT Summary- 信頼性の高い性能予測が必要な言語モデル開発において、クロスエントロピー損失や直接評価には限界があることを指摘し、代わりに専門家が執筆した解答のトークン分布からエントロピーや精度といったトークンレベルの統計を用いた代理指標を提案。これにより、モデル選択や事前学習データの選択、訓練時の予測において一貫して優れた結果を示し、専門家の軌跡がモデル能力評価において有用な信号であることを明らかにした。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

クロスエントロピーlossに代わるcandidate modelのdownstreamタスクの性能を間接的に測定するための代理指標の提案で、クロスエントロピーlossと比較。代理指標はexpertが作成したtrajectoryに対するcandidate modelのnext token predictionの分布（や、エントロピー等指標に基づく重みづけの組み合わせ）によって、算出される（式1, 2）。

6つの異なるモデルファミリーの18種類のreasoning modelにおいて、6種類のベンチマークにおいて、モデルのdownstreamタスク性能をランク付けできるかをSpearman Rhoで測定したところ、クロスエントロピーlossが0.36だったのに対し、提案した代理指標（を特徴量として用いたRankSVM）は0.81を記録。また、（あるLLMがある事前学習コーパスで学習された場合のdownstreamタスクでの性能の良さによって）事前学習コーパスの良さをランク付けするタスクの場合、ベースラインと比較して10,000倍計算コストを削減できたとのこと。

DataDecide testbed:
- [Paper Note] DataDecide: How to Predict Best Pretraining Data with Small Experiments, Ian Magnusson+, ICML'25, 2025.04

[Paper Note] AI for Auto-Research: Roadmap & User Guide, Lingdong Kong+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #AIAgents #autoresearch Issue Date: 2026-05-27 GPT Summary- AI支援研究は進化し、自動化システムが低コストで論文を生成可能になったが、整合性の問題が浮き彫りに。特に、最先端のLLMでも結果の捏造や誤りの見逃しがある。研究ライフサイクルを四つの段階（Creation, Writing, Validation, Dissemination）で分析し、AIの信頼性と自律性の限界を特定。AIは構造化されたタスクには優れるが、新規のアイデアや実験には脆弱であり、人間の協働が最も信頼される。具体的なリソースはプロジェクトページで提供。 Comment

pj page: https://worldbench.github.io/awesome-ai-auto-research

元ポスト:

Loading…

[Paper Note] LEANN: A Low-Storage Vector Index, Yichuan Wang+, MLSys'26 Best Paper Award, 2025.06

Paper/Blog Link My Issue
#EfficiencyImprovement #InformationRetrieval #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #MLSys Issue Date: 2026-05-27 GPT Summary- LEANNは、動的に再計算することでストレージ効率の高いベクトル検索を実現する新しいインデックス。元データ一部のみで高品質な検索を提供し、従来のインデックスに対して最大50倍のサイズ削減を達成。RAGアプリケーションでの高精度と同等のレイテンシを維持。 Comment

元ポスト:

Loading…

github: https://github.com/yichuan-w/LEANN](https://t.co/QwkYx1t0oa

[Paper Note] Steerable but Not Decodable: Function Vectors Operate Beyond the Logit Lens, Mohammed Suhail B Nadaf, arXiv'26, 2026.04

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Steering Issue Date: 2026-05-26 GPT Summary- 活性化の誘導は、タスク挙動が活性化空間の線形方向に対応することに基づくが、研究によりこの前提が逆転することが示された。12タスクにわたる6つのモデルでの分析から、通常の操縦が成功する一方で、デコードできない場合も多く、FVsは計算的指示を符号化するが、回答の方向性は示さないことが明らかになった。また、モデル間の非対称性が確認され、線形表現仮説が「線形デコーダ可能性」と「線形ステアラビリティ」に分解されることで、それぞれが異なることも示された。これらの結果は、安全性モニタリングにおいて重要な示唆を含む。 Comment

元ポスト:

Loading…

[Paper Note] From Simulation to Enaction: Post-trained language models recognize and react to their own generations, Asvin G.+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Alignment #PostTraining #One-Line Notes Issue Date: 2026-05-26 GPT Summary- モデルは事前訓練による受動的な予測器から、事後訓練を通じて自身のオンポリシー生成を認識するように変わる。この認識は出力分布に影響を与え、オンポリシー時の出力エントロピーはオフポリシー時より3〜4倍低いことを示す。最新の入力トークンの予測されなさが出力エントロピーを調整し、事後訓練済みモデルは応答の話題についての不確実性を早期に収束させる。一方、異なる話題のプレフィルによってこの意図が崩れるとエントロピーが上昇する。また、モデルがオンポリシーの文脈を言語的に認識できることが確認されたが、そのメカニズムは暗黙の認識とは異なる。 Comment

元ポスト:

Loading…

以下元ポストの要約

- 事前学習済みモデルは「シミュレータ」であり、事後学習済みモデルは「実行者/演者」としてとらえた方がよい
- すなわち、自身の出力はアクションであり、その結果がフィードバックとして将来の自身の入力になるような関係の下駆動する。
- 事後学習済みモデルは自身の出力よりも、他のモデルの出力を読み込む場合にエントロピーが高くなる
- これは、モデルの入力に対するSurpriseの内部表現によって生じる。すなわち、過去のモデルの予測結果に対して、入力された直近のトークンがどれくらい尤度が低いか、によって出力のエントロピーがsteeringされる。
- モデルサイズが大きいほど、オンポリシー・オフポリシーの差が大きく、これはRL無しで、SFT+DPOだけのpost-trainingでも自己認識が生じる。
- また、「食べ物を思い浮かべて...」というinstructionを与えると、事前学習済みモデルと比較して、事後学習済みモデルは単一のトピックに確率質量を集中させる（つまり、計画を練っている）。これはシミュレータと実行者/演者の特性の違いとしてとらえられる。
- 事後学習済みモデルは、自身の計画がのっとられた場合も検知することができ、計画されていないprefillの場合は、出力トークンのエントロピーが大きくなる。一方、ベースモデルの場合はエントロピーにこのような効果はない（暗黙的な自己認識）。
- モデルに読んでいるテキストが自身が生成したものか、他人が入力したものかを判定させる実験を実施し、KV Cacheをパッチして挙動を分析。ユーザのintentがuser-token中の特定の位置の（おそらくKV Cache）に保持され（hidden activation）、ユーザの意図との整合性等の判定結果を出力する直前にのみ、hidden activationと応答内容の比較がなされていることがKV Cacheのパッチに基づく実験で明らかとなった（明示的な自己認識）。
- この結果は、意図を比較する際には、暗黙的な自己認識の場合と比較して、異なる回路（Surpriseとは異なる回路）をオンデマンドで誘発して利用していることを示唆している。
- （理解があまりできておらず、この説明で正しいかちょっと自信がない。論文中3.3節）

[Paper Note] AMUSE: Anytime Muon with Stable Gradient Evaluation, Jueun Kim+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #LanguageModel #Optimizer #Finetuning #Stability #Backbone #One-Line Notes #Scheduler-free Issue Date: 2026-05-26 GPT Summary- Muonの直交化は、勾配の振動を引き起こす高曲率部分空間の影響を受けつつ、訓練の進展を加速する。一方、Anytime Muon（AMUSE）は、迅速な適応を図るために時間変化する補間係数を利用し、安定した平均化を通じて振動を抑制する。AMUSEは学習率スケジュールを排除し、視覚タスクと大規模言語モデルの事前トレーニングにおいて、性能を一貫して向上させる。 Comment

元ポスト:

Loading…

以下、上記著者ポストからの要約である。

MuonとScheduler-freeなoptimiserでの過去のtrajectoryの平均的な方向へ更新する考え方を組み合わせて、Muonの学習を安定させ、かつSchduler-freeを実現した模様。具体的には学習初期にはMuonの軌道を重視し、学習後半になるにつれ、ノイズの影響を低減するためにtrajectoryの平均方向に最適化する（時間変化する補完係数によって挙動が制御される）といったイメージのようである。

Muonがなぜうまくいくかの理論的な分析も実施されている。近年は損失関数の幾何構造をriver/valleyのようにたとえて表現するらしく、（Figure 1)、SGDは曲率の高い（勾配が急）な方向への更新される傾向があり振動をしながら川方向へ進むようだが、Muonはriver方向（曲率は小さいがモデルが最も学習が進捗する方向）への更新を増幅する働きがあるようである。しかし、ノイズとなる高曲率な谷方向への更新も増幅してしまいそれが振動や不安定さを生むため、それを是正するためにSchedule Freeな手法を組み合わせている、という気持ちのようである。また、先行研究に記載がある通り、WSDスケジューラをriver-valleyで説明する、Stableフェーズが川に沿った更新を促進し、Decayフェーズはパラメータを谷の底へ収束させる役割を果たしている、というイメージのようである。

[Paper Note] Reward-free Alignment for Conflicting Objectives, Peter L. Chen+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #Safety #PostTraining Issue Date: 2026-05-25 GPT Summary- 対立する目的を考慮したリバースアライメント手法（RACO）を提案。ペアワイズ嗜好データを利用し、効率的な衝突回避勾配降下法を用いて収束を保証。複数のLLMに対する実験で、提案手法が従来のアプローチよりパレートのトレードオフを一貫して改善することを示した。 Comment

元ポスト:

Loading…

[Paper Note] Efficient Agentic Reasoning Through Self-Regulated Simulative Planning, Mingkai Deng+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Planning Issue Date: 2026-05-24 GPT Summary- エージェントの計画メカニズムを三つのシステム（シミュレーティブ推論、自己規制、反応的実行）に分解し、効率的な推論を実現する。SR^2AMを用いてLLMを世界モデルにし、計画と推論を行う二つの実装（v0.1およびv1.0）で、推論トークンの使用を大幅に削減。特にv1.0-30Bは、同等モデルと比較して推論トークンを25.8–95.3%少なく使い、計画の見通しを22.8%増加させることが示され、エージェントの学習と適応の自律性が強化されることを証明。 Comment

元ポスト:

Loading…

[Paper Note] VLA-REPLICA: A Low-Cost, Reproducible Benchmark for Real-World Evaluation of Vision-Language-Action Models, Alex S. Huang+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#ComputerVision #NLP #Evaluation #Reproducibility #Robotics #VisionLanguageActionModel #Reading Reflections Issue Date: 2026-05-23 GPT Summary- VLAモデルの実世界評価に向けた低コスト且つ再現性の高いベンチマークVLA-REPLICAを提案。市販部品で構築し、多様な操作タスクとデータセットを提供。実験により、再現性を確認し、モデルの特性を明らかに。 Comment

元ポスト:

Loading…

再現可能なベンチマークを作るのはロボティクスのような物理的な検証環境が必要なタスクの場合は確かに難しそうだな、と思うなどした（小並感）。オブジェクトの配置や景観、実際のロボットのパーツなど外的な要因が非常に多い気がする。

[Paper Note] Unmasking On-Policy Distillation: Where It Helps, Where It Hurts, and Why, Mohammadreza Armandpour+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #Distillation #PostTraining #On-Policy #One-Line Notes Issue Date: 2026-05-23 GPT Summary- オンポリシー蒸留は推論モデルの訓練に対し、トークンごとの監督信号を提供するが、その有効性を決定する条件は未解明である。本研究では、トークン、質問、教師ごとに動作する診断フレームワークを導入し、学生の成功確率を最大化する勾配を導出。理想の勾配との整合性を評価し、蒸留指導が誤ったロールアウトに対して高い整合性を示すことを発見。最適な蒸留文脈はモデルの容量とタスクに依存し、標準的な設定は存在しないことが示された。これにより、タスクごとの診断分析の重要性が強調される。 Comment

元ポスト:

Loading…

（下記は著者ポストに基づく要約です。ざっくり読んだだけなので誤りがあるかもしれず、詳細は著者ポスト参照のこと）

on-policy (self) Distillationが、どのような場合に有効なのかを分析。
トークンレベルで見た時に多くのトークンが教師-生徒間でdisagreementが存在し、これらにはフォーマットに起因するトークンと、reasoningに重要なトークンの双方が存在する。
そこで、本研究では各トークンにとっての最良の勾配を導出（＝生徒が正答できる確率を最大化する方向のもの）。
最適なgradientの方向がわかったので、あとは実際に蒸留をした場合の各トークンのgradientとのコサイン類似度を測ることで、どのような場合にdistillationが有用やシグナル（すなわち、生徒が正答できる確率を高めることに寄与しているか）を分析した。

分析の結果
- distillationが役に立つ場面は、生徒が誤ったロールアウトをしているケースで、正解のロールアウトをしている場合は教師モデルは役立つシグナルではなくノイズを与えているだけだった。
- 教師モデルのパラメータは大きければ大きいほど良いわけではなく、有効か否かは生徒モデルが学習シグナルを理解できるかに依存する。
- たとえば、BoolQというデータで生徒がQwen0.6Bだった場合はself-teacherに基づく勾配が、より大きな外部teacher(4--14B)による勾配と比較して、理想的な勾配に近かった（より高い類似度だった）。
- 一方で、同じデータセットで生徒モデルを1.7Bにすると、8Bの外部teacherが最も理想的なシグナルと高い類似度の勾配をもたらし、self-teacherはあまりうまく機能しなかった。
- contextのフォーマット（生のtrajectoryか要約か, mistakeを含めるか否か等）が、教師モデルの選択と同じくらいの重要
- MMLUデータでの実験で、0.6Bモデルが生徒の場合は、32Bモデルが書いたsolutionをcontextとして与えたself-teacherが理想的な勾配により近く、1.7Bの生徒の場合は、要約されたsolutionの方が良い。
- AIMEの場合、hardな問題の場合は、正解だけでなく失敗例 /典型的なミスをcontextとして与えたself-teacherが良い一方で、easyな問題では常にパフォーマンスの劣化を招く。

以上より、タスクごとに有用なdistillationの設定を模索することの重要性が示唆される、

という感じのようである。

著者ポスト:

Loading…

[Paper Note] Learning from Language Feedback via Variational Policy Distillation, Yang Li+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #PostTraining #On-Policy #reading #One-Line Notes Issue Date: 2026-05-23 GPT Summary- Variational Policy Distillation（VPD）は、強化学習におけるまばらな報酬信号の問題を解決する新たなフレームワークであり、言語フィードバックから密なトークンレベルの監督信号を生成する。これにより、教師と学生ポリシーを共進化させ、教師は軌道結果に基づいて能動的に洗練され、学生はこの情報を内在化する。科学的推論やコード生成タスクにおいて、VPDは従来の手法を一貫して上回る性能を示し、受動的蒸留の限界を克服することを目指す。 Comment

元ポスト:

Loading…

提案手法の全体像を説明する図が論文中に欲しい。式(3)が天下り的に出てきて、私の勉強不足によりこの式を前提に論理展開がスタートする気持ちがよくわからない（おそらくDPOあたりをもっとしっかり理解するとわかるのだろう）。

が、現在のself-teacherに基づくOPSDは、textual feedback Cに対して最適化されておらず、かつzero-shotによる予測を実施しているため、学習が継続するにつれてfeedbackにいつか限界が生じるため学習のために有用なシグナルがなくなるのではないか、という考察に基づき、

textual feedbackから学習する枠組みvariational inference problemの観点から考え直す。すると、KL Divergenceによって正則化されたRLVRは式(3)によって定式化されるreward functionによって傾斜がつけられた最適な事後分布pi_*に対して、ポリシーのKL Divergenceを最適化する問題と等価になる。このとき式(3)の分母にはZ(x)が存在しこれは計算ができない。このため、これを解決するためにteacher network q_phi (y | x, C) を導入し、最適な事後分布pi_thetaの近似的な教師分布とする。これによりELBOを用いた変分下限のRLVRの目的関数を定義することができ、これはEMアルゴリズムによって解くことができる。具体的には

- Eステップ: q_phiとpi_optimalのKL Divergenceが最小となるようにq_phiを更新する。
- Mステップ: pi_thetaとq_phiのKL Divergenceが最小となるようにpi_thetaを更新する。

このとき、EとMではphiとthetaのパラメータが独立して存在するが、実用上はphiとthetaを共有する。これにより、textual feedback Cを解釈する教師モデルと学生モデルの双方がco-evolvingしていくような学習が実現される、

という感じだろうか。

ELBOについて:
- 変分オートエンコーダ⑥変分下限 ELBO: https://note.com/kikaben/n/n00ad3e148770

[Paper Note] Equilibrium Reasoners: Learning Attractors Enables Scalable Reasoning, Benhao Huang+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#NLP #LanguageModel #Test-Time Scaling #LatentReasoning #RecurrentModels #RecursiveModels #Initial Impression Notes Issue Date: 2026-05-23 GPT Summary- 潜在状態を反復的に更新することで推論のスケーリングを実現するモデル（EqR）を提案。これにより、タスク特異の情報なしでテスト時のスケーリングが可能に。内部ダイナミクスを深さと広さで調整し、アトラクターへの収束を強化。シンプルなケースは少ない反復で収束し、難しいケースではスケーリングが有効。最終的には、精度がSudoku-Extremeで99%以上に向上。学習されたアトラクターの分布が反復的推論の理解に寄与することを示唆。 Comment

[Paper Note] Steered LLM Activations are Non-Surjective, Aayush Mishra+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Prompting #Safety #Selected Papers/Blogs #reading #One-Line Notes #Steering #Interpretability #Reading Reflections Issue Date: 2026-05-21 GPT Summary- アクティベーション・ステアリングは、モデルの活性化を調整し、その挙動に変化を与える手法であり、解釈可能性や安全性研究で広く利用されている。しかし、任意のテキストプロンプトによってこの挙動が実現可能かは不明である。本研究では、この問題を全射的な観点から考察し、すべてのステアされた活性化が前像を持つかを調査する。実証的結果から、活性化ステアリングは任意のプロンプトによって同じ内部挙動を再現できないことを示し、ホワイトボックス的なステアリングとブラックボックス的なプロンプティングの違いを明確にする評価プロトコルを提案する。 Comment

元ポスト:

Loading…

steeringされたactivationを自然に生み出すプロンプトは存在しない。言い換えると、steeringによって得られる挙動はpromptでは再現できない。これにより以下が示唆される:
- prompt levelのbehaviorとactivation/weightに介入することによるbehaviorの変化は、根源的に異なる現象なので分けて考えなければならない
- white-boxなstteering手法によってjailbreakができたとしても、black-boxな手法（e.g., promptingによる脆弱性など）による脆弱性があることの証拠にはならない

Steeringされたactivationは下記のようなAutoencoderを学習することでverbalizeできるのだろうか？hidden_stateのreconstruction lossを通じてverbalizeするためできそうではある。元々のactivationがpromptによって到達不可能な点にいたときに、promptによって到達不能なだけであって内部のネットワークが状態を解釈できないというわけではないので（ここがめちゃめちゃなら何も学習できないということになるがそうではなさそうなので）普通にできそうではある:
- Natural Language Autoencoders: Turning Claude’s thoughts into text, Anthropic, 2026.05

[Paper Note] Slicing and Dicing: Configuring Optimal Mixtures of Experts, Margaret Li+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2026-05-21 GPT Summary- Mixture-of-Experts (MoE) アーキテクチャの設計選択を体系的に検討し、2,000件の事前学習ランを実施。エキスパート数、粒度、サイズの変化で一貫した性能向上を確認。活性パラメータ規模の増加が性能向上に寄与し、最適なエキスパートサイズは総パラメータ数に依存しないことが明らかに。共有エキスパートやロードバランシングの影響は小さく、ドロップレス・ルーティングは有益。全体として、エキスパート数と粒度にフォーカスするシンプルなアプローチが有効であることを示唆。 Comment

元ポスト:

Loading…

MoEアーキテクチャにおいては、expertのサイズと数が重要であり、他の要素は最小限の影響しか与えない

- Expertの総パラメータ数が増えれば増えるほど性能が改善する（アクティブパラメータ数に対する総パラメータ数が128倍などの極端な場合でも性能が改善）
- Expertの数は多ければ多いほど良い。また、Expert一つに対する最適なサイズは総パラメータすうには関係なく、アクティブパラメータ数にのみに依存して決まることが明らかになった。このため、まずアクティブパラメータ数を優先的に決めて、VRAMが許す限りエキスパートの数を増やすのが良い
- MoEアーキテクチャが優れているのは、ブロックを小さく分割したからではなく、非アクティブなパラメータが存在することによるSparseな活性化によって生じる（MLPを細かいブロックにして全てを活性化させても性能が悪化した実験を受けて、ブロックを細かく分割することではなくsparseな活性化に鍵があると結論）
- 共有エキスパートや、サイズを不均一にしたエキスパートの設計には効果がない
- ルーティングに関しては、特定のエキスパートにトークンが偏った場合のToken Droppingは実施せず、Droplessなルーティングをする方が一貫して少しだけ性能が良い。極端に強い/弱いロードバランシングは性能の劣化を招くが、他の設定ではほぼ最適なものを達成できるので、Token Droppingを防ぐことに注意して、あとは一般的な設定を採用すれば良い。
- レシピをまとめると
- 最大のFLOPs/Memoryの予算を決め、active/totalのエキスパートのパラメータ数を決める
- アクティブパラメータ数から最適なエキスパートのサイズ（総数）を見つける
- token droppingを防ぐようなルーティング設定で、ロードバランシングのsanity checkをする

といった　話が著者ポストに書かれている。

[Paper Note] ECHO: Terminal Agents Learn World Models for Free, Vaishnavi Shrivastava+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #SelfImprovement #PostTraining #Selected Papers/Blogs #Non-VerifiableRewards #WorldModels #reading #One-Line Notes #ContinualLearning #Initial Impression Notes Issue Date: 2026-05-21 GPT Summary- ECHOは、CLIエージェントのトレーニングにおいて環境のフィードバックを活用するハイブリッド目的関数を提案。標準的な政策勾配損失と、自己行動による環境観測トークン予測を組み合わせ、ロールアウトに既存の信号を密接な監督として利用する。これにより、TerminalBench-2.0でGRPOのpass@1を倍増させ、環境ダイナミクスの予測精度も向上させる。ECHOは専門家デモなしで、未知のOODタスクのポリシー改善を可能にすることを示している。 Comment

反響がすごそうに見える

- 通常のAgentのRLは環境からの応答に対してマスクをかけてしまい、エージェントが環境（本研究ではターミナル）にどう影響したかを示すground-truthのsignalであるにもかかわらず応答を切り捨ててしまう。
- 提案手法であるECHOはアクションと環境からの応答の双方で学習を行う。通常のaction tokenに対する損失はそのままに、ターミナル出力に対するシンプルなcross-entropy lossを追加する（環境からの応答はcontextに含まれ、モデル内を通過しているため追加のコストはかからない。）。
- このシンプルな修正によって、ベンチマークのスコアが改善し、特にTerminalBench-2.0のスコアはほぼ倍増した。これは言い換えると通常のRLと比較して2.3倍高速になっている。
- また、ターミナルの応答を学習したことでターミナルのダイナミクスをポリシーが学習し、held-out trajectoriesにおいて環境からの応答トークンのクロスエントロピーはECHOでは急激に低下するが、通常のGRPOではほとんどい変化しない。これは、ECHOがモデルに対してターミナルがどう応答するかを学習させていることを示唆する。
- エキスパートによる教師モデルを持たない場合でも、ECHOによってエキスパートによるdemonstrationでSFTを行った後のGRPOが達成するパフォーマンスにほぼ匹敵可能
- エキスパートのtrajectoryから模倣学習するSFTと比較して、ECHOではモデル自身がターミナルの応答を予測することで、ターミナルの応答のうち何が有用なのかを学習する。模倣からではなく、インタラクションを通じて優れた戦略を創発する。
- ECHOを使うことで、AI AgentはVerifierの報酬なしでも自己改善ができる。Verifierの報酬が一切なくても、ECHOはAI Agentが環境内で行動し、何が起こるかを予測するだけで、（GRPOなしで）さらに性能を向上させることができる。つまり、taskのpromptに対して、モデルに環境がどのような応答を返すか予測をさせ、observationに対するクロスエントロピーlossを計算し更新するだけで性能（in-distribution, OOD共に）が改善する。

環境が多くのシグナルを返してくれる場合はterminal以外の環境でもうまくいきそうな話で、非常にシンプルな変更で実現でき、かなりインパクトが大きく見える。

元ポスト:

Loading…

[Paper Note] BLASST: Dynamic BLocked Attention Sparsity via Softmax Thresholding, Jiayi Yuan+, MLSys'26 Best Paper, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Training-Free #Selected Papers/Blogs #MLSys #reading #One-Line Notes #SparseAttention Issue Date: 2026-05-21 GPT Summary- BLASSTは、LLMsの文脈での推論能力向上のために提案された動的スパースアテンション機構である。固定スカラー閾値を用いて計算を加速し、トレーニング要件を排除、既存フレームワークと容易に統合可能。自動閾値キャリブレーション手法により、最適閾値と文脈長の逆比例関係が明らかにされ、前計算とデコードそれぞれに単一の閾値を利用。現代GPU上でのベンチマークにおいて、前計算とデコードがそれぞれ1.52倍、1.48倍の速度向上を示し、精度を維持した。 Comment

元ポスト:

Loading…

training-freeで単一のスカラー閾値による制御によって、スキップ可能なattention blockをスキップするSparse Attentionとのこと。

非常に使い勝手が良さそうで、50%程度のSparsityにしてもベースラインとなるDense Attentionに対してダウンストリームタスクの性能低下はなく（Table 4)、50%程度のSparsityの場合、prefillとdecode step方法において、Blackwell, Hopperアーキテクチャにおいて約1.3倍の高速化を実現できる（Table5)。

[Paper Note] Negation Neglect: When models fail to learn negations in training, Harry Mayne+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#NLP #LanguageModel #Safety #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2026-05-21 GPT Summary- Negation Neglectは、LLMを否定のある文書でファインチューニングすると、モデルがその主張を真実だと信じてしまう現象を指す。実験では、否定を含む文でファインチューニングしたモデルの信念率が2.5%から88.6%に増加。一方、否定を伴わない場合は92.4%と高い。否定を主張に局在させることで、モデルは否定を正しく学習可能。また、この現象は他の認識論的修飾子やAIの挙動に影響し、AIの安全性に懸念をもたらす。 Comment

元ポスト:

Loading…

[Paper Note] Generative Recursive Reasoning, Junyeob Baek+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #MachineLearning #NLP #LanguageModel #Architecture #Test-Time Scaling #read-later #Selected Papers/Blogs #Encoder-Decoder #LatentReasoning #RecursiveModels #Initial Impression Notes Issue Date: 2026-05-21 GPT Summary- 将来のニューラル推論システムにおける拡張計算の実装として、Generative Recursive reasoning Models (GRAM)を提案。GRAMは、再帰的潜在推論を確率的な複数の潜在軌道に変換し、条件付き推論や無条件生成を可能にする。これにより、従来の決定論的モデルよりも改善された性能を示し、構造化推論や制約充足タスクにおいて有効性を発揮。 Comment

pj page: https://ahn-ml.github.io/gram-website/

元ポスト:

Loading…

先行研究:
- [Paper Note] Looped Transformers are Better at Learning Learning Algorithms, Liu Yang+, ICLR'24
- [Paper Note] Hierarchical Reasoning Model, Guan Wang+, arXiv'25
- [Paper Note] Less is More: Recursive Reasoning with Tiny Networks, Alexia Jolicoeur-Martineau, arXiv'25, 2025.10

全然まだ理解できていないが、depth（iterative refinement)のみではなく、width（multiple parallel trajectories)方向にinference-time scaling可能なrecursiveなアーキテクチャの提案で、

LoopedTransformerのようなモデルはdeterministicな推論プロセスなため単一の軌跡に収束する（同じ入力に対して同じ出力をする）が、本研究では再帰的な推論プロセスにおいて、deterministicなhidden stateの推論に加えて、確率的でlearnableなguidance ε_t（ε_tの分散の大きさによって探索の度合いを変化させられる）をサンプリングして加えることで、多様なlatent trajectoryを生成可能にするで、自然なparallel inference-time scalingを可能にする

という感じだろうか。

[Paper Note] Interactive Evaluation Requires a Design Science, Keyang Xuan+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#NLP #LanguageModel #Evaluation #interactive Issue Date: 2026-05-21 GPT Summary- インタラクティブな評価の重要性を強調し、従来の応答中心のベンチマークからの変革を提案。評価を「証拠から判断へ」とする自律的な写像として定義し、インタラクションによって生成される軌跡を評価する必要性を示す。設計原理や報告基準を導出し、評価課題の再発を分析する二軸分類法を提案。 Comment

元ポスト:

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #ReinforcementLearning #Distillation #PostTraining #On-Policy Issue Date: 2026-05-13 GPT Summary- OPDは大規模言語モデルのポストトレーニングに有効だが、高いインフラ要求が課題。私たちは、SFTロールアウトで教師の対数確率をオフラインに事前計算し、その再利用を提案。教師の一貫性が重要であることを確認し、それを保証するフレームワークLightning OPDを設計。この手法により、標準OPDと同等の最適解を維持しつつ訓練効率を4倍向上。Qwen3-8B-Baseモデルからの初期化でAIME 2024で69.9%を達成し、MoEアーキテクチャにも対応。LLMのポストトレーニングに関する障壁を低減。コードは公開されています。 Comment

元ポスト:

Loading…

[Paper Note] SlimQwen: Exploring the Pruning and Distillation in Large MoE Model Pre-training, Shengkun Tang+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #Pruning #Distillation #SmallModel #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs Issue Date: 2026-05-13 GPT Summary- 大規模事前学習におけるエキスパート混成モデル（MoE）の圧縮を体系的に探求し、プルーニングと知識蒸留（KD）を適用する方法を検討。プルーニングは、スクラッチからの訓練よりも一貫して優れた初期化を提供し、異なる圧縮手法は同様の最終性能へ収束。簡易な部分保存型統合戦略で下流性能を向上させ、KDと損失を組み合わせることで効果を上げる。漸進的なプルーニングスケジュールはワンショット圧縮を上回り、最適化に寄与。結果として、Qwen3-Next-80A3Bモデルを圧縮し、競争力を維持する指針を提供。 Comment

元ポスト:

Loading…

大規模なMoEモデルから小規模なvariantを学習する方法に関する分析

[Paper Note] DecodingTrust-Agent Platform （DTap）: A Controllable and Interactive Red-Teaming Platform for AI Agents, Zhaorun Chen+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#Controllable #NLP #Dataset #LanguageModel #AIAgents #Evaluation #Security #Initial Impression Notes #Environment #RedTeaming Issue Date: 2026-05-12 GPT Summary- AIエージェントは複雑なワークフローを自動化する一方で、重要なセキュリティリスクを引き起こす。エージェントが操作されることで、APIキー漏えいや未承認の取引などが発生する可能性があり、そのセキュリティ評価は動的な環境下で困難である。これに対抗するため、DecodingTrust-Agent Platform（DTap）を導入し、14の現実世界ドメインを再現したインタラクティブなレッドチーミングプラットフォームを提供。また、初の自律的レッドチーミングエージェントDTap-Redを提案し、さまざまな攻撃戦略を自律的に探索する。これにより、DTap-Benchという大規模なレッドチーミングデータセットをキュレーションし、安全な次世代エージェント開発のための重要な洞察を提供する。 Comment

元ポスト:

Loading…

Opus-4.6が本ベンチマーク上は最もセキュリティリスクに対して安全で、良性なタスクに対する性能を発揮するモデルに見える。

論文は279ページもある🤯

[Paper Note] Sharpness-Aware Pretraining Mitigates Catastrophic Forgetting, Ishaan Watts+, ICML'26, 2026.05

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Catastrophic Forgetting #ICML #mid-training #read-later #Selected Papers/Blogs #One-Line Notes #DownstreamTasks Issue Date: 2026-05-12 GPT Summary- 事前訓練最適化手法は、基盤モデルの能力維持に影響を与える幾何学を考慮すべきである。本研究では、平坦な極小点を目指す三つのアプローチ（SAM、大きな学習率、短縮された学習率減衰）を分析し、モデルサイズが20M〜150Mパラメータの範囲で、ポスト訓練後のパフォーマンス向上と忘却の最大80%低減を実証した。また、OLMo-2-1Bモデルへの短いSAM訓練を適用することで、MetaMathでは忘却を31%、4ビット量子化後には40%低減できることが示された。 Comment

元ポスト:

Loading…

downstreamタスクでの性能を最大化するためには、baseモデルのlossではなく、モデルが重みを更新した時にどれだけ事前学習の知識が保持されるかが鍵であり、learning-forgettingのトレードオフを見るべきという話で、

なぜモデルの更新によって忘却が起きやすいかというと、モデルが急峻な極小点 (Sharp Minima) に収束してしまっているためで、これではわずかな重みの更新でも大幅な性能低下を起こしてしまう。このため、平坦な極小点(Flat Minima)に重みを収束させることでよりモデルの知識を安定させることができる。

Flat Minimaを見つけるために、Sharpness-Aware Minimization (SAM)と呼ばれる手法を採用し、式(5)で定義されるような、パラメータに摂動を加えた時のlossの最大値が最小となるようにパラメータを最適化する。

[Paper Note] Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction, Zhuofeng Li+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#InformationRetrieval #NLP #Search #LanguageModel #AIAgents #read-later #Selected Papers/Blogs #One-Line Notes #Reading Reflections Issue Date: 2026-05-12 GPT Summary- 直接コーパスと相互作用する（DCI）アプローチを提案し、リトリーバAPIや固定された類似度インターフェースに依存せず、エージェントが生のコーパスを汎用的な端末ツールで直接検索できるようにします。この方法は、オフラインのインデックス作成を不要にし、進化するコーパスに自然に適応します。実験では、DCIがBRIGHTおよびBEIRデータセットで強力なベースラインを上回り、従来の手法なしに高精度を実現したことが示されました。この結果は、検索の質が推論能力だけでなく、コーパスとの相互作用のインターフェースにも依存することを示唆しています。 Comment

元ポスト:

Loading…

基盤モデルが賢くなる中で、top-kによるretrievalが検索におけるベストなインタフェースなのか？という疑問を投げかけた研究で、ベクトル検索などのRetrieverではなく、AI Agent自身にgrep等を用いて直接コーパスとinteractionをさせる(Direct Corpus Interaction)ことでBrowseCompのようなQAデータセットにおいてEmbeddingを用いた手法よりもより低コストで高いスコアを獲得できることを示したようである。

DCIは有用な手がかりを見つけた時に、それをrearoning stepに結びつけて深掘りしていくような挙動を実現しやすい点が強みであるが、コーパスサイズが大きくなるにつれて最初のアンカーとなる手がかりを見つけるためのコストが大きくなり、深さへの強みはあるが、広さには弱い性質があることから、この手法が唯一無二の解というわけではなく、設計の際に「どのモデルがtop-kの検索でベストか？」という視点だけでなく、「AI Agentにコーパス全体に対してどのようなオペレーションを持たせるべきか？」という問いかけも提起する

といった話が元ポストに書かれている。

昔から検索に全てのケースで最強な手法はこれ！みたいなものはないので、こういった選択肢もあるよということを頭に入れて引き出しに入れておき、直面する課題に対して有効な方法は何かを考えることが重要と思われる。

所見:

Loading…

[Paper Note] Jagle: Building a Large-Scale Japanese Multimodal Post-Training Dataset for Vision-Language Models, Issa Sugiura+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Supervised-FineTuning (SFT) #Japanese #PostTraining #read-later #Selected Papers/Blogs #VisionLanguageModel #Initial Impression Notes Issue Date: 2026-05-12 GPT Summary- 日本語のVQAシステムに対する高品質なデータセットJagleを紹介。約920万件のインスタンスを含み、異種ソースから生成したVQAペアを用いて多様なタスクをカバー。Jagleで学習した2.2Bモデルは、日本語タスクで高い性能を示し、既存のモデルを上回る結果を得た。さらに、JagleをFineVisionと統合することで英語でも性能向上が確認され、データセットとモデルを公開し再現性を促進。 Comment

pj page: https://speed1313.github.io/Jagle/

dataset: https://huggingface.co/datasets/llm-jp/Jagle

元ポスト:

Loading…

データセットのサイズが9Mと非常に大規模で、日本語性能を大幅に改善するだけでなく、FineVisionのような英語のVQAデータセットとハイブリッドで用いることで英語タスクの性能も改善する。

[Paper Note] Fast Byte Latent Transformer, Julie Kallini+, ICML'26, 2026.05

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ICML #Decoding #Byte-level Issue Date: 2026-05-12 GPT Summary- BLTを用いて、バイトレベルLMの生成速度のボトルネックを解消。BLT Diffusionを導入し、並列生成によってデコードステップを削減。さらに、BLT Self-speculationとBLT Diffusion+Verificationを提案し、生成品質を向上させつつ推定メモリコストを低減。これにより、バイトレベルLMの実用性が向上。 Comment

元ポスト:

Loading…

[Paper Note] EvoLM: Self-Evolving Language Models through Co-Evolved Discriminative Rubrics, Shuyue Stella Li+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SelfImprovement #Selected Papers/Blogs #reading #One-Line Notes #Rubric-based Issue Date: 2026-05-11 GPT Summary- EVOLMは言語モデルの自己改善を促進するポスト訓練手法であり、外部監督に依存せず、モデル自身の評価能力を利用します。具体的には、事例ごとに最適化された評価基準を生成するルーブリック生成器と、そのルーブリックを用いて訓練されたポリシーの二つの能力を交互に訓練します。これにより、EVOLMはQwen3-8Bモデルを用いてGPT-4.1を25.7%上回るルーブリックを生成し、共同訓練されたポリシーは最新の報酬モデルよりも優れた性能を示しました。全体として、EVOLMは内部の評価能力を活用することで、外部の監督なしでの改善を実現することが明らかになりました。 Comment

元ポスト:

Loading…

外部ラベル無しでself-improvingするルーブリックベースな手法の提案。

手法としては、まずfrozenしたRubirc生成器とJudgeモデルで全てのpromptに対してRubricを生成し、ポリシーが生成したロールアウトに基づいてJudgeモデルでRewardを計算することでポリシーを更新。その後更新されたポリシーを用いてpreference pairを構築し、preference pairに対してRubric生成器がルーブリックのロールアウトを生成し、choicedとrejectedなサンプルに対するJudgeのスコアの差の大きさ（すなわち、識別力の高さ）をrewardにRubric生成器を更新する、といったことを繰り返す。

多分3説以降の話が面白い。後で読む

Rubricが徐々に変化していき、抽象的なものからよりverifiableなものに変化したり、Rubricそのものが静的だとポリシーの学習に伴い変化する出力分布の変化に対応できない話や、最終的に獲得されたRubricは他のモデルの学習でも高い学習signalを送出するような汎化をするらしい

[Paper Note] Recursive Agent Optimization, Apurva Gandhi+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #Test-Time Scaling #PostTraining #read-later #Selected Papers/Blogs #One-Line Notes #RecursiveModels #Initial Impression Notes #Orchestration #Delegation Issue Date: 2026-05-10 GPT Summary- 再帰エージェント最適化（RAO）を導入し、エージェントが自身のインスタンスを生成してサブタスクを委任できる強化学習アプローチを提案。推論時のスケーリングアルゴリズムを実装し、長い文脈への拡張と難しい問題への一般化を可能にする。この訓練により、効率が向上し、タスクのスケールや一般化能力が高まり、実時間の短縮が実現される。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

pj page: https://apga.github.io/RAO/

再帰的にAI Agentがサブタスクを委任する子エージェント（子エージェントは自身のコピー）を作成できるようにし、子エージェントがサブタスクを実施した際のRewardや子エージェントのタスクの成功率などの情報に基づいて親エージェントの報酬が決まるような報酬設計にする。再帰が深くなるにつれ、サブタスクは簡単になっていくため、エージェントは自然に学習するためのカリキュラムを構築していると捉えることができる。これにより、エージェントがタスクをサブタスクに分解し再帰的にinferenceをするような挙動をend-to-endで学習する。再帰の木構造の深さは、場合によっては特定の部分木が非常に深いものとなってしまうケースもあるため、深さの情報に基づいて重みづけを調整する。

という感じだろうか。

サブタスクを委任するポリシーが自分のコピーで、これにより自分自身を分解されたサブタスク上から得られる報酬と、適切な委任による報酬によって訓練することになるといううまい報酬設計がミソな気がする。

著者ポスト2:

Loading…

[Paper Note] MAS-ProVe: Understanding the Process Verification of Multi-Agent Systems, Vishal Venkataramani+, ICML'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #ICML #read-later #Selected Papers/Blogs #Verification #Monitorability Issue Date: 2026-05-09 GPT Summary- MAS-ProVeは、マルチエージェントシステム（MAS）におけるプロセス検証の体系的研究を提示し、LLMを利用して検証の有効性を評価。エージェントレベルとイテレーションレベルでの評価を行い、5つの検証手法を検討。結果として、プロセスレベルの検証は必ずしも性能向上にはつながらず、高い分散が見られることが判明。LLMを判定者として用いるアプローチが効果的である一方、コンテキスト長と性能のトレードオフも観察。MAS向けの堅牢な検証法にはさらなる進展が必要であることが示された。 Comment

元ポスト:

Loading…

MASにおいてprocess levelのverificationを導入しても一貫して性能が向上するわけではなく、（途中推論の妥当性を判断するタスクは困難なものであることから既存の様々なverification手法には限界があり）分散が高いことが明らかになったとのこと。MASのような複雑なシステムはverificationによるプロセスレベルの精査が必要だと思われるので、現在の限界が示された点で重要な研究に見える。

[Paper Note] MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks, Zixuan Ke+, ICML'26, 2026.01

Paper/Blog Link My Issue
#Multi #NLP #Dataset #LanguageModel #AIAgents #Evaluation #ICML #read-later #Selected Papers/Blogs #Initial Impression Notes #Orchestration Issue Date: 2026-05-09 GPT Summary- MASのオーケストレーションを強化学習形式で定式化するMASOrchestraを提案。これにより、エージェントの複雑性を管理し、システム全体のグローバルな推論を促進。タスクを5軸で分析するMASBENCHを導入し、利得がタスクや能力に依存することを示す。公開ベンチマークで一貫した改善を達成し、10倍以上の効率を実現。MASOrchestraとMASBENCHはマルチエージェント知性の向上を目指す。 Comment

元ポスト:

Loading…

SASと比べてMASにすることでどれだけ利点があるかをモデルが理解せずにfoldingしてるよね、というのは重要な指摘に感じる。

[Paper Note] Least-Loaded Expert Parallelism: Load Balancing An Imbalanced Mixture-of-Experts, Xuan-Phi Nguyen+, ICML'26, 2026.01

Paper/Blog Link My Issue
#NLP #LanguageModel #LLMServing #MoE(Mixture-of-Experts) #ICML #Parallelism #Stability Issue Date: 2026-05-09 GPT Summary- 新しいLeast-Loaded Expert Parallelism (LLEP)は、MoEモデルの不均衡なルーティングを考慮し、過負荷デバイスからトークンとエキスパートパラメータを未利用のデバイスに再ルーティングすることで、計算資源の制約を軽減。これにより、モデルスケールに応じて最大5倍の速度向上とピークメモリ使用量を4分の1に削減し、推論の高速化を実現。理論分析と実証評価に基づき、ハードウェアに最適化したパフォーマンスを提供。 Comment

元ポスト:

Loading…

[Paper Note] ProgramBench: Can Language Models Rebuild Programs From Scratch?, John Yang+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #Coding #SoftwareEngineering #Selected Papers/Blogs #KeyPoint Notes #Initial Impression Notes Issue Date: 2026-05-09 GPT Summary- ソフトウェアプロジェクトの完全な開発は、言語モデルの重要なユースケースで、エージェントは最小限の監視下でコードベースを成長させる。しかし、既存のベンチマークは限られたタスクに焦点を絞っている。そこで、ProgramBenchを導入し、エージェントが与えられたプログラムとそのドキュメントに基づいて、参照実行可能ファイルに一致するコードベースを設計・実装する能力を測定する。200のタスクを用い9つの言語モデルを評価した結果、どのモデルも未完のタスクが多く、人間が書いたコードとは異なる実装を好む傾向が見られた。 Comment

pj page: https://programbench.com/

元ポスト:

Loading…

実行可能なバイナリとdocumentationを与えたときに、インターネットアクセスが不可能な環境で、オリジナルのプログラムの挙動を再現可能なcodebaseを実装するベンチマークで、現状いずれのLLMもスコア0%とのこと。スコアは全タスクのうち、（タスクごとに定義される）テストを全て通過したタスクの割合である。Almostの場合は95%以上のテストを通過したタスクの割合である。

仕様全体からcodebase全体を再現する必要がため、これがうまくできれば、これまでのベンチマークよりも人間に近い推論・認知能力を持つと部分的に主張できるとは思われる。

contaminationの懸念について、本ベンチマークではopen-sourceのコードを異なる言語で実装するようにすることで検証している。異なる言語で実装することによってモデルが通過するようになったテストの割合は大きく変化しなかったため（leaderboardのスコア異なる点に注意。leaderboardのresolvedは全てのテストを通過したタスクの割合である。）、memorizationの影響は小さいと主張している。また、本ベンチマークはインターネットアクセスが不可能な状態で実施されるが、インターネットアクセスを許可した場合、モデルはcheatingを実施するようになり、多くのcheatingはソースコードをlookupすることだったとのこと。

テストはbehavioralなものであり、SWE-Benchで行われているような実装の方法についてはテストをしない。

ProgramBenchの言語の分布と、各タスクのcodebaseの規模間。270M lineのcodebaseから200 line程度の小さなものまで、規模間が大きく異なることがわかる。言語はC/C++, Go, Rustが多く、多くのモデルが得意とするであろうpythonはほとんど含まれていない。

著者ポスト:

Loading…

[Paper Note] Sparser, Faster, Lighter Transformer Language Models, Edoardo Cetin+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #One-Line Notes #Sparse #GPUKernel Issue Date: 2026-05-09 GPT Summary- 非構造的スパース性を活用することで、LLMの計算コストを削減し、フィードフォワード層の効率を向上させる新しいCUDAカーネルを導入。99％超のスパース性を誘導しつつも、パフォーマンスへの影響は最小限。これにより、モデル規模の拡大に伴うスループット、エネルギー効率、メモリ使用量の改善を実証。すべてのコードはオープンソースで公開し、スパース性の実用性を推進。 Comment

元ポスト:

Loading…

現在の言語モデルではFFNの計算が計算コストの多くを占めているが、ReLUやL1正則化によってFFN中で必要なactivationを99%程度sparseにすることができ、sparseになったFFNに対して最適なデータ形式と高速に動作するGPUKernelを構築することで、downstream taskへの性能劣化無しに、省コストでの推論が可能になる、という話に見える。

解説:

Loading…

[Paper Note] Scaling Test-Time Compute for Agentic Coding, Joongwon Kim+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Test-Time Scaling #read-later #Selected Papers/Blogs #Compression #Initial Impression Notes Issue Date: 2026-05-08 GPT Summary- 長期的なホライゾンを持つコーディングエージェントに対する推論時スケーリングの新しいフレームワークを提案。各試行の重要な要素を保持しつつ、詳細を要約することで、経験を効果的に再利用。提案手法は並列スケーリングと逐次スケーリングを実現し、エージェントの性能を一貫して向上させる。SWE-Bench VerifiedおよびTerminal-Bench v2.0での実験で、明確な改善が確認された。 Comment

元ポスト:

Loading…

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #ScientificDiscovery #ICLR #Science Issue Date: 2026-05-01 Comment

openreview: https://openreview.net/forum?id=M7TNf5J26u

元ポスト:

Loading…

[Paper Note] KAME: Tandem Architecture for Enhancing Knowledge in Real-Time Speech-to-Speech Conversational AI, So Kuroki+, ICASSP'26, 2025.09

Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #SpeechProcessing #read-later #Selected Papers/Blogs #One-Line Notes #Realtime #ICASSP #SpeechToSpeech Issue Date: 2026-05-01 GPT Summary- 音声-音声モデルは低遅延で自然な応答を生成するものの、知識や意味理解に欠ける。一方、ASRとLLMを組み合わせたカスケード型システムは知識表現に優れるが、遅延が大きくなる。そこで本研究は、即時応答を実現する新たなハイブリッドアーキテクチャを提案。ユーザーの音声をS2Sトランスフォーマーで処理しつつ、クエリをLLMに並行伝送。これにより、遅延を増加させずに豊富な知識を応答に組み込むことが可能となる。MT-Benchベンチマークを用いた評価により、提案システムはS2Sモデルを大幅に上回りつつ、遅延は同等であることが示された。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/SakanaAI/kame

Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Architecture #LatentReasoning #Reference Collection #RecurrentModels Issue Date: 2026-04-28 GPT Summary- Recurrent Transformerは、各レイヤが自らの活性化から計算されたキーとバリューにアテンションを行うことで、時間的深さを持ちながらも最適化の不安定さを軽減。従来のTransformerとトークン間の再帰的更新を穏やかな前提下でエミュレートし、計算の効率性を改善。150Mおよび300MパラメータのC4事前学習において、クロスエントロピーの改善を達成し、深さを幅へとトレードオフすることで、メモリ占有量と推論レイテンシを低減することを示した。 Comment

元ポスト:

Loading…

解説:

Loading…

[Paper Note] There Will Be a Scientific Theory of Deep Learning, Jamie Simon+, arXiv'26, 2026.04

Paper/Blog Link My Issue
Issue Date: 2026-04-26 GPT Summary- 深層学習の理論が進化していることを主張し、訓練過程や隠れ表現、性能を特徴付ける研究線を五つ特定。これには理想化設定、扱いやすい極限、単純な数学法則、ハイパーパラメータ理論、普遍的な挙動が含まれ、共通して訓練ダイナミクスに関与する。新たに「学習力学」と名付け、統計的・情報理論的視点との関係も論じる。未解決の課題や初心者へのアドバイスも提供。 Comment

元ポスト:

Loading…

[Paper Note] Learning to Orchestrate Agents in Natural Language with the Conductor, Stefan Nielsen+, ICLR'26, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #ICLR #Test-Time Scaling #read-later #Orchestration Issue Date: 2026-04-26 GPT Summary- Conductorモデルを導入し、LLM間の協調戦略を自動発見。通信トポロジを設計し、個々のLLMの能力を最大化する指示を生成。7BパラメータのConductorは、単一ワーカーを超える性能向上を実現し、難解なベンチマークで最先端結果を達成。ランダム化されたエージェント訓練により、任意のエージェント集合に適応し、新たな再帰的トポロジを形成してオンラインでの性能向上を図る。この研究は、強力な協調戦略がRLを通じて自然に現れることを示す初期の実証である。 Comment

openreview: https://openreview.net/forum?id=U23A2BUKYt

公式ポスト:

Loading…

[Paper Note] TRINITY: An Evolved LLM Coordinator, Jinglue Xu+, ICLR'26, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #ICLR #read-later #Orchestration Issue Date: 2026-04-26 GPT Summary- Trinityは、LLMs間の協調を調整する軽量なコーディネーターを用いて、基盤モデルの統合に伴う制約を解決する。約6億パラメータのコンパクトな言語モデルと約1万パラメータの軽量ヘッドから成り、適応的な委任を実現。複数ターンにわたるクエリに対して、コーディネーターは各LLMに役割を割り当て、スキルを効果的にオフロードする。実験の結果、Trinityはコード作成や数学、推論、領域知識タスクで優れた性能を示し、標準ベンチマークで最先端の成果を達成。コーディネーターの隠れ状態表現が文脈化を提供し、進化戦略の適用が有利であることが確認された。 Comment

openreview: https://openreview.net/forum?id=5HaRjXai12

公式ポスト: https://www.linkedin.com/posts/hardmaru_iclr2026-share-7454115310565216259-5uV-?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

[Paper Note] Self-Evolving LLM Memory Extraction Across Heterogeneous Tasks, Yuqing Yang+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Personalization #Evaluation #memory #KeyPoint Notes #Clustering-based #Reading Reflections Issue Date: 2026-04-25 GPT Summary- 異質な記憶を保持するためのLLMベースのアシスタントの必要性に対して、\textbf{BEHEMOTH}というベンチマークを導入。18のデータセットを再利用し、タスクごとの有用性を評価する。実証分析により、均質なプロンプトが効果的でないことが確認され、\textbf{CluE}を提案。これは訓練例をクラスタに分け、各クラスタを独立に分析することで、抽出プロンプトを効果的に更新し、BEHEMOTHで実験した結果、従来の方法よりも一般化能力が向上したことを示した。 Comment

元ポスト:

Loading…

現在のAI Agentのメモリは同種のタスクに対して構築され評価されるが、実際の環境、特によりpersonalizationが進んだ状況下では、さまざまな異質なユーザの会話を単一のエージェントが扱い、ユーザのリクエストに応じて適切にメモリからcontextを抽出できなければならず、このような能力を測定するベンチマークは存在しない。

このため、ベンチマークを構築し既存のメモリ手法（promptingベースの手法）を評価したところ、LLMがメモリをmanageする際に、単一のmemory抽出のプロンプトや、自己進化ベースのpromptingではうまくいかないことがわかった。

提案手法 (CluE) では、各サンプルごとに背後にあるシナリオ（どのような情報が欲しいのか, 抽出時にどのような点がchallengingなのか等）をsummarizerにより解釈し、シナリオ単位でクラスタリング。個々のクラスタを分析することで、クラスタごとにどのような場合に成功/失敗するのか等を分析しクラスタ単位のrecommendationを得る。最終的に、クラスタ間のrecommendationを統合して構造化された一つの抽出promptに仕立てる。このとき、競合がある場合は適切なメモリグループにスコープを絞り解決する、といった手法のようである。

既存手法と比較してCluEによって抽出性能が向上

問題設定が実践的でおもしろい

[Paper Note] DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data, Venus Team+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #SmallModel #OpenWeight #OpenSource #DeepResearch #EdgeDevices Issue Date: 2026-04-25 GPT Summary- エッジ規模の小型深層研究エージェントDR-Venusを提示し、限られたオープンデータを基に強力な性能向上を実現。二段階の訓練プロセスでは、第一段階で基本能力を確立し、データ品質を改善、第二段階で強化学習を導入し実行信頼性を向上。約1万のオープンデータで構築されたこのエージェントは、従来の9Bモデルを上回り、30Bシステムとの差も縮小。再現性のある研究に資するため、モデルやコードを公開。 Comment

models: https://huggingface.co/collections/inclusionAI/dr-venus
code: https://github.com/inclusionAI/DR-Venus

オープンなデータのみで構築されたtraining/inferenceパイプラインもオープンなDeepResearchエージェント。

元ポスト:

Loading…

[Paper Note] Super Apriel: One Checkpoint, Many Speeds, SLAM Labs+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#read-later Issue Date: 2026-04-25 GPT Summary- 15Bパラメータのスーパーネット「Super Apriel」を公開。各デコーダ層は選択可能な4つの訓練済みミキサー（FA、SWA、KDA、GDN）を提供し、リクエスト間でスピードプリセットを切り替え可能。全FAプリセットはApriel 1.6の性能に一致し、ハイブリッドプリセットはデコードスループットを最大10.7倍改善。構成空間は広く、代理モデルが最適なトレードオフを特定。0.5Bでは迅速に安定、15Bでは不安定性が高い。Super Aprielは、Apriel 1.6教師モデルからの確率蒸留とファインチューニングにより訓練され、関連コードやツールも公開される。 Comment

元ポスト:

Loading…

[Paper Note] LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model, Inclusion AI+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #Chain-of-Thought #MultiModal #DiffusionModel #TextToImageGeneration #Reasoning #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #VisionLanguageModel #Editing #UMM #ImageSynthesis #Initial Impression Notes Issue Date: 2026-04-25 GPT Summary- LLaDA2.0-Uniは、マルチモーダルな理解と生成を統合するための統一型離散拡散大規模言語モデルです。意味論的な離散トークナイザとMoEベースのバックボーン、拡散デコーダを組み合わせ、視覚入力を効率的に処理します。高忠実度の画像生成を実現し、推論効率を最適化する独自の手法を採用。特化型VLMに匹敵する性能を持ち、生成と推論の相互運用性で次世代モデルの可能性を広げます。コードは公開されています。 Comment

元ポスト:

Loading…

VLM * Diffusionモデル。テキストの生成だけでなく、TextToImage, Image Editingもサポートされているように見える。

公式ポスト:

Loading…

画像を生成する前にreasoningを実施するように訓練され、UMMなのでtext, patchのrepresentationがシームレスに統合され、画像を伴うテキスト生成がより一貫性を持つ、とのこと。

著者ポスト:

Loading…

[Paper Note] Parallel-SFT: Improving Zero-Shot Cross-Programming-Language Transfer for Code RL, Zhaofeng Wu+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Coding #TransferLearning #PostTraining #LowResource #Initial Impression Notes Issue Date: 2026-04-25 GPT Summary- 低リソースのプログラミング言語（PL）における言語モデルの性能は、訓練データの制約を受ける。本研究では、ゼロショットの跨プログラミング言語転移タスクを提案し、Llama-3.1がPL間でのコード生成において改善されないことを明らかにした。これに対処するため、一般化可能なSFT初期化が必要とし、「並列プログラム」を使用したSFT戦略Parallel-SFTを導入。Parallel-SFTによって転移性が向上し、RL実行後に未知のPLへの一般化が改善されることを示した。モデルの内部表現分析は、PL間での同等プログラムが密にクラスタ化され、これが転移性向上に寄与することを示唆している。 Comment

元ポスト:

Loading…

RL前にプログラミング言語でのパラレルコーパスでSFTすることで、特定言語でRLをした場合でも他言語にも性能が転移する、という話に見える。

著者ポスト:

Loading…

[Paper Note] VLA Foundry: A Unified Framework for Training Vision-Language-Action Models, Jean Mercat+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#read-later Issue Date: 2026-04-25 GPT Summary- VLA Foundryは、LLM、VLM、VLAの訓練を統合するオープンソースのフレームワークで、エンドツーエンドの制御を持つ共有訓練スタックを提供。スクラッチからの訓練と事前学習済みバックボーンの両方をサポートし、2種類のモデルを公開。1つは完全にスクラッチから訓練し、もう1つはQwen3-VLバックボーンを用いたもの。評価結果は、両モデルとも優れた性能を示し、フレームワークの利便性やシミュレータの改善にも寄与。コードとモデルウェイトは公開され、プロジェクト公式サイトで動画も提供。 Comment

元ポスト:

Loading…

[Paper Note] PLaMo 2.1-VL Technical Report, Tommi Kerola+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Evaluation #SmallModel #Japanese #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2026-04-25 GPT Summary- 自動運転向けの軽量なVision Language Model（VLM）PLaMo 2.1-VLを紹介。8Bと2Bのバリアントがあり、日本語対応のエッジ展開が可能。視覚質問応答に特化し、工場タスク分析とインフラの異常検知で評価。日本語のトレーニングリソースを整備し、JA-VG-VQA-500で61.5のROUGE-L、Japanese Ref-L4で85.2％の精度を達成。工場で53.9％のゼロショット精度、ファインチューニングにより異常検知のF1スコアが39.7から64.9に改善。 Comment

元ポスト:

Loading…

[Paper Note] Stopping Computation for Converged Tokens in Masked Diffusion-LM Decoding, Daisuke Oba+, ICLR'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #NLP #LanguageModel #DiffusionModel #ICLR #Decoding Issue Date: 2026-04-25 GPT Summary- SureLockは、マスク済み拡散型言語モデルにおいて、未マスクトークンをロックすることで計算資源を効率化します。具体的には、未マスク位置の事後分布が安定した場合、その位置に対するクエリ投影とフィードフォワードをスキップしつつ、他の位置がアテンションできるようにキャッシュを使用します。この手法により、計算コストがO(N^2d)からO(MNd)に削減され、生成品質を維持しつつFLOPを30〜50%削減します。理論分析も行い、ロック時点でKLを監視することでトークン確率の偏差を十分に境界づけることができることを示しています。 Comment

pj page: https://daioba.github.io/surelock/

元ポスト:

Loading…

著者ポスト2:

Loading…

[Paper Note] PlayCoder: Making LLM-Generated GUI Code Playable, Zhiyuan Peng+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #LanguageModel #Evaluation #SoftwareEngineering #ComputerUse #GUI Issue Date: 2026-04-25 GPT Summary- GUIアプリケーションの生成において、従来の評価方法が不十分である中、本研究は多言語対応のベンチマークPlayEvalを提案。これにより、ユーザー操作に基づく評価が可能となる。Play@kという指標で実行可能な生成候補を測定し、LLMベースのエージェントPlayTesterを開発して、タスク指向の評価を自動化。実験では最先端のコードLLMが論理的なGUIアプリケーションの生成に大きな課題を抱えていることが判明。これに対処するための多エージェントフレームワークPlayCoderを提示し、性能を大幅に向上。ケーススタディでは潜在的な論理バグの発見と修正の効果を示す。 Comment

元ポスト:

Loading…

[Paper Note] LongSpeech: A Scalable Benchmark for Transcription, Translation and Understanding in Long Speech, Fei Yang+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #Dataset #Evaluation #SpeechProcessing #LongSequence #AudioLanguageModel #ICASSP Issue Date: 2026-04-25 GPT Summary- LongSpeechは、長時間音声処理のための大規模なベンチマークで、10万件超の約10分の音声セグメントを含む。ASRや音声翻訳、要約など多様なアノテーションがあり、長時間音声の性能評価を促進。初期の実験では、モデルが特定のタスクに特化し、他を犠牲にしていることが示された。これにより、ベンチマークの挑戦的な特性が明らかにされ、今後の研究に貢献する予定である。 Comment

元ポスト:

Loading…

dataset: https://huggingface.co/datasets/AIDC-AI/Marco_Longspeech

[Paper Note] Evaluating Relational Reasoning in LLMs with REL, Lukas Fesser+, arXiv'26, 2026.04

Paper/Blog Link My Issue
Issue Date: 2026-04-25 GPT Summary- 関係推論は、複数のエンティティや属性を結びつける能力だが、現行の大規模言語モデル評価は構造化入力に偏っている。本研究では、関係的複雑性（RC）を用いて推論の難易度を評価し、RCに基づく生成型ベンチマークフレームワークRELを導入。RCの増加に伴い、LLMの性能が一貫して低下することを示した。この結果は、現行モデルが高アリティ推論に苦戦することを示唆し、ベンチマークの見直しを促す。 Comment

元ポスト:

Loading…

[Paper Note] Scaling Self-Play with Self-Guidance, Luke Bailey+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #PostTraining #read-later #Selected Papers/Blogs #KeyPoint Notes #Reference Collection #SelfPlay Issue Date: 2026-04-24 GPT Summary- 自己対話アルゴリズムにおけるLLMの限界を克服するために、Self-Guided Self-Play（SGS）を提案。SGSでは、Solver、Conjecturer、Guideの三役をモデルが担い、崩壊を避けつつ問題解決を行う。SGSの評価では、従来のRLベースラインを上回り、効率的な自己対話によって7Bパラメータモデルが671Bパラメータモデルよりも多くの問題を解決可能であることを示した。 Comment

元ポスト:

Loading…

所見:

Loading…

解説:

Loading…

seed dataを与えた上でのSelf-PlayによるRLの性能を向上させる方法を提案している。

Self-PlayでRLをする場合、
- Solver: タスクを解く。タスクを解けるように学習される。（タスクが解けたか否かのbinary Reward)
- Conjecture: タスクを生成する。SolverのパフォーマンスをRewardとして学習される。

という構造が一般的だが、既存手法を分析した結果、学習が進むにつれ、ConjectureがSolverがそもそも解けない問題を生成するなどし、Reward Hackingが生じてしまい性能が向上しないことを発見。(Figure 2)

そこで、新たにGuideを追加し、Conjectureがタスクを合成する際にR_solve*R_guideの積の形式にRewardを調整し
- R_solveは(1 - Solverのsuccess rate)によって定義されるが、難しすぎる問題（success rate=0)、簡単すぎる問題（現在のバッチのtop 30%の問題）に関しては0に落とす。
- R_guideは合成タスクが、seed dataでSolverがまだ解けていない問題に関してどれだけの品質を有しているかに関するスコアを提供し（=unsolvedな問題に対する関連度、シンプルな結論が記述されており冗長な前提がないか、に関するRubricに基づくスコア）そのスコアをR_guideとする。つまり、seed dataにおいてまだ解けていない問題がより重視される。

ことで対処した。

所見:

Loading…

Vision bananaの批判に対する第一著者によるレスポンスのサマリのようである:

Loading…

[Paper Note] PolySkill: Learning Generalizable Skills Through Polymorphic Abstraction, Simon Yu+, ICLR'26, 2025.10

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #ICLR #Selected Papers/Blogs #Generalization #One-Line Notes #AgentSkills Issue Date: 2026-04-23 GPT Summary- 大規模言語モデル（LLMs）を利用して、エージェントが一般化可能なスキルを学習するための新しいフレームワーク「PolySkill」を提案。スキルの抽象的な目標と具体的な実行を切り離すことで、スキルの再利用や一般化を促進。実験では、ウェブサイトでのスキル再利用を1.7倍向上させ、成功率を最大13.9%向上させた。PolySkillにより、エージェントが自己目標を識別し、より良いカリキュラムを学習する能力が高まり、継続的に学習できる自律エージェントの構築に寄与することが示された。 Comment

元ポスト:

Loading…

エージェントスキルにポリモーフィズムの考え方を導入し、WhatとHowを分離することで汎化性能を高める。下図が分かりやすい。

最初に特定ドメインのwebサイト（e.g., shopping)を訪れた際に、AbstractShoppinpクラスを生成しShopping関連を扱うクラスとする。その上で、特定サイト（e.g., Amazon)のスキルを生成する際は、AbstractShoppingクラスにシグネチャを登録した後、同クラスを継承。AmazonShoppingクラス内に具体的な処理を定義する。直接スキルを生成するのではなく、抽象スキルを生成した上で、特定サイトでのメソッドを実装する。

openreview: https://openreview.net/forum?id=KdEsujyiSV

[Paper Note] Neural Garbage Collection: Learning to Forget while Learning to Reason, Michael Y. Li+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #read-later #Selected Papers/Blogs #KV Cache #Initial Impression Notes Issue Date: 2026-04-23 GPT Summary- 連鎖的推論ではKVキャッシュの拡大がボトルネックとなっており、従来の手法は手作業で管理されている。よりスケーラブルな「Neural Garbage Collection（NGC）」を提案し、言語モデルが推論と同時に忘れることを学ぶ。モデルは推論中にキャッシュエントリの追い出しを決定し、これを強化学習で最適化。成果ベースのタスク報酬を用いて学習することで、高い精度を保ちながらキャッシュサイズを圧縮し、エンドツーエンドの最適化がモデルの能力を向上させる可能性を示した。 Comment

元ポスト:

Loading…

LLMにReasoningとKV Cacheのマネジメントを同時に学習させる。

ポイント解説:

Loading…

[Paper Note] String Seed of Thought: Prompting LLMs for Distribution-Faithful and Diverse Generation, Kou Misaki+, ICLR'26, 2025.10

Paper/Blog Link My Issue
#NLP #LanguageModel #Prompting #Bias #ICLR #Test-Time Scaling #Diversity #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-04-21 GPT Summary- String Seed of Thought（SSoT）という新しいプロンプティング手法を提案し、Probabilistic Instruction Following（PIF）のパフォーマンスを改善します。PIFは選択肢を確率に基づいて選ぶタスクですが、LLMはしばしば非決定論的な挙動が要求される場面で偏りを生じることがあります。SSoTは、まずLLMにランダムな文字列を生成させ、これを操作することで多様性を維持しつつ制約を遵守した答えを導く手法です。実験により、SSoTがPIFの改善に寄与し、応答の多様性を高めることを示しました。 Comment

openreview: https://openreview.net/forum?id=luXtbX1lVK

元ポスト:

Loading…

LLMが内包するバイアスを抑制し、出力の多様性を高めるPrompting手法っぽい。興味深い。

ランダムな文字列を生成させてから、その文字列を操作させて出力を得るようなアプローチとのこと。

著者ポスト:
-

Loading…

[Paper Note] Your Language Model Secretly Contains Personality Subnetworks, Ruimeng Ye+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Personalization #ICLR #Personality Issue Date: 2026-04-19 GPT Summary- LLMsは、異なるペルソナを自然に適応させる能力を持ち、その知識は既存のパラメータに埋め込まれていることを示す。小規模な比較データセットを用いて、特定のペルソナに関連する活性化の特徴を特定し、ペルソナサブネットワークを分離するマスキング戦略を開発。二値的な対立性を持つペルソナ間の統計的発散を生み出す対照的剪定戦略も提案し、完全な訓練を必要としない。得られたサブネットワークは、外部知識を必要とする手法よりもペルソナ整合性を大幅に向上させ、LLMsのパーソナライズに新たな視点を提供する。 Comment

元ポスト:

Loading…

[Paper Note] Proxy Compression for Language Modeling, Lin Zheng+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #Tokenizer #Selected Papers/Blogs #reading #KeyPoint Notes #Byte-level Issue Date: 2026-04-19 GPT Summary- プロキシ圧縮を導入し、圧縮入力と生のバイト列の共同訓練を通じて、モデルに両者の整合を学習させる新しい訓練手法を提案。実験では、訓練効率が大幅に改善され、固定計算予算内でのバイトレベルベースラインを上回る成果を示す。モデル規模の拡大に伴い、プロキシ訓練を受けたモデルはトークナイザーアプローチに匹敵または競合する性能を発揮し、頑健性を維持。 Comment

元ポスト:

Loading…

既存の言語モデルはバイト列をcompressorを通じて圧縮されたシンボルを通じて学習されているものとみなせるが（compressorは言語モデルであればtokenizerでありシーケンス長を4--6倍削減する)、これにより特定の言語モデルがcompressorと強く紐づいてしまう欠点がある。tokenizerを噛ませる欠点としては、グリッチトークン（tokenizerのvocabには登録されているが学習ができていないトークン）やprompt boundary issue (The Art of Prompt Design: Prompt Boundaries and Token Healing, Scott Lundberg, 2023.05 )、言語固有のバイアスなどの問題が生じること。

提案手法はモデルのアーキテクチャとnext token predictionは一切変えずに適用できる。学習時のinputとして、warmupフェーズにおいてはcompressorによるトークン（タグで囲む）と、生のバイト列（タグで囲む）の両方を入力する。warm upが終わった後は、compressed dataを90%、10%をraw dataによって表現して学習する。vocabはバイト列（256個のvocabで済む）とcompressorの両方で共有するが、inference時はcompressorを完全に無くしバイト列の入力のみでinferenceする。

ベースラインとしてtokenizerを用いた場合と、バイト列をそのまま学習した場合、neuralモデルをcompressorとして用いた場合と比較し、0.5Bではベースラインよりもスコアが低いが、14B級になると、全てのbaselineを上回るだけでなく、tokenizerを用いた場合のモデルも上回った。

[Paper Note] GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents, Mingyu Ouyang+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#ComputerVision #NLP #AIAgents #Evaluation #MultiModal #ComputerUse #read-later #Selected Papers/Blogs #VisionLanguageModel #Game #Initial Impression Notes Issue Date: 2026-04-19 GPT Summary- MLLMエージェントの課題を解決するため、テストベッドとしてGameWorldを導入。34のゲームと170のタスクを含み、性能評価を標準化。結果はエージェントが人間の能力には及ばないことを示唆。ゲームエージェントの相互作用や記憶、アクション妥当性に関する研究が今後の課題を明らかに。再現性のある評価フレームワークとして、GameWorldはマルチモーダルゲームエージェント研究の進展を促進。 Comment

元ポスト:

Loading…

Geminiがポケモンで評価されていたのと似ている。個人的にこの方向性の評価は非常に興味深く、理由としては
- ゲームをプレイしたデータはモデルの中の知識（学習データ）として埋め込まれずらく、コンタミネーションが生じづらい
- 知識がないのであれば、プレイして、ゲームという名の仮想世界のルールを理解してゲームをクリアせねばならず、これには高度な認知能力、プランニング、Reflectionなどの能力が求められる
- これらの能力が発揮されるには学習データのパターンから学習した手続きの適用よりも、より抽象的な理解が求められ、モデルがどれだけ人間の認知に近い能力を獲得しているかを測定できるのでは

という感想を持っているからである。

pj page: https://gameworld-project.github.io/

[Paper Note] $π_{0.7}$: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities, Physical Intelligence+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #Generalization #Robotics #VisionLanguageActionModel #EmbodiedAI #EmergentAbilities #Initial Impression Notes Issue Date: 2026-04-19 GPT Summary- ロボット基盤モデルπ_{0.7}は、未知の環境で多様な言語指示に従う能力を持ち、幅広い台所家電の多段階タスクに対応。ゼロショット一般化を実現し、初期設定のままで高い性能を発揮。多様な文脈条件付けを用いて、タスクの実行方法を示すマルチモーダル情報を活用。実験では、複数のロボットプラットフォームで速度や言語追従、タスク一般化を評価し、強化学習モデルに匹敵する性能を示した。 Comment

元ポスト:

Loading…

以下はブログを斜め読みして感じた所感

新たなロボットが服を畳めたり（当該ロボットの服をたたむ学習データなしで）、新たなキッチン家電を（口頭でのcoachingに基づいて）使いこなす、といった汎化性能をVLAが獲得したという話に見える

関係者によるポスト:

Loading…

新たなキッチン家電はノンフライヤーであり、実際に学習データの異なるロボットがフライヤーを開け閉めするエピソードからスキルを学習したことを突き止め、習得したスキルと知識の組み合わせによって、VLAの分野でも汎化が実現され、かつworld modelでロボットが到達すべきサブゴールを生成し条件付けすることが機能することを学んだといった話が書かれている。

日本語解説: https://www.docswell.com/s/DeepLearning2023/Z27ME6-2026-04-24-135712

上記解説を見るとpreprintもあったようなので、最初のissueに追記した

[Paper Note] Prefill-as-a-Service: KVCache of Next-Generation Models Could Go Cross-Datacenter, Ruoyu Qin+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Infrastructure #LLMServing #Selected Papers/Blogs #reading #One-Line Notes #KV Cache #needs-revision Issue Date: 2026-04-18 GPT Summary- Prefill-decode（PD）のデプロイにはKVCache転送が制限要因となっており、従来のアテンションモデルは大容量のKVCacheトラフィックを生成する。ハイブリッドアテンションアーキテクチャはKVCacheサイズを削減するが、データセンター間の運用に問題が残る。そこで、Prefill-as-a-Service（PrfaaS）を提案し、プリフィル処理を専用クラスタにオフロードして効率的なKVCache転送を実現。これにより、リソースの独立したスケーリングを可能にし、実績として、PrfaaSを用いた異種デプロイメントは従来よりも高い提供スループットを達成。 Comment

元ポスト:

Loading…

LLM servingにおいて、prefillはcompute-intensiveで、decodeは（kv cacheが肥大化するため）memory-intensiveであるという特性があるため、（それぞれ得意な処理は得意なノードに任せるため）prefillとdecodeを分離して異なるノードで実施するprefill-decode disaggreagated servingというインフラのアーキテクチャが超巨大モデルでは主流だが、prefill-decode間でKV Cacheを転送しなければならないため、このような分離は同じ計算機クラスター内のRDMA(Remote Direct Memory Access)が可能なノード間に限定されるのが一般的である。

しかし、compute/memory特化型のリソースは通常チップの種類と物理的な場所の両方に制約されてプールされるので、両方のハードウェアがRDMAのような密結合なドメインで利用できないという欠点がある。このため、クラスターを超えてPD分離をしたいのだが、KV Cacheの転送が結局のところボトルネックとなる。現在のモデルはSparse/LinearなアテンションによってKV Cacheに必要なリソースが一桁減っているが、それでもnaiveにクラスタを跨いでPD分離をすると、突発的なリクエストのバーストや、不均一なPrefix Cacheの分布、クラスター間の帯域幅の変動などによって、計算効率が低下してしまう。

そのため、提案手法では、高スループットな長文のprefillに特化した独立クラスタを作り、ローカルにキャッシュされていない（主に長文の）、　prefillのみを同クラスタにオフロードし、短いリクエストはローカルでPDを実施するようなアプローチをとる。こうしてprefill特化クラスタによって生成されたKV Cacheはdecode可能なPDクラスタに対してイーサネットを介して転送される。これは選択的なオフロードであり、帯域幅が制限された経路で非効率な短いリクエストを送信を避けて、prefillの高速化が重要なリクエストのみをクラスタ間転送に集中させるという考え方に基づく。

これを実現するためには、(i)長いリクエストのみをオフロードするルーティングの仕組みと、(ii)ネットワークの輻輳を制御するための、帯域幅を考慮したスケジューラ、(iii)リクエスト長、キャッシュ配置、利用可能なクラスタの帯域幅を総合的に考慮してKV Cache全体を効率的を保ちながら管理するグローバルKV Cacheマネージャが必要。

このようなアーキテクチャを1T級のKimi Linearモデルで実験した結果、スループットが1.54倍、TTFTが64%改善した、という感じらしい。

[Paper Note] Geometric Context Transformer for Streaming 3D Reconstruction, Lin-Zhuo Chen+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Transformer #LongSequence #3D Reconstruction #3D (Scene) #Initial Impression Notes Issue Date: 2026-04-17 GPT Summary- ストリーミング3D再構成は、ビデオから3D情報を復元する技術で、精度や効率が求められる。LingBot-Mapは、SLAMの原理に基づいたフォワード型の3D基盤モデルで、幾何学的文脈トランスフォーマーを使用している。特徴的な注意機構は、アンカー文脈や軌跡メモリを活用し、長距離ドリフト補正を実現。これにより、長いシーケンスでも安定した推論が可能となり、従来手法に対して優れた性能を示した。 Comment

元ポスト:

Loading…

pj page: https://huggingface.co/robbyant/lingbot-map

高速でlong contextでもstreaming形式で生成が可能な3D Reconstructionモデルのようである

[Paper Note] Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering, Xinyu Zhu+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #memory #Hierarchical #Initial Impression Notes Issue Date: 2026-04-17 GPT Summary- エージェント型科学における超長期自律性の課題に対し、ML-Master 2.0という自律エージェントを提案。階層型認知キャッシュ（HCC）を導入し、瞬時の実行と長期的戦略を切り離して一貫性を持たせる。評価では、最先端のメダル獲得率56.44%を達成し、AIの自律的探索の可能性を示唆。 Comment

元ポスト:

Loading…

contextを
- experience (short-term)
- knowledge (mid-term)
- wisdom (long-term)

の3つの階層に分類し管理するmemory機構を提案しているようである。
階層ごとに異なる記憶容量とアクセス速度で実装し、必要に応じて階層間でデータが昇格（experience->knowledge等）、あるいは削除される、といった機構によってmemory cacheを管理するような手法のようである。

MLE-BenchでSoTA

[Paper Note] WildDet3D: Scaling Promptable 3D Detection in the Wild, Weikai Huang+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#ComputerVision #Dataset #Transformer #Prompting #Architecture #read-later #Selected Papers/Blogs #3D (Scene) #ObjectDetection #Initial Impression Notes Issue Date: 2026-04-17 GPT Summary- 単一画像から3D物体を検出するために、WildDet3Dという統一的幾何認識アーキテクチャを提案。テキスト・点・ボックスのプロンプトを受け入れ、深度信号を組み込む。新しいオープン3DデータセットWildDet3D-Dataを生成し、13,500カテゴリの100万枚以上の画像を提供。複数のベンチマークで最先端の性能を達成し、特に深度手掛かりの活用により、平均+20.7 APの向上を実現。 Comment

pj page: https://allenai.github.io/WildDet3D/

元ポスト:

Loading…

最大級の3D detection data+アーキテクチャの提案

training codeなどがリリース:

Loading…

https://github.com/allenai/WildDet3D

[Paper Note] TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment, Bingyi Cao+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#CVPR #read-later Issue Date: 2026-04-16 GPT Summary- 視覚-言語モデルの密なパッチ-テキスト整合性を向上させる新手法を提案。パッチレベルの蒸留が有効で、蒸留済みモデルが教師モデルを上回る整合性を示す。iBOT++を導入し、未マスクのトークンが損失に寄与。学習効率向上のためのキャプションサンプリング戦略を追加。TIPSv2として新しい画像-テキストエンコーダを開発し、広範な下流アプリケーションにおいて強力な性能を実現。 Comment

元ポスト:

Loading…

[Paper Note] LongCoT: Benchmarking Long-Horizon Chain-of-Thought Reasoning, Sumeet Ramesh Motwani+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Chain-of-Thought #Evaluation #Reasoning #read-later #Selected Papers/Blogs #LongHorizon Issue Date: 2026-04-16 GPT Summary- LongCoTを導入し、複雑な推論能力を測定するための2,500問の専門家設計問題からなるベンチマークを提供。問題は数万から百数万の推論トークンを含む相互依存の手順を要求し、最先端モデルは全体で<10%の精度であることが示され、長期推論の限界が明らかになる。LongCoTは、モデルの長時間にわたる安定した推論能力を評価する指標となる。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks, Yoonsang Lee+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Test-Time Scaling #LongHorizon #Initial Impression Notes Issue Date: 2026-04-16 GPT Summary- エージェント的タスクに対する並列テスト時スケーリングの研究を行い、集約エージェントAggAgentを提案。複数のロールアウトを生成し、軌跡の情報を効果的に統合しながら、出力のオープンエンド性に対応。AggAgentは6つのベンチマークと3つのモデルファミリーで既存手法を上回り、改善を達成しつつ、オーバーヘッドを最小限に抑えた。これにより、エージェント的集約の効率性が確認された。 Comment

元ポスト:

Loading…

Parallel test time scalingをじっしするlong horizon AI Agentの複数のtrajectoryを集約する手法のようである

[Paper Note] TRACE: Capability-Targeted Agentic Training, Hangoo Kang+, arXiv'26, 2026.04

Paper/Blog Link My Issue
Issue Date: 2026-04-15 GPT Summary- TRACEは、環境特異的なエージェントの自己改善を促進するエンドツーエンドシステムであり、成功と失敗の軌道を分析して欠如した能力を特定し、ターゲット訓練環境を生成する。これにより、異なるタスク間での能力を強化し、τ^2-benchやToolSandboxでベースエージェントを大幅に上回る性能を実現。TRACEは、効率的に学習をスケールさせることも示された。 Comment

元ポスト:

Loading…

blog: https://scalingintelligence.stanford.edu/blogs/trace/

[Paper Note] KnowledgeSmith: Uncovering Knowledge Updating in LLMs with Model Editing and Unlearning, Yinyi Luo+, ICLR'26, 2025.10

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ICLR #ConceptErasure #KnowledgeEditing #reading #KeyPoint Notes #needs-revision Issue Date: 2026-04-14 GPT Summary- LLMsの知識更新メカニズムを理解するため、統一フレームワークKnowledgeSmithを提案。編集と忘却を制約付き最適化として位置づけ、自動データセット生成器を用いて修正戦略の知識伝播を研究。実験により、LLMsが人間と同様の更新を示さず、一貫性と容量のトレードオフがあることを発見。新たな戦略設計の示唆を提供。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=znnA2Opw6v

知識の忘却と編集のダイナミクスを制約付きの最適化問題として統一的にモデル化（式3;この最適化問題を実際に解いているわけではなくあくまで理論的にこう定式化できるねという話だと思われる）し、

この定式化を通じて見ると、編集と忘却の違いはターゲットとする分布q_targetの選び方の違いにすぎず、様々な編集と忘却の先行研究は手法は違えど、この制約付きの最適化問題の異なるインスタンスを解いているに過ぎないという視点を提供しているようである。これにより、編集と忘却のトレードオフを公平に比較することが可能となるという主張をしているように見える（自信ない）。

そして、編集と忘却のトレードオフを厳格に分析するためのベンチマークとして、階層的な依存関係や（local vs. global)、更新の多段階での伝播を扱えるベンチマークが必要だが既存ベンチマークではこれらが不足しているため、
知識グラフに基づいて自動的に構築されたデータとベンチマーク（Figure 1を見るにテンプレートベースのMCQを)を作成して分析。

分析には6つのモデルファミリーの13のモデルが用いられ、スケールは1B--123Bの幅広いスケールのモデルで検証された。

（先行研究も含めてしっかり読まないと、式3と実験で用いられている手法AlphaEdit, ReLearnの関係性がちょっとわからなそう）

著者ポストにおいては、以下のようなtakeawayが記載されており、大きな知見としてはLLMはデータベースではなく、トレードオフを持つ複雑に絡み合ったシステムであり、以下のような点を明らかにした

- 知識の編集は意図しない変更を引き起こし
- 忘却は知識の完全な消去には失敗する
- 更新する知識を増やせば増やすほど、ローカルの知識は更新されるが、グローバルな一貫性が崩壊し
- 変更することが極めて困難な知識（たとえば歴史）が存在する

とのことである。

[Paper Note] JaWildText: 日本語文字認識性能評価のための実世界画像データセット, 前田+, NLP'26, 2026.03

Paper/Blog Link My Issue
#NLP #Dataset #Evaluation #Japanese #Selected Papers/Blogs #VisionLanguageModel #OCR #Initial Impression Notes Issue Date: 2026-04-14 Comment

元ポスト:

Loading…

OCRは非常に重要なタスクであり、特に日本語OCR向けのwildなデータセットは、日本側が主体的に作らないとグローバル側では作成されない気がしており、非常に重要な研究と感じる。実際、現行のSLMのSoTAモデル群ではうまくいかないようだ。

Sarashinaは日本語のOCR向けにプロプライエタリなデータセットを作成して学習されていると記憶しており、それでもなおQwen3-VLの方がベンチマークスコアが高いのは意外だった。

関連:
- Sarashina2.2-Vision-3B: コンパクトかつ性能が高いVLMの公開, SB Intuitions, 2025.11
- sarashina2-vision-{8b, 14b}, SB Intuitions, 2025.03

[Paper Note] A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens, Tommie Kerssies+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #CVPR #read-later #Selected Papers/Blogs #WorldModels #One-Line Notes Issue Date: 2026-04-11 GPT Summary- ビデオ世界モデリングにおいて、多様な未来状態を効率的に予測するために、DeltaTokというトークナイザーを導入。これによりVFM特徴の差を連続的な「デルタ」トークンにエンコードし、DeltaWorldという生成的世界モデルを提案。これにより、ビデオを一次元の時系列に圧縮、512×512フレームでトークン数を1,024倍削減。多仮説訓練を通じて多様な未来を平行に生成し、単一のフォワードパスで多様な予測を得られる。実験結果においてDeltaWorldは、従来のモデルよりもパラメータ数が35倍、FLOPsは2000倍少ないにもかかわらず、現実に近い未来を予測することを示した。 Comment

過去と現在のフレームを入力し差分の潜在表現を出力するDeltaEncoderを学習し、潜在表現に基づいてnext token predictionをする（複数の推論結果を出力させ、最も学習データに近いものを用いて学習する。複数の候補を出力するため推論時は多様な候補を得られる）。
これにより、予測に必要なトークン数が大幅に削減され（Dino-basedなモデルと比較して1024--2048倍）、パラメータ数が削減されFLOPSも低下（generative modelsと比較して、35倍パラメータ数が小さく、2000倍計算に要するFLOPSが低下）。

といった話が著者ポストで説明されている。

[Paper Note] MiCA Learns More Knowledge Than LoRA and Full Fine-Tuning, Sten Rüdiger+, arXiv'26, 2026.04

Paper/Blog Link My Issue
Issue Date: 2026-04-11 GPT Summary- MiCAは、大規模言語モデルのファインチューニングにおいて、マイナー特異ベクトルを対象としたパラメータ効率の良い手法。従来のLoRAと異なり、特異値分解を用いて重要でない特異値に関連するサブ空間を特定し、その方向でパラメータ更新を制約する。これにより、知識獲得を最大5.9倍改善し、LoRAよりパラメータ量を6〜60％に抑えることが可能となる。このアプローチは、事前学習済みモデルへの知識統合を効率的かつ安定的に行うことを示唆している。 Comment

元ポスト:

Loading…

[Paper Note] Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding, Chaoyou Fu+, arXiv'26, 2026.04

Paper/Blog Link My Issue
Issue Date: 2026-04-11 GPT Summary- Video理解の進展に伴い、従来のベンチマークは飽和し、スコアと現実の能力に乖離が生じている。これを受けて、Video-MME-v2を導入し、動画理解の頑健性を評価する新たなベンチマークを提案。複雑さを高めるプロセスを経て、視覚情報の統合からマルチモーダル推論まで段階的に評価。また、一貫性と非線形評価を強制する戦略を採用し、人間のアノテーションによるデータ品質を保証。実験により、現在のモデルと人間専門家のギャップを明示し、新しい動画MLLMs開発のためのテストベッドを確立。 Comment

元ポスト:

Paper/Blog Link My Issue
#LanguageModel #ICLR #read-later #Test Time Training (TTT) Issue Date: 2026-04-08 GPT Summary- 静的な学習パラダイムでは新情報への動的適応が制限される。本研究では、推論時訓練（TTT）を用いてモデルパラメータを更新し、インプレースTTTフレームワークを提案。これにより、MLPブロックの最終射影行列をファストウェイトとして扱い、ゼロからの再訓練なしでLLMを強化。次トークン予測タスクに目的を整合させ、スケーラブルなアルゴリズムを実現。実験により、4Bパラメータモデルが優れた性能を示し、競合するアプローチを上回った。In-Place TTTは継続的学習の新たな一歩を提供する。 Comment

openreview: https://openreview.net/forum?id=dTWfCLSoyl

元ポスト:

Loading…

[Paper Note] TARo: Token-level Adaptive Routing for LLM Test-time Alignment, Arushi Rai+, ACL'26 Findings, 2026.03

Paper/Blog Link My Issue
#LanguageModel #Alignment #ACL #Decoding #Findings #Routing #KeyPoint Notes #Test-time Alignment Issue Date: 2026-04-07 GPT Summary- 推論時に固定されたLLMsを用いて、トークンレベル適応ルーティング（TARo）を提案。報酬モデルにより数学的推論の一貫性信号を捉え、ルーターが基盤モデルを自動制御。TARoは推論性能を最大+22.4%向上させ、分布外の臨床推論や指示遵守を改善。再訓練なしでの一般化も可能で、堅牢な推論を実現。 Comment

元ポスト:

Loading…

巨大なベースモデル全体を特定ドメインに適用するためにpost-trainingするのは大変なので、代わりに小規模なdomain-expertなRewardモデルを学習し（今回は数学のstep-wiseにlogicが正しいことをpreferenceとして与えるような学習方法を採用したようである; 3.2節）、各decoding step tにおいて、ベースモデルとRewardモデルのトークンのlogitを線形補完することで、出力トークンをガイドする。logitの線形補完において、固定されたスカラー値（e.g., 0.5など。GenARMという手法らしい）を用いる研究などが先行研究ではあるが、これはベースモデルの特定タスクにおいてベースモデルの性能を劣化させるので、本研究ではdecoding step t時点で出力されたベースモデル、Rewardモデルのlogitを入力として、FFNによって線形補完の重みα_tをdecoding step tごとに決定する（α_tを決定するネットワークをRouterと呼ぶ）。FFNは2種類のvariantがあり、双方のlogitをconcatしたものを入力するものと、top-kをサンプリングし、kごとにindexに基づいたembeddingをconcatして入力する方法の二種類がある（3.3節）。

結果としては、GenARMと比較して提案手法は有効ではあるが、ベースモデルとrewardモデルの組み合わせによっては、baseモデルよりも性能が悪化するということもありそうに見える。

またRouterはベースモデルのサイズを大きくしても、性能が転移するので再学習が不要である。

[Paper Note] Mixture-of-Minds: Multi-Agent Reinforcement Learning for Table Understanding, Yuhang Zhou+, ACL'26, 2025.10

Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #ReinforcementLearning #AIAgents #TabularData #SelfImprovement #ACL #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-04-07 GPT Summary- 表の理解と推論を高めるため、マルチエージェントフレームワークMixture-of-Mindsを提案。計画、コーディング、回答の役割に分割し、各エージェントが特定の側面を担う。自己改善トレーニングにモンテカルロ木探索を用いて強化学習を最適化。実験結果ではTableBenchで62.13%の改善を達成し、構造化されたアプローチの有効性を示す。 Comment

元ポスト:

Loading…

複雑なタスクを特化型のエージェントに分解し、個々のエージェントを学習するためのpseudo-gold trajectoryを合成しエージェントをFinetuning。その後、FinetuningしたエージェントをGRPOによってend-to-endで学習する、という話に見える。pseudo-gold trajectoryは、個々の特化型のエージェントに対して複数の解候補を出力させ、解候補を次のエージェントに入力し解候補を生成...という手順をsequentialに適用していき、最終的に正しい応答を導き出せたtrajectoryを後ろ向きにたどることによって、pseudo-gold trajectoryを得る。FinetuningとRLがどのような順番で実施されるか、あるいは繰り返されるのか、といった部分についてはしっかり読み解けていない。

表データで実験をしているが、それは一つの応用例であり、汎用的に利用可能な手法と考えられる。

[Paper Note] Embarrassingly Simple Self-Distillation Improves Code Generation, Ruixiang Zhang+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #Coding #PostTraining #read-later #SelfDistillation Issue Date: 2026-04-04 GPT Summary- 簡易自己蒸留（SSD）を用いて、LLMが独自の出力のみでコード生成の改善が可能であることを示す。特定の温度とトランケーション設定で出力をサンプリングし、その後教師付きファインチューニングを行うことで、Qwen3-30B-Instructのパフォーマンスを42.4%から55.3%に向上。4B・8B・30Bスケールのモデル間で一般化され、改善のメカニズムをLLMデコードの精度と探索の相互関係に関連づけて検討。SSDは、精度を高めつつ多様性を保持するアプローチとして、LLMのコード生成に寄与する可能性を示唆する。 Comment

元ポスト:

Loading…

所見:

Loading…

解説:

Loading…

著者ポスト:

Loading…

[Paper Note] Entropy-Preserving Reinforcement Learning, Aleksei Petrenko+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #ICLR #PostTraining #Selected Papers/Blogs #Stability #needs-revision #EntropyCollapse Issue Date: 2026-04-01 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=E8MR8jgEeZ

PPO/GRPOなどのアルゴリズムではRL中にポリシーの多様性が低下し、ポリシーがdeterministicになり探索をしなくなり、パフォーマンスが停滞するか低下する（あるいはベースモデルでもともと高い尤度を持っていた解のPass@1が改善するが、ポリシーの出力が狭くなるため、Pass@kが犠牲になる）現象が生じる（= entropy collapse）ので、それを是正したいという話。

後ほど追記

[Paper Note] Group Distributionally Robust Optimization-Driven Reinforcement Learning for LLM Reasoning, Kishan Panaganti+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #PostTraining #BudgetAllocation Issue Date: 2026-03-29 GPT Summary- LLMの推論進展は、損失関数の洗練とアライメント戦略の整合によって進むが、標準的なRLパラダイムは一様性に縛られ、難問への対応に非効率を生む。これに対抗するため、動的に訓練分布を適応させるMulti-Adversary GDROを提案。オンライン難易度分類器を導入し、プロンプトを難易度グループに区分。二つのGDROゲームを提示し、頻度バイアスを排除しつつ難易度の高いプロンプトを強化。Qwen3-Baseでの実験により、精度がGRPOと比較して高まることを確認。新たなカリキュラムが観察され、リソースが推論のフロンティアへシフトすることで性能向上を促進。 Comment

元ポスト:

Loading…

[Paper Note] ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents, Hao Zhang+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Infrastructure #ReinforcementLearning #Architecture #SoftwareEngineering #read-later #On-Policy #Stability #One-Line Notes Issue Date: 2026-03-28 GPT Summary- ProRL Agentは、マルチターンのLLMエージェントにおける強化学習トレーニングを支援するためのAPIサービスであり、ロールアウトのライフサイクル全体を提供するスケーラブルなインフラです。標準化されたサンドボックス環境を通じて、多様なエージェント駆動タスクに対応し、ソフトウェア工学やSTEM関連のタスクで検証されています。ProRL Agentはオープンソースで、NVIDIA NeMo Gymに統合されています。 Comment

元ポスト:

Loading…

処理が重いロールアウトを独立したhttp serviceとして扱い（rollout-as-a-service)、モデルのtrainingと分離することで、リソース分離、可搬性、拡張性を向上させる。

[Paper Note] Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models, Isha Puri+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #PostTraining #Diversity #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-03-28 GPT Summary- LMは質問に対して複数の回答候補を暗黙のうちに生成するが、訓練後のプロセスで単一の回答に圧縮されることが多い。医療診断や曖昧な質問応答などのタスクにおいては、複数の妥当な回答が必要とされる。本論文では、複数回答を扱う強化学習アプローチを提案し、モデルが単一の前方伝搬で複数の候補を生成できるようにする。実験により、多様性やカバレッジが改善し、コーディングタスクでは精度も向上した。提案手法は、計算資源効率の高い代替として評価されている。 Comment

元ポスト:

Loading…

ユーザのクエリにおいては正解が単一ではないものがしばしば存在するが、現在のRLの枠組みはモデルが出力した一つのbest answerに対して報酬を与えるように設計されているため、これによりモデルの出力が一つのモードに固執する、あるいはmode collapseを引き起こす。これを解決するために、モデルに複数の回答とそのconfidenceを一つのpromptで思考させ、k個出力させる。rewardはk個中何個のanswerが正解だったか、confidenceが実際のanswerのcorrectnessとどれだけ近いかなどに基づいて報酬を与えるような枠組みを採用することで、モデルの出力の多様性やcoverageが増加し、repeated sampling時のトークン効率も改善した、と言う話らしい。

[Paper Note] Goedel-Code-Prover: Hierarchical Proof Search for Open State-of-the-Art Code Verification, Zenan Li+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#LanguageModel #Coding #SoftwareEngineering #read-later #Verification #Proofs Issue Date: 2026-03-28 GPT Summary- 大規模言語モデル（LLMs）はコード生成が可能だが、正確性に限界がある。これを克服するために、Lean 4における階層的証明探索フレームワークを提案し、複雑な検証目標を単純なサブゴールに分解する。分解スコアは訓練報酬と推論時の基準として機能し、最適化とデプロイメントの整合性を保証。Goedel-Code-Prover-8Bを利用し、教師あり初期化後にハイブリッド強化学習で訓練。Leanベースのコード検証ベンチマークでは、62.0%の証明成功率を実現し、強力なベースラインを2.6倍上回る成果を達成した。また、推論時のスケーリングによって成功率の向上が観察された。 Comment

OpenHands（著者グループ）のスレッド:

Loading…

[Paper Note] MonoArt: Progressive Structural Reasoning for Monocular Articulated 3D Reconstruction, Haitian Li+, arXiv'26, 2026.03

Paper/Blog Link My Issue
Issue Date: 2026-03-26 GPT Summary- 単一画像から3D物体の形状や運動パラメータを共同推定するために、提案されたMonoArtフレームワークは、視覚情報を段階的に変換し、安定した可動推定を実現する。既存の手法のスケーラビリティや効率性の問題を克服し、PartNet-Mobilityデータセットで最先端の再構成精度と推論速度を達成。ロボット操作や可動シーン再構成にも応用可能。 Comment

元ポスト:

Loading…

[Paper Note] Rich Insights from Cheap Signals: Efficient Evaluations via Tensor Factorization, Felipe Maia Polo+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #Evaluation #Initial Impression Notes Issue Date: 2026-03-25 GPT Summary- プロンプトの性能を細粒度で評価するため、安価な自動評価データと限られた人間によるゴールドスタンダードラベルを統合した新しい統計モデルを提案。自動評価スコアを基に生成モデルの潜在表現を事前学習し、小さな較正セットで人間の嗜好に整合。これにより、標準ベースラインを上回る精度で人間の嗜好を予測し、詳細なリーダーボードの構築やモデルのパフォーマンス推定が可能になることを示す。 Comment

元ポスト:

Loading…

少量の人間ラベルとLLMによって合成されたraterでテンソルを作り（モデル、prompt, rateのテンソル）を行列分解することで、効率的に（＝人間のrateはscarceなので行列分解を通じて潜在表現に落としてサンプル効率を高める、というより次元の呪いを回避する？）単一のスコアでのモデル評価ではなく、様々な異質のpromptの元でのスコアリング（＝finegrained evaluation)を実現する、という話に見える。

[Paper Note] LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels, Lucas Maes+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#ComputerVision #read-later #Selected Papers/Blogs #Stability #WorldModels #Pixel-based Issue Date: 2026-03-24 GPT Summary- LeWorldModel（LeWM）は、原始ピクセルからエンドツーエンドで訓練できる最初のJoint Embedding Predictive Architecture（JEPA）を提案。従来の手法に比べ、調整可能な損失のハイパーパラメータを6個から1個に減らし、約1500万パラメータを持つLeWMは、ファウンデーションモデルより最大48倍速く学習。2Dおよび3Dの制御タスクで競争力を維持し、潜在空間が物理的構造を符号化していることを示す驚き評価も行われ、物理的に妥当でないイベントを検出する能力を確認。 Comment

元ポスト:

Loading…

[Paper Note] Data-efficient pre-training by scaling synthetic megadocs, Konwoo Kim+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #SyntheticData #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2026-03-22 GPT Summary- 合成データ拡張は、限られたデータでの事前学習に有効である。この研究では、有限の計算資源下での損失低減や、無限大に近づくときの損失スケーリングの改善を目指す。合成的再表現との混合で事前学習した場合、異なる分布からの合成データでもi.i.d.検証損失が改善され、データ効率は約1.48倍で頭打ちとなる。新たなアプローチとして、同文書からの合成再表現を用い、短文の代わりに長大なメガ長文を形成する手法を提案。これにより、損失とベンチマークの改善が見られ、データ効率は1.80倍に向上。合成データ生成が増えるほど、メガ長文による効果も増大することが示された。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

著者ポスト:

Loading…

- データよりもコンピューティングリソースのスケーリングの方が早く進んでおり、データ効率の高い事前学習レシピが重要となっている
- 事前学習において、合成データがi.i.d.なwebデータの損失減らすことに寄与するかを調査
- 300Mモデルで200M tokenを学習した際にどれだけi.i.d.なwebデータのlossを低減させられるかを調査
- 最初に最もシンプルなdata augmentationであるrephrasingを調査したところ、文書単位でのrephrasingの回数が増えるにつれて、web lossとdownstreamベンチマークでのエラー率が単調に改善
- 続いて、ある文書をrephraseした文書を結合することで、単一の大きな文書（=megadoc）を構成する手法を提案し、megadocを利用することでさらにlossが改善することを確認。megadocの構成方法として下記三種類を提案し:
- Real First Stitched: `文書に対するrephraseをG個生成し、それらを結合することでmegadocを構成する手法。実データを結合の頭にもってくる。
- Real Last Stitched: Real First Stichedと同様の処理をするが、実データを結合の末尾に持ってくる手法
- Latent Thoughts: 文書をG+1個の同じ長さのピースに分割し、ピース間を埋めるrationaleを合成して結合する手法。rationaleはタグで囲う。
- Real First Stitched と Real Last Stitched を比較したところ、後者の方が性能が良かった。
- 後者の方が性能が良い考察として、epiplexity [Paper Note] From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence, Marc Finzi+, arXiv'26, 2026.01 の観点から考察をしている。前提として実文書の方が複雑で情報量が多いと考えたときに、Real First Stitched の場合は実文書の情報からrephraseを学ぶという簡単な変換（生成）を実施すればよいのに対し、Real Last Stitchedの場合逆で、rephraseからより詳細で複雑な実文書に変換（生成）するというタスクを実施せねばならない。このため、後者の方がより計算的に困難な関数を学習する必要があり（すなわち、epiplexityが高い学習設定ということ; epiplexityが高い学習設定の方がモデルの汎化性能が高くなる）、学習の結果より高い汎化性能を獲得しているのではないか、と考察している。

- また、モデルをアンサンブルした場合の性質についても考察がされており、self-distillationは単体モデルの性能を向上させることに寄与するが、アンサンブルするモデルの数を増やすと実データを用いたモデルと最終的には性能が同等となることが予測され、達成可能なピーク性能がアンサンブルによってブーストされる効果は観測できなかった。一方で、Rephrasingによる合成データによって学習されたモデルはアンサンブルによって達成可能な性能のピーク値がブーストされると考えられる。

[Paper Note] Reasoning over mathematical objects: on-policy reward modeling and test time aggregation, Pranjal Aggarwal+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#read-later #Selected Papers/Blogs Issue Date: 2026-03-22 GPT Summary- 数学的オブジェクトの推論能力はSTEM分野で重要であり、現在の評価は簡略化された形式に依存している。本研究では、(i) 数学的オブジェクトを導出する訓練データとベンチマークを公開、(ii) LLMを用いた性能向上のための訓練レシピを提案、(iii) 計算量をスケールさせるオンポリシー訓練法を示した。強力なLLMが苦戦する中、提案手法は顕著な改善をもたらし、推論能力の一般化を示している。 Comment

pj page: https://facebookresearch.github.io/RAM/blogs/principia/

元ポスト:

Loading…

ポイント解説:

Loading…

section2に関する著者のポイント解説:

Loading…

ポイント解説:

Loading…

[Paper Note] PRISM: Demystifying Retention and Interaction in Mid-Training, Bharat Runwal+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #mid-training #read-later #Selected Papers/Blogs #Reference Collection Issue Date: 2026-03-19 GPT Summary- PRISMの中間トレーニング設計の実証研究を行い、様々なモデルやアーキテクチャで統制実験を実施。約270億トークンのデータを使用し、数学、コード、科学ベンチマークで一貫した性能改善を達成。RLパイプラインは推論ベンチマークのスコアを大幅に向上させるも、基盤モデルへの直接適用では効果が薄い。中間トレーニングがモデル性能を効果的に高めることを示し、信頼性の向上に役立つ中間トレーニングの重要性を強調。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] Flash-KMeans: Fast and Memory-Efficient Exact K-Means, Shuo Yang+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#EfficiencyImprovement #MachineLearning #read-later #Selected Papers/Blogs #Clustering-based Issue Date: 2026-03-14 GPT Summary- 本研究では、$k$-meansアルゴリズムをオンライン処理に適用するために再設計し、既存のGPU実装におけるボトルネックを解消するFlash-kmeansを提案する。この実装は、距離計算とargminを統合し中間メモリの使用を回避、またセントロイド更新の競合を低減する2つの革新を導入。評価結果では、Flash-kmeansが既存のベースラインを最大17.9倍上回り、業界標準ライブラリに対しても大幅なスピードアップを実現した。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

著者ポスト:

Loading…

デモ動画が含まれており驚異的な速さ

[Paper Note] OpenClaw-RL: Train Any Agent Simply by Talking, Yinjie Wang+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #PRM #KeyPoint Notes #Reference Collection Issue Date: 2026-03-14 GPT Summary- OpenClaw-RLは、エージェントの相互作用から生成される次状態信号を用いたオンライン学習フレームワークである。各エージェントのアクションに対するユーザーの反応やツールの出力を利用し、一つのポリシーで複数のトレーニング問題を同時に学習する。次状態信号は評価信号と指示信号を含み、前者はアクションの成功度を示し、後者は改善点を指摘する。非同期設計により、モデルはリアルタイムでリクエストに応じ、ポリシーを更新する。個人用エージェントや一般エージェントに適用することで、ユーザーのフィードバックを活用し、スケーラブルな強化学習を実現する。 Comment

元ポスト:

Loading…

解説:

Loading…

日本語解説: https://tech.layerx.co.jp/entry/openclawrl-agenticrl

テクニカルレポートを見ると情報量が非常に多くて圧倒されてしまうが、著者ポストを鑑みるに本研究の肝は下記である。

既存のAgentic RLは、Agentがaction a_tを実施した後に環境の状態がs_t+1に変化するが、それをcontextとして活用し次のactionを生成している。しかし、ただcontextとして活用するよりももっと有用な使い方があるのではないか、という主張をしているように見え、具体的には以下の2つの無駄が生じているという指摘で
- 次のstateは前回のアクションの暗黙的な評価を与えており、これを捨ててしまっている。たとえば、ユーザは満足いっていないことをqueryするかもしれないし、テストが通ったら成功、エラーが出たら失敗という評価に関するシグナルが潜んでいる。これは主に数学ドメインで利用されてきたProcess Reward Modelによるプロセスに関するRewardとは対照的に、verifiableなドメインを超えて自然なインタラクションの中で生じるシグナルから評価できる。
- 上記は評価に関するシグナルだが、もう一つのシグナルとして方向性に関するシグナルが得られる。たとえば、「あなたは最初にファイルを確認すべきだ」というqueryがs_t+1として得られたとする。これは、単にa_tが失敗だっただけでなく、「どのトークンが、どのように」誤っていたかに関する具体的なフィードバックとみなせる。たとえば、errorに関するtraceは具体的などこを修正すれば良いかのシグナルである。現在のRLVRの枠組みはこれらのシグナルを（最終的に得られる）sparseな単一のスカラー値に落としてしまっており、これら精緻な方向性に関するシグナルを完全に捨て去ってしまっている。

前者についてはBinary RL[^1]によってシグナルを拾え、

後者についてはs_t+1からtextualなhintを抽出しteacher contextとして活用することで、トークン単位でのadvantageを計算できる[^2]。

そしてこれら両方を組み合わせることで、より良い結果を得ることができる、といったことが著者ポストに書かれている。

元論文自体は部分的にしか読めていないのだが、論文のメッセージとしては、s_t+1の情報にはまだ活用できるシグナルがあるのにそれが見過ごされていて、現在のRLVRの枠組みではスカラー報酬に埋もれてしまっているという課題意識が肝だと感じた。

また、手法的な観点で言うと、日本語解説と、テクニカルレポート4.1.2節に書かれている通り、リアルタイムなユーザとの対話を前提てして考えた時に、ロールアウトは1つしか現実的に存在しえないため（複数ロールアウトに対してユーザからのフィードバックs_t+1を得ることは実用的な設定では非現実的）GRPOが適用できない、という点はなるほどなぁ、と感じた。

[^1]: a_t, s_t+1が与えられた時に{0, 1, -1}を返す何らかのProcess Reward Modelを定義し、m回独立した施行を実施しmajority votingをすることでreliableなa_tに対するRewardを得る（4.1.1節）。

[^2]: s_t+1から抽出可能なhintを追加のcontextとして与えたポリシーを教師、hintなしのポリシーを生徒とし、教師と生徒のa_tに対するトークンの尤度の差分をとることでtoken単位のadvantageを得る。すなわち、hintが与えられたときにa_tで尤度が低くなるトークンがあれば、そのトークンにはペナルティが課されることになる（4.2.2 Step4)。

[Paper Note] OnlineSI: Taming Large Language Model for Online 3D Understanding and Grounding, Zixian Liu+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal #VisionLanguageModel #4D (Video) #SpatialUnderstanding Issue Date: 2026-03-12 GPT Summary- MLLMに空間理解を持たせるためのフレームワークOnlineSIを提案。動画ストリームを利用して、有限の空間メモリを用いた継続的な推論を実現し、計算量を増加させない。3D点群と意味情報を統合し、物体の位置決定を向上。ファジーF1スコアを用いて実験し、現実世界の具現化システムへの展開の可能性を示した。 Comment

pj page: https://onlinesi.github.io/

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] Scalable Training of Mixture-of-Experts Models with Megatron Core, Zijie Yan+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #MoE(Mixture-of-Experts) #Selected Papers/Blogs #Reference Collection #Scalability Issue Date: 2026-03-12 GPT Summary- MoEモデルのスケーリングには、パラメータの増加によるメモリ、通信、計算の制約が伴う。これを解決するために、メモリの再計算やオフロード、通信の最適化、計算のグループ化などを統合的に最適化するフレームワークを提案。これにより、長い文脈の効率化や低精度訓練サポートも実現。数兆パラメータのMoEモデルを数千台のGPUで訓練可能なオープンソースソリューションとして、実運用向けの指針を提供。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

所見:

Loading…

所見:

Loading…

[Paper Note] A Rubric-Supervised Critic from Sparse Real-World Outcomes, Xingyao Wang+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#ReinforcementLearning #AIAgents #Coding #SoftwareEngineering #Selected Papers/Blogs #Verification #RewardModel #One-Line Notes #Critic #Rubric-based Issue Date: 2026-03-06 GPT Summary- コードエージェントの評価は通常、ユニットテストの成功を基にしているが、実際の環境では成功信号が遅延し、ノイズが多い。本研究では、疎でノイズの多い相互作用データを用いてクリティックモデルを学習する方法を提案し、これをRLベースの報酬モデルとして利用する。具体的には、エージェントの行動特徴を含むクリティック・ルーブリックを導入し、半教師付き目的関数で人間のフィードバックと共に予測する。実験により、このアプローチが SWe-bench におけるリランキングを改善し、試行回数を83%減少させながら成果を向上させることを示した。 Comment

元ポスト:

Loading…

AI Agentによる実装は安価になったが、今度は（人間による）verificationがボトルネックなので、Agentのtrajectoryからcritiqueを実施するモデルをRubric-basedに学習しReward Modelとして活用できるようにした、という話に見える。これによりAgentの進捗をリアルタイムでvibe checkすることができるとのこと。

著者ポスト:

Loading…

[Paper Note] ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors, Zihao Huang+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#ComputerVision #4D Reconstruction #interactive #4D (Video) #Reference Collection Issue Date: 2026-03-06 GPT Summary- ArtHOIは、単眼動画からの情報を用いて4Dの関節付き人間-物体相互作用を合成する初のゼロショットフレームワークである。このアプローチでは、動画の逆レンダリングを通じて接触や関節運動を自然に満たす物理的に妥当な4Dシーンを再構成する。提案手法は、光学フローを基に動的および静的領域を分離し、安定した物体のアーティキュレーションを回復した後、条件として人間の運動を生成する。また、多様なシーンにおいて、従来手法を上回る精度で相互作用を実現する。 Comment

pj page: https://arthoi.github.io/

元ポスト:

Loading…

著者ポスト:

Loading…

ポイント解説:

Loading…

著者ポスト:

Loading…

[Paper Note] Beyond Language Modeling: An Exploration of Multimodal Pretraining, Shengbang Tong+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #LanguageModel #Transformer #MultiModal #Architecture #MoE(Mixture-of-Experts) #Scaling Laws #read-later #Selected Papers/Blogs #WorldModels #UMM Issue Date: 2026-03-05 GPT Summary- 視覚的データは言語を超えるマルチモーダルモデルの進展に重要で、我々は制御された前訓練実験を通じてその要因を明らかにした。Transfusionフレームワークを用い、テキストや視覚データで統一的に訓練し、以下の洞察を得た：(i) RAEが最適な視覚表現を提供；(ii) 視覚とテキストは相補的で相乗効果を生む；(iii) 統一学習が世界モデリングに繋がる；(iv) MoEが効率的なスケーリングを可能にする。視覚データが言語より多く必要であることを示し、MoEが両者の調和を図ることを提案。 Comment

元ポスト:

Loading…

RAE:
- [Paper Note] Diffusion Transformers with Representation Autoencoders, Boyang Zheng+, arXiv'25, 2025.10

著者ポスト:

Loading…

解説:

Loading…

[Paper Note] How Well Does Agent Development Reflect Real-World Work?, Zora Zhiruo Wang+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#Analysis #NLP #Dataset #LanguageModel #AIAgents #Evaluation #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2026-03-04 GPT Summary- AIエージェントの開発は、労働市場のベンチマーク上で進められているが、その代表性は不明である。本研究では、43のベンチマークと72,342のタスクを分析し、エージェント開発と米国労働市場の職業との整合性を測定。プログラミング重視の開発と人間労働の価値の乖離を指摘し、エージェントの自律性を評価することで実用的な指針を提供。最後に、社会的に重要な労働を捉えるベンチマーク設計のための3つの原則を提案。 Comment

元ポスト:

Loading…

AI Agentのベンチマークは実際の人間の労働に本当に紐づいたタスクで評価されているのか？という疑問に答えてくれる研究のようで、実際のAI Agentのベンチマークと人間の業務、それらのcapitalをマッピングしたところ、現在のAI Agentのベンチマークは過剰に数学とコーディングドメインに偏っており、実態としての人間の労働や、それらの中でcapitalが集中しているドメインに対するカバレッジが大きく不足していることがわかった。

ドメインごとに見ると、デジタル化がされていて高付加価値のドメインのいくつか（マネジメントや法務）のベンチマークは少なく、スキルをベースに見るとベンチマークは情報取得やエンジニアリングといった狭いスコープばかりに焦点が当たっていて（これらの人間の労働に占める割合は<7%にすぎない）、多くの他のスキルが無視されている状況とのこと。

また、エージェントの自律性を細分された尺度で評価するために、どの程度のレベルの複雑さのタスクであればreliableにagentがこなせるかという観点を導入し、タスクの複雑性に関するスケールを導入し比較を可能にした、といった話が元ポストに書かれている。

現在提供されているベンチマークにおいて、おそらくタスク全体のうちの個別のサブタスクごとに複雑度をラベル付けして、複雑度を軸にサブタスクの成功/失敗をtrajectoryから分析することで、タスクの複雑度を軸に成功率を分析したグラフを見ると、タスクの複雑度に対して基本的にはどのドメイン、スキル、エージェントフレームワーク、バックボーンモデルであれ複雑度な上がれば上がるほど成功率は減少していく傾向にあり、成功率は最終的に20%--0%付近まで低下する。

最終的に、エージェントの評価ベンチマークにおいては、実際の労働に対するカバレッジ、現実的であること（＝実際のドメインや必要となるスキルを捉えており、実タスク全体を捉えたようなものが必要でFigure4にベンチマークごとのドメインとスキルのカバレッジが可視化されている）、より粒度の細かい評価が必要（タスク全体の成功/失敗でのみ評価すると、タスクのどこまでできていたのか？という重要なシグナルが欠落する）であることが議論されている。

[Paper Note] AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications, Yujie Zhao+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #read-later #Selected Papers/Blogs #memory #Initial Impression Notes Issue Date: 2026-03-01 GPT Summary- LLMを用いた自律エージェントの記憶において、実務的応用と評価基準の間にギャップが存在。これを解消するために、AMA-Benchを提案し、実世界のエージェント軌跡とQAを組み合わせて評価。多くの既存システムが因果性を欠き、類似性ベース検索に制約されている中、因果性グラフとツールを用いたAMA-Agentが性能を向上。AMA-AgentはAMA-Benchで57.22%の正解率を達成し、最強記憶システムのベースラインを11.16%上回る。 Comment

元ポスト:

Loading…

実際のAgenticなタスクのユースケースに沿ったmemoryの評価方法を提案している研究のようで、非常に重要な研究に見える。実際はチャットベースのやり取りではなく、エージェントと環境が相互作用しながら生成されるtrajectoryで構成され、指示はagentによって生成された客観的な目的を含んでおり、trajectoryには多くのnoisyな結果やsymbolが含まれる。また、agentが現在のstateから環境に作用した結果が返ってくるというチャットベースの言語的なフロートは異なり、stateに基づいた因果関係が存在するという差がある。

ベンチマークの結果ではGPT-5.2が優れていそうに見えるが、GPTの場合は最新のGPT-5.2で評価されているのに、Claudeに関してはClaude Haiku 3.5で評価されているのは気になる。Claude Opus 4.6やGemini-3で評価したらどの程度の性能になるのだろうか。

著者ポスト:

Loading…

[Paper Note] REMem: Reasoning with Episodic Memory in Language Agent, Yiheng Shu+, ICLR'26, 2026.02

Paper/Blog Link My Issue
#GraphBased #NLP #LanguageModel #AIAgents #ICLR #Selected Papers/Blogs #memory #One-Line Notes #Grounding Issue Date: 2026-03-01 GPT Summary- REMemは、エピソード記憶を構築し推論するための2段階フレームワークを提案する。オフラインでは、経験を時間情報を含む要旨と事実を結びつけたハイブリッド記憶グラフに変換。オンラインでは、エージェント型リトリーバを用いて記憶グラフ上での反復検索を可能にする。包括的な評価により、REMemは最先端システムを大幅に上回り、エピソード回想と推論タスクでそれぞれ3.4%、13.4%の改善を示す。回答不能な質問に対する拒否行動も堅牢であることが確認された。 Comment

元ポスト:

Loading…

単に知識や事実情報を蓄積するのではなく、過去のイベントに関するsituationalな情報（when,where,who,what)でgroundingをしながら、複数のイベント、タイムラインを跨いでreasoningができるようなepisodic memoryの提案。人間は単に意味情報から記憶を呼び起こすだけでなく、過去のイベントを想起して条件付けした上で時系列になぞって記憶を想起できる能力があることに起因する。

openreview: https://openreview.net/forum?id=fugnQxbvMm

[Paper Note] Interleaved Head Attention, Sai Surya Duvvuri+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #AIAgents #Attention #LongSequence #Architecture #One-Line Notes #Reference Collection #LongHorizon Issue Date: 2026-02-28 GPT Summary- Interleaved Head Attention（IHA）を提案し、マルチヘッド・アテンションの線形スケーリングの制約を解消。IHAでは、各ヘッドにP個の疑似ヘッドを構築し、ヘッド間のクロス混合を可能にすることで、複数のアテンションパターンを生成。理論的には、合成的Polynomialタスクに対し、IHAはMHAよりも効率的で、実世界のベンチマークでも性能向上を示した。特に、GSM8KおよびMATH-500の問題で改善を達成。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

解説:

Loading…

各headのqueryに対してlinear変換をかけてP個の疑似ヘッドを作成し、それらをinterleavingする形で整列させてK, Vを適用する、という感じらしい。多段階の推論や合成が必要な複雑なタスクにおいてheadの表現力が増し、必要なhead数が小さくなる反面、計算量が増える。疑似ヘッドはP個のトークンによって構成されるとみなせるので、FlashAttentionなどの従来の実装をそのまま適用できる。

[Paper Note] LAP: Language-Action Pre-Training Enables Zero-shot Cross-Embodiment Transfer, Lihan Zha+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #Zero/FewShotLearning #Robotics #VisionLanguageActionModel #EmbodiedAI Issue Date: 2026-02-28 GPT Summary- LAPを用いてロボットの動作を自然言語で表現し、ゼロショット転移を実現。特定の体現に依存せず、LAP-3Bは複数のロボットやタスクでの成功率を50％超え、既存モデルに対して約2倍の改善を示す。アクション予測とVQAを統合することで効率的な適応が可能。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] The Diffusion Duality, Chapter II: $Ψ$-Samplers and Efficient Curriculum, Justin Deschenaux+, ICLR'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #LanguageModel #DiffusionModel #ICLR #read-later #Selected Papers/Blogs #ImageSynthesis #Samplers Issue Date: 2026-02-28 GPT Summary- Uniform-state離散拡散モデルは自己修正能力により優れた生成とガイダンスを実現していますが、ステップ数が増えるとサンプリング品質が限界に達します。本研究では、予測子-修正子（PC）サンプラーを導入し、任意のノイズ過程に対応可能な一般化手法を提案します。Uniform-state拡散と組み合わせることで、従来の手法を超える性能を発揮し、生成パープレキシティを低減させるとともに、サンプリングステップを増やすことで性能が向上します。また、効率的なカリキュラムを構築し、訓練時間を25%、メモリを33%削減しつつ、強力な下流タスク性能を維持します。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

openreview: https://openreview.net/forum?id=RSIoYWIzaP

著者コメント:

Loading…

openreview: https://openreview.net/forum?id=RSIoYWIzaP

著者ポスト:

Loading…

[Paper Note] Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion, Haodong Li+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #VideoGeneration/Understandings #One-Line Notes #train-inference-gap Issue Date: 2026-02-27 GPT Summary- 自己回帰型動画拡散モデルは高い性能を達成するが、訓練期間と推論間のギャップにより長期視野での視覚的劣化が生じる。本研究では、訓練を超えたギャップを探求し、訓練不要でAR動画生成を効果的に長時間スケールする手法Rolling Sinkを提案。これにより、5分から30分の動画を生成し、一貫した被写体や安定した色を実現。広範な実験により、視覚的忠実度と時間的一貫性でSOTAを上回る性能を示した。 Comment

pj page: https://rolling-sink.github.io/

元ポスト:

Loading…

著者ポスト:

Loading…

- [Paper Note] Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion, Xun Huang+, NeurIPS'25

のduration版。training durationとtesting durationが大幅に異なるとうまく生成ができなくなるのでそのgapを埋めましょうという話

[Paper Note] A Very Big Video Reasoning Suite, Maijunxian Wang+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #Dataset #Supervised-FineTuning (SFT) #Evaluation #Reasoning #mid-training #PostTraining #VideoGeneration/Understandings #4D (Video) Issue Date: 2026-02-27 GPT Summary- ビデオ推論の能力を探究するため、100万本以上のビデオクリップを含む前例のないVBVRデータセットを導入。200の推論タスクを網羅し、既存データセットの約1000倍の規模で、評価フレームワークとしてVBVR-Benchを提示。これにより、ビデオ推論の研究における再現性と解釈可能性を向上させ、新規タスクへの応用の初期兆候を示す。VBVRは次の研究段階の基盤となる。データ、ツール、モデルは公開中。 Comment

pj page: https://video-reason.com/

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] LLMs Can Learn to Reason Via Off-Policy RL, Daniel Ritter+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #Reasoning #PostTraining #read-later #Selected Papers/Blogs #Off-Policy Issue Date: 2026-02-24 GPT Summary- オフポリシーRLアルゴリズム「OAPL」は、大規模言語モデルのトレーニングにおいて重要度サンプリングを使用せず、Lagged Inferenceポリシーを採用。OAPLはGRPOを上回り、DeepCoderと同等の性能を維持しつつ、訓練時間を3分の1に削減。また、Pass@k指標でのスケーリング改善を示し、400ステップ以上のラグを持ちながらも効率的なポストトレーニングを実現する。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] EditCtrl: Disentangled Local and Global Control for Real-Time Generative Video Editing, Yehonathan Litman+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Transformer #DiffusionModel #VideoGeneration/Understandings #Editing #4D (Video) #One-Line Notes Issue Date: 2026-02-19 GPT Summary- 高忠実度なビデオ編集には、新しい局所的ビデオ文脈モジュールを使用するEditCtrlフレームワークを提案。これにより、マスクされたトークンのみに集中し、計算コストを編集サイズに比例させる。全体の文脈の一貫性を保持しつつ、他の手法に比べて計算効率が10倍向上し、編集品質も改善。テキストプロンプトを利用した新機能を実現。 Comment

pj page: https://yehonathanlitman.github.io/edit_ctrl/

元ポスト:

Loading…

著者ポスト:

Loading…

video editing/inpaintingタスクにおいて、editに必要なlocal contextとeditとの一貫性を保つためのglobal contextを分離し、global contextに対するfull-attention計算を削減する（i.e., local contextに計算量を集中させる）ことで効率を向上、という話に見える。

[Paper Note] UniT: Unified Multimodal Chain-of-Thought Test-time Scaling, Leon Liangyu Chen+, arXiv'26, 2026.02

Paper/Blog Link My Issue
Issue Date: 2026-02-19 GPT Summary- UniTは、マルチモーダルタスクのための統一モデルで、推論を複数回行うことで性能を向上させるフレームワークです。特に、指示の分解や検証、修正を可能にし、エージェント的データ合成と柔軟な推論を組み合わせ、認知的な振る舞いを引き出します。主な発見として、短い推論軌跡からの一般化、逐次的な推論の効率性、生成・編集軌跡による視覚推論の改善が示され、マルチモーダルテスト時スケーリングの有効性が確認されました。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] ÜberWeb: Insights from Multilingual Curation for a 20-Trillion-Token Dataset, DatologyAI+, arXiv'26, 2026.02

Paper/Blog Link My Issue
Issue Date: 2026-02-18 GPT Summary- 多言語性は基盤モデルの重要な能力であるが、データの不均一性や性能干渉が訓練の課題となっている。本研究では、13言語の多言語データのキュレーションを行い、性能低下がデータ品質の欠陥に起因することを示した。英語のキュレーションは他の12言語の性能向上に寄与し、言語ごとに特化したアプローチは更なる改善をもたらすことが明らかになった。これを基に、20兆トークンの事前学習コーパスを構築し、効率的な多言語トレーニングの新たなパレートフロンティアを確立した。特に、20兆トークンを使用することで、訓練計算量を削減しつつ競争力のある多言語性能を実現した。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] Learn from Your Mistakes: Self-Correcting Masked Diffusion Models, Yair Schiff+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #DiffusionModel #SelfCorrection #Test-Time Scaling #PostTraining Issue Date: 2026-02-13 GPT Summary- MDMの問題を解決するために、生成中のトークンを修正する「プログレッシブ自己修正（ProSeCo）」フレームワークを提案。これにより、アンマスクされたトークンの修正が可能になり、質の向上と生成速度の最大2-3倍の高速化を実現。実験によって、ProSeCoがMDMを超える性能を示した。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] Olmix: A Framework for Data Mixing Throughout LM Development, Mayee F. Chen+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#Tutorial #Pretraining #NLP #LanguageModel #read-later #Selected Papers/Blogs #DataMixture #One-Line Notes Issue Date: 2026-02-13 GPT Summary- データミキシングは言語モデル（LM）トレーニングにおいて重要な課題であり、Olmixフレームワークを提案することで短所に対処。設定空間の理解が不足している中、強力なミキシング手法の設計選択を特定。ドメインセットの進化に対応し、受けた影響を考慮したミキシチャー再利用メカニズムを導入。これにより、計算量を74%削減し、下流タスクで11.6%の改善を実現。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

言語モデルを事前学習しようとしたときに、
- 先行研究で提案されている手法を自分のデータにどのように適用すべきか？ハイパーパラメータはどうすればよいか？tiny datasetの場合はoversamplingしてよいのか？といった課題に直面し
- 仮にgood mixが分かったとしても、データは静的ではなく、新たなデータセットがリリースされたり、同僚がデータセットを変更するかもしれない。そうなったときに、DataMixをどのようにアップデートすればよいのか？

といった実践的に困る場面が多いようであり、これらに対して本研究は実践的なDataMixingの設定に関するガイダンスとデータセットが進化したときに効果的にDataMixを更新する方法を提案しているとのこと。

[Paper Note] Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning, Dawid J. Kopiczko+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT) #Chain-of-Thought #Reasoning #PostTraining #Selected Papers/Blogs #Generalization #KeyPoint Notes Issue Date: 2026-02-12 GPT Summary- SFT（教師ありファインチューニング）の重要性を強調し、小規模データセットでの繰り返しトレーニングが大規模データセットでの単一エポックよりも優れていることを示す。Olmo3-7Bが400サンプルで128エポックのトレーニングによって、51200サンプルでの1エポックよりも12-26%の性能向上を実現。トレーニングトークンの精度が改善の指標となり、このパターンは一貫して確認される。これにより、高価なデータスケーリングに代わる実践的アプローチを提供し、繰り返しの利点を新たな研究課題として提示。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

**long-CoTのSFTにおいては**、多くのユニークなデータで学習するよりも、小さなデータセットを複数エポック繰り返し学習する方が優れていることが分かったとのこと。この傾向はモデルを跨いで存在する（Olmo3とQwen3で実験）。
より多くのエポック数 vs. より多くのユニークデータ数でのモデルの傾向の違いとしては、前者の方がReasoningにおいて最終的な回答を出す割合が非常に大きくなることが分かった（たとえばFigure2 Rightの1 epoch 51200サンプルの24% vs. 256 epoch 200サンプル）。

では繰り返しの恩恵を得られなくなるのはどの時点かというと、Token Accuracy (=モデルのnext token predictionのtargetと一致する予測トークンがtopになった割合)が100%に近くなるとそれ以上epochを繰り返してもgainが無くなるので、これをSFTのstopping criteriaとして利用可能とのこと。

[Paper Note] Anchored Decoding: Provably Reducing Copyright Risk for Any Language Model, Jacqueline He+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #Decoding #read-later #Selected Papers/Blogs #Legal #KeyPoint Notes #Initial Impression Notes #Copyright Issue Date: 2026-02-12 GPT Summary- 「アンカーデコーディング」は、現代の言語モデルが逐語的な再現を抑制するための新しい推論法であり、リスクのあるLMからより安全な生成を実現します。この手法は、ユーザーが選択した情報予算に応じて生成過程に制約を加え、著作権リスクと有用性のトレードオフを可能にします。また、新たに導入した安全モデルと、クロスボキャブラリ融合を実現するAnchored$_{\mathrm{Byte}}$デコーディングにより、リスク低減と流暢さを維持しつつ、コピーギャップを75％まで排除することが確認されました。 Comment

元ポスト:

Loading…

権利上の問題がない言語モデル（permissive licenceデータによって学習されたものなど）SafeLMと、任意の言語モデルRiskyLMの2つが与えられたときに、KL Divergenceの予算Kの元、各生成のstep tごとに語彙空間上で両LLMのKL DivergenceがK_t未満となるように生成するトークンを選択することで、出力の有用性（fluencyとfactuality)は維持しつつ、memorizationされている著作権物をそのままデコーディングしてしまうリスクを低減する手法。RiskyLMの非常に高いUtility上の語彙生成確率を、SafeLM側の安全な語彙確率で引っ張って良い塩梅で生成するようなイメージと思われる。

この手法はSafeLMがどれだけ高いUtilityを維持しつつ安全性を保てるかにデコーディング性能が依存すると思われるが、SLMで非常に性能の良いTinyComma 0.8Bもリリースしている。

また、KL Divergenceを測定する都合上、提案手法は共通のVocab(すなわちトークナイザー）を持つモデル間でしか適用できないが、KL Divergenceをバイト空間上で測るように工夫することでVocabの制約を無くす方法も提案している。

著作物をそのまま出力してしまう問題は軽減されそうだと思われるが、著者独特の思想や感情、表現や言い回しなどの著作権で保護される対象をどの程度の度合いで守れるかについては興味がある。また、そのためには次はどのようなステップが必要か？

[Paper Note] OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration, Shaobo Wang+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #read-later #Selected Papers/Blogs #DataFiltering #One-Line Notes #Adaptive Issue Date: 2026-02-12 GPT Summary- 高品質な公的テキストが不足する中、データ選択の動的特性を無視した手法の限界を克服するために、最適化器誘導投影ユーティリティ選択（OPUS）を提案。OPUSは、効果的な更新を安定したプロキシから導き出すことでデータをスコアリングし、計算効率を考慮したゴースト手法とボルツマン・サンプリングを用いる。これにより、GPT-2 Large/XLやQwen3-8B-Baseにおいて優れた成果を上げ、事前トレーニングの効率を飛躍的に改善。 Comment

元ポスト:

Loading…

事前学習においてステップ単位で動的にバッチに含める学習データを選択する手法で、従来手法は単に勾配を考慮して選択していたが、実際にoptimizerによって更新される方向はmomentumなどによって異なるためgapが生じていた。これを埋めるために、optimizerが実際に重みを更新した際に、Validation setのlossがどれだけ低下するかによってUtilityを定義し、Utilityが大きくなるようにデータを動的に選択することで学習効率が向上する、といった話に見える。

著者ポスト:

Loading…

[Paper Note] DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos, Shenyuan Gao+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #Pretraining #DiffusionModel #OpenWeight #Robotics #WorldModels #4D (Video) #Realtime #Physics #EgocentricView Issue Date: 2026-02-09 GPT Summary- DreamDojoは、エゴセントリックな人間のビデオから学習した世界モデルで、巧妙なロボットタスクのシミュレーションを可能にします。44,000時間のデータを使用し、多様なシナリオとオブジェクトをカバーしており、アクションラベルの不足を連続的な潜在アクションで解決。物理理解とアクション制御能力を向上させるポストトレーニング後、10.81 FPSでのリアルタイム処理を実現。これにより、生成的世界モデルを基にした新しいアプリケーションを実現し、オープンワールドでのタスクシミュレーションの可能性を示します。 Comment

pj page: https://dreamdojo-world.github.io/

元ポスト:

Loading…

著者ポスト:

Loading…

著者ポスト:

Loading…

解説:

Loading…

[Paper Note] Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations, Wei Liu+, ICML'26, 2026.02

Paper/Blog Link My Issue
#Multi #NLP #ReinforcementLearning #AIAgents #ICML #Test-Time Scaling #PostTraining #LongHorizon #GPUKernel #Environment Issue Date: 2026-02-06 GPT Summary- 高品質のカーネル生成はスケーラブルなAIシステムの鍵であり、そのためのLLM訓練には十分なデータと堅牢な環境が必要です。本研究では、KernelGYMを設計し、報酬ハッキングを防ぐマルチターンRL手法を検討します。TRLOOを提案し、偏ったポリシー勾配問題を解決。訓練されたDr.Kernel-14Bは高性能を達成し、生成されたカーネルの31.6%がTorch参照に対して1.2倍のスピードアップを実現しました。全リソースはGitHubで公開されています。 Comment

元ポスト:

Loading…

[Paper Note] Maximum Likelihood Reinforcement Learning, Fahim Tajwar+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #PostTraining #read-later #RLVR #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-02-05 GPT Summary- 強化学習を用いてモデルを訓練する際、尤度の最大化ではなく低次近似を最適化する限界に触発され、最大尤度強化学習（MaxRL）を提案。これは、サンプリングされたデータから最大尤度を近似するためのフレームワークであり、得られた目的関数はシンプルで偏りのないポリシー勾配推定を可能にする。実験では、MaxRLが既存の手法を上回り、テスト時間効率を最大20倍向上。追加データや計算へのスケーラビリティも優れており、RL訓練を正確性に基づいて拡張するための有望なフレームワークであることを示した。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

pj page: https://zanette-labs.github.io/MaxRL/

skim readingしかできていないが、
微分不可能な生成がされbinaryの正誤が与えられるような条件下でモデルを最適化するときにxが与えられてyが正解である確率はimplicitな尤度を表している。この最適化問題を解くために現在はRLが利用されており、RLは正解の確率pを最大化するような定式化がされているが、最尤推定で定式化するとlog pで定式化をすることになり、これは根本的に異なる最適化となる。具体的には、RLはpass@1に対して最適化しているが、MaxRLはk=1,...∞に対するpass@kの調和平均に対して最適化をするような違いがある。この最尤推定の勾配は実は成功したtrajectoryのスコアの平均という非常にシンプルな形で近似的に求められるらしく、最尤推定として解くと最大20倍程度効率が向上した、といった話に見える。

所見:

Loading…

[Paper Note] ConceptMoE: Adaptive Token-to-Concept Compression for Implicit Compute Allocation, Zihao Huang+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #LanguageModel #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #LatentReasoning #Initial Impression Notes #Concept (LLM PreTraining) Issue Date: 2026-01-30 GPT Summary- ConceptMoEは、トークン間の類似性を利用して計算リソースを動的に割り当てる新しい手法です。これにより、概念表現を生成し、計算集約モデルへのシーケンス圧縮を行います。評価において、ConceptMoEは標準的なMoEを上回り、言語や視覚言語タスクでの性能向上を示しました。特に、計算の効率も大幅に改善され、アーキテクチャの改変なしに既存のMoEに統合可能です。 Comment

著者ポスト:

Loading…

論文タイトルにMoEというワードが入っているが、実際にMoEアーキテクチャを採用しているわけではない点に注意。アーキテクチャはいわゆるLarge Concept Model (エンコーダー→チャンク生成→コンセプトモデル→デチャンキング→デコーダー）であり、チャンクの境界がトークン間のlearnableなモジュールによって学習・決定されるため、トークンレベルで見たときに適応的にトークンをチャンク化することでコンセプトが定義され、かつトークン単位の計算資源の配分がチャンク化を（learnableに）通じて行われるという話に見える。

斜め読みしかできていないが、アーキテクチャそのものの貢献よりも、本研究の貢献として大きい部分はMoEモデルを用いた同じパラメータ/FLOPsでの異なるアーキテクチャ間のfair comparisonを通じてconcept modelの性能が高いことを示したことや、既存のMoEモデルを軽量なモジュールの追加（チャンクモジュール+デチャンクモジュール+追加のゼロで初期化されたQKV attention)し継続事前学習をすることでretrofittingすることでも性能が向上すること、計算効率がチャンクによってトークンが圧縮されるため、fair comparisonの上で高い性能を達成しながら、圧縮率Rに応じて向上することを示ししたこと、などにあるように見受けられる。

が、ただの斜め読みした感想でしかないので読みたい。

[Paper Note] WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World, Ao Liang+, CVPR'26, 2025.12

Paper/Blog Link My Issue
#ComputerVision #Dataset #Evaluation #CVPR #read-later #Selected Papers/Blogs #WorldModels #4D (Video) #One-Line Notes Issue Date: 2026-01-30 GPT Summary- 生成的世界モデルはリアルな4D環境を合成しますが、物理的または行動的に失敗することが多いです。この課題に対処するため、WorldLensを導入し、生成された世界の評価を行う全範囲ベンチマークを提供します。これには生成、再構成、行動追従など五つの側面が含まれ、視覚的現実性や物理的妥当性を評価します。既存モデルには広範囲に優れたものがなく、WorldLens-26Kという大規模な人間注釈付きデータセットを構築し、評価モデルWorldLens-Agentを開発しました。これにより、世界の忠実性を測定する統一されたエコシステムを形成し、リアルな見た目と行動の両面で評価基準を標準化します。 Comment

pj page: https://worldbench.github.io/worldlens

元ポスト:

Loading…

github: https://github.com/worldbench/WorldLens

（自動運転に関する）World Model（には限られないかもしれないが）を多角的な軸から評価できるベンチマーク。3D object detection/Tracking, Novel-view Discrepancy/Quality, Occupacy Prediction, Subject Fidelity/Consistency/Coherence, Temporal Concistencyなど、20以上のdimensionから評価可能なようである。

著者ポスト:

Loading…

[Paper Note] Self-Distillation Enables Continual Learning, Idan Shenfeld+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #ReinforcementLearning #In-ContextLearning #Distillation #Catastrophic Forgetting #read-later #Selected Papers/Blogs #On-Policy #One-Line Notes #ContinualLearning #SelfDistillation Issue Date: 2026-01-29 GPT Summary- 自己蒸留ファインチューニング（SDFT）は、デモンストレーションからオンポリシー学習を可能にし、従来の手法を上回って新しいスキルを獲得しつつ既存の能力を維持。文脈内学習を活かし、壊滅的忘却を削減しながら複数のスキルを時間と共に蓄積するモデルを実現。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

現在のポリシーにおいてクエリ q とexpertによるdemonstraction c によってポリシーを条件づけたモデルを教師モデルとみなし、現在のポリシーにおいてクエリだけで条件付けたモデル生徒モデルとした時に、教師モデルの分布と生徒モデルの分布のreverse KL Divergenceが最小化されるように生徒モデルを学習する（（式1））。すなわち、次のポリシーの更新に対する学習シグナルを得るためにモデルのIn-Context Learningを活用している。

上記の見方はstudent-teacherにおける蒸留という観点で見た場合だが、TRPOに基づく定式化からスタートして、expertが作成したdemonstrationによって導出されるimplicitなreward functionを最大化するInverse Reinforcement Learningとして解釈し、式変形を繰り返していくと、前述のICLによる勾配と、オンポリシーRLでのポリシー最適化による勾配が一致する（式2, 式6）。

ポイント解説:

Loading…

[Paper Note] Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability, Shobhita Sundaram+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SyntheticData #PostTraining #CurriculumLearning Issue Date: 2026-01-27 GPT Summary- LLMは解決困難な問題のために自動カリキュラムを生成可能か？SOARという自己改善フレームワークを通じ、教師が学生のために問題を提案し、進捗に基づいて報酬を提供。研究では、バイレベルmeta-RLが学習を促進し、計測された報酬が内在的報酬を上回ることを示し、構造的品質が解答の正確性よりも学習において重要であることを明らかにした。これにより、困難な問題解決において事前の能力が不要であることが示唆された。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

pj page: https://ssundaram21.github.io/soar/

[Paper Note] Reuse your FLOPs: Scaling RL on Hard Problems by Conditioning on Very Off-Policy Prefixes, Amrith Setlur+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #PostTraining #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-01-27 GPT Summary- PrefixRLは古いサンプリングデータを活用し、オフポリシーの不安定性を回避しつつ、オンポリシーでの強化学習を行う手法です。これにより、学習信号が強化され、従来のRLよりもサンプル効率が向上。また、PrefixRLは難しい推論問題において、より早く同等のトレーニング報酬を達成し、他のモデルファミリーに対しても適応可能であることを示しています。 Comment

元ポスト:

Loading…

同じタイミングで上記POPEが提案された。POPEは人間が記述したオラクルを接頭辞として使い、ポリシーの方向性をガイドすることでアシストするが、こちらのReuse your FLOPsは過去のロールアウトで成功したtrajectoryを再利用して接頭辞として利用する点が異なるように見える。

著者ポスト:

Loading…

[Paper Note] Endless Terminals: Scaling RL Environments for Terminal Agents, Kanishk Gandhi+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #PostTraining #read-later #Diversity #Selected Papers/Blogs #One-Line Notes #Initial Impression Notes #Environment Issue Date: 2026-01-26 GPT Summary- 自己改善エージェントのボトルネックである環境を改善するため、無人アノテーションで端末利用タスクを生成する「Endless Terminals」パイプラインを提案。タスク記述の生成から可解性のフィルタリングまでの4ステージを経て、3255のタスクを作成。PPOを用いて訓練したモデルは、ホールドアウト開発セットで大幅な性能向上を示し、Llama-3.2-3Bは4.0%から18.2%、Qwen2.5-7Bは10.7%から53.3%に改善。人間キュレーションのベンチマークでも改善し、シンプルな強化学習がスケールする環境で成功することを示す。 Comment

元ポスト:

Loading…

taskが解けるものか否かをverifyする追加のモデルが必要な点は注意とのこと。

（論文中ではo3が用いられている）

著者ポスト:

Loading…

RLにおけるターミナル上で実行可能な多様なタスクと、実際に動作可能なコンテナ、テストの生成をスケールさせることで標準的なPPOで性能が向上し、人間が収集した既存ベンチマーク（Terminal Bench 2.0)にも汎化することを示した研究。つまり、RLのタスクと環境をスケールさせれば標準的なRLアルゴリズムでも性能が向上するというメッセージがある。

本研究の他研究との位置付けがぱっと脳内で整理できなかったので、関連研究の部分を読むと、

- AgentのScaffoldの観点では、bashが実行可能なOpenHandsに近く、シェルコマンドを実行し、実行に至るまでのすべてのヒストリと出力が利用可能。

- SFTのための高品質なデータを合成するる研究が最近は多いが、SFTはRLのためのWarmUpに相当するため、本研究とそれらの研究は補完的な位置付けにある。

- ベンチマークやインタラクティブな研究の観点では、SWEBenchやTerminal Bench 2.0のように、人間が収集したベンチマークが存在し、マルチターンでアクションを通じてインタラクションしながら次のアクションを決めていく。本研究もシェル上で状態を観測しながら次のアクションを決めていくようなマルチターンの枠組みに相当する。

- verifiableな環境を合成する研究も行われている。たとえばSWEGymは2438のpythonコードのタスクと検証可能なテストを提供するが、既存のGithub Issueに依存しており、本研究のようにボトムアップに手続的に生成されるものではない。シングルターンではself-playにより困難な問題を生成する研究があるがマルチターンではない。Open Thought Agentという研究がSFT, RLのためのターミナルを用いた環境を合成する点でもっとも本研究と近いが、人間が生成したクエリやコマンドに基づいており、かつ既存のTerminal Bench 2.0といった人間によって収集されたベンチマークでのgainは得られていない。本研究では、完全に自動化されており、任意のサイズにスケールしPPOのような標準的なRLでも既存ベンチマークに転移する点が異なる。

という整理のようである。位置付けは理解できたが、本研究が既存のベンチマークにも転移するのはなぜなのだろうか？という点がまだ理解できていない。

所見:

Loading…

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #ICLR #PostTraining #read-later #Selected Papers/Blogs #Stability Issue Date: 2025-12-20 GPT Summary- JustRLという最小限のアプローチを提案し、固定ハイパーパラメータを用いた単一ステージのトレーニングで最先端のパフォーマンスを達成。計算リソースは洗練されたアプローチの2倍を使用し、トレーニングは滑らかに改善。標準的なトリックの追加が探索を崩壊させる可能性があることを示し、シンプルで検証されたベースラインの重要性を強調。モデルとコードを公開。 Comment

元ポスト:

Loading…

ICLR'26 blog post track にアクセプト:

Loading…

著者ポスト:

Loading…

[Paper Note] Light-X: Generative 4D Video Rendering with Camera and Illumination Control, Tianqi Liu+, ICLR'26, 2025.12

Paper/Blog Link My Issue
#ComputerVision #Controllable #SyntheticData #DiffusionModel #ICLR #VideoGeneration/Understandings #4D (Video) #One-Line Notes #Relighting Issue Date: 2025-12-06 GPT Summary- Light-Xは、単眼動画から視点と照明を制御可能にする動画生成フレームワークで、幾何学と照明信号を分離する設計を採用。これにより高品質な照明を実現し、ペアのマルチビューおよびマルチ照明動画の不足に対処するために逆マッピングを用いた合成手法を導入。実験結果では、Light-Xがカメラと照明の共同制御において従来手法を上回る性能を示した。 Comment

pj page: https://lightx-ai.github.io/

元ポスト:

Loading…

著者ポスト:

Loading…

openreview: https://openreview.net/forum?id=VBew6vESGL

単眼で撮影された動画の視点と照明を同時に制御しながら動画を生成するフレームワークな模様。
背景画像をあたえた

単眼で撮影された動画の視点と照明を同時に制御しながら動画を生成するフレームワークな模様。
背景画像を与えた上での動画のRelighting, Text Promptに基づくRelighting, ユーザがtrajectoryを指定した上でのRelightingなどができるようである。

[Paper Note] DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research, Rulin Shao+, ICML'26, 2025.11

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #OpenWeight #OpenSource #ICML #PostTraining #read-later #Selected Papers/Blogs #DeepResearch #Reference Collection #Rubric-based Issue Date: 2025-11-19 GPT Summary- 長文で出典付きの回答を生成する深層研究モデルの訓練には、強化学習（RLVR）を活用した進化するルーブリック（RLER）を用いることで、モデルが新たな情報を取り込み、オンポリシーなフィードバックを提供できるようにする。本研究では、RLERを活用して初のオープンモデルDeep Research Tulu (DR Tulu-8B)を開発し、科学、医療、一般領域のベンチマークで従来モデルを大幅に上回った。データ、モデル、コードは公開され、新しいエージェント基盤も提供されている。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

著者ポスト2:

Loading…

著者ポスト3:

Loading…

demoをほぼ無料で実施できるとのこと:

Loading…

takeaway:

Loading…

デモが公開:

Loading…

解説:

Loading…

ICML'26 Spotlight:

Loading…

[Paper Note] RLAC: Reinforcement Learning with Adversarial Critic for Free-Form Generation Tasks, Mian Wu+, ICLR'26, 2025.11

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #ICLR #Verification #Critic #Rubric-based Issue Date: 2025-11-05 GPT Summary- 「対抗批評家による強化学習（RLAC）」を提案し、動的基準検証を通じて生成タスクの評価課題に対処。LLMを批評家として利用し、失敗モードを特定して検証することで、生成器と批評家を共同最適化。実験により、RLACがテキスト生成とコード生成の正確性を向上させ、従来の手法を上回ることを示した。動的批評家の効果も確認し、RLACのスケーリング可能性を示唆。 Comment

pj page: https://mianwu01.github.io/RLAC_website/

元ポスト:

Loading…

関連:

Loading…

著者ポスト:

Loading…

openreview: https://openreview.net/forum?id=dBmjnRR1bC

[Paper Note] Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents, Yueqi Song+, ICLR'26, 2025.10

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #ICLR #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-30 GPT Summary- 本研究では、エージェントデータの収集における課題を解決するために、エージェントデータプロトコル（ADP）を提案。ADPは多様なデータ形式を統一し、簡単に解析・トレーニング可能な表現言語である。実験により、13のエージェントトレーニングデータセットをADP形式に統一し、標準化されたデータでSFTを実施した結果、平均約20％の性能向上を達成。ADPは再現可能なエージェントトレーニングの障壁を下げることが期待される。 Comment

pj page: https://www.agentdataprotocol.com

元ポスト:

Loading…

著者ポスト:

Loading…

解説:

Loading…

エージェントを学習するための統一的なデータ表現に関するプロトコルを提案

続報:

Loading…

openreview: https://openreview.net/forum?id=tG6301ORHd

[Paper Note] The Alignment Waltz: Jointly Training Agents to Collaborate for Safety, Jingyu Zhang+, ICLR'26, 2025.10

Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #Alignment #ReinforcementLearning #AIAgents #Safety #ICLR #One-Line Notes Issue Date: 2025-10-15 GPT Summary- WaltzRLという新しいマルチエージェント強化学習フレームワークを提案し、LLMの有用性と無害性のバランスを取る。会話エージェントとフィードバックエージェントを共同訓練し、応答の安全性と有用性を向上させる。実験により、安全でない応答と過剰な拒否を大幅に減少させることを示し、LLMの安全性を向上させる。 Comment

元ポスト:

Loading…

マルチエージェントを用いたLLMのalignment手法。ユーザからのpromptに応答する会話エージェントと、応答を批評するフィードバックエージェントの2種類を用意し、違いが交互作用しながら学習する。フィードバックエージェント会話エージェントが安全かつ過剰に応答を拒絶していない場合のみ報酬を与え、フィードバックエージェントのフィードバックが次のターンの会話エージェントの応答を改善したら、フィードバックエージェントに報酬が与えられる、みたいな枠組みな模様。

著者による一言解説:

Loading…

[Paper Note] Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense, Leitian Tao+, ICLR'26, 2025.10

Paper/Blog Link My Issue
#LanguageModel #ReinforcementLearning #Reasoning #Mathematics #ICLR #RewardModel #One-Line Notes Issue Date: 2025-10-13 GPT Summary- HERO（ハイブリッドアンサンブル報酬最適化）は、検証者の信号と報酬モデルのスコアを統合する強化学習フレームワークで、より豊かなフィードバックを提供。層別正規化を用いて正確性を保ちながら品質の区別を向上させ、数学的推論ベンチマークで従来のベースラインを上回る結果を示した。ハイブリッド報酬設計が推論の進展に寄与することを確認。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=0CajQNVKyB

著者による一言解説ポスト:

Loading…

0/1のbinaryなsparse rewardとdense rewardの両方を組み合わせたハイブリッドなRL手法を提案。verifiable rewardではしばしば報酬がsparseになり学習シグナルが何も得られない課題があり、dense rewardにはノイズが多く含まれるという課題があり、両者を組み合わせることで課題を低減した、という感じの話らしい。

[Paper Note] Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents, Muyu He+, ACL'26, 2025.10

Paper/Blog Link My Issue
#NLP #UserModeling #Dataset #LanguageModel #UserBased #AIAgents #Evaluation #ACL #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-08 GPT Summary- TraitBasisを用いて、会話型AIエージェントの堅牢性を体系的にテストする手法を提案。ユーザーの特性（せっかちさや一貫性のなさ）を制御し、AIエージェントのパフォーマンス低下を観察。最前線のモデルで2%-30%の性能低下を確認し、現在のAIエージェントの脆弱性を示す。TraitBasisはシンプルでデータ効率が高く、現実の人間の相互作用における信頼性向上に寄与する。$\tau$-Traitをオープンソース化し、コミュニティが多様なシナリオでエージェントを評価できるようにした。 Comment

元ポスト:

Loading…

実際の人間にあるような癖（のような摂動）を与えた時にどれだけロバストかというのは実応用上非常に重要な観点だと思われる。元ポストを見ると、LLM内部のmatmulを直接操作することで、任意のレベルの人間の特性（e.g.,疑い深い、混乱、焦りなど）を模倣する模様。

[Paper Note] Any-Order Flexible Length Masked Diffusion, Jaeyeon Kim+, ICLR'26, 2025.08

Paper/Blog Link My Issue
#NLP #LanguageModel #DiffusionModel #Architecture Issue Date: 2025-09-04 GPT Summary- 柔軟なマスク付き拡散モデル（FlexMDMs）を提案し、固定長の生成制限を克服。FlexMDMsは、任意の長さのシーケンスをモデル化し、MDMsの推論の柔軟性を保持。合成迷路計画タスクで約60％の成功率向上を達成し、事前学習されたMDMsを簡単に再調整可能。ファインチューニングにより、数学とコード補完でパフォーマンスが向上。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

openreview: https://openreview.net/forum?id=ttuNnMRI6H

[Paper Note] Fantastic Pretraining Optimizers and Where to Find Them, Kaiyue Wen+, ICLR'26, 2025.09

Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #Optimizer #ICLR #read-later #Selected Papers/Blogs #Reference Collection Issue Date: 2025-09-03 GPT Summary- AdamWは言語モデルの事前学習で広く使用されているオプティマイザですが、代替オプティマイザが1.4倍から2倍のスピードアップを提供するという主張には二つの欠点があると指摘。これらは不均等なハイパーパラメータ調整と誤解を招く評価設定であり、10種類のオプティマイザを系統的に研究することで、公正な比較の重要性を示した。特に、最適なハイパーパラメータはオプティマイザごとに異なり、モデルサイズが大きくなるにつれてスピードアップ効果が減少することが明らかになった。最も高速なオプティマイザは行列ベースの前処理器を使用しているが、その効果はモデルスケールに反比例する。 Comment

元ポスト:

Loading…

重要そうに見える

著者ポスト:
-

Loading…

考察:

Loading…

openreview: https://openreview.net/forum?id=2J51qUZ0iG

[Paper Note] Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning, Vaishnavi Shrivastava+, ICLR'26, 2025.08

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #Reasoning #On-Policy #Overthinking #Reference Collection Issue Date: 2025-08-14 GPT Summary- GFPO（Group Filtered Policy Optimization）を提案し、応答の長さの膨張を抑制。応答を長さとトークン効率に基づいてフィルタリングし、推論時の計算量を削減。Phi-4モデルで長さの膨張を46-71%削減し、精度を維持。Adaptive Difficulty GFPOにより、難易度に応じた訓練リソースの動的割り当てを実現。効率的な推論のための効果的なトレードオフを提供。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

著者ポスト:

Loading…

openreview: https://openreview.net/forum?id=UKOqoULbZS

[Paper Note] R-Zero: Self-Evolving Reasoning LLM from Zero Data, Chengsong Huang+, ICLR'26

Paper/Blog Link My Issue
#NLP #LanguageModel #SelfImprovement #ICLR #Label-free Issue Date: 2025-08-09 GPT Summary- R-Zeroは、自己進化型大規模言語モデル（LLMs）が自律的にトレーニングデータを生成するフレームワークで、チャレンジャーとソルバーの2つのモデルが共進化することで、既存のタスクやラベルに依存せずに自己改善を実現します。このアプローチにより、推論能力が大幅に向上し、特にQwen3-4B-Baseでは数学推論で+6.49、一般ドメイン推論で+7.54の改善が確認されました。 Comment

元ポスト:

Loading…

問題を生成するChallengerと与えられた問題を解くSolverを用意し、片方をfreezezさせた状態で交互にポリシーの更新を繰り返す。

### Challenger
- （Challengerによる)問題生成→
- （freezed solverによる）self consistencyによるラベル付け→
- Solverの問題に対するempirical acc.（i.e., サンプリング回数mに対するmajorityが占める割合）でrewardを与えChallengerを更新

といった流れでポリシーが更新される。Rewardは他にも生成された問題間のBLEUを測り類似したものばかりの場合はペナルティを与える項や、フォーマットが正しく指定された通りになっているか、といったペナルティも導入する。

### Solver
- ChallengerのポリシーからN問生成し、それに対してSolverでself consistencyによって解答を生成
- empirical acc.を計算し、1/2との差分の絶対値を見て、簡単すぎる/難しすぎる問題をフィルタリング
- これはカリキュラム学習的な意味合いのみならず、低品質な問題のフィルタリングにも寄与する
- フィルタリング後の問題を利用して、verifiable binary rewardでポリシーを更新

### 評価結果
数学ドメインに提案手法を適用したところ、iterごとに全体の平均性能は向上。

提案手法で数学ドメインを学習し、generalドメインに汎化するか？を確認したところ、汎化することを確認（ただ、すぐにサチっているようにも見える）。、

著者ポスト:
-

Loading…

日本語解説:

Loading…

openreview: https://openreview.net/forum?id=96apU6YzSO

[Paper Note] Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty, Mehul Damani+, ICLR'26, 2025.07

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Reasoning #ICLR #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2025-08-02 GPT Summary- RLCRを用いた言語モデルの訓練により、推論の精度と信頼度を同時に改善。バイナリ報酬に加え、信頼度推定のためのブライヤースコアを用いた報酬関数を最適化。RLCRは、通常のRLよりもキャリブレーションを改善し、精度を損なうことなく信頼性の高い推論モデルを生成することを示した。 Comment

元ポスト:

Loading…

LLMにConfidenceをDiscreteなTokenとして（GEvalなどは除く）出力させると信頼できないことが多いので、もしそれも改善するのだとしたら興味深い。

著者ポスト:

Loading…

openreview: https://openreview.net/forum?id=ASQ649zdHm

[Paper Note] J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning, Chenxi Whitehouse+, ICLR'26, 2025.05

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #LLM-as-a-Judge #ICLR #PostTraining #GRPO #VerifiableRewards #Non-VerifiableRewards #KeyPoint Notes Issue Date: 2025-05-16 GPT Summary- 本研究では、強化学習アプローチJ1を用いてLLMのトレーニング手法を提案し、判断タスクにおける思考促進とバイアス軽減を図ります。J1は、他の同サイズモデルを上回る性能を示し、特に小型モデルでも優れた結果を出します。モデルは自己生成した参照回答と比較することで、より良い判断を学ぶことが明らかになりました。 Comment

元ポスト:

Loading…

LLM-as-a-Judgeのなめのモデルを学習するレシピにおいて、初めてRLを適用した研究と主張し、より高品質なreasoning traceを出力できるようにすることで性能向上をさせる。

具体的にはVerifiableなpromptとnon verifiableなpromptの両方からverifiableなpreference pairを作成しpointwiseなスコアリング、あるいはpairwiseなjudgeを学習するためのrewardを設計しGRPOで学習する、みたいな話っぽい。
non verifiableなpromptも用いるのは、そういったpromptに対してもjudgeできるモデルを構築するため。

mathに関するpromptはverifiableなのでレスポンスが不正解なものをrejection samplingし、WildChatのようなチャットはverifiableではないので、instructionにノイズを混ぜて得られたレスポンスをrejection samplingし、合成データを得ることで、non verifiableなpromptについても、verifiableなrewardを設計できるようになる。

openreview: https://openreview.net/forum?id=dnJEHl6DI1

著者による一言解説:

Loading…

[Paper Note] Rewriting Pre-Training Data Boosts LLM Performance in Math and Code, Kazuki Fujii+, ICLR'26, 2025.05

Paper/Blog Link My Issue
#Pretraining #NLP #Dataset #LanguageModel #Coding #Mathematics #ICLR #read-later #Diversity #Selected Papers/Blogs #Reference Collection Issue Date: 2025-05-08 GPT Summary- 本研究では、公共データを体系的に書き換えることで大規模言語モデル（LLMs）の性能を向上させる2つのオープンライセンスデータセット、SwallowCodeとSwallowMathを紹介。SwallowCodeはPythonスニペットを洗練させる4段階のパイプラインを用い、低品質のコードをアップグレード。SwallowMathはボイラープレートを削除し、解決策を簡潔に再フォーマット。これにより、Llama-3.1-8Bのコード生成能力がHumanEvalで+17.0、GSM8Kで+12.4向上。すべてのデータセットは公開され、再現可能な研究を促進。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…

openreview: https://openreview.net/forum?id=45btPYgSSX

[Paper Note] DiffusionBlocks: Block-wise Neural Network Training via Diffusion Interpretation, Makoto Shing+, arXiv'25, 2025.06

Paper/Blog Link My Issue
#read-later #Selected Papers/Blogs Issue Date: 2026-05-31 GPT Summary- DiffusionBlocksは、Transformerベースのネットワークを独立した訓練可能なブロックに変換する新しいフレームワークで、メモリボトルネックを軽減しながらエンドツーエンド訓練と同等の性能を維持します。残差結合の特性を活用し、各ブロックが独立に学習できるため、メモリ要件が削減されます。視覚系や拡散など多様なTransformerアーキテクチャに対する実験により、DiffusionBlocksがスケーラブルな訓練を可能にすることが示されています。 Comment

元ポスト:

Loading…

[Paper Note] Speculative Decoding: Performance or Illusion?, Xiaoxuan Liu+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #MLSys #SpeculativeDecoding Issue Date: 2026-05-21 GPT Summary- 推測的デコード（SD）の実世界での有効性を評価するため、実際の推論エンジンvLLMを用いて初めての体系的研究を実施。複数のSD変種をさまざまな条件下で比較し、推論速度向上の理論的上限を定量化。結果は、モデルの検証が実行を支配し、受入長がさまざまな要因によって変化することを示唆。性能と理論的境界の間のギャップが大きく、新たな研究機会を明らかに。 Comment

元ポスト:

Loading…

[Paper Note] Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark, Kai Zou+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Evaluation #ACL #VisionLanguageModel #Initial Impression Notes Issue Date: 2026-05-08 GPT Summary- Uni-MMMUを提案し、視覚的理解と生成の統合を推進するための新しいベンチマークを構築。科学、プログラミング、数学、パズルなどの推論中心ドメインにおいて、生成と理解の相乗効果を評価。モデルは概念的理解を視覚合成に、生成を分析的推論に活用するタスクに挑む。再現可能な評価プロトコルを導入し、モデル間の性能差と依存性を明らかにし、統合モデルの進展に貢献。 Comment

pj page: https://vchitect.github.io/Uni-MMMU-Project/

元ポスト:

Loading…

processとresultの両面を評価できるのが特徴のように見える

[Paper Note] Detecting and Filtering Unsafe Training Data via Data Attribution with Denoised Representation, Yijun Pan+, arXiv'25, 2025.02

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Safety #ICML Issue Date: 2026-05-01 GPT Summary- LLMにおける不安全なデータの検出には、効果的なフィルタリングが不可欠である。従来の手法は主にモデレーション分類器に依存し、効率が悪い。本研究では、Denoised Representation Attribution（DRA）という新たなデータアトリビューション手法を提案し、訓練表現とターゲット表現のデノイズ化を行う。これにより、不安全データ検出が改善され、特にジャイルブレイクフィルタリングやジェンダーバイアスの検出において、従来手法を上回る結果を得た。 Comment

元ポスト:

Loading…

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #AIAgents #SyntheticData #CVPR #ComputerUse #read-later #Selected Papers/Blogs #VisionLanguageModel #GUI #Dragging Issue Date: 2026-01-16 GPT Summary- ShowUI-$\pi$は、GUIエージェントにおける連続的な操作を可能にするフローベースの生成モデルです。これにより、離散的なクリックと連続的なドラッグを統合し、滑らかで安定したトラジェクトリーを実現します。2万のドラッグトラジェクトリーを用いたScreenDragプロトコルによる評価で、既存のGUIエージェントと比較して優れた性能を発揮しました。この研究は、人間のような器用な自動化の実現を促進します。 Comment

pj page: https://showlab.github.io/showui-pi/

元ポスト:

Loading…

大規模なドラッグに関するデータセットを収集しており、エージェントのGUIの操作の今後の進展に大きく寄与しインパクトが大きいと考えられるため、重要論文に見える。

著者ポイント解説:

Loading…

[Paper Note] Extending the Context of Pretrained LLMs by Dropping Their Positional Embeddings, Yoav Gelberg+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #LongSequence #PositionalEncoding #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-01-12 GPT Summary- 本研究では、言語モデル（LM）の位置埋め込みを削除することで、事前学習のシーケンス長を超えたコンテキスト拡張のボトルネックを解消する手法DroPEを提案。位置埋め込みの過度な依存が一般化を妨げることを示し、短い再キャリブレーション後に安全に削除できることを実証。DroPEは長いコンテキストのファインチューニングなしでゼロショット拡張を実現し、従来の手法を上回る性能を示した。 Comment

興味深い

元ポスト:

Loading…

著者ポスト: https://www.linkedin.com/posts/hardmaru_introducing-drope-extending-the-context-activity-7416331313202352128--IsF?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

（読了前の第一印象）

- [Paper Note] The Impact of Positional Encoding on Length Generalization in Transformers, Amirhossein Kazemnejad+, NeurIPS'23

において、NoPEは理論上絶対位置エンコーディングと相対位置エンコーディングの両方を実現可能であり、実際に学習をすると相対位置エンコーディングと似たような分布の位置エンコーディングが学習され、long contextの性能が改善することが報告されている。
まだ論文は読めていないのだが、NoPEは自由度が高いので、学習の初期は何らかの位置エンコーディング手法を補助輪的に使いある程度学習を進め、その後dropしてより自由度の高い状態でfinegrainedなrepresentationを学習するというのは確かにうまくいきそうだな、という感想をもった。

[Paper Note] Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space, Xingwei Qu+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #read-later #LatentReasoning #One-Line Notes #Concept (LLM PreTraining) Issue Date: 2026-01-03 GPT Summary- DLCM（Dynamic Large Concept Models）は、トークン均一な計算の限界を克服するための階層的な言語モデリングフレームワークであり、意味的境界を学習して計算を圧縮された概念空間にシフトします。これにより、推論を効率化し、固定されたFLOPsの下で計算配分を最適化します。DLCMは、実用的な設定で推論計算の約3分の1を再配分し、12のゼロショットベンチマークで平均2.69%の性能向上を達成しました。 Comment

元ポスト:

Loading…

従来のトークンを最小単位とする言語モデルではなく、意味的なチャンクを最小単位として扱う（チャンクの境界は隠れ状態の類似度が閾値を超えるか否かによって決める）Encoder-(Thinking Model)-Decoderタイプのモデルに見える。

関連:
- [Paper Note] Large Concept Models: Language Modeling in a Sentence Representation Space, LCM team+, arXiv'24, 2024.12

扱うconceptの最小単位という観点で見ると、こちらの研究はコンセプトをsentenceとしているが、本研究は（まだ全然読めていないのでおそらく）動的に決まるboundaryに基づくチャンクという点で異なっているように見える。

著者ポストを引用しているポスト:

Loading…

[Paper Note] End-to-End Test-Time Training for Long Context, Arnuv Tandon+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #LongSequence #read-later #Selected Papers/Blogs #memory #ContinualLearning #Test Time Training (TTT) Issue Date: 2025-12-30 GPT Summary- 長い文脈の言語モデリングを継続学習として定式化し、スライディングウィンドウ型の注意機構を用いたトランスフォーマーで次トークン予測を通じて文脈を圧縮。メタ学習によって初期化を改善し、テスト時訓練（TTT）の一形態を実現。3Bパラメータのモデルで1640億トークン学習し、文脈長のスケーリング特性が向上。推論レイテンシが一定で、128Kの文脈では全注意より2.7倍速い性能を示す。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

TTT-E2E

[Paper Note] Propose, Solve, Verify: Self-Play Through Formal Verification, Alex Wilf+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #CodeGeneration #Coding #SelfPlay Issue Date: 2025-12-24 GPT Summary- 自己対戦によるモデル訓練の効果を検討し、形式的検証を用いたコード生成の設定で「Propose, Solve, Verify（PSV）」フレームワークを導入。PSV-Verusを訓練し、3つのベンチマークで最大9.6倍の性能向上を達成。形式的検証と問題の難易度が成功する自己対戦の重要な要素であることを示した。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] When Reasoning Meets Its Laws, Junyu Zhang+, arXiv'25, 2025.12

Paper/Blog Link My Issue
Issue Date: 2025-12-22 GPT Summary- LRMsの推論行動を理論的に形式化する「推論の法則（LoRe）」を提案。計算法と精度法を基に、質問の複雑さに対する推論計算の特性を検証。LoRe-Benchを用いて大規模推論モデルの特性を測定した結果、単調性は示すが合成性に欠けることが判明。合成性を強制するファインチューニングアプローチを開発し、複数のベンチマークで推論性能が改善された。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] VL-JEPA: Joint Embedding Predictive Architecture for Vision-language, Delong Chen+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#read-later Issue Date: 2025-12-17 GPT Summary- VL-JEPAは、視覚と言語のモデルで、従来の自動回帰的トークン生成ではなく、埋め込みを予測するアプローチを採用。これにより、パラメータを50%削減しつつ、強力なパフォーマンスを実現。選択的デコーディングをサポートし、デコーディング操作の数を2.85倍削減。さらに、オープンボキャブラリー分類やテキストからビデオの検索を自然に行える。8つのビデオ分類・検索データセットで他のモデルを上回り、1.6BのパラメータでVQAデータセットでも同等の性能を達成。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models, Boxin Wang+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#General #NLP #LanguageModel #Alignment #ReinforcementLearning #Reasoning #OpenWeight #OpenSource #read-later #RLVR #Selected Papers/Blogs #CrossDomain #KeyPoint Notes Issue Date: 2025-12-17 GPT Summary- 一般目的の推論モデルを強化学習（RL）で構築する際の課題に対処するため、カスケードドメイン別強化学習（Cascade RL）を提案。Nemotron-Cascadeは、指示モードと深い思考モードで動作し、異なるドメインのプロンプトを順次調整することで、エンジニアリングの複雑さを軽減し、最先端のパフォーマンスを実現。RLHFを前段階として使用することで推論能力が向上し、ドメイン別RL段階でもパフォーマンスが改善される。14Bモデルは、LiveCodeBenchで優れた結果を示し、2025年国際情報オリンピックで銀メダルを獲得。トレーニングとデータのレシピも共有。 Comment

元ポスト:

Loading…

従来のRLはすべてのドメインのデータをmixすることでおこなれてきたが、個々のドメインのデータを個別にRLし、cascading方式で適用 (Cascade RL) することを提案している（実際は著者らの先行研究でmath->codingのcascadingは実施されていたが、それをより広範なドメイン(RLHF -> instruction following -> math -> coding -> software engineering)に適用した、という研究）。
cascadingにはいくつかのメリットがありRLの学習速度を改善できる（あるいはRLのインフラの複雑性を緩和できる）
- ドメインごとのverificationの速度の違いによって学習速度を損なうことがない（e.g. 数学のrule-basedなverificationは早いがcodingは遅い）
- ドメインごとに出力長は異なるためオンポリシーRLを適用すると効率が落ちる（長いレスポンスの生成を待たなければらないため）

本研究で得られた利点としてはFigure 1を参考に言及されているが
- RLHF, instruction followingを事前に適用することによって、後段のreasoningの性能も向上する（reasoningのwarmupになる）
- 加えて応答の長さの削減につながる
- RLはcatastrophic forgettingに強く、前段で実施したドメインの性能が後段のドメインのRLによって性能が劣化しない
- といってもFigure 2を見ると、codingとsoftware engineeringは結構ドメイン近いのでは・・・？という気はするが・・・。
- RLにおけるカリキュラム学習やハイパーパラメータをドメインごとに最適なものを適用できる

他にもthinking/non-thinking に関することが言及されているが読めていない。

[Paper Note] FoundationMotion: Auto-Labeling and Reasoning about Spatial Movement in Videos, Yulu Gan+, arXiv'25, 2025.12

Paper/Blog Link My Issue
Issue Date: 2025-12-17 GPT Summary- FoundationMotionは、動きの理解を向上させるための完全自動化されたデータキュレーションパイプラインを提供し、大規模な動きのデータセットを構築します。動画内の物体を検出・追跡し、LLMを用いて詳細なキャプションや質問-回答ペアを生成。これにより、オープンソースモデルをファインチューニングし、強力なクローズドソースモデルを上回る性能を達成しました。FoundationMotionは、動きの理解と空間的推論能力を向上させるためのスケーラブルなソリューションを提供します。 Comment

pj page: https://yulugan.com/projects/FoundationMotion.html

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] Training Versatile Coding Agents in Synthetic Environments, Yiqi Zhu+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#read-later Issue Date: 2025-12-17 GPT Summary- SWE-Playgroundは、ソフトウェアエンジニアリングエージェントのトレーニングを支援する新しい環境で、プロジェクトとタスクをゼロから生成することで外部データソースへの依存を排除。これにより、ユニットテストの生成やライブラリの実装など多様なコーディングタスクに対応可能。実験結果は、SWE-Playgroundが密なトレーニング信号を提供し、少ない軌跡で従来の研究と同等のパフォーマンスを達成できることを示した。 Comment

pj page: https://neulab.github.io/SWE-Playground/

HF: https://huggingface.co/collections/StephenZhu/swe-playground

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models, Charlie Zhang+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #ReinforcementLearning #mid-training #PostTraining #read-later #Selected Papers/Blogs #PRM #KeyPoint Notes #Reference Collection Issue Date: 2025-12-09 GPT Summary- 強化学習（RL）が言語モデルの推論能力を向上させるかどうかを検証するため、事前トレーニング、中間トレーニング、RLの因果的寄与を分離する実験フレームワークを開発。RLは事前トレーニングが十分な余地を残す場合にのみ真の能力向上をもたらし、文脈的一般化には適切な事前トレーニングが必要であることを示した。また、中間トレーニングがRLよりもパフォーマンスを向上させ、プロセスレベルの報酬が推論の忠実性を高めることを明らかにした。これにより、推論LMトレーニング戦略の理解と改善に寄与する。 Comment

元ポスト:

Loading…

RLはモデルの能力を精錬させる（＝事前学習時に既に身についているreasoningパターンを（探索空間を犠牲により少ない試行で良い応答に辿り着けるよう）増幅させる;サンプリング効率を向上させる）と主張する研究たちと
- [Paper Note] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?, Yang Yue+, NeurIPS'25, 2025.04
- [Paper Note] The Invisible Leash: Why RLVR May Not Escape Its Origin, Fang Wu+, arXiv'25
- [Paper Note] Spurious Rewards: Rethinking Training Signals in RLVR, Shao+, 2025.05
- [Paper Note] Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, ICML'25

RLは事前学習で身につけたreasoning能力を超えてさらなるgainを得ることができる
- [Paper Note] Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs, Xumeng Wen+, arXiv'25, 2025.06
- From f(x) and g(x) to f(g(x)): LLMs Learn New Skills in RL by Composing Old Ones, Yuan+, 2025.09
- [Paper Note] On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models, Charlie Zhang+, arXiv'25, 2025.12

という対立する主張がliteratureで主張されているが、これは学習環境が制御されたものでないことに起因しており（＝何が事前学習で既に獲得されていて、事後学習後に新規で獲得された能力なのか、既存の能力の精錬なのか弁別がつかない）、かつ最近のmid-trainingの隆盛([Paper Note] OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling, Zengzhi Wang+, arXiv'25 )を鑑みたときに、事前・中間・事後学習は互いにどのように作用しているのか？という疑問に応えることは重要であり、そのためのフレームワークを提案し分析した、という話な模様。非常に興味深い。takeawayはabstに書かれている通りなようだが、読みたい。

フレームワークは事前・中間・事後学習の個々の貢献を独立して測定できるフレームワークであり、
- 完全に制御された（明示的なアトミックなoperationに基づく）合成reasoningタスク

あとで書く

著者ポスト:

Loading…

takeaway1の話は、最近のRLにおける動的な難易度調整にも絡んでくる知見に見える。
takeaway2,3のRLはatomic skillを追加で学習することはできず、compositional skillを学習しcontextual generalizationを実現する、同等のbadgetの元でmid training+RLがpure RLよりも性能改善する、というのは特に興味深く、事後学習の効用を最大化するためにも事前・中間学習が（以前から言われていた通り）重要であることが示唆される。
takeaway4のPRMがreasoningのfidelityを高めるという話は、DeepSeek-V3.2でも観測されている話であり、本研究によってそれが完全に制御された実験の元示されたことになる。

RQ: 実データにおいて、事前学習時点だとPerplexityかdownstream taskの性能をwatchすると思うのだが、それらを通じてatomic skillをLLMがどれだけ身に付けられているか、というのはどれだけ測れているのだろうか、あるいはより良い方法はあるのだろうか

- [Paper Note] Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning, Haozhe Wang+, ICLR'26, 2025.09

（＝RLの序盤は低レベルな手続的な実行（計算や公式）を習得し、その後高レベルな戦略的なplanningの学習が生じる）とはどのような関係があるだろうか。

解説:

Loading…

所見:

Loading…

解説:

Loading…

[Paper Note] Stabilizing Reinforcement Learning with LLMs: Formulation and Practices, Chujie Zheng+, arXiv'25, 2025.12

Paper/Blog Link My Issue
Issue Date: 2025-12-02 GPT Summary- 大規模言語モデルを用いた強化学習の新しい定式化を提案し、シーケンスレベルの報酬がポリシー勾配法で最適化できる条件を示す。トレーニングと推論の不一致が最小化されるときにサロゲートが有効であることを明らかにし、重要度サンプリング補正やクリッピングの役割を説明。30BのMoEモデルを用いた実験で、ポリシー勾配アルゴリズムが高い安定性を示し、オフポリシー更新時にはクリッピングとRouting Replayが重要であることを確認。トレーニングの安定化により、最終パフォーマンスが一貫して向上することを期待。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration, Hongjin Su+, arXiv'25, 2025.11

Paper/Blog Link My Issue
Issue Date: 2025-11-28 GPT Summary- 小規模なオーケストレーター「ToolOrchestra」を用いて、複雑な問題解決の効率を向上させる手法を提案。Orchestratorモデルは、HLEで37.1%のスコアを達成し、GPT-5を上回りつつ効率を2.5倍向上。tau2-BenchおよびFRAMESでも高精度を維持し、コストを約30%削減。これにより、多様なツールを効果的に組み合わせる新たな推論システムの可能性を示す。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] INTELLECT-3: Technical Report, Prime Intellect Team+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #OpenWeight #OpenSource #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #Initial Impression Notes #Asynchronous Issue Date: 2025-11-27 GPT Summary- INTELLECT-3は、1060億パラメータのMixture-of-Expertsモデルであり、強化学習を用いて高性能を達成。数学・コード・科学・推論のベンチマークで最先端の結果を示し、全インフラストラクチャがオープンソースとして公開される。prime-rlを利用した大規模RL環境は、多様なGPUに対応し、高効率な訓練を実現。 Comment

HF: https://huggingface.co/PrimeIntellect/INTELLECT-3

元ポスト:

Loading…

著者ポスト:

Loading…

完全にオープンソースでデータやフレームワーク、評価も含め公開されているとのこと。素晴らしい

in-flight weight updates が利用されている
- PipelineRL, Piche+, ServiceNow, 2025.04

[Paper Note] Fara-7B: An Efficient Agentic Model for Computer Use, Ahmed Awadallah+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#AIAgents #Blog #SmallModel #OpenWeight #ComputerUse #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-25 GPT Summary- CUAの発展は高品質な相互作用データの欠如に制約されてきた。これに対処するため、FaraGenという多段階ウェブタスク用のデータ生成システムを提案。多様なタスクを生成し、成功した軌跡を検証しつつ高い効率を発揮。FaraGenを用いて、小型CUAモデルFara-7Bを訓練し、ウェブタスクにおいて優れた性能を発揮。Fara-7Bは他のモデルを上回り、競争力のある結果を示す。また、モデルとデータをオープンソース化し、さらなる研究を促進する。 Comment

元ポスト:

Loading…

computer useに特化したMS初のSLM(CUA)

MIT Licence

著者ポスト:

Loading…

WebTailBenchと呼ばれる新たなベンチマークも提案されている。既存データに加えて、より多様なドメイン（不動産, 求人, 複数ショップとの比較）などが含まれるようである。

[Paper Note] Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models, Jiaqi Wang+, NeurIPS'25, 2025.05

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #NeurIPS #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-25 GPT Summary- 強化学習を用いて視覚と言語モデルの推論を強化するために、TONという二段階のトレーニング戦略を提案。簡単な質問には推論をスキップし、必要な時に考える人間の思考プロセスを模倣。実験により、TONは従来の手法に比べて推論ステップを最大90％削減し、性能を向上させることが示された。モデルはトレーニングを通じて不要な推論を回避することを学習。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

いつ思考をするか/しないかを学習することでCoTのtrajectoryを節約する。選択的に思考しないということをモデルは基本的に学習していないのでSFTで模倣学習することでコールドスタートを脱っし、その後RLによって選択的に思考しないことも含めて思考を最適化する、といった話に見える。

[Paper Note] Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers, Wei Pang+, NeurIPS'25, 2025.05

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Evaluation #NeurIPS #VisionLanguageModel #One-Line Notes #Poster Issue Date: 2025-11-25 GPT Summary- 学術ポスター生成のための新しいベンチマークとメトリクスを導入し、PosterAgentというマルチエージェントパイプラインを提案。Parserが論文を構造化し、Plannerがレイアウトを整え、Painter-Commenterが視覚的整合性を確保。評価では、GPT-4oの出力は視覚的には魅力的だが、テキストの質が低く、PaperQuizスコアも不十分であることが判明。オープンソースのバリアントは、既存のシステムを上回り、コスト効率も良好。これにより、次世代の自動ポスター生成モデルの方向性が示された。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

GPT4oは細かい文字のfidelityが低く、視覚的な魅力も小さい（なのでそういったものは学習で補う必要がある）という知見があるとのこと。arXivに投稿された当時結構話題になっていた気がする。

論文だけに留まらず、長いテキストを視覚的に見やすく圧縮する技術は一種の要約として見ることもでき、生成AIによって情報がさらに溢れかえるようになった昨今は、こういった技術はさらに重要な技術になると思われる。

[Paper Note] MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation, Ye Tian+, arXiv'25, 2025.11

Paper/Blog Link My Issue
Issue Date: 2025-11-18 GPT Summary- 思考を意識した生成のパフォーマンス向上を目指し、エラー伝播による性能低下を分析するための新ベンチマークParaBenchを提案。生成された推論と画像の整合性不足が問題であることを明らかにし、テキストと画像間の双方向相互作用を可能にする並列マルチモーダル拡散フレームワークMMaDA-Parallelを開発。さらに、クロスモーダル整合性を強化するための並列強化学習（ParaRL）を導入。実験により、出力整合性が6.9%向上し、思考を意識した画像合成の新たなパラダイムを確立した。コードはオープンソースで公開。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation, Wei Chow+, arXiv'25, 2025.11

Paper/Blog Link My Issue
Issue Date: 2025-11-17 GPT Summary- WEAVEは、視覚的理解と生成における多ターンの文脈依存的なインタラクションを捉えるための初のデータセットとベンチマークを提案。WEAVE-100kは370Kの対話ターンと500Kの画像を含む大規模データセットで、理解、編集、生成タスクをカバー。WEAVEBenchは100のタスクを持つ人間注釈のベンチマークで、モデルの多ターン生成能力を評価。実験により、WEAVE-100kでのトレーニングが視覚理解と協力能力を向上させることが示された。WEAVEはマルチモーダル研究の基盤を提供する。 Comment

元ポスト:

Loading…

dataset: https://huggingface.co/datasets/WeiChow/WEAVE

pj page: https://weichow23.github.io/weave/

著者ポスト:

Loading…

[Paper Note] Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence, Sean McLeish+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #LatentReasoning #RecurrentModels #RecursiveModels Issue Date: 2025-11-12 GPT Summary- 深層再帰言語モデルの進展により、再帰の計算量を訓練時とテスト時で切り離すことが可能に。本研究では、非再帰言語モデルを深層再帰モデルに変換する方法を提案し、再帰のカリキュラムを用いることで性能を維持しつつ計算コストを削減できることを示した。数学実験では、再帰モデルへの変換がポストトレーニングよりも優れた性能を発揮することが確認された。 Comment

元ポスト:

Loading…

関連:

Loading…

openreview: https://openreview.net/forum?id=eC85h3y4pG

[Paper Note] The Path Not Taken: RLVR Provably Learns Off the Principals, Hanqing Zhu+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#read-later Issue Date: 2025-11-12 GPT Summary- 強化学習における検証可能な報酬（RLVR）は、言語モデルの推論性能を向上させるが、パラメータの変更が少ないという逆説を再考。三つのゲート理論を用いて、RLVRの学習ダイナミクスを説明し、主方向から外れて学習することで利益を得ることを示す。RLVRはSFTとは異なる最適化レジームで動作し、SFTの手法を適用することには欠陥がある可能性がある。これにより、RLVRの理解と幾何学を意識した学習アルゴリズムの設計への道を開くことを目指す。 Comment

元ポスト:

Loading…

所見:

Loading…

著者ポスト:

Loading…

[Paper Note] Scaling Agent Learning via Experience Synthesis, Zhaorun Chen+, ICLR'25, 2025.11

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #AIAgents #Reasoning #ICLR Issue Date: 2025-11-07 GPT Summary- DreamGymは、強化学習（RL）エージェントのオンライントレーニングを効率化するための統一フレームワークであり、高コストのロールアウトや不安定な報酬信号の課題に対処します。環境のダイナミクスを推論に基づく経験モデルに蒸留し、安定した状態遷移とフィードバックを提供します。オフラインデータを活用した経験リプレイバッファにより、エージェントのトレーニングを強化し、新しいタスクを適応的に生成することでオンラインカリキュラム学習を実現します。実験により、DreamGymは合成設定とリアルなシナリオでRLトレーニングを大幅に改善し、非RL準備タスクでは30％以上の性能向上を示しました。合成経験のみでトレーニングされたポリシーは、実環境RLにおいても優れたパフォーマンスを発揮し、スケーラブルなウォームスタート戦略を提供します。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=cf7qpBwttr

著者による一言解説:

Loading…

[Paper Note] When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought, Yiyang Zhou+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#NLP #Dataset #Evaluation #MultiModal #Reasoning #Selected Papers/Blogs #VisionLanguageModel #2D (Image) #KeyPoint Notes #text #Visual-CoT Issue Date: 2025-11-05 GPT Summary- MIRAは、中間的な視覚画像を生成し推論を支援する新しいベンチマークで、従来のテキスト依存の手法とは異なり、スケッチや構造図を用いる。546のマルチモーダル問題を含み、評価プロトコルは画像と質問、テキストのみのCoT、視覚的ヒントを含むVisual-CoTの3レベルを網羅。実験結果は、中間的な視覚的手がかりがモデルのパフォーマンスを33.7%向上させることを示し、視覚情報の重要性を強調している。 Comment

pj page: https://mira-benchmark.github.io/

元ポスト:

Loading…

Visual CoT

Frontierモデル群でもAcc.が20%未満のマルチモーダル（Vision QA)ベンチマーク。

手作業で作成されており、Visual CoT用のsingle/multi stepのintermediate imagesも作成されている。興味深い。

VLMにおいて、{few, many}-shotがうまくいく場合（Geminiのようなプロプライエタリモデルはshot数に応じて性能向上、一方LlamaのようなOpenWeightモデルは恩恵がない）と
- [Paper Note] Many-Shot In-Context Learning in Multimodal Foundation Models, Yixing Jiang+, arXiv'24, 2024.05

うまくいかないケース（事前訓練で通常見られない分布外のドメイン画像ではICLがうまくいかない）
- [Paper Note] Roboflow100-VL: A Multi-Domain Object Detection Benchmark for Vision-Language Models, Peter Robicheaux+, NeurIPS'25, 2025.05

も報告されている。

おそらく事前学習段階で当該ドメインの画像が学習データにどれだけ含まれているか、および、画像とテキストのalignmentがとれていて、画像-テキスト間の知識を活用できる状態になっていることが必要なのでは、という気はする。

著者ポスト:

Loading…

[Paper Note] ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning, Jiawei Gu+, arXiv'25, 2025.10

Paper/Blog Link My Issue
Issue Date: 2025-11-03 GPT Summary- ThinkMorphは、言語と視覚の相互推論を促進するために24Kの高品質な交互推論トレースでファインチューニングされた統一モデルです。視覚コンテンツを操作しながら一貫した言語論理を維持し、視覚中心のベンチマークで平均34.7%の性能向上を達成。未見の視覚操作スキルや推論モードの適応的切り替えを示し、マルチモーダル推論の新たな能力を明らかにします。 Comment

pj page: https://thinkmorph.github.io/

元ポスト:

Loading…

ポイント解説:

Loading…

著者ポスト:

Loading…

[Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #PostTraining #Selected Papers/Blogs #Stability #Reference Collection #train-inference-gap #LowPrecision Issue Date: 2025-11-01 GPT Summary- 強化学習による大規模言語モデルのファインチューニングにおける不安定性は、トレーニングポリシーと推論ポリシーの数値的不一致に起因する。従来の対策は効果が薄かったが、本研究ではFP16に戻すことでこの問題を解決できることを示した。この変更は簡単で、モデルやアルゴリズムの修正を必要とせず、安定した最適化と速い収束を実現し、多様なタスクで強力なパフォーマンスを発揮することが確認された。 Comment

元ポスト:

Loading…

RL学習時の浮動小数点数表現をbf16からfp16に変更するシンプルな変更で、訓練-推論時のgapが小さくなり学習が改善する、という話らしい。

ポイント解説:

Loading…

所見:

Loading…

解説:

Loading…

解説:

Loading…

verlはFP16での学習をサポートしていないので著者がパッチを出した模様:

Loading…

[Paper Note] Scaling Latent Reasoning via Looped Language Models, Rui-Jie Zhu+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Transformer #Selected Papers/Blogs #LatentReasoning #KeyPoint Notes #RecurrentModels #RecursiveModels Issue Date: 2025-10-30 GPT Summary- Ouroは、推論を事前訓練フェーズに組み込むことを目指したループ言語モデル（LoopLM）であり、反復計算やエントロピー正則化を通じて性能を向上させる。1.4Bおよび2.6Bモデルは、最大12Bの最先端LLMに匹敵する性能を示し、知識操作能力の向上がその要因であることを実験で確認。LoopLMは明示的なCoTよりも整合した推論を生成し、推論の新たなスケーリングの可能性を示唆している。モデルはオープンソースで提供されている。 Comment

pj page: https://ouro-llm.github.io

元ポスト:

Loading…

解説:

Loading…

基本構造はdecoder-only transformerで
- Multi-Head Attention
- RoPE
- SwiGLU活性化
- Sandwich Normalization
が使われているLoopedTransformerで、exit gateを学習することで早期にloopを打ち切り、出力をすることでコストを節約できるようなアーキテクチャになっている。

より少ないパラメータ数で、より大きなパラメータ数のモデルよりも高い性能を示す（Table7,8）。また、Tを増やすとモデルの安全性も増す（＝有害プロンプトの識別力が増す）。その代わり、再帰数Tを大きくするとFLOPsがT倍になるので、メモリ効率は良いが計算効率は悪い。

linear probingで再帰の次ステップ予測をしたところ浅い段階では予測が不一致になるため、思考が進化していっているのではないか、という考察がある。

また、再帰数Tを4で学習した場合に、inference時にTを5--8にしてもスケールしない(Table10)。

またAppendix D.1において、通常のtransformerのLoopLMを比較し、5種類の大きさのモデルサイズで比較。通常のtransformerではループさせる代わりに実際に層の数を増やすことで、パラメータ数を揃えて実験したところ、通常のtransformerの方が常に性能が良く、loopLMは再帰数を増やしてもスケールせず、モデルサイズが大きくなるにつれて差がなくなっていく、というスケーリングの面では残念な結果に終わっているようだ。

といった話が解説に書かれている。元論文は完全にskim readingして解説ポストを主に読んだので誤りが含まれるかもしれない点には注意。

著者による紹介: https://youtu.be/jwb_QNZJNyA?si=tEOkew8Qo8Rjab3Y

[Paper Note] Mixture of Cognitive Reasoners: Modular Reasoning with Brain-Like Specialization, Badr AlKhamissi+, arXiv'25, 2025.06

Paper/Blog Link My Issue
#NLP #LanguageModel #Reasoning #Architecture #read-later #Selected Papers/Blogs #KeyPoint Notes #SpeciarizedBrainNetworks #Neuroscience Issue Date: 2025-10-22 GPT Summary- MiCRoは、脳の認知ネットワークに基づく専門家モジュールを持つトランスフォーマーベースのアーキテクチャで、言語モデルの層を4つの専門家に分割。これにより、解釈可能で因果的な専門家の動的制御が可能になり、機械学習ベンチマークで優れた性能を発揮。人間らしく解釈可能なモデルを実現。 Comment

pj page: https://cognitive-reasoners.epfl.ch

元ポスト:

Loading…

事前学習言語モデルに対してpost-trainingによって、脳に着想を得て以下の4つをdistinctな認知モジュールを（どのモジュールにルーティングするかを決定するRouter付きで）学習する。
- Language
- Logic / Multiple Demand
- Social / Theory of Mind
- World / Default Mode Network

これによりAIとNeuroscienceがbridgeされ、MLサイドではモデルの解釈性が向上し、Cognitive側では、複雑な挙動が起きた時にどのモジュールが寄与しているかをprobingするテストベッドとなる。

ベースラインのdenseモデルと比較して、解釈性を高めながら性能が向上し、人間の行動とよりalignしていることが示された。また、layerを分析すると浅い層では言語のエキスパートにルーティングされる傾向が強く、深い層ではdomainのエキスパートにルーティングされる傾向が強くなるような人間の脳と似たような傾向が観察された。

また、neuroscienceのfunctional localizer（脳のどの部位が特定の機能を果たしているのかを特定するような取り組み）に着想を得て、類似したlocalizerが本モデルにも適用でき、特定の機能に対してどのexpertモジュールがどれだけ活性化しているかを可視化できた。

といったような話が著者ポストに記述されている。興味深い。

demo: https://huggingface.co/spaces/bkhmsi/cognitive-reasoners
HF: https://huggingface.co/collections/bkhmsi/mixture-of-cognitive-reasoners

[Paper Note] FineVision: Open Data Is All You Need, Luis Wiedmann+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#Multi #ComputerVision #NLP #Dataset #QuestionAnswering #MultiModal #Conversation #VisionLanguageModel #2D (Image) Issue Date: 2025-10-22 GPT Summary- 本研究では、視覚と言語のモデル（VLM）のために、24百万サンプルからなる統一コーパス「FineVision」を紹介。これは200以上のソースを統合し、半自動化されたパイプラインでキュレーションされている。データの衛生と重複排除が行われ、66の公的ベンチマークに対する汚染除去も適用。FineVisionで訓練されたモデルは、既存のオープンミックスモデルを上回る性能を示し、データ中心のVLM研究の加速を目指す。 Comment

pj page: https://huggingface.co/spaces/HuggingFaceM4/FineVision

ポイント解説:

Loading…

著者ポスト:

Loading…

[Paper Note] To Infinity and Beyond: Tool-Use Unlocks Length Generalization in State Space Models, Eran Malach+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #LongSequence #SSM (StateSpaceModel) #Selected Papers/Blogs #Generalization #memory Issue Date: 2025-10-18 GPT Summary- 状態空間モデル（SSM）は、長文生成において効率的な代替手段であるが、真の長文生成問題を解決できないことが明らかにされた。外部ツールへのインタラクティブなアクセスを許可することで、この制限を克服できることが示され、SSMは問題依存のトレーニングデータを用いて任意の問題に一般化できる。ツールを強化したSSMは、算術や推論、コーディングタスクにおいて優れた長さの一般化を達成し、トランスフォーマーに対する効率的な代替手段となる可能性がある。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

所見:

Loading…

解説:

Loading…

[Paper Note] Beyond Multi-Token Prediction: Pretraining LLMs with Future Summaries, Divyat Mahajan+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #LongSequence Issue Date: 2025-10-18 GPT Summary- 未来要約予測（FSP）を提案し、長期的な推論や創造的な執筆の課題を解決。FSPは、長期的な未来のコンパクトな表現を予測する補助ヘッドを用い、情報を保持。手作りの要約と逆言語モデルによる学習要約の2つのバリアントを探求。大規模な実験により、FSPが数学、推論、コーディングのベンチマークでNTPおよびMTPを改善することを示した。 Comment

元ポスト:

Loading…

逆方向の言語モデルを学習しそのhidden stateを教師信号とし[^1]順方向の言語モデルに対して別のヘッドを用意しrepresentationを取得。l2 lossで順方向と逆方向のrepresentationが近くなるよう学習しバックボーンであるtransformerを学習するような事前学習手法。

[^1]:逆方向言語モデルのhidden stateはfuture contextに関する豊富な情報を含んでいるため

著者ポスト:

Loading…

[Paper Note] One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration, Zaid Khan+, arXiv'25, 2025.10

Paper/Blog Link My Issue
Issue Date: 2025-10-17 GPT Summary- 本研究では、敵対的な確率的環境での学習を目指し、条件付きで活性化されるプログラム的法則を用いた世界ダイナミクスモデル「OneLife」を提案。新しい評価プロトコルを導入し、Crafter-OO環境での実験により、最小限の無指導の相互作用から重要なダイナミクスを学習し、16のシナリオで強力なベースラインを上回る結果を示した。OneLifeは未知の複雑な環境のプログラム的世界モデル構築の基盤を提供する。 Comment

pj page: https://onelife-worldmodel.github.io

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] The Art of Scaling Reinforcement Learning Compute for LLMs, Devvrit Khatri+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #Scaling Laws #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2025-10-17 GPT Summary- 強化学習（RL）のスケーリングに関する原則的なフレームワークを定義し、40万時間以上のGPU時間を用いた大規模な研究を実施。シグモイド型計算-性能曲線をフィットさせ、設計選択肢の影響を分析。結果として、漸近的性能はレシピによって異なり、計算効率は詳細に依存することを発見。これを基に、ScaleRLというベストプラクティスのレシピを提案し、100,000 GPU時間での成功を示した。この研究は、RLトレーニングの予測可能性を向上させるための科学的フレームワークを提供する。 Comment

元ポスト:

Loading…

> 簡単になったプロンプト（プロンプトの通過率が0.9以上）は再サンプリングしたほうが最終性能が高い

最近はカリキュラムラーニングを導入して、簡単すぎず難しすぎない問題をサンプリングして効率上げる、といったような話があったが、簡単になった問題をリサンプリングしないと最終性能としては低くなる可能性があるのか…意外だった。

CISPO:
- [Paper Note] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention, MiniMax+, arXiv'25, 2025.06

著者ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] Encode, Think, Decode: Scaling test-time reasoning with recursive latent thoughts, Yeskendir Koishekenov+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #LanguageModel #mid-training #read-later #LatentReasoning #RecurrentModels #RecursiveModels Issue Date: 2025-10-15 GPT Summary- ETD手法を用いて、LLMの推論能力を向上させる。特定の層を反復することで、17の推論ベンチマークで大幅な精度向上を達成。GSM8Kで28.4%、MATHで36%の向上を示し、再帰的な推論が効果的であることを確認。 Comment

元ポスト:

Loading…

[Paper Note] Agent Learning via Early Experience, Kai Zhang+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #Self-SupervisedLearning #SelfCorrection #mid-training #Selected Papers/Blogs #WorldModels #KeyPoint Notes Issue Date: 2025-10-14 GPT Summary- 言語エージェントの目標は、経験を通じて学び、複雑なタスクで人間を上回ることですが、強化学習には報酬の欠如や非効率的なロールアウトが課題です。これに対処するため、エージェント自身の行動から生成された相互作用データを用いる「早期経験」という新たなパラダイムを提案します。このデータを基に、(1) 暗黙の世界モデル化と(2) 自己反省の2つの戦略を研究し、8つの環境で評価を行った結果、効果性と一般化が向上することを示しました。早期経験は、強化学習の基盤を提供し、模倣学習と経験駆動エージェントの橋渡しとなる可能性があります。 Comment

元ポスト:

Loading…

LLM AgentのためのWarmup手法を提案している。具体的にはRLVRやImitation LearningによってRewardが定義できるデータに基づいてこれまではRLが実現されてきたが、これらはスケールせず、Rewardが定義されない環境のtrajectoryなどは学習されないので汎化性能が低いという課題がある。このため、これらのsupervisionつきの方法で学習をする前のwarmup手法として、reward-freeの学習パラダイム Early Experienceを提案している。

手法としてはシンプルな手法が2種類提案されている。
### Implicit World Modeling (IWM, 式(3)):
ある状態s_i において action a_i^{j}を (1 < j < |K|)をとった時の状態をs_i^{j}としたときに、(s_i, a_i^{j}, s_i^{j}) の3つ組を考える。これらはポリシーからのK回のrolloutによって生成可能。
このときに、状態sを全てテキストで表現するようにし、言語モデルのnext-token-prediction lossを用いて、ある状態s_jにおいてaction a_i^{k} をとったときに、s_j^{k} になることを予測できるように学習する。これにより例えばブックフライトのサイトで誤った日時を入れてしまった場合や、どこかをクリックしたときにどこに遷移するかなどの学習する環境の世界知識をimplicitにモデルに組み込むことができる。

### Self-Reflection（式4）
もう一つのパラダイムとして、専門家によるアクション a_i によって得られた状態 s_i と、それら以外のアクション a_i^{j} によって得られた状態 s_i^{j}が与えられたときに、s_iとs_i^{j}を比較したときに、なぜ a_i の方がa_i^{j} よりも好ましいかを説明するCoT C_i^{j}を生成し、三つ組データ(s_i, a_i^{j}, c_i^{j}) を構築する。このデータを用いて、状態s_iがgivenなときに、a_i に c_i^{j} をconcatしたテキストを予測できるようにnext-token-prediction lossで学習する。また、このデータだけでなく汎化性能をより高めるためにexpertによるimitation learningのためのデータCoTなしのデータもmixして学習をする。これにより、expertによるactionだけで学習するよりも、なぜexpertのアクションが良いかという情報に基づいてより豊富で転移可能な学習シグナルを活用し学習することができる。

この結果、downstreamタスクでのperformanceが単にImitation Learningを実施した場合と比較して提案手法でwarmupした方が一貫して向上する。また、5.4節にpost-trainingとして追加でGRPOを実施した場合も提案手法によるwarmupを実施した場合が最終的な性能が向上することが報告されている。

IWMは自己教師あり学習の枠組みだと思われるので、よぬスケールし、かつ汎化性能が高く様々な手法のベースとなりうる手法に見える。

著者ポスト:

Loading…

[Paper Note] Verifying Chain-of-Thought Reasoning via Its Computational Graph, Zheng Zhao+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #LanguageModel #Chain-of-Thought #Reasoning #read-later #Selected Papers/Blogs #Verification #One-Line Notes Issue Date: 2025-10-14 GPT Summary- Circuit-based Reasoning Verification (CRV)を提案し、CoTステップの帰属グラフを用いて推論エラーを検証。エラーの構造的署名が予測的であり、異なる推論タスクで異なる計算パターンが現れることを示す。これにより、モデルの誤った推論を修正する新たなアプローチを提供し、LLM推論の因果理解を深めることを目指す。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

transformer内部のactivationなどから計算グラフを構築しreasoningのsurface（＝観測できるトークン列）ではなく内部状態からCoTをverification（＝CoTのエラーを検知する）するようなアプローチ（white box method)らしい

[Paper Note] Spectrum Tuning: Post-Training for Distributional Coverage and In-Context Steerability, Taylor Sorensen+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #Dataset #Supervised-FineTuning (SFT) #Evaluation #In-ContextLearning #PostTraining #Selected Papers/Blogs #meta-learning #KeyPoint Notes #Steering Issue Date: 2025-10-14 GPT Summary- ポストトレーニングは言語モデルの性能を向上させるが、操作性や出力空間のカバレッジ、分布の整合性においてコストが伴う。本研究では、これらの要件を評価するためにSpectrum Suiteを導入し、90以上のタスクを網羅。ポストトレーニング技術が基礎的な能力を引き出す一方で、文脈内操作性を損なうことを発見。これを改善するためにSpectrum Tuningを提案し、モデルの操作性や出力空間のカバレッジを向上させることを示した。 Comment

元ポスト:

Loading…

著者らはモデルの望ましい性質として
- In context steerbility: inference時に与えられた情報に基づいて出力分布を変えられる能力
- Valid output space coverage: タスクにおける妥当な出力を広範にカバーできること
- Distributional Alignment: ターゲットとする出力分布に対してモデルの出力分布が近いこと

の3つを挙げている。そして既存のinstruction tuningや事後学習はこれらを損なうことを指摘している。

ここで、incontext steerbilityとは、事前学習時に得た知識や、分布、能力だけに従うのではなく、context内で新たに指定した情報をモデルに活用させることである。

モデルの上記3つの能力を測るためにSpectrum Suiteを導入する。これには、人間の様々な嗜好、numericな分布の出力、合成データ作成などの、モデル側でsteeringや多様な分布への対応が必要なタスクが含まれるベンチマークのようである。

また上記3つの能力を改善するためにSpectrum Tuningと呼ばれるSFT手法を提案している。
手法はシンプルで、タスクT_iに対する多様なinput X_i タスクのcontext（すなわちdescription) Z_i が与えられた時に、T_i: X_i,Z_i→P(Y_i) を学習したい。ここで、P(Y_i)は潜在的なoutputの分布であり、特定の1つのサンプルyに最適化する、という話ではない点に注意（meta learningの定式化に相当する）。

具体的なアルゴリズムとしては、タスクのコレクションが与えられた時に、タスクiのcontextとdescriptionをtokenizeした結果 z_i と、incontextサンプルのペア x_ij, y_ij が与えられた時に、output tokenのみに対してcross entropyを適用してSFTをする。すなわち、以下のような手順を踏む:

1. incontextサンプルをランダムなオーダーにソートする
2. p_dropの確率でdescription z_i をドロップアウトしx_i0→y_i0の順番でconcatする、
2-1. descriptionがdropしなかった場合はdescription→x_i0→y_i0の順番でconcatし入力を作る。
2-2. descriptionがdropした場合、x_i0→y_i0の順番で入力を作る。
3. 他のサンプルをx_1→y_1→...→x_n→y_nの順番で全てconcatする。
4. y_{1:n}に対してのみクロスエントロピーlossを適用し、他はマスクして学習する。

一見するとinstruct tuningに類似しているが、以下の点で異なっている:
- 1つのpromptに多くのi.i.dな出力が含まれるのでmeta-learningが促進される
- 個別データに最適化されるのではなく、タスクに対する入出力分布が自然に学習される
- chat styleのデータにfittingするのではなく、分布に対してfittingすることにフォーカスしている
- input xやタスクdescription zを省略することができ、ユーザ入力が必ず存在する設定とは異なる

という主張をしている。

[Paper Note] Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models, Sharut Gupta+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pretraining #MachineLearning #MultiModal #UMM #One-Line Notes Issue Date: 2025-10-10 GPT Summary- UML（Unpaired Multimodal Learner）を提案し、非ペアのマルチモーダルデータを活用して表現学習を強化する新しいトレーニングパラダイムを示す。異なるモダリティからの入力を交互に処理し、明示的なペアを必要とせずにクロスモーダル構造から利益を得る。実験により、テキスト、音声、画像などの非ペアデータを用いることで、単一モダルターゲットのパフォーマンスが向上することを確認。 Comment

pj page: https://unpaired-multimodal.github.io

モダリティ間で（モダリティごとのエンコーダとデコーダ以外の）パラメータを共有し（UMMs)、通常はpair-dataで学習するが、unpaired data（+self-supervised / 分類ヘッドを用いた（ここはしっかり読めてないので自信ない）supervised learning)で学習する。これによりダウンストリームタスクでの性能が向上する。

unpaired dataで学習するという点が革新的に見える。unpaired dataで学習する枠組みにより大量のデータを活用し表現を学習できる。また、ペアデータで学習することによりパラメータに埋め込める知識やスキルが（おそらく）限られていたが、より広範な知識やスキルを埋め込めるのでは、という印象がある。

元ポスト:

Loading…

著者ポスト:

Loading…

Paper/Blog Link My Issue
#Analysis #MachineLearning #DiffusionModel #Memorization #Generalization Issue Date: 2025-10-04 GPT Summary- 拡散モデルは生成モデルの主要なパラダイムとして注目されているが、どのスコアを学習しているかが未解決の疑問である。本研究では、選択的過少適合の概念を導入し、拡散モデルが特定の領域でスコアを正確に近似し、他の領域では過少適合することを示す。これにより、拡散モデルの一般化能力と生成性能に関する新たな洞察を提供する。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

著者ポスト:

Loading…

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs #reading #KeyPoint Notes Issue Date: 2025-10-02 GPT Summary- 大規模言語モデル（LLMs）のソフトウェア工学（SWE）への応用が進んでおり、SWE-benchが重要なベンチマークとなっている。マルチターンのSWE-Agentフレームワークと単一ターンのエージェントレス手法は相互排他的ではなく、エージェントレストレーニングが効率的なSWE-Agentの適応を可能にする。本研究では、Kimi-DevというオープンソースのSWE LLMを紹介し、SWE-bench Verifiedで60.4%を達成。追加の適応により、Kimi-DevはSWE-Agentの性能を48.6%に引き上げ、移植可能なコーディングエージェントの実現を示した。 Comment

元ポスト:

Loading…

Agentlessはこちら:
- [Paper Note] Demystifying LLM-based Software Engineering Agents, Chunqiu Steven Xia+, FSE'25, 2024.07

著者ポスト:

Loading…

ポストの中でOpenhandsが同モデルを内部で検証し、Openhandsの環境内でSWE Bench Verifiedで評価した結果、レポート内で報告されているAcc. 60.4%は達成できず、17%に留まることが報告されていた模様。

Openhandsの説明によるとAgentlessは決められた固定されたワークフローのみを実施する枠組み（Kimi Devの場合はBugFixerとFileEditor)であり、ワークフローで定義されたタスクは効果的に実施できるが、それら以外のタスクはそもそもうまくできない。SWE Agent系のベンチのバグfixの方法は大きく分けてAgentlike（コードベースを探索した上でアクションを実行する形式）、Fixed workflow like Agentless(固定されたワークフローのみを実行する形式）の2種類があり、Openhandsは前者、Kimi Devは後者の位置付けである。

実際、テクニカルレポートのFigure2とAppendixを見ると、File Localization+BugFixer+TestWriterを固定されたプロンプトテンプレートを用いてmid-trainingしており、評価する際も同様のハーネスが利用されていると推察される（どこかに明示的な記述があるかもしれない）。
一方、Openhandsではより実環境の開発フローに近いハーネス（e.g., エージェントがコードベースを確認してアクションを提案→実行可能なアクションなら実行→そうでないならユーザからのsimulated responceを受け取る→Agentに結果をフィードバック→エージェントがアクション提案...）といったハーネスとなっている。

このように評価をする際のハーネスが異なるため、同じベンチマークに対して異なる性能が報告される、ということだと思われる。

単にSWE Bench VerifiedのAcc.だけを見てモデルを選ぶのではなく、評価された際のEvaluation Harnessが自分たちのユースケースに合っているかを確認することが重要だと考えられる。

参考:

- OpenhandsのEvaluation Harness: https://docs.all-hands.dev/openhands/usage/developers/evaluation-harness

[Paper Note] The Era of Real-World Human Interaction: RL from User Conversations, Chuanyang Jin+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#NLP #LanguageModel #UserBased #Alignment #ReinforcementLearning Issue Date: 2025-09-30 GPT Summary- 本研究では、ユーザーとの会話から直接学ぶ「人間の相互作用からの強化学習（RLHI）」を提案。2つの手法を開発し、(1) ユーザーのフィードバックを基にモデル出力を修正する方法と、(2) ユーザーの長期的な相互作用履歴に基づく報酬モデルを用いる方法を採用。これにより、パーソナライズと指示の遵守において強力な性能を示し、有機的な人間の相互作用が効果的な監督を提供することを示唆した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

著者ポスト:

Loading…

[Paper Note] CompLLM: Compression for Long Context Q&A, Gabriele Berton+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#NLP #LanguageModel #LongSequence #Compression Issue Date: 2025-09-26 GPT Summary- CompLLMは、長いコンテキストを効率的に処理するためのソフト圧縮技術で、コンテキストをセグメントに分割して独立に圧縮する。これにより、効率性、スケーラビリティ、再利用性を実現。実験では、CompLLMが長いコンテキストで最大4倍の速度向上を示し、圧縮されていないコンテキストと同等の性能を維持。 Comment

元ポスト:

Loading…

著者による一言まとめ:

Loading…

openreview: https://openreview.net/forum?id=6AWWE08NnN

[Paper Note] Soft Tokens, Hard Truths, Natasha Butt+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Chain-of-Thought #LatentReasoning Issue Date: 2025-09-24 GPT Summary- 本研究では、離散CoTからの蒸留なしに強化学習を用いて連続CoTを学習する新しい方法を提案。ソフトトークンを活用し、計算コストを抑えつつ数百のトークンを持つ連続CoTを学習可能。LlamaおよびQwenモデルでの実験により、連続CoTは離散トークンCoTと同等またはそれを上回る性能を示し、特に連続CoTでトレーニング後に離散トークンで推論するシナリオが最良の結果を得ることが確認された。さらに、連続CoTのRLトレーニングは、ドメイン外タスクにおけるベースモデルの予測保持を向上させることが明らかになった。 Comment

元ポスト:

Loading…

解説:

Loading…

著者ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] What Characterizes Effective Reasoning? Revisiting Length, Review, and Structure of CoT, Yunzhen Feng+, arXiv'25, 2025.09

Paper/Blog Link My Issue
Issue Date: 2025-09-24 GPT Summary- 大規模推論モデル（LRMs）の思考の連鎖（CoT）に関する評価を行い、長いCoTが必ずしも良い結果をもたらさないことを発見。特に、CoTの長さやレビューの増加が低い精度に関連していることが示された。新たに提案した*Failed-Step Fraction (FSF)*という指標は、モデルの正確性に対して長さやレビュー比率よりも一貫して優れている。介入実験により、FSFが高いCoTが精度向上に寄与することが確認され、失敗した枝が推論にバイアスをかけることが示された。効果的なCoTは失敗が少なく、構造を意識したテスト時間のスケーリングが重要であることが示唆された。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] Synthetic bootstrapped pretraining, Zitong Yang+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #SyntheticData #read-later #Concept (LLM PreTraining) Issue Date: 2025-09-22 GPT Summary- Synthetic Bootstrapped Pretraining（SBP）は、文書間の関係を学習し、新しいコーパスを合成する言語モデルの事前学習手法です。従来の事前学習は単一文書内の因果関係に焦点を当てていますが、SBPは文書間の相関関係を効率的にモデル化します。3Bパラメータのモデルを用いた実験で、SBPは強力なベースラインを改善し、合成された文書は単なる言い換えを超えた新しい物語を構築することが示されました。SBPは自然なベイズ的解釈を許容し、関連文書間の潜在的な概念を学習します。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

興味深い。

著者ポスト:

Loading…

conceptを学習するという観点では以下が関連している気がするが、アプローチが大きく異なる:
- [Paper Note] Large Concept Models: Language Modeling in a Sentence Representation Space, LCM team+, arXiv'24, 2024.12

[Paper Note] ToolRL: Reward is All Tool Learning Needs, Cheng Qian+, NeurIPS'25

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #NeurIPS Issue Date: 2025-09-20 GPT Summary- 大規模言語モデル（LLMs）のツール使用能力向上のため、報酬設計に関する初の包括的研究を行い、さまざまな報酬戦略を探求。ツール使用タスクに特化した報酬設計を提案し、GRPOを用いてLLMsを訓練。実証評価により、ベースモデルに対して17%、SFTモデルに対して15%の性能改善を達成。報酬設計の重要性を強調し、コードを公開。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs, Yue Wang+, NeurIPS'25

Paper/Blog Link My Issue
#NLP #LanguageModel #NeurIPS #Decoding #Underthinking Issue Date: 2025-09-19 GPT Summary- 大規模言語モデル（LLMs）は複雑な推論タスクで優れた能力を示すが、「アンダーシンキング」という現象により、思考の切り替えが頻繁に起こり、特に難しい数学問題でパフォーマンスが低下することが明らかになった。新しい指標を用いてアンダーシンキングを定量化し、思考の切り替えを抑制するデコーディング戦略TIPを提案。実験により、モデルのファインチューニングなしで精度が向上することが示された。これにより、LLMの推論の非効率性を理解し、問題解決能力を向上させる実用的な解決策が提供される。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision, Dulhan Jayalath+, arXiv'25

Paper/Blog Link My Issue
Issue Date: 2025-09-18 GPT Summary- 本研究では、Compute as Teacher (CaT)を提案し、グラウンドトゥルースがないポストトレーニングにおける学習信号の生成方法を示します。CaTは、モデル自身の探索を参照なしの監視に変換し、ロールアウトのグループから単一の参照を合成して最適化します。具体的には、現在のポリシーがロールアウトを生成し、固定されたアンカーが参照を推定します。報酬は、検証可能なタスクに対してプログラム的同等性を、検証不可能なタスクに対して自己提案されたルーブリックに基づく基準を用いて与えられます。CaTは、Gemma 3 4B、Qwen 3 4B、Llama 3.1 8Bの性能を向上させ、強化学習を用いることでさらなる改善を達成しました。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] Fluid Language Model Benchmarking, Valentin Hofmann+, COLM'25

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #IRT #Evaluation #COLM Issue Date: 2025-09-17 GPT Summary- Fluid Benchmarkingという新しい言語モデル（LM）評価アプローチを提案。これは、LMの能力に応じて評価項目を動的に選択し、評価の質を向上させる。実験では、Fluid Benchmarkingが効率、妥当性、分散、飽和の4つの次元で優れたパフォーマンスを示し、静的評価を超えることでLMベンチマークを改善できることを示した。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs, Akshit Sinha+, arXiv'25

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #AIAgents #Reasoning #LongSequence #Scaling Laws #read-later #Selected Papers/Blogs #ContextEngineering Issue Date: 2025-09-14 GPT Summary- LLMsのスケーリングが収益に影響を与えるかを探求。単一ステップの精度向上がタスクの長さに指数的改善をもたらすことを観察。LLMsが長期タスクで失敗するのは推論能力の欠如ではなく実行ミスによると主張。知識と計画を明示的に提供することで実行能力を向上させる提案。モデルサイズをスケーリングしても自己条件付け効果は減少せず、長いタスクでのミスが増加。思考モデルは自己条件付けを行わずに長いタスクを実行可能。最終的に、実行能力に焦点を当てることで、LLMsの複雑な推論問題解決能力と単純タスクの長期化による失敗理由を調和させる。 Comment

元ポスト:

Loading…

single stepでのタスク性能はサチって見えても、成功可能なタスクの長さは（single stepの実行エラーに引きづられるため）モデルのsingle stepのタスク性能に対して指数関数的に効いている（左上）。タスクが長くなればなるほどモデルは自身のエラーに引きずられ（self conditioning;右上)、これはパラメータサイズが大きいほど度合いが大きくなる（右下; 32Bの場合contextにエラーがあって場合のloeg horizonのAcc.が14Bよりも下がっている）。一方で、実行可能なstep数の観点で見ると、モデルサイズが大きい場合の方が多くのstepを要するタスクを実行できる（左下）。また、ThinkingモデルはSelf Conditioningの影響を受けにくく、single stepで実行可能なタスクの長さがより長くなる（中央下）。

といった話に見えるが、論文をしっかり読んだ方が良さそう。

（元ポストも著者ポストだが）著者ポスト:

Loading…

このスレッドは読んだ方が良い（というか論文を読んだ方が良い）。
特に、**CoTが無い場合は**single-turnでほとんどのモデルは5 stepのタスクをlatent spaceで思考し、実行することができないというのは興味深い（が、細かい設定は確認した方が良い）。なので、マルチステップのタスクは基本的にはplanningをさせてから出力をさせた方が良いという話や、

では複雑なstepが必要なタスクはsingle turnではなくmulti turnに分けた方が良いのか？と言うと、モデルによって傾向が違うらしい、といった話が書かれている。たとえば、Qwenはsingle turnを好むが、Gemmaはmulti turnを好むらしい。

日本語ポイント解説:

Loading…

解説:

Loading…

[Paper Note] A Survey of Reinforcement Learning for Large Reasoning Models, Kaiyan Zhang+, arXiv'25

Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #ReinforcementLearning #Reasoning Issue Date: 2025-09-11 GPT Summary- 本論文では、LLMにおける推論のための強化学習（RL）の進展を調査し、特に数学やコーディングなどの複雑な論理タスクにおける成功を強調しています。RLはLLMを学習推論モデル（LRM）に変換する基盤的な方法論として浮上しており、スケーリングには計算リソースやアルゴリズム設計などの課題があります。DeepSeek-R1以降の研究を検討し、LLMおよびLRMにおけるRLの適用に関する未来の機会と方向性を特定することを目指しています。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] The Majority is not always right: RL training for solution aggregation, Wenting Zhao+, arXiv'25

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #read-later #Aggregation-aware Issue Date: 2025-09-09 GPT Summary- 本研究では、複数の解を生成し、それを集約することでLLMsの推論能力を向上させる新しいアプローチを提案する。従来の方法に代わり、集約を明示的な推論スキルとして学習し、強化学習を用いて正しい答えを調整・合成する。簡単な例と難しい例のバランスを取ることで、モデルは少数派の正しい答えを回復する能力を獲得。提案手法AggLMは、複数のベンチマークで従来の手法を上回り、少ないトークンで効果的に一般化することが示された。 Comment

元ポスト:

Loading…

解説:

Loading…

著者ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] Jet-Nemotron: Efficient Language Model with Post Neural Architecture Search, Yuxian Gu+, arXiv'25

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #NeuralArchitectureSearch #SmallModel #Reference Collection Issue Date: 2025-08-26 GPT Summary- Jet-Nemotronは新しいハイブリッドアーキテクチャの言語モデルで、フルアテンションモデルと同等以上の精度を持ちながら生成スループットを大幅に改善します。Post Neural Architecture Search（PostNAS）を用いて開発され、事前トレーニングされたモデルから効率的にアテンションブロックを探索します。Jet-Nemotron-2Bモデルは、他の先進モデルに対して高い精度を達成し、生成スループットを最大53.6倍向上させました。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

解説:

Loading…

所見:

Loading…

解説:

Loading…

続報:

Loading…

コードとチェックポイントがリリース

code: https://github.com/NVlabs/Jet-Nemotron
HF: https://huggingface.co/collections/jet-ai/jet-nemotron-68ac76e8356b5399ef83ac9c

[Paper Note] OptimalThinkingBench: Evaluating Over and Underthinking in LLMs, Pranjal Aggarwal+, arXiv'25, 2025.08

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #Reasoning #Overthinking #Underthinking Issue Date: 2025-08-19 GPT Summary- 思考型LLMsは複雑なタスクを解決する一方で、単純な問題に対して過剰に思考し、非思考型LLMsは速いが難しい問題に対して思考が不足する。これにより、最適なモデル選択がユーザーに委ねられる。OptimalThinkingBenchを導入し、過剰思考と過少思考を共同で評価する。72の単純な数学問題と11の難解な推論課題を含む二つのサブベンチマークを通じて33種のモデルを評価し、どのモデルも最適な思考ができないことを示す。最適思考を促す手法も、多くの場合、一方の性能を改善することで他方を犠牲にする結果となる。 Comment

元ポスト:

Loading…

元ポストの著者によるスレッドが非常にわかりやすいのでそちらを参照のこと。
ざっくり言うと、Overthinking（考えすぎて大量のトークンを消費した上に回答が誤っている; トークン量↓とLLMによるJudge Score↑で評価）とUnderthinking（全然考えずにトークンを消費しなかった上に回答が誤っている; Accuracy↑で評価）をそれぞれ評価するサンプルを収集し、それらのスコアの組み合わせでモデルが必要に応じてどれだけ的確にThinkingできているかを評価するベンチマーク。

Overthinkingを評価するためのサンプルは、多くのLLMでagreementがとれるシンプルなQAによって構築。一方、Underthinkingを評価するためのサンプルは、small reasoning modelがlarge non reasoning modelよりも高い性能を示すサンプルを収集。

現状Non Thinking ModelではQwen3-235B-A22Bの性能が良く、Thinking Modelではgpt-oss-120Bの性能が良い。プロプライエタリなモデルではそれぞれ、Claude-Sonnet4, o3の性能が良い。全体としてはo3の性能が最も良い。

openreview: https://openreview.net/forum?id=N5kWa3sRJt

著者による一言解説:

Loading…

[Paper Note] OpenCUA: Open Foundations for Computer-Use Agents, Xinyuan Wang+, arXiv'25

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #ComputerUse #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-08-15 GPT Summary- OpenCUAは、CUAデータと基盤モデルをスケールさせるためのオープンソースフレームワークであり、アノテーションインフラ、AgentNetデータセット、反射的なChain-of-Thought推論を持つスケーラブルなパイプラインを提供。OpenCUA-32Bは、CUAベンチマークで34.8%の成功率を達成し、最先端の性能を示す。研究コミュニティのために、アノテーションツールやデータセットを公開。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

CUAにおいてProprietaryモデルに近い性能を達成した初めての研究な模様。重要

続報:

Loading…

OSWorld VerifiedでUI-TARS-250705,claude-4-sonnet-20250514超えでtop1に君臨とのこと。

[Paper Note] Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL, Jiaxuan Gao+, arXiv'25, 2025.08

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Search #LanguageModel #ReinforcementLearning #AIAgents #Selected Papers/Blogs #KeyPoint Notes #Reference Collection #Asynchronous Issue Date: 2025-08-14 GPT Summary- ASearcherは、LLMベースの検索エージェントの大規模なRLトレーニングを実現するオープンソースプロジェクトであり、高効率な非同期RLトレーニングと自律的に合成された高品質なQ&Aデータセットを用いて、検索能力を向上させる。提案されたエージェントは、xBenchで46.7%、GAIAで20.8%の改善を達成し、長期的な検索能力を示した。モデルとデータはオープンソースで提供される。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

解説ポスト:

Loading…

既存のモデルは <= 10 turnsのデータで学習されており、大規模で高品質なQAデータが不足している問題があったが、シードQAに基づいてQAを合成する手法によって1.4万シードQAから134kの高品質なQAを合成した（うち25.6kはツール利用が必要）。具体的には、シードのQAを合成しエージェントがQAの複雑度をiterationをしながら向上させていく手法を提案。事実情報は常にverificationをされ、合成プロセスのiterationの中で保持され続ける。個々のiterationにおいて、現在のQAと事実情報に基づいて、エージェントは
- Injection: 事実情報を新たに注入しQAをよりリッチにすることで複雑度を上げる
- Fuzz: QA中の一部の詳細な情報をぼかすことで、不確実性のレベルを向上させる。
の2種類の操作を実施する。その上で、QAに対してQuality verificationを実施する:
- Basic Quality: LLMでqualityを評価する
- Difficulty Measurement: LRMによって、複数の回答候補を生成する
- Answer Uniqueness: Difficulty Measurementで生成された複数の解答情報に基づいて、mismatched answersがvalid answerとなるか否かを検証し、正解が単一であることを担保する

また、複雑なタスク、特にtool callsが非常に多いタスクについては、多くのターン数（long trajectories）が必要となるが、既存のバッチに基づいた学習手法ではlong trajectoriesのロールアウトをしている間、他のサンプルの学習がブロックされてしまい学習効率が非常に悪いので、バッチ内のtrajectoryのロールアウトとモデルの更新を分離（ロールアウトのリクエストが別サーバに送信されサーバ上のInference Engineで非同期に実行され、モデルをアップデートする側は十分なtrajectoryがバッチ内で揃ったらパラメータを更新する、みたいな挙動？）することでIdleタイムを無くすような手法を提案した模様。

既存の手法ベンチマークの性能は向上している。学習が進むにつれて、trajectory中のURL参照回数やsearch query数などが増大していく曲線は考察されている。他モデルと比較して、より多いターン数をより高い正確性を以って実行できるといった定量的なデータはまだ存在しないように見えた。

[Paper Note] Diffusion Beats Autoregressive in Data-Constrained Settings, Mihir Prabhudesai+, arXiv'25

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #DiffusionModel #Scaling Laws #read-later #Initial Impression Notes Issue Date: 2025-07-22 GPT Summary- マスク付き拡散モデルは、データ制約のある設定で自己回帰（AR）モデルを大幅に上回ることを発見。拡散モデルはデータを効果的に活用し、検証損失を低下させ、下流のパフォーマンスを向上させる。新しいスケーリング法則を見つけ、拡散がARを上回る臨界計算閾値を導出。データがボトルネックの場合、拡散モデルはARの魅力的な代替手段となる。 Comment

元ポスト:

Loading…

いつかdLLMの時代きそうだなあ

著者ポスト:

Loading…

追加実験結果:

Loading…

[Paper Note] What Matters in Learning from Large-Scale Datasets for Robot Manipulation, Vaibhav Saxena+, ICLR'25

Paper/Blog Link My Issue
#Analysis #MachineLearning #Dataset #ICLR #Robotics #EmbodiedAI Issue Date: 2025-07-19 GPT Summary- 本研究では、ロボティクスにおける大規模データセットの構成に関する体系的な理解を深めるため、データ生成フレームワークを開発し、多様性の重要な要素を特定。特に、カメラのポーズや空間的配置がデータ収集の多様性と整合性に影響を与えることを示した。シミュレーションからの洞察が実世界でも有効であり、提案した取得戦略は既存のトレーニング手法を最大70%上回る性能を発揮した。 Comment

元ポスト:

Loading…

元ポストに著者による詳細な解説スレッドがあるので参照のこと。

[Paper Note] Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation, Sangmin Bae+, NeurIPS'25

Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #NLP #Transformer #Architecture #NeurIPS #LatentReasoning #memory #RecurrentModels #RecursiveModels Issue Date: 2025-07-17 GPT Summary- Mixture-of-Recursions（MoR）というフレームワークを提案し、再帰型トランスフォーマー内でパラメータ共有と適応計算を同時に実現。MoRは、レイヤーの再利用とトークンごとの再帰深さの動的割り当てにより、メモリアクセス効率を向上させる。135Mから1.7Bパラメータのモデルで、トレーニングFLOPsを維持しつつ、困惑度を低下させ、少数ショット精度を向上。MoRは大規模モデルのコストを抑えつつ、品質向上に寄与することを示す。 Comment

元ポスト:

Loading…

解説:

Loading…

著者ポスト:

Loading…

[Paper Note] Spike No More: Stabilizing the Pre-training of Large Language Models, Sho Takase+, COLM'25

Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #COLM #Selected Papers/Blogs #Stability #KeyPoint Notes Issue Date: 2025-07-11 GPT Summary- 大規模言語モデルの事前学習中に発生する損失のスパイクは性能を低下させるため、避けるべきである。勾配ノルムの急激な増加が原因とされ、サブレイヤーのヤコビ行列の分析を通じて、勾配ノルムを小さく保つための条件として小さなサブレイヤーと大きなショートカットが必要であることを示した。実験により、これらの条件を満たす手法が損失スパイクを効果的に防ぐことが確認された。 Comment

元ポスト:

Loading…

small sub-layers, large shortcutsの説明はこちらに書かれている。前者については、現在主流なLLMの初期化手法は満たしているが、後者はオリジナルのTransformerの実装では実装されている[^1]が、最近の実装では失われてしまっているとのこと。

下図が実験結果で、条件の双方を満たしているのはEmbedLN[^2]とScaled Embed[^3]のみであり、実際にスパイクが生じていないことがわかる。

[^1]:オリジナル論文 [Paper Note] Attention Is All You Need, Ashish Vaswani+, NeurIPS'17, 2017.07 の3.4節末尾、embedding layersに対してsqrt(d_model)を乗じるということがサラッと書いてある。これが実はめちゃめちゃ重要だったという…
[^2]: positional embeddingを加算する前にLayer Normalizationをかける方法
[^3]: EmbeddingにEmbeddingの次元数d（i.e., 各レイヤーのinputの次元数)の平方根を乗じる方法

前にScaled dot-product attentionのsqrt(d_k)がめっちゃ重要ということを実験的に示した、という話もあったような…
（まあそもそも元論文になぜスケーリングさせるかの説明は書いてあるけども）

著者ポスト（スライド）:

Loading…

非常に興味深いので参照のこと。初期化の気持ちの部分など勉強になる。

[Paper Note] FlexOlmo: Open Language Models for Flexible Data Use, Weijia Shi+, NeurIPS'25

Paper/Blog Link My Issue
#NLP #LanguageModel #MoE(Mixture-of-Experts) #NeurIPS #Privacy Issue Date: 2025-07-11 GPT Summary- FlexOlmoは、データ共有なしでの分散トレーニングを可能にする新しい言語モデルで、異なるモデルパラメータが独立してトレーニングされ、データ柔軟な推論を実現します。混合専門家アーキテクチャを採用し、公開データセットと特化型セットでトレーニングされ、31の下流タスクで評価されました。データライセンスに基づくオプトアウトが可能で、平均41%の性能改善を達成し、従来の手法よりも優れた結果を示しました。FlexOlmoは、データ所有者のプライバシーを尊重しつつ、閉じたデータの利点を活かすことができます。 Comment

元ポスト:

Loading…

データのオーナー側がプロプライエタリデータを用いてエキスパート(FFNとRouter embeddings)を学習し、それをpublicにシェアすることで利用できるようにする。データオーナー側はデータそのものを提供するのではなく、モデルのパラメータを共有するだけで済み、かつ自分たちのエキスパートをRouter側で利用するか否かは制御可能だから、opt-in/outが制御できる、みたいな話っぽい？

著者ポスト:

Loading…

[Paper Note] Wider or Deeper? Scaling LLM Inference-Time Compute with Adaptive Branching Tree Search, Yuichi Inoue+, NeurIPS'25 Spotlight

Paper/Blog Link My Issue
#NLP #LanguageModel #NeurIPS #Test-Time Scaling Issue Date: 2025-07-01 GPT Summary- AB-MCTSを提案し、外部フィードバックを活用して繰り返しサンプリングを改善。探索木のノードで新しい応答を「広げる」か「深める」かを動的に決定。実験により、AB-MCTSが従来の手法を上回り、LLMsの応答の多様性と解決策の洗練を強調。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

- 戦えるAIエージェントの作り方, Takuya Akiba, SakanaAI, 2025.10

のスライド中に解説がある。

[Paper Note] Shrinking the Generation-Verification Gap with Weak Verifiers, Jon Saad-Falcon+, arXiv'25

Paper/Blog Link My Issue
#NLP #LanguageModel #Verification Issue Date: 2025-06-25 GPT Summary- Weaverは、複数の弱いverifiersを組み合わせて強力なverifierを設計するフレームワークであり、ラベル付きデータへの依存を減らすために弱い監視を利用します。出力を正規化し、特定のverifiersをフィルタリングすることで、精度の向上を図ります。Weaverは、推論および数学タスクにおいてPass@1性能を大幅に改善し、Llama 3.3 70B Instructを用いて高い精度を達成しました。計算コスト削減のために、統合出力スコアを用いてクロスエンコーダを訓練します。 Comment

元ポスト:

Loading…

[Paper Note] Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models, Thao Nguyen+, COLM'25

Paper/Blog Link My Issue
#Pretraining #NLP #Dataset #LanguageModel #SyntheticData #COLM Issue Date: 2025-06-25 GPT Summary- スケーリング法則に基づき、低品質なウェブデータを再利用する手法「REWIRE」を提案。これにより、事前学習データの合成表現を増やし、フィルタリングされたデータのみでのトレーニングと比較して、22のタスクで性能を向上。生データと合成データの混合が効果的であることを示し、ウェブテキストのリサイクルが事前学習データのスケーリングに有効であることを示唆。 Comment

元ポスト:
-

Loading…

学習データの枯渇に対する対処として別の方向性としては下記のような研究もある:
- [Paper Note] Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23

data: https://huggingface.co/datasets/facebook/recycling_the_web

[Paper Note] Reinforcement Learning Teachers of Test Time Scaling, Edoardo Cetin+, arXiv'25

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Distillation #Test-Time Scaling #PostTraining #read-later Issue Date: 2025-06-23 GPT Summary- 強化学習教師（RLT）を用いて推論言語モデル（LM）のトレーニングを行い、タスク探索の課題を回避する新しいフレームワークを提案。RLTは問題の質問と解決策を提示し、学生に合わせた説明を通じて理解をテストし、密な報酬でトレーニングされる。7BのRLTは、競技および大学レベルのタスクで既存の蒸留パイプラインよりも高いパフォーマンスを示し、分布外タスクへの適用でも効果を維持する。 Comment

元ポスト:

Loading…

[Paper Note] Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective, Zhoujun Cheng+, NeurIPS'25

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #Reasoning #NeurIPS #mid-training #PostTraining #read-later #RLVR #Selected Papers/Blogs #DataMixture #CrossDomain #KeyPoint Notes #Reading Reflections Issue Date: 2025-06-22 GPT Summary- Guruを導入し、数学、コード、科学、論理、シミュレーション、表形式の6つの推論ドメインにわたる92KのRL推論コーパスを構築。これにより、LLM推論のためのRLの信頼性と効果を向上させ、ドメイン間の変動を観察。特に、事前学習の露出が限られたドメインでは、ドメイン内トレーニングが必要であることを示唆。Guru-7BとGuru-32Bモデルは、最先端の性能を達成し、複雑なタスクにおいてベースモデルの性能を改善。データとコードは公開。 Comment

元ポスト:

Loading…

post-trainingにおけるRLのcross domain（Math, Code, Science, Logic, Tabular)における影響を調査した研究。非常に興味深い研究。詳細は元論文が著者ポスト参照のこと。

Qwenシリーズで実験。以下元ポストのまとめ。

- mid trainingにおいて重点的に学習されたドメインはRLによるpost trainingで強い転移を発揮する（Code, Math, Science)
- 一方、mid trainingであまり学習データ中に出現しないドメインについては転移による性能向上は最小限に留まり、in-domainの学習データをきちんと与えてpost trainingしないと性能向上は限定的
- 簡単なタスクはcross domainの転移による恩恵をすぐに得やすい（Math500, MBPP),難易度の高いタスクは恩恵を得にくい
- 各ドメインのデータを一様にmixすると、単一ドメインで学習した場合と同等かそれ以上の性能を達成する
- 必ずしもresponse lengthが長くなりながら予測性能が向上するわけではなく、ドメインによって傾向が異なる
- たとえば、Code, Logic, Tabularの出力は性能が向上するにつれてresponse lengthは縮小していく
- 一方、Science, Mathはresponse lengthが増大していく。また、Simulationは変化しない
- 異なるドメインのデータをmixすることで、最初の数百ステップにおけるrewardの立ち上がりが早く（単一ドメインと比べて急激にrewardが向上していく）転移がうまくいく
- （これは私がグラフを見た感想だが、単一ドメインでlong runで学習した場合の最終的な性能は4/6で同等程度、2/6で向上（Math, Science)
- 非常に難易度の高いmathデータのみにフィルタリングすると、フィルタリング無しの場合と比べて難易度の高いデータに対する予測性能は向上する一方、簡単なOODタスク（HumanEval)の性能が大幅に低下する（特定のものに特化するとOODの性能が低下する）
- RLはpre(mid)-trainingで学習されたreasoning能力を引き出すだけではなく、新規のタスクに対しては新たなreasoning能力を獲得できる
- モデルサイズが小さいと、RLでpost-training後のpass@kのkを大きくするとどこかでサチり、baseモデルと交差するが、大きいとサチらず交差しない
- モデルサイズが大きいとより多様なreasoningパスがunlockされている
- pass@kで観察したところRLには2つのphaseのよつなものが観測され、最初の0-160（1 epoch)ステップではpass@1が改善したが、pass@max_kは急激に性能が劣化した。一方で、160ステップを超えると、双方共に徐々に性能改善が改善していくような変化が見られた

本研究で構築されたGuru Dataset: https://huggingface.co/datasets/LLM360/guru-RL-92k

math, coding, science, logic, simulation, tabular reasoningに関する高品質、かつverifiableなデータセット。

openreview: https://openreview.net/forum?id=xUBgfvyip3&referrer=%5Bthe%20profile%20of%20Zhengzhong%20Liu%5D(%2Fprofile%3Fid%3D~Zhengzhong_Liu1)

> RLはpre(mid)-trainingで学習されたreasoning能力を引き出すだけではなく、新規のタスクに対しては新たなreasoning能力を獲得できる

上記takeawayは
- [Paper Note] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?, Yang Yue+, NeurIPS'25, 2025.04

と一見相反するように見えるが、実際どうなんだろうか。

最初は、RLによりPass@1が改善するので、Figure 1などに記載されている特定のドメインでの skill aqcuisition にはin-domain dataが必要でRLがそれに寄与するという話は、Pass@1が改善された結果なのかなと思ったが、
4.3節に実際に上記研究が引用され考察がなされており、mid-trainingなどで多くのデータが含まれるMathドメインについては、上記研究と同じ傾向でbase modelとRL後のモデルがK=64の時点で性能が交差、その後逆転するため、上記研究と同様の傾向が見受けられた。一方で、タスクごとに見るとzebra-logicのような事前学習ではあまりexposeされないタスクで見ると、依然としてRLの方が高いPass@kを獲得しているという現象が観測され、base modelのreadoning boundaryを拡大することができている、という解釈のようである。

[Paper Note] Scaling Laws for Upcycling Mixture-of-Experts Language Models, Seng Pei Liew+, ICML'25

Paper/Blog Link My Issue
#NLP #LanguageModel #MoE(Mixture-of-Experts) #ICML #Scaling Laws Issue Date: 2025-06-21 GPT Summary- LLMsの事前学習は高コストで時間がかかるため、アップサイクリングとMoEモデルの計算効率向上が提案されている。本研究では、アップサイクリングをMoEに適用し、データセットのサイズやモデル構成に依存するスケーリング法則を特定。密なトレーニングデータとアップサイクリングデータの相互作用が効率を制限することを示し、アップサイクリングのスケールアップに関する指針を提供。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=ZBBo19jldX

[Paper Note] Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought, Hanlin Zhu+, arXiv'25

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Chain-of-Thought Issue Date: 2025-06-18 GPT Summary- 本研究では、連続CoTsを用いた二層トランスフォーマーが有向グラフ到達可能性問題を解決できることを証明。連続CoTsは複数の探索フロンティアを同時にエンコードし、従来の離散CoTsよりも効率的に解を導く。実験により、重ね合わせ状態が自動的に現れ、モデルが複数のパスを同時に探索することが確認された。 Comment

元ポスト:

Loading…

[Paper Note] AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy, Zihan Liu+, arXiv'25

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #OpenWeight #OpenSource #PostTraining #One-Line Notes Issue Date: 2025-06-18 GPT Summary- 本研究では、教師ありファインチューニング（SFT）と強化学習（RL）の相乗効果を探求し、SFTトレーニングデータの整備においてプロンプト数の増加が推論性能を向上させることを示しました。特に、サンプリング温度を適切に調整することで、RLトレーニングの効果を最大化できることが分かりました。最終的に、AceReason-Nemotron-1.1モデルは、前モデルを大きく上回り、数学およびコードベンチマークで新たな最先端性能を達成しました。 Comment

元ポスト:

Loading…

様々なtakeawayがまとめられている。

SFT,RLに利用されたデータも公開

- [Paper Note] Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23

において事前学習時に4 epochまでは性能の改善幅が大きいと報告されていたが、SFTでも5 epoch程度まで学習すると良い模様。

また、SFT dataをscalingさせる際は、promptの数だけでなく、prompt単位のresponse数を増やすのが効果的

[Paper Note] Massive Supervised Fine-tuning Experiments Reveal How Data, Layer, and Training Factors Shape LLM Alignment Quality, Yuto Harada+, EMNLP'25

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT) #EMNLP #read-later #Selected Papers/Blogs Issue Date: 2025-06-18 GPT Summary- SFTはLLMを人間の指示に整合させる重要なプロセスであり、1,000以上のSFTモデルを生成し、データセットの特性と層ごとの変更を調査。訓練タスクの相乗効果やモデル固有の戦略の重要性を明らかにし、困惑度がSFTの効果を予測することを示した。中間層の重みの変化がパフォーマンス向上と強く相関し、研究を加速させるためにモデルと結果を公開予定。 Comment

元ポスト:

Loading…

NLP'25: https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/C10-6.pdf

[Paper Note] What Is Seen Cannot Be Unseen: The Disruptive Effect of Knowledge Conflict on Large Language Models, Kaiser Sun+, arXiv'25

Paper/Blog Link My Issue
#Analysis #NLP #Dataset #LanguageModel #FactualKnowledge Issue Date: 2025-06-17 GPT Summary- LLMの文脈情報とパラメトリック知識の対立を評価する診断フレームワークを提案。知識の対立はタスクに影響を与えず、一致時にパフォーマンスが向上。モデルは内部知識を抑制できず、対立の理由が文脈依存を高めることを示した。これにより、LLMの評価と展開における知識の対立の重要性が強調される。 Comment

元ポスト:

Loading…

[Paper Note] ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering, Yuki Imajuku+, NeurIPS'25

Paper/Blog Link My Issue
#NLP #Dataset #AIAgents #Evaluation #Coding #LongSequence #ScientificDiscovery #NeurIPS Issue Date: 2025-06-17 GPT Summary- AIシステムの最適化問題に対するパフォーマンスを評価する新しいベンチマークALE-Benchを提案。ALE-Benchは実際のタスクに基づき、長期的な解決策の洗練を促進する。大規模言語モデル（LLM）の評価では特定の問題で高いパフォーマンスを示すが、一貫性や長期的な問題解決能力において人間とのギャップが残ることが明らかになり、今後のAI進展に向けた必要性を示唆している。 Comment

元ポスト:

Loading…

[Paper Note] PropMEND: Hypernetworks for Knowledge Propagation in LLMs, Zeyu Leo Liu+, arXiv'25

Paper/Blog Link My Issue
#NLP #LanguageModel #KnowledgeEditing #FactualKnowledge #meta-learning #One-Line Notes Issue Date: 2025-06-17 GPT Summary- PropMENDは、LLMsにおける知識伝播を改善するためのハイパーネットワークベースのアプローチである。メタ学習を用いて、注入された知識がマルチホップ質問に答えるために伝播するように勾配を修正する。RippleEditデータセットで、難しい質問に対して精度がほぼ2倍向上し、Controlled RippleEditデータセットでは新しい関係やエンティティに対する知識伝播を評価。PropMENDは既存の手法を上回るが、性能差は縮小しており、今後の研究で広範な関係への知識伝播が求められる。 Comment

元ポスト:

Loading…

従来のKnowledge Editing手法は新たな知識を記憶させることはできる（i.e., 注入した知識を逐語的に生成できる;東京は日本の首都である。）が、知識を活用することは苦手だった（i.e., 日本の首都の気候は？）ので、それを改善するための手法を提案している模様。

既存手法のlimitationは
- editing手法で学習をする際に知識を伝搬させるデータが無く
- 目的関数がraw textではなく、QA pairをSFTすること

によって生じるとし、

- 学習時にpropagation question（Figure1のオレンジ色のQA; 注入した知識を活用して推論が必要なQA)を用意しどのように知識を伝搬（活用）させるかを学習し
- 目的関数をCausal Language Modeling Loss

にすることで改善する、とのこと。

non-verbatimなQA（注入された知識をそのまま回答するものではなく、何らかの推論が必要なもの）でも性能が向上。

ベースライン:
- [Paper Note] Mass-Editing Memory in a Transformer, Kevin Meng+, arXiv'22, 2022.10
- [Paper Note] Fast Model Editing at Scale, Eric Mitchell+, ICLR'22

[Paper Note] Steer LLM Latents for Hallucination Detection, Seongheon Park+, ICML'25

Paper/Blog Link My Issue
#NLP #LanguageModel #Hallucination #ICML #OptimalTransport Issue Date: 2025-06-14 GPT Summary- LLMの幻覚問題に対処するため、Truthfulness Separator Vector（TSV）を提案。TSVは、LLMの表現空間を再構築し、真実と幻覚の出力を分離する軽量な指向ベクトルで、モデルのパラメータを変更せずに機能。二段階のフレームワークで、少数のラベル付き例からTSVを訓練し、ラベルのない生成物を拡張。実験により、TSVは最小限のラベル付きデータで高いパフォーマンスを示し、実世界のアプリケーションにおける実用的な解決策を提供。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=UMqNQEPNT3¬eId=mAbrf36RHa

[Paper Note] Self-Adapting Language Models, Adam Zweiger+, arXiv'25

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #KeyPoint Notes Issue Date: 2025-06-13 GPT Summary- 自己適応型LLMs（SEAL）を提案し、モデルが自身のファインチューニングデータと指示を生成することで適応を実現。新しい入力に対して自己編集を行い、持続的な重みの更新を可能にする。強化学習ループを用いて下流性能を報酬信号として活用し、従来のアプローチと異なり、モデル自身の生成を用いて適応を制御。実験結果はSEALの有望性を示す。 Comment

元ポスト:

Loading…

コンテキストCと評価データtauが与えられたとき、Cを入力した時にモデルが自分をSFTし、tau上でより高い性能を得られるようなサンプル Self Edit (SE) を生成できるように学習することで、性能を向上させたい。これをRLによって実現する。具体的には、下記アルゴリズムのようにモデルにSEを生成させ、SEでSFTすることめにtau上での性能が向上したか否かのbinary rewardを用いてパラメータを更新する、といったことを繰り返す。これは実質、RL_updateと書いてあるが、性能が向上した良いSEのみでモデルをSFTすること、と同等なことを実施している。

このような背景として、RLのアルゴリズムとしてGRPOやPPOを適用したところ学習が不安定でうまくいかなかったため、よりシンプルなアプローチであるReST^EM（[Paper Note] Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models, Avi Singh+, TMLR'24 )を採用した。これはrejection samplingとSFTに基づいたEMアルゴリズムのようなものらしく、Eステップで現在のポリシーでcandidateを生成し、Mステップでpositive rewardを得たcandidateのみ（＝rejection sampling)でSFTする、といったことを繰り返す、みたいな手法らしい。これを用いると、論文中の式(1)を上述のbinary rewardで近似することに相当する。より詳細に書くと、式(1)（つまり、SEをCから生成することによって得られるtauに基づく報酬rの総報酬を最大化したい、という式）を最大化するためにθ_tの勾配を計算したいが、reward rがθ_tで微分不可能なため、Monte Carlo Estimatorで勾配を近似する、みたいなことをやるらしい。Monte Carlo Estimatorでは実際のサンプルの期待値によって理論的な勾配を近似するらしく、これが式(3)のスコア関数とreward rの平均、といった式につながっているようである。

再現実験に成功したとのポスト:

Loading…

[Paper Note] Resa: Transparent Reasoning Models via SAEs, Shangshang Wang+, arXiv'25

Paper/Blog Link My Issue
#EfficiencyImprovement #MachineLearning #NLP #LanguageModel #Supervised-FineTuning (SFT) #PostTraining #read-later Issue Date: 2025-06-13 GPT Summary- Resaという1.5Bの推論モデル群を提案し、効率的なスパースオートエンコーダーチューニング（SAE-Tuning）手法を用いて訓練。これにより、97%以上の推論性能を保持しつつ、訓練コストを2000倍以上削減し、訓練時間を450倍以上短縮。軽いRL訓練を施したモデルで高い推論性能を実現し、抽出された推論能力は一般化可能かつモジュール化可能であることが示された。全ての成果物はオープンソース。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

論文中で利用されているSource Modelの一つ:
- [Paper Note] Tina: Tiny Reasoning Models via LoRA, Shangshang Wang+, arXiv'25

[Paper Note] Text-to-LoRA: Instant Transformer Adaption, Rujikorn Charakorn+, ICML'25, 2025.06

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #PEFT(Adaptor/LoRA) #ICML #memory #One-Line Notes #Initial Impression Notes #Test Time Training (TTT) Issue Date: 2025-06-12 GPT Summary- Text-to-LoRA（T2L）は、自然言語による説明に基づいて大規模言語モデル（LLMs）を迅速に適応させる手法で、従来のファインチューニングの高コストと時間を克服します。T2Lは、LoRAを安価なフォワードパスで構築するハイパーネットワークを使用し、タスク特有のアダプターと同等のパフォーマンスを示します。また、数百のLoRAインスタンスを圧縮し、新しいタスクに対してゼロショットで一般化可能です。このアプローチは、基盤モデルの専門化を民主化し、計算要件を最小限に抑えた言語ベースの適応を実現します。 Comment

元ポスト:

Loading…

な、なるほど、こんな手が…！

openreview: https://openreview.net/forum?id=zWskCdu3QA

ポイント解説:

Loading…

Text-to-LoRAの目的は、instructionをメモリの内部パラメータに埋め込み、モデルにon-the-flyで新たな挙動を身につけさせること。

[Paper Note] Go-Browse: Training Web Agents with Structured Exploration, Apurva Gandhi+, arXiv'25

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents Issue Date: 2025-06-12 GPT Summary- Go-Browseを提案し、ウェブ環境の構造的探索を通じて多様なデータを自動収集。グラフ探索を用いて効率的なデータ収集を実現し、WebArenaベンチマークで成功率21.7%を達成。これはGPT-4o miniを2.4%上回り、10B未満のモデルでの最先端結果を2.9%上回る。 Comment

元ポスト:

Loading…

WebArena:
- [Paper Note] WebArena: A Realistic Web Environment for Building Autonomous Agents, Shuyan Zhou+, ICLR'24

[Paper Note] Value Residual Learning, Zhanchao Zhou+, ACL'25

Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Architecture #ACL #read-later #Selected Papers/Blogs Issue Date: 2025-06-12 GPT Summary- ResFormerは、隠れ状態の残差に値の残差接続を加えることで情報の流れを強化する新しいTransformerアーキテクチャを提案。実験により、ResFormerは従来のTransformerに比べて少ないパラメータとトレーニングデータで同等の性能を示し、SVFormerはKVキャッシュサイズを半減させることができる。性能はシーケンスの長さや学習率に依存する。 Comment

元ポスト:

Loading…

なぜValue Residual Learningがうまくいくかの直感的説明:

Loading…

ざっくり言うと、LayerNormよって初期layerの影響は深くなればなるほど小さくなり、情報が損なわれていってしまうため、ValueをQKに応じて情報を運んでくる要素と捉えると、検索やコピーなどの明確なinputに関する情報が欲しい場合に、すべてのlayerから初期のValueにアクセスできるvalue residual connectionが有用となる、といった話と理解した。Valueにのみフォーカスしているが、QKの場合はどうなのかといった要素はまだ未開拓な分野とのこと。

Wide&Deepみたいな話になってきた:
- [Paper Note] Wide & Deep Learning for Recommender Systems, Heng-Tze Cheng+, DLRS'16, 2016.06

Value Residual Learningを用いたアーキテクチャが現在nanoGPT Speedrunでトップになった。

Loading…

- Modded-NanoGPT, KellerJordan, 2024.05

現在のlayerのValueと初期レイヤーのValueを線形補完する重みをtrainableにするとさらに性能が改善することも言及されている。

所見:

Loading…

[Paper Note] Saffron-1: Towards an Inference Scaling Paradigm for LLM Safety Assurance, Ruizhong Qiu+, arXiv'25

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Alignment #ReinforcementLearning #Safety Issue Date: 2025-06-11 GPT Summary- 既存のLLMの安全保証研究は主にトレーニング段階に焦点を当てているが、脱獄攻撃に対して脆弱であることが明らかになった。本研究では、推論スケーリングを用いた新たな安全性向上手法SAFFRONを提案し、計算オーバーヘッドを削減する多分岐報酬モデル（MRM）を導入。これにより、報酬モデル評価の数を減らし、探索-効率性のジレンマを克服する。実験により手法の有効性を確認し、訓練済みモデルと安全報酬データセットを公開。 Comment

元ポスト:

Loading…

[Paper Note] StochasTok: Improving Fine-Grained Subword Understanding in LLMs, Anya Sims+, arXiv'25, 2025.06

Paper/Blog Link My Issue
#NLP #LanguageModel #Subword Issue Date: 2025-06-11 GPT Summary- サブワードレベルの理解は重要だが、LLMsは単純なタスクに苦戦している。トークン化の影響で語の構造が隠れるため、文字レベルやドロップアウト型トークン化は計算コストが増加する。本論文では、トークンをランダムに分割する確率的トークン化スキームStochasTokを提案し、LLMのサブワード性能を向上させることを示す。具体的には、StochasTokを用いた事前訓練が複数のサブワードタスクで著しい改善をもたらし、既存モデルへの適用も容易であることを示している。 Comment

元ポスト:

Loading…

おもしろそう

[Paper Note] Representation Shattering in Transformers: A Synthetic Study with Knowledge Editing, Kento Nishi+, ICML'25

Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #ICML #KnowledgeEditing Issue Date: 2025-06-10 GPT Summary- 知識編集（KE）アルゴリズムは、モデルの重みを変更して不正確な事実を更新するが、これがモデルの事実の想起精度や推論能力に悪影響を及ぼす可能性がある。新たに定義した合成タスクを通じて、KEがターゲットエンティティを超えて他のエンティティの表現に影響を与え、未見の知識の推論を歪める「表現の破壊」現象を示す。事前訓練されたモデルを用いた実験でもこの発見が確認され、KEがモデルの能力に悪影響を及ぼす理由を明らかにするメカニズム仮説を提供する。 Comment

元ポスト:

Loading…

[Paper Note] Search Arena: Analyzing Search-Augmented LLMs, Mihran Miroyan+, arXiv'25

Paper/Blog Link My Issue
#InformationRetrieval #NLP #Search #Dataset #LanguageModel Issue Date: 2025-06-08 GPT Summary- 検索強化型LLMsに関する「Search Arena」という大規模な人間の好みデータセットを紹介。24,000以上のマルチターンユーザーインタラクションを含み、ユーザーの好みが引用数や引用元に影響されることを明らかにした。特に、コミュニティ主導の情報源が好まれる傾向があり、静的な情報源は必ずしも信頼されない。検索強化型LLMsの性能を評価した結果、非検索設定でのパフォーマンス向上が確認されたが、検索設定ではパラメトリック知識に依存すると品質が低下することが分かった。このデータセットはオープンソースとして提供されている。 Comment

元ポスト:

Loading…

[Paper Note] Generative Omnimatte: Learning to Decompose Video into Layers, Yao-Chih Lee+, CVPR'25

Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #CVPR #One-Line Notes Issue Date: 2025-06-06 GPT Summary- オムニマット手法は、ビデオを意味的に有意義な層に分解することを目指すが、既存手法は静的背景や正確なポーズを前提としており、これが破られると性能が低下する。新たに提案する生成的層状ビデオ分解フレームワークは、静止シーンや深度情報を必要とせず、動的領域の補完を行う。核心的なアイデアは、ビデオ拡散モデルを訓練し、シーン効果を特定・除去することであり、これにより高品質な分解と編集結果を実現する。 Comment

元ポスト:

Loading…

ざっくりしか読めていないが、Inputとして動画とmask（白:残す, 黒:消す, グレー: 不確定なオブジェクトやエフェクトが含まれるエリア≒背景？)を受け取り、Casperと呼ばれるモデルでオブジェクトを消し消した部分をinpaintingすることで、layerっぽいものを作成するっぽい？Casperはの3組データでFinetuningしている模様。

project pageがサンプルもありとてもわかりやすい: https://gen-omnimatte.github.io

[Paper Note] SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond, Junteng Liu+, NeurIPS'25

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #SyntheticData #Reasoning #NeurIPS #One-Line Notes Issue Date: 2025-06-06 GPT Summary- SynLogicは、35の論理的推論タスクを網羅したデータ合成フレームワークで、強化学習（RL）による大規模言語モデル（LLMs）の推論能力向上を目指す。調整可能な難易度で生成されたデータは検証可能で、RLに適している。実験では、SynLogicが最先端の論理的推論性能を達成し、数学やコーディングタスクとの混合によりトレーニング効率が向上することが示された。SynLogicはLLMsの推論能力向上に貴重なリソースとなる。 Comment

元ポスト:

Loading…

35種類のタスクを人手で選定し、タスクごとに困難度の鍵となるパラメータを定義（数独ならばグリッド数など）。その上で、各タスクごとに人手でルールベースのinstanceを生成するコードを実装し、さまざまな困難度パラメータに基づいて多様なinstanceを生成。生成されたinstanceの困難度は、近似的なUpper Bound(DeepSeek-R1, o3-miniのPass@10)とLower bound（chat model[^1]でのPass@10)を求めデータセットに含まれるinstanceの困難度をコントロールし、taskを記述するpromptも生成。タスクごとに人手で実装されたVerifierも用意されている。

Qwen2.5-7B-BaseをSynDataでDAPOしたところ、大幅にlogic benchmarkとmathematical benchmarkの性能が改善。

mathやcodeのデータとmixして7Bモデルを訓練したところ、32Bモデルに匹敵する性能を達成し、SynDataをmixすることでgainが大きくなったので、SynDataから学習できる能力が汎化することが示唆される。

タスク一覧はこちら

[^1]:どのchat modelかはざっと見た感じわからない。どこかに書いてあるかも。

Logical Reasoningが重要なタスクを扱う際はこのデータを活用することを検討してみても良いかもしれない

openreview: https://openreview.net/forum?id=XtNiw8OQsy&referrer=%5Bthe%20profile%20of%20Junxian%20He%5D(%2Fprofile%3Fid%3D~Junxian_He1)

[Paper Note] Training Language Models to Generate Quality Code with Program Analysis Feedback, Feng Yao+, NeurIPS'25

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #Coding #NeurIPS #One-Line Notes Issue Date: 2025-06-06 GPT Summary- プログラム分析に基づくフィードバックを用いた強化学習フレームワーク「REAL」を提案。セキュリティや保守性の欠陥を検出し、機能的正確性を保証することで、LLMsによる高品質なコード生成を促進。手動介入不要でスケーラブルな監視を実現し、実験により最先端の手法を上回る性能を示した。 Comment

元ポスト:

Loading…

現在のCoding LLMはUnitTestを通るように学習されるが、UnitTestに通るからといってコードの品質が良いわけでは無いので、UnitTestに通るか否かのReward（Functionality)に加えて、RL中に生成されたコードを制御フローグラフ[^1]に変換し汚染解析[^2]をした結果をRewardに組み込むことで、FunctionalityとQualityを両立したよ、という話のようである。

Figure1のグラフの縦軸は、Functionalityと（UnitTestが通ったか否か）と、Quailty(セキュリティや保守性に関する問題が検出されなかった)、という両方の条件を満たした割合である点に注意。

[^1]:プログラムを実行したときに通る可能性のある経路のすべてをグラフとして表したもの[引用元]( https://qiita.com/uint256_t/items/7d4556cb8f5997b9e95c)
[^2]:信頼できない汚染されたデータがプログラム中でどのように処理されるかを分析すること

[Paper Note] Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning, Yinjie Wang+, NeurIPS'25 Spotlight

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Coding #SoftwareEngineering #UnitTest #Reference Collection Issue Date: 2025-06-05 GPT Summary- CUREは、コーディングとユニットテスト生成を共進化させる強化学習フレームワークで、真のコードを監視せずにトレーニングを行う。ReasonFlux-Coderモデルは、コード生成精度を向上させ、下流タスクにも効果的に拡張可能。ユニットテスト生成では高い推論効率を達成し、強化学習のための効果的な報酬モデルとして機能する。 Comment

元ポスト:

Loading…

UnitTestの性能向上させます系の研究が増えてきている感

Paper/Blog Link My Issue
#Analysis #Pretraining #LanguageModel #Transformer #PostTraining #Selected Papers/Blogs #COLT #One-Line Notes #Reading Reflections Issue Date: 2025-06-01 GPT Summary- Transformerベースの言語モデルの学習可能性を、k-fold 合成タスクにおいて検討。具体的には、k 個の入力置換と隠れた置換の交互合成を倍の効率で実行可能とし、統計的クエリ下界も証明。さらに、O(log k) 層のトランスフォーマーで勾配降下による効率的な学習が可能であることを示した。データの提示方法によって、容易な例と難しい例が存在することが重要であるとの知見を得た。 Comment

元ポスト:

Loading…

こちらはまず元ポストのスレッドを読むのが良いと思われる。要点をわかりやすく説明してくださっている。

元ポストとalphaxivでざっくり理解したところ、

Transformerがcontextとして与えられた情報(σ)とparametric knowledge(π)をk回の知識マッピングが必要なタスク(k-fold composition task)を学習するにはO(log k)のlayer数が必要で、直接的にk回の知識マッピングが必要なタスクを学習するためにはkの指数オーダーのデータ量が最低限必要となることが示された。これはkが大きくなると（すなわち、複雑なreasoning stepが必要なタスク）になると非現実的なものとなるため、何らかの方法で緩和したい。学習データを簡単なものから難しいものをmixingすること（カリキュラム学習）ことで、この条件が緩和され、指数オーダーから多項式オーダーのデータ量で学習できることが示された

といった感じだと思われる。

じゃあ最新の32Bモデルよりも、よりパラメータ数が大きくてlayer数が多い古いモデルの方が複雑なreasoningが必要なタスクを実は解けるってこと！？直感に反する！と一瞬思ったが、おそらく最近のモデルでは昔のモデルと比べてparametric knowledgeがより高密度に適切に圧縮されるようになっていると思われるので、昔のモデルではk回の知識マッピングをしないと解けないタスクが、最新のモデルではk-n回のマッピングで解けるようになっていると推察され、パラメータサイズが小さくても問題なく解けます、みたいなことが起こっているのだろう、という感想を抱くなどした

[Paper Note] Training Step-Level Reasoning Verifiers with Formal Verification Tools, Ryo Kamoi+, arXiv'25, 2025.05

Paper/Blog Link My Issue
#NLP #LanguageModel #SyntheticData #PRM #Verification #One-Line Notes Issue Date: 2025-06-01 GPT Summary- 本論文では、プロセス報酬モデル（PRMs）のトレーニングにおける2つの課題、すなわち高コストの人間による注釈と数学的推論問題への限定を解決するために、FoVerというアプローチを提案します。FoVerは形式的検証ツールを用いて自動的に段階レベルのエラーラベルを生成し、人的注釈なしでLLMの応答にエラーラベルを付与したデータセットを合成します。このデータセットでトレーニングされたPRMsは、元のLLMsに基づくベースラインを大幅に上回り、他の最先端モデルとも競争力のある結果を達成しました。 Comment

元ポスト:

Loading…

人手によるAnnotation（step levelのラベルのアノテーション)無しでProcess Reward Modelの学習データを構築する手法

Z3やIsabelleなどの形式検証ツールが適用可能なタスクのみに提案手法のスコープは限られる点には注意

人手でアノテーションされたモデルと比較してcomparableなパフォーマンスを達成

スレッド中で評価データが数回のreasoning stepが必要なタスクのみの評価であり、より長く複雑なreasoning step（たとえば [Paper Note] BIG-Bench Extra Hard, Mehran Kazemi+, ACL'25, 2025.02 ）が必要な場合はどうなるか？といった所に興味が寄せられている模様

[Paper Note] Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering, Guangtao Zeng+, arXiv'25, 2025.05

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #SoftwareEngineering #read-later Issue Date: 2025-06-01 GPT Summary- 言語モデルは標準化されたコーディングのベンチマークでは良好な性能を示すが、実世界のソフトウェア工学タスクには苦戦。特に1000億未満のパラメータ数では顕著で、小型モデルの性能改善は難しい。従来は教師ありファインチューニングに依存し、データ整備には高いコストがかかる。新たなアプローチとしてEvoScaleを提案。これは生成を進化プロセスとして扱い、反復的な出力改善を通じて高スコア領域にシフトさせることで、必要なサンプル数を削減。自己進化するよう強化学習で訓練され、外部検証器に依存せず自らスコアを改善。評価の結果、32BモデルSatori-SWE-32Bは少数のサンプルで1000億超モデルと同等以上の性能を達成。すべてのコード、データ、モデルはオープンソース。 Comment

元ポスト:

Loading…

[Paper Note] Distillation Scaling Laws, Dan Busbridge+, ICML'25

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #Distillation #SmallModel #ICML #Scaling Laws #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-05-29 GPT Summary- 蒸留モデルの性能を推定するための蒸留スケーリング法則を提案。教師モデルと生徒モデルの計算割り当てを最適化することで、生徒の性能を最大化。教師が存在する場合やトレーニングが必要な場合に最適な蒸留レシピを提供。多くの生徒を蒸留する際は、監視付きの事前学習を上回るが、生徒のサイズに応じた計算レベルまで。単一の生徒を蒸留し、教師がトレーニング必要な場合は監視学習を推奨。蒸留に関する洞察を提供し、理解を深める。 Comment

著者ポスト:
-

Loading…

openreview: https://openreview.net/forum?id=1nEBAkpfb9

手元にSFTのデータがあったときにSLMを学習したいという状況で、固定の計算資源があったときに、巨大な教師モデルをSFTで学習してから小型モデルに蒸留するのが良いのか、小型モデルを直接SFTする方が良いのか、どのように教師モデルと生徒モデルに計算資源を割り当てるのが最適かという観点でscaling lawを導出しているようである。

下記Appendixや著者ポストにある通り、知見を一言で言うと
- Distillationでは、SFTによって生み出されるモデルよりも良いモデルを生み出すことはできない
- しかしながら、DistillationではSFTよりも効率的にSFTで学習した場合と比較して良いモデルを学習できる
- 言い換えると、十分な計算量とデータが与えられるとDistillationの効率性は消失する

という感じだろうか。つまり、達成可能な性能のピーク値はSFTを超えられないが、Distillationの方がSFTよりも効率的に学習ができる、という感じに見える。

Loading…

[Paper Note] Learning to Reason without External Rewards, Xuandong Zhao+, ICML'25 Workshop AI4MATH

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Reasoning #ICML #Workshop #One-Line Notes Issue Date: 2025-05-27 GPT Summary- 本研究では、外部の報酬やラベルなしで大規模言語モデル（LLMs）が学習できるフレームワーク「内部フィードバックからの強化学習（RLIF）」を提案。自己確信を報酬信号として用いる「Intuitor」を開発し、無監視の学習を実現。実験結果は、Intuitorが数学的ベンチマークで優れた性能を示し、ドメイン外タスクへの一般化能力も高いことを示した。内因的信号が効果的な学習を促進する可能性を示唆し、自律AIシステムにおけるスケーラブルな代替手段を提供。 Comment

元ポスト:

Loading…

おもしろそう

externalなsignalをrewardとして用いないで、モデル自身が内部的に保持しているconfidenceを用いる。人間は自信がある問題には正解しやすいという直感に基づいており、openendなquestionのようにそもそも正解シグナルが定義できないものもあるが、そういった場合に活用できるようである。

self-trainingの考え方に近いのでは

ベースモデルの段階である程度能力が備わっており、post-trainingした結果それが引き出されるようになったという感じなのだろうか。

参考:

Loading…

解説スライド: https://www.docswell.com/s/DeepLearning2023/KYVLG4-2025-09-18-112951
元ポスト:

Loading…

[Paper Note] Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models, Tingchen Fu+, arXiv'25, 2025.05

Paper/Blog Link My Issue
#Analysis #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #Mathematics #InstructionFollowingCapability Issue Date: 2025-05-24 GPT Summary- 指示遵守はLLMのユーザー意図適合に重要であり、本研究では数学的推論タスクにおける指示遵守を評価するためのMathIFベンチマークを紹介。推論能力と可制御性の間には緊張が存在し、推論性能向上が指示遵守に影響を及ぼすことを示した。長い思考連鎖を用いたモデルや強化学習モデルは指示遵守が劣化する一方、簡単な介入で部分的に従順性を回復可能だが推論性能が犠牲になる場合がある。これらの知見は、指示対応性に優れた推論モデルの必要性を浮き彫りにする。 Comment

元ポスト:

Loading…

[Paper Note] Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding, Kung-Hsiang Huang+, ACL'25, 2025.02

Paper/Blog Link My Issue
#ComputerVision #Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT) #SyntheticData #ACL #DPO #PostTraining #Probing #One-Line Notes Issue Date: 2025-05-18 GPT Summary- Vision Language Models (VLMs)は視覚的算術に苦労しているが、CogAlignという新しいポストトレーニング戦略を提案し、VLMの性能を向上させる。CogAlignは視覚的変換の不変特性を認識するように訓練し、CHOCOLATEで4.6%、MATH-VISIONで2.9%の性能向上を実現し、トレーニングデータを60%削減。これにより、基本的な視覚的算術能力の向上と下流タスクへの転送の効果が示された。 Comment

元ポスト:

Loading…

既存のLLM (proprietary, openweightそれぞれ)が、シンプルなvisual arithmeticタスク(e.g., 線分の長さ比較, Chart上のdotの理解)などの性能が低いことを明らかにし、

それらの原因を(1)Vision Encoderのrepresentationと(2)Vision EncoderをFreezeした上でのText Decoderのfinetuningで分析した。その結果、(1)ではいくつかのタスクでlinear layerのprobingでは高い性能が達成できないことがわかった。このことから、Vision Encoderによるrepresentationがタスクに関する情報を内包できていないか、タスクに関する情報は内包しているがlinear layerではそれを十分に可能できない可能性が示唆された。

これをさらに分析するために(2)を実施したところ、Vision Encoderをfreezeしていてもfinetuningによりquery stringに関わらず高い性能を獲得できることが示された。このことから、Vision Encoder側のrepresentationの問題ではなく、Text Decoderと側でデコードする際にFinetuningしないとうまく活用できないことが判明した。

手法のところはまだ全然しっかり読めていないのだが、画像に関する特定の属性に関するクエリと回答のペアを合成し、DPOすることで、zero-shotの性能が向上する、という感じっぽい？

[Paper Note] When Bad Data Leads to Good Models, Kenneth Li+, ICML'25, 2025.05

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Supervised-FineTuning (SFT) #Safety #ICML #DPO #Toxicity #ActivationSteering/ITI #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-05-09 GPT Summary- 本論文では、LLMの事前学習におけるデータの質の再検討を行い、有害データが事後学習における制御を向上させる可能性を探ります。トイ実験を通じて、有害データの割合が増加することで有害性の概念が線形表現に影響を与えることを発見し、有害データが生成的有害性を増加させつつも除去しやすくなることを示しました。評価結果は、有害データで訓練されたモデルが生成的有害性を低下させつつ一般的な能力を保持する良好なトレードオフを達成することを示唆しています。 Comment

元ポスト:

Loading…

これは面白そう

Webコーパスなどを事前学習で利用する際は、質の高いデータを残して学習した方が良いとされているが、4chanのようなtoxicなデータを混ぜて事前学習して、後からdetox（Inference Time Intervention [Paper Note] Inference-Time Intervention: Eliciting Truthful Answers from a Language Model, Kenneth Li+, NeurIPS'23 , SFT, DPO)することで、最終的なモデルのtoxicなoutputが減るという話らしい。これはそもそも事前学習時点でtoxicなデータのsignalが除外されることで、モデルがtoxicな内容のrepresentationを学習できず、最終的にtoxicか否かをコントロールできなくなるため、と考察している（っぽい）

有害な出力を減らせそうなことは分かったが、Activation Steeringによってどの程度モデルの性能に影響を与えるのかが気になる、と思ったがAppendixに記載があった。細かく書かれていないので推測を含むが、各データに対してToxicデータセットでProbingすることでTopKのheadを決めて、Kの値を調整することでinterventionの強さを調整し、Toxicデータの割合を変化させて評価してみたところ、モデルの性能に大きな影響はなかったということだと思われる（ただし1Bモデルでの実験しかない）

おそらく2,3節あたりが一番おもしろいポイントなのだと思われるがまだ読めていない。

openreview: https://openreview.net/forum?id=SsLGTZKXf1

解説:

Loading…

[Paper Note] Reinforcement Learning for Reasoning in Large Language Models with One Training Example, Yiping Wang+, arXiv'25, 2025.04

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #NeurIPS #read-later #One-Line Notes #Reference Collection Issue Date: 2025-05-09 GPT Summary- 1-shot RLVRを用いることで、大規模言語モデルの数学的推論能力が向上することを示した。Qwen2.5-Math-1.5BにRLVRを適用し、MATH500の性能を36.0%から73.6%に引き上げたほか、6つの一般的な数学的推論ベンチマークも改善。異なるモデルやRLアルゴリズムでも顕著な向上が観察され、訓練精度の飽和後もテスト性能が持続改善する現象が見られた。これらの知見は、RLVRの効率性に関する今後の研究を促進する重要な要素であり、全リソースはオープンソースで公開されている。 Comment

下記ポストでQwenに対してpromptを適切に与えることで、追加のpost training無しで高い数学に関する能力を引き出せたという情報がある。おそらく事前学習時に数学のQAデータによって継続事前学習されており、この能力はその際に身についているため、数学に対する高い能力は実は簡単に引き出すことができるのかもしれない（だから1サンプルでも性能が向上したのではないか？）といった考察がある。

参考:

Loading…

- [Paper Note] ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models, Mingjie Liu+, NeurIPS'25

とはどのような関係性があるだろうか？

著者ポスト:

Loading…

openreview: https://openreview.net/forum?id=IBrRNLr6JA

[Paper Note] R.I.P.: Better Models by Survival of the Fittest Prompts, Ping Yu+, ICML'25

Paper/Blog Link My Issue
#NLP #LanguageModel #DataDistillation #SyntheticData #ICML Issue Date: 2025-05-07 GPT Summary- トレーニングデータの品質がモデルの性能に与える影響を考慮し、低品質な入力プロンプトがもたらす問題を解決するために、Rejecting Instruction Preferences（RIP）というデータ整合性評価手法を提案。RIPは、拒否された応答の品質と選択された好みペアとの報酬ギャップを測定し、トレーニングセットのフィルタリングや高品質な合成データセットの作成に利用可能。実験結果では、RIPを用いることでLlama 3.1-8B-Instructでの性能が大幅に向上し、Llama 3.3-70B-Instructではリーダーボードでの順位が上昇した。 Comment

元ポスト:

Loading…

スレッドで著者が論文の解説をしている。

[Paper Note] Thinking LLMs: General Instruction Following with Thought Generation, Tianhao Wu+, ICML'25, 2024.10

Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #Reasoning #ICML #DPO #PostTraining #KeyPoint Notes Issue Date: 2025-05-07 GPT Summary- LLMsに思考能力を装備するための訓練方法を提案。反復的な検索と最適化手順を用いて、モデルが監視なしで思考する方法を学ぶ。指示に対する思考候補はジャッジモデルで評価され、最適化される。この手法はAlpacaEvalとArena-Hardで優れたパフォーマンスを示し、推論タスクだけでなく、マーケティングや健康などの非推論カテゴリでも利点を発揮。 Comment

元ポスト:

Loading…

外部のCoTデータを使わないで、LLMのreasoning capabilityを向上させる話っぽい。DeepSeek-R1の登場以前の研究とのこと。

"reasoning traceを出力するように" Instruction Tuningによって回答を直接出力するようPostTrainingされたモデルにpromptingし、複数のoutputを収集（今回は8個, temperature=0.8, top p=0.95)。Self Taught Evaluator [Paper Note] Self-Taught Evaluators, Tianlu Wang+, arXiv'24, 2024.08 (STE;70B, LLM-as-a-Judgeを利用するモデル）、あるいはArmo Reward Model（8B）によって回答の品質をスコアリング。ここで、LLM-as-a-Judgeの場合はペアワイズでの優劣が決まるだけなので、ELOでスコアリングする。outputのうちbest scoreとworst scoreだったものの双方でペアデータを構築し、DPOで利用するpreferenceペアデータを構築しDPOする。このような処理を繰り返し、モデルの重みをiterationごとに更新する。次のiterationでは更新されたモデルで同様の処理を行い、前段のステップで利用した学習データは利用しないようにする（後段の方が品質が高いと想定されるため）。また、回答を別モデルで評価する際に、長いレスポンスを好むモデルの場合、長い冗長なレスポンスが高くスコアリングされるようなバイアスが働く懸念があるため、長すぎる回答にpenaltyを与えている（Length-Control)。

reasoning traceを出力するpromptはgenericとspecific thoughtの二種類で検証。前者はLLMにどのような思考をするかを丸投げするのに対し、後者はこちら側で指定する。後者の場合は、どのような思考が良いかを事前に知っていなければならない。

Llama-3-8b-instructに適用したところ、70Bスケールのモデルよりも高い性能を達成。また、reasoning trace出力をablationしたモデル（Direct responce baseline）よりも性能が向上。

iterationが進むに連れて、性能が向上している。

[Paper Note] Where is the answer? Investigating Positional Bias in Language Model Knowledge Extraction, Kuniaki Saito+, NAACL'25

Paper/Blog Link My Issue
#NLP #LanguageModel #Bias #NAACL #PostTraining #PerplexityCurse #Selected Papers/Blogs #ContextEngineering #Surface-level Notes Issue Date: 2025-05-02 GPT Summary- LLMは新しい文書でファインチューニングが必要だが、「困惑の呪い」により情報抽出が困難。特に文書の初めに関する質問には正確に答えるが、中間や末尾の情報抽出に苦労する。自己回帰的トレーニングがこの問題を引き起こすことを示し、デノイジング自己回帰損失が情報抽出を改善する可能性を示唆。これにより、LLMの知識抽出と新ドメインへの適応に関する新たな議論が生まれる。 Comment

元ポスト:

Loading…

![Image](https://github.com/user-attachments/assets/dd6bdffa-4ce0-4389-826e-4c85113c755f)
LLMの知識を最新にするために新しい文書（e.g., 新しいドメインの文書等）をLLMに与え（便宜上学習データと呼ぶ）Finetuningをした場合、Finetuning後のモデルで与えられたqueryから（LLM中にパラメータとしてmemorizeされている）対応する事実情報を抽出するようInferenceを実施すると、queryに対応する事実情報の学習データ中での位置が深くなると（i.e., middle -- endになると）抽出が困難になる Positional Biasが存在する[^1]ことを明らかにした。
そして、これを緩和するために正則化が重要（e.g., Denoising, Shuffle, Attention Drops）であることを実験的に示し、正則化手法は複数組み合わせることで、よりPositional Biasが緩和することを示した研究

[^1]: 本研究では"Training"に利用する文書のPositional Biasについて示しており、"Inference"時におけるPositional Biasとして知られている"lost-in-the middle"とは異なる現象を扱っている点に注意

## データセット
文書 + QAデータの2種類を構築しFinetuning後のknowledge extraction能力の検証をしている[^2]。

実験では、`Synthetic Bio (合成データ)`, `Wiki2023+（実データ）` の2種類のデータを用いて、Positional Biasを検証している。
Synthetic bioは、人間のbiographyに関する9つの属性（e.g., 誕生日, 出生地）としてとりうる値をChatGPTに生成させ、3000人の人物に対してそれらをランダムにassignし、sentence templateを用いてSurface Realizationすることで人工的に3000人のbiographyに関するテキストを生成している。
一方、Wiki2023+では、Instruction-tuned Language Models are Better Knowledge Learners, Zhengbao Jiang+, ACL'24
の方法にのっとって [^3]事前学習時の知識とのoverlapが最小となるように`2023`カテゴリ以下のwikipediaの様々なジャンルの記事を収集して活用する。QAデータの構築には、元文書からsentenceを抽出し、GPT-3.5-Turboに当該sentenceのみを与えてQA pairを作成させることで、データを作成している。なお、hallucinationや品質の低いQA pairをフィルタリングした。フィルタリング後のQA Pairをランダムにサンプリングし品質を確認したところ、95%のQA pairが妥当なものであった。

これにより、下図のようなデータセットが作成される。FigureCが `Wiki2023+`で、FigureDが`SyntheticBio`。`Wiki2023+`では、QA pairの正解が文書中の前半により正解が現れるような偏りが見受けられる。
![Image](https://github.com/user-attachments/assets/1146328f-de7e-4e90-b495-b129730c5d0d)

[^2]: [Paper Note] Physics of Language Models: Part 3.1, Knowledge Storage and Extraction, Zeyuan Allen-Zhu+, ICML'24 において、知識 + 知識を抽出するタスクの双方を用いて学習することで、モデルから知識を抽出する能力が備わることが示されているため。
[^3]: Llama-2-7Bにおいて2023カテゴリ以下の情報に対するQAのperformanceが著しく低いことから、事前学習時に当該データが含まれている可能性が低いことが示唆されている

## 実験 & 実験結果 (modulated data)
作成した文書+QAデータのデータセットについて、QAデータをtrain/valid/testに分けて、文書データは全て利用し、testに含まれるQAに適切に回答できるかで性能を評価する。このとき、文書中でQAに対する正解がテキストが出現する位置を変化させモデルの学習を行い、予測性能を見ることで、Positional Biasが存在することを明らかにする。このとき、[Paper Note] Physics of Language Models: Part 3.1, Knowledge Storage and Extraction, Zeyuan Allen-Zhu+, ICML'24
に倣い、文書とQAをMixed Sampling（1バッチあたり256件のサンプルをランダムにQAおよび文書データからサンプリング; # 1923 では文書とQAを2:8の比率でサンプリングしている）することで学習をする。QAの場合目的関数は回答テキスト部分のみのNLL、文書の場合はnext-token prediction lossを利用する。

Positional Biasの存在を示すだけでなく、(A, B, C) の順番でnext-token prediction lossで学習されたモデルの場合、Cの知識を抽出するためにA, Bがcontextとして必要となるため、Cを抽出する際の汎化性能を高めるためにA, Bの表現がより多様である必要がある、という課題がある。これに対処するためのいくつかのシンプルな正則化手法、具体的には
- D-AR: predition targetのトークンは保持したまま、input tokenの一部をランダムなトークンに置き換える
- Shuffle: 入力文をシャッフルする
- Attn Drop: self-attentionモジュールのattention weightをランダムに0にする
の3種類とPositional Biasの関係性を検証している。
![Image](https://github.com/user-attachments/assets/503e53f2-28f5-46ea-a11f-beee98f8fa38)

検証の結果、（合成データ、実データともに）Positional Biasが存在することが明らかとなり（i.e., 正解テキストが文書中の深い位置にあればあるほど予測性能が低下する）正則化によってPositional Biasが緩和されることが示された。
![Image](https://github.com/user-attachments/assets/11a29a1e-f869-4628-9c47-e1fc9e5c394e)

また、異なるモデルサイズで性能を比較したところ、モデルサイズを大きくすることで性能自体は改善するが、依然としてPositional Biasが存在することが示され、ARよりもD-ARが一貫して高い性能を示した。このことから、Positional Biasを緩和するために何らかの正則化手法が必要なことがわかる。
![Image](https://github.com/user-attachments/assets/0772d144-c22b-4723-8578-acdf0e2e1187)

また、オリジナル文書の1文目を、正解データの位置を入れ替えた各モデルに対して、テキスト中の様々な位置に配置してPerplexityを測った。この設定では、モデルがPerplexityを最小化するためには、（1文目ということは以前の文脈が存在しないsentenceなので）文脈に依存せずに文の記憶していなければならない。よって、各手法ごとにどの程度Perplexityが悪化するかで、各手法がどの程度あるsentenceを記憶する際に過去の文脈に依存しているかが分かる。ここで、学習データそのもののPerplexityはほぼ1.0であったことに注意する。
結果として、文書中の深い位置に配置されればされるほどPerplexityは増大し（left）、Autoregressive Model (AR) のPerplexity値が最も値が大きかった（=性能が悪かった）。このことから、ARはより過去の文脈に依存してsentenceの情報を記憶していることが分かる。また、モデルサイズが小さいモデルの方がPerplexityは増大する傾向にあることがわかった (middle)。これはFig.3で示したQAのパフォーマンスと傾向が一致しており、学習データそのもののPerplexityがほぼ1.0だったことを鑑みると、学習データに対するPerplexityは様々なPositionに位置する情報を適切に抽出できる能力を測るメトリックとしては適切でないことがわかる。また、学習のiterationを増やすと、ARの場合はfirst positionに対する抽出性能は改善したが、他のpositionでの抽出性能は改善しなかった。一方、D-ARの場合は、全てのpositionでの抽出性能が改善した (right) 。このことから、必ずしも学習のiterationを増やしても様々なPositionに対する抽出性能が改善しないこと、longer trainingの恩恵を得るためには正則化手法を利用する必要があることが明らかになった。

![Image](https://github.com/user-attachments/assets/94f635a5-68d5-478d-ab16-513e855fe054)

## 実験 & 実験結果 (unmodulated data)
Wiki2023+データに対して上記のようなデータの変更を行わずに、そのまま学習を行い、各位置ごとのQAの性能を測定したところ、（すべてがPositional Biasのためとは説明できないが）回答が文書中の深い位置にある場合の性能が劣化することを確認した。2--6番目の性能の低下は、最初の文ではシンプルな事実が述べられ、後半になればなるほどより複雑な事実が述べられる傾向があることが起因して性能の低下しているとかせつをたてている。また、unmodulated dataの場合でもD-ARはARの性能を改善することが明らかとなった。モデルサイズが大きいほど性能は改善するが、以前として文書中の深い位置に正解がある場合に性能は劣化することもわかる。

また、正則化手法は組み合わせることでさらに性能が改善し、[Paper Note] Physics of Language Models: Part 3.1, Knowledge Storage and Extraction, Zeyuan Allen-Zhu+, ICML'24
に示されている通り、学習データ中の表現を多様にし[^1]学習したところ予測性能が改善し、正則化手法とも補完的な関係であることも示された。

医療ドメインでも実験したところ、正則化手法を適用した場合にARよりも性能が上回った。最後にWiki2023+データについてOpenbookな設定で、正解が含まれる文書をLLMのcontextとして与えた場合（i.e.,ほぼ完璧なretrieverが存在するRAGと同等の設定とみなせる）、QAの性能は90.6%に対し、継続学習した場合のベストモデルの性能は50.8%だった。このことから、正確なretrieverが存在するのであれば、継続学習よりもRAGの方がQAの性能が高いと言える。
RAGと継続学習のメリット、デメリットの両方を考慮して、適切に手法を選択することが有効であることが示唆される。

[^1]: ChatGPTによってテキストをrephraseし、sentenceのorderも変更することで多様性を増やした。が、sentence orderが文書中の深い位置にある場合にあまりorderが変化しなかったようで、このため深い位置に対するQAの性能改善が限定的になっていると説明している。

[Paper Note] Phi-4-reasoning Technical Report, Marah Abdin+, arXiv'25, 2025.04

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #SmallModel #OpenWeight #GRPO #One-Line Notes #Reference Collection Issue Date: 2025-05-01 GPT Summary- 140億パラメータの推論モデルPhi-4-reasoningは、慎重に選ばれた「teachable」プロンプトセットと監視付きファインチューニングを通じて訓練され、詳細な推論チェーンを生成します。そのバリエーションであるPhi-4-reasoning-plusは、短期間の強化学習を経て、より長い推論トレースを生成し高性能を実現。これらのモデルは、DeepSeek-R1-Distill-Llama-70Bモデルを超え、完全版DeepSeek-R1に近い性能を示します。評価は数学的・科学的推論や一般目的のベンチマークを含み、データ精選の利点と強化学習の影響を示唆しています。 Comment

元ポスト:

Loading…

こちらの解説が非常によくまとまっている:

Loading…

が、元ポストでもテクニカルペーパー中でもo3-miniのreasoning traceをSFTに利用してCoTの能力を強化した旨が記述されているが、これはOpenAIの利用規約に違反しているのでは…？

[Paper Note] When More is Less: Understanding Chain-of-Thought Length in LLMs, Yuyang Wu+, ICLR'25

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Chain-of-Thought #ICLR #One-Line Notes Issue Date: 2025-04-30 GPT Summary- Chain-of-thought (CoT)推論は、LLMsの多段階推論能力を向上させるが、CoTの長さが増すと最初は性能が向上するものの、最終的には低下することが観察される。長い推論プロセスがノイズに脆弱であることを示し、理論的に最適なCoTの長さを導出。Length-filtered Voteを提案し、CoTの長さをモデルの能力とタスクの要求に合わせて調整する必要性を強調。 Comment

ICLR 2025 Best Paper Runner Up Award
元ポスト:

Loading…

[Paper Note] Why Do Multi-Agent LLM Systems Fail?, Mert Cemri+, arXiv'25, 2025.03

Paper/Blog Link My Issue
#Multi #Analysis #NLP #AIAgents #NeurIPS #One-Line Notes Issue Date: 2025-04-26 GPT Summary- マルチエージェントLLMシステム（MAS）の性能向上が乏しい中、初の故障分類法MASTを提案。200以上のタスクを通じて14の故障モードを特定し、3つのカテゴリに整理。LLMを活用した評価パイプラインを開発し、故障分析の実用性を示す。特定された故障には複雑な解決策が必要であり、研究への道筋を強調。データセットとLLM注釈者をオープンソース化してMASの進展を促進。 Comment

元ポスト:

Loading…

7つのメジャーなマルチエージェントフレームワークに対して200以上のタスクを実施し、6人の専門家がtraceをアノテーション。14種類の典型的なfailure modeを見つけ、それらを3つにカテゴライズ。これを考慮してマルチエージェントシステムの失敗に関するTaxonomy（MAS）を提案

openreview: https://openreview.net/forum?id=fAjbYBmonr&referrer=%5Bthe%20profile%20of%20Matei%20Zaharia%5D(%2Fprofile%3Fid%3D~Matei_Zaharia1)

[Paper Note] Learning Dynamics of LLM Finetuning, Yi Ren+, ICLR'25 Outstanding Paper Award

Paper/Blog Link My Issue
#Analysis #MachineLearning #NLP #LanguageModel #Alignment #Hallucination #ICLR #DPO #Repetition #Selected Papers/Blogs #Reference Collection Issue Date: 2025-04-18 GPT Summary- 本研究では、大規模言語モデルのファインチューニング中の学習ダイナミクスを分析し、異なる応答間の影響の蓄積を段階的に解明します。指示調整と好み調整のアルゴリズムに関する観察を統一的に解釈し、ファインチューニング後の幻覚強化の理由を仮説的に説明します。また、オフポリシー直接好み最適化（DPO）における「圧縮効果」を強調し、望ましい出力の可能性が低下する現象を探ります。このフレームワークは、LLMのファインチューニング理解に新たな視点を提供し、アラインメント性能向上のためのシンプルな方法を示唆します。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…

[Paper Note] AM-RADIO: Agglomerative Vision Foundation Model -- Reduce All Domains Into One, Mike Ranzinger+, CVPR'25

Paper/Blog Link My Issue
#ComputerVision #Transformer #FoundationModel #OpenWeight #CVPR #One-Line Notes Issue Date: 2025-04-11 GPT Summary- 視覚基盤モデル（VFM）をマルチティーチャー蒸留を通じて統合するアプローチAM-RADIOを提案。これにより、ゼロショットの視覚-言語理解やピクセルレベルの理解を向上させ、個々のモデルの性能を超える。新しいアーキテクチャE-RADIOは、ティーチャーモデルよりも少なくとも7倍速い。包括的なベンチマークで様々な下流タスクを評価。 Comment

元ポスト:

Loading…

vision系のfoundation modelはそれぞれ異なる目的関数で訓練されてきており（CLIPは対照学習 Learning Transferable Visual Models From Natural Language Supervision, Radford+, OpenAI, ICML'21 , DINOv2は自己教師あり学習 [Paper Note] DINOv2: Learning Robust Visual Features without Supervision, Maxime Oquab+, TMLR'24 , SAMはsegmentation [Paper Note] Segment Anything, Alexander Kirillov+, arXiv'23, 2023.04 )それぞれ別の能力を持ってたが、それらを一個のモデルに蒸留しました、という話らしい

lossの文脈でいうと、SigLIPも広義の対照学習の一種である。
- [Paper Note] Sigmoid Loss for Language Image Pre-Training, Xiaohua Zhai+, ICCV'23

[Paper Note] Identifying and Evaluating Inactive Heads in Pretrained LLMs, Pedro Sandoval-Segura+, arXiv'25, 2025.04

Paper/Blog Link My Issue
#NLP #LanguageModel #Attention #AttentionSinks Issue Date: 2025-04-09 GPT Summary- アテンションはLLMsの核心であり、異なるヘッドが入力トークンに焦点を当てる役割を果たすが、最初のトークンに過剰な注意が向けられるアテンションシンクが存在する。これにより、非活性なヘッドが多く、計算の冗長性が生じる。12のスコア関数を用いて非活性ヘッドを評価し、平均して12%以上が非活性であることを確認。特に、ヘッド出力の平均ノルムによる測定が、従来の注意ウェイトのみのスコアよりも効果的に非活性ヘッドを特定することを示した。また、ファインチューニングの影響は小さいが、モデルのスケールが異なると異なるアテンション挙動を示す可能性がある。 Comment

元ポスト:

Loading…

[Paper Note] When Attention Sink Emerges in Language Models: An Empirical View, Xiangming Gu+, ICLR'25

Paper/Blog Link My Issue
#NLP #LanguageModel #Attention #ICLR #AttentionSinks #read-later #Selected Papers/Blogs #One-Line Notes #needs-revision Issue Date: 2025-04-05 GPT Summary- 言語モデルにおける「アテンションシンク」は、意味的に重要でないトークンに大きな注意を割り当てる現象であり、さまざまな入力に対して小さなモデルでも普遍的に存在することが示された。アテンションシンクは事前学習中に出現し、最適化やデータ分布、損失関数がその出現に影響を与える。特に、アテンションシンクはキーのバイアスのように機能し、情報を持たない追加のアテンションスコアを保存することがわかった。この現象は、トークンがソフトマックス正規化に依存していることから部分的に生じており、正規化なしのシグモイドアテンションに置き換えることで、アテンションシンクの出現を防ぐことができる。 Comment

Sink Rateと呼ばれる、全てのheadのFirst Tokenに対するattention scoreのうち（layer l * head h個存在する）、どの程度の割合のスコアが閾値を上回っているかを表す指標を提案
（後ほど詳細を追記する）

- [Paper Note] Why do LLMs attend to the first token?, Federico Barbero+, COLM'25

の先行研究

著者ポスト（openai-gpt-120Bを受けて):

Loading…

openreview: https://openreview.net/forum?id=78Nn4QJTEN

[Paper Note] Fundamental Limits of Perfect Concept Erasure, Somnath Basu Roy Chowdhury+, AISTATS'25

Paper/Blog Link My Issue
#NLP #LanguageModel #ConceptErasure #KnowledgeEditing #AISTATS Issue Date: 2025-04-03 GPT Summary- 概念消去は、性別や人種などの情報を消去しつつ元の表現を保持するタスクであり、公平性の達成やモデルのパフォーマンスの解釈に役立つ。従来の技術は消去の堅牢性を重視してきたが、有用性とのトレードオフが存在する。本研究では、情報理論的視点から概念消去の限界を定量化し、完璧な消去を達成するためのデータ分布と消去関数の制約を調査。提案する消去関数が理論的限界を達成し、GPT-4を用いたデータセットで既存手法を上回ることを示した。 Comment

元ポスト:

Loading…

[Paper Note] Multi-Token Attention, Olga Golovneva+, arXiv'25, 2025.04

Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Attention #Architecture #COLM #One-Line Notes Issue Date: 2025-04-02 GPT Summary- 新しいアテンション手法であるMulti-Token Attention（MTA）を提案し、複数のクエリとキーのベクトルを同時に用いることで、より精密な関連部分の特定を可能にします。畳み込み処理を適用することで、近接するトークンの相互作用を強化し、豊かでニュアンスのある情報の利用を実現。広範な評価により、MTAが標準的な言語モデルタスクにおいてTransformerを超える性能を発揮することを示しました。 Comment

元ポスト:

Loading…

従来のMulti Head Attentionでは、単体のQKのみを利用していたけど、複数のQKの情報を畳み込んで活用できるようにして、Headも畳み込みで重要な情報がより伝搬されるようにして、GroupNormalizationをかけたらPerplexityの観点でDifferential Transformerを上回ったよ、という話な模様。

- [Paper Note] Group Normalization, Yuxin Wu+, arXiv'18, 2018.03
- [Paper Note] Differential Transformer, Tianzhu Ye+, N/A, ICLR'25

openreview: https://openreview.net/forum?id=Z3L35tQTEg

[Paper Note] Scaling Evaluation-time Compute with Reasoning Models as Process Evaluators, Seungone Kim+, arXiv'25, 2025.03

Paper/Blog Link My Issue
#NLP #LanguageModel #LLM-as-a-Judge #Test-Time Scaling #Initial Impression Notes Issue Date: 2025-03-27 GPT Summary- LMの出力品質評価が難しくなっている中、計算を増やすことで評価能力が向上するかを検討。推論モデルを用いて応答全体と各ステップを評価し、推論トークンの生成が評価者のパフォーマンスを向上させることを確認。再ランク付けにより、評価時の計算増加がLMの問題解決能力を向上させることを示した。 Comment

元ポスト:

Loading…

LLM-as-a-JudgeもlongCoT+self-consistencyで性能が改善するらしい。

[Paper Note] Overtrained Language Models Are Harder to Fine-Tune, Jacob Mitchell Springer+, ICLR'25

Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #Supervised-FineTuning (SFT) #ICLR #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-03-27 GPT Summary- 大規模言語モデルの事前学習において、トークン予算の増加がファインチューニングを難しくし、パフォーマンス低下を引き起こす「壊滅的な過学習」を提唱。3Tトークンで事前学習されたOLMo-1Bモデルは、2.3Tトークンのモデルに比べて2%以上の性能低下を示す。実験と理論分析により、事前学習パラメータの感度の増加が原因であることを示し、事前学習設計の再評価を促す。 Comment

著者によるポスト:

Loading…

事前学習のトークン数を増やすとモデルのsensitivityが増し、post-trainingでのパフォーマンスの劣化が起こることを報告している。事前学習で学習するトークン数を増やせば、必ずしもpost-training後のモデルの性能がよくなるわけではないらしい。

ICLR'25のOutstanding Paperに選ばれた模様:

Loading…

きちんと読んだ方が良さげ。

[Paper Note] Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate, Yubo Wang+, COLM'25

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #COLM #PostTraining #One-Line Notes Issue Date: 2025-03-25 GPT Summary- 批評ファインチューニング（CFT）は、言語モデルがノイズのある応答を批評することを学ぶ新しい戦略で、従来の監視付きファインチューニング（SFT）に挑戦します。CFTは人間の学習プロセスにインスパイアを受け、深い分析を促進します。WebInstructから構築した50Kサンプルのデータセットを用いて、CFTは複数のベースモデルでSFTに対して4-10%の性能向上を示しました。特に、Qwen2.5-Math-CFTは少ないトレーニングで強力な競合と同等の性能を発揮し、CFTの堅牢性も確認されました。CFTは言語モデルの推論を進展させる効果的な手法であると主張します。 Comment

元ポスト:

Loading…

Critique Fine-Tuning (CFT) を提案。CFTでは、query x, noisy response y [^1] が与えられたときに、それに対する批評 cを学習する。cはgivenではないので、GPT4oのような強力なモデルによって合成する。

![Image](https://github.com/user-attachments/assets/f25babdd-63d6-4d3d-a9b0-3217db2bd07f)

目的関数は以下。[x; y] がgivenな時にcを生成する確率を最大化する。シンプル。
![Image](https://github.com/user-attachments/assets/ccdb8e42-e8b2-4ae1-99a6-a0b7c1d4bf2a)

RLを用いた手法との比較。1/10程度のデータ量、1/100程度のGPU時間で同等の性能を達成できる。
![Image](https://github.com/user-attachments/assets/848376ff-9965-485b-b8a0-7960d1d0e7b9)

[^1]: 本論文で利用しているWebInstructからサンプリングしたデータでは、たとえば約50%程度のyが正解, 残りは不正解（程度のnoisyデータを利用している）

[Paper Note] DAPO: An Open-Source LLM Reinforcement Learning System at Scale, Qiying Yu+, NeurIPS'25

Paper/Blog Link My Issue
#MachineLearning #LanguageModel #ReinforcementLearning #Reasoning #LongSequence #NeurIPS #GRPO #read-later #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-03-20 GPT Summary- 推論スケーリングによりLLMの推論能力が向上し、強化学習が複雑な推論を引き出す技術となる。しかし、最先端の技術詳細が隠されているため再現が難しい。そこで、$\textbf{DAPO}$アルゴリズムを提案し、Qwen2.5-32Bモデルを用いてAIME 2024で50ポイントを達成。成功のための4つの重要技術を公開し、トレーニングコードと処理済みデータセットをオープンソース化することで再現性を向上させ、今後の研究を支援する。 Comment

既存のreasoning modelのテクニカルレポートにおいて、スケーラブルなRLの学習で鍵となるレシピは隠されていると主張し、実際彼らのbaselineとしてGRPOを走らせたところ、DeepSeekから報告されているAIME2024での性能（47ポイント）よりもで　大幅に低い性能（30ポイント）しか到達できず、分析の結果3つの課題（entropy collapse, reward noise, training instability）を明らかにした（実際R1の結果を再現できない報告が多数報告されており、重要な訓練の詳細が隠されているとしている）。

その上で50%のtrainikg stepでDeepSeek-R1-Zero-Qwen-32Bと同等のAIME 2024での性能を達成できるDAPOを提案。そしてgapを埋めるためにオープンソース化するとのこと。

ちとこれはあとでしっかり読みたい。重要論文。

プロジェクトページ: https://dapo-sia.github.io/

こちらにアルゴリズムの重要な部分の概要が説明されている。

解説ポスト:

Loading…

コンパクトだが分かりやすくまとまっている。

下記ポストによると、Reward Scoreに多様性を持たせたい場合は3.2節参照とのこと。
すなわち、Dynamic Samplingの話で、Accが全ての生成で1.0あるいは0.0となるようなpromptを除外するといった方法の話だと思われる。
これは、あるpromptに対する全ての生成で正解/不正解になった場合、そのpromptに対するAdvantageが0となるため、ポリシーをupdateするためのgradientも0となる。そうすると、このサンプルはポリシーの更新に全く寄与しなくなるため、同バッチ内のノイズに対する頑健性が失われることになる。サンプル効率も低下する。特にAccが1.0になるようなpromptは学習が進むにつれて増加するため、バッチ内で学習に有効なpromptは減ることを意味し、gradientの分散の増加につながる、といったことらしい。

関連ポスト:

Loading…

色々な研究で広く使われるのを見るようになった。

著者ポスト:

Loading…

openreview: https://openreview.net/forum?id=2a36EMSSTp&referrer=%5Bthe%20profile%20of%20Ruofei%20Zhu%5D(%2Fprofile%3Fid%3D~Ruofei_Zhu1)

[Paper Note] Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification, Eric Zhao+, ICML'25

Paper/Blog Link My Issue
#NLP #LanguageModel #ICML #Test-Time Scaling #Verification #One-Line Notes #SelfVerification Issue Date: 2025-03-18 GPT Summary- サンプリングベースの探索は、複数の候補応答を生成し最良のものを選ぶ手法であり、自己検証によって正確性を確認します。本研究では、この探索のスケーリング傾向を分析し、シンプルな実装がGemini v1.5 Proの推論能力を向上させることを示しました。自己検証の精度向上は、より大きな応答プールからのサンプリングによるもので、応答間の比較が有益な信号を提供することや、異なる出力スタイルが文脈に応じて役立つことを明らかにしました。また、最前線のモデルは初期の検証能力が弱く、進捗を測るためのベンチマークを提案しました。 Comment

元ポスト:

Loading…

ざっくりしか読めていないが、複数の解答をサンプリングして、self-verificationをさせて最も良かったものを選択するアプローチ。最もverificationスコアが高い解答を最終的に選択したいが、tieの場合もあるのでその場合は追加のpromptingでレスポンスを比較しより良いレスポンスを選択する。これらは並列して実行が可能で、探索とself-verificationを200個並列するとGemini 1.5 Proでo1-previewよりも高い性能を獲得できる模様。Self-consistencyと比較しても、gainが大きい。具体的なアルゴリズムはAlgorithm1を参照のこと。

openreview: https://openreview.net/forum?id=wl3eI4wiE5

[Paper Note] Transformers without Normalization, Jiachen Zhu+, CVPR'25

Paper/Blog Link My Issue
#EfficiencyImprovement #MachineLearning #NLP #Transformer #Architecture #CVPR #Normalization #One-Line Notes Issue Date: 2025-03-14 GPT Summary- 本研究では、正規化層なしのトランスフォーマーがDynamic Tanh（DyT）を用いることで、同等またはそれ以上のパフォーマンスを達成できることを示します。DyTは、レイヤー正規化の代替として機能し、ハイパーパラメータの調整なしで効果を発揮します。多様な設定での実験により、正規化層の必要性に対する新たな洞察を提供します。 Comment

なん…だと…。LayerNormalizationを下記アルゴリズムのようなtanhを用いた超絶シンプルなレイヤー（parameterized thnh [Lecun氏ポスト](

Loading…

同等以上の性能を維持しながらモデル全体のinference, trainingの時間を8%程度削減。

Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #ICLR #DPO #PostTraining #Diversity #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-02-01 GPT Summary- Diverse Preference Optimization（DivPO）を提案し、応答の多様性を向上させつつ生成物の品質を維持するオンライン最適化手法を紹介。DivPOは応答のプールから多様性を測定し、希少で高品質な例を選択することで、パーソナ属性の多様性を45.6%、ストーリーの多様性を74.6%向上させる。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=pOq9vDIYev

DPOと同じ最適化方法を使うが、Preference Pairを選択する際に、多様性が増加するようなPreference Pairの選択をすることで、モデルのPost-training後の多様性を損なわないようにする手法を提案しているっぽい。
具体的には、Alg.1 に記載されている通り、多様性の尺度Dを定義して、モデルにN個のレスポンスを生成させRMによりスコアリングした後、RMのスコアが閾値以上のresponseを"chosen" response, 閾値未満のレスポンスを "reject" responseとみなし、chosen/reject response集合を構築する。chosen response集合の中からDに基づいて最も多様性のあるresponse y_c、reject response集合の中から最も多様性のないresponse y_r をそれぞれピックし、prompt xとともにpreference pair (x, y_c, y_r) を構築しPreference Pairに加える、といった操作を全ての学習データ（中のprompt）xに対して繰り返すことで実現する。

DivPO

[Paper Note] Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers, Zeyuan Allen-Zhu+, ICML'24 Tutorial

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #SyntheticData #read-later #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-05-06 Comment

元ポスト:

Loading…

Canon層の発見

著者による解説:

Loading…

[Paper Note] Efficient Streaming Language Models with Attention Sinks, Guangxuan Xiao+, ICLR'24

Paper/Blog Link My Issue
#Attention #LongSequence #ICLR #AttentionSinks #Selected Papers/Blogs #KeyPoint Notes #Reference Collection Issue Date: 2025-04-05 GPT Summary- 大規模言語モデル（LLMs）をマルチラウンド対話に展開する際の課題として、メモリ消費と長いテキストへの一般化の難しさがある。ウィンドウアテンションはキャッシュサイズを超えると失敗するが、初期トークンのKVを保持することでパフォーマンスが回復する「アテンションシンク」を発見。これを基に、StreamingLLMというフレームワークを提案し、有限のアテンションウィンドウでトレーニングされたLLMが無限のシーケンス長に一般化可能になることを示した。StreamingLLMは、最大400万トークンで安定した言語モデリングを実現し、ストリーミング設定で従来の手法を最大22.2倍の速度で上回る。 Comment

Attention Sinksという用語を提言した研究

下記のpassageがAttention Sinksの定義（＝最初の数トークン）とその気持ち（i.e., softmaxによるattention scoreは足し合わせて1にならなければならない。これが都合の悪い例として、現在のtokenのqueryに基づいてattention scoreを計算する際に過去のトークンの大半がirrelevantな状況を考える。この場合、irrelevantなトークンにattendしたくはない。そのため、auto-regressiveなモデルでほぼ全てのcontextで必ず出現する最初の数トークンを、irrelevantなトークンにattendしないためのattention scoreの捨て場として機能するのうに学習が進む）の理解に非常に重要
> To understand the failure of window attention, we find an interesting phenomenon of autoregressive LLMs: a surprisingly large amount of attention score is allocated to the initial tokens, irrespective of their relevance to the language modeling task, as visualized in Figure 2. We term these tokens
“attention sinks". Despite their lack of semantic significance, they collect significant attention scores. We attribute the reason to the Softmax operation, which requires attention scores to sum up to one for all contextual tokens. Thus, even when the current query does not have a strong match in many previous tokens, the model still needs to allocate these unneeded attention values somewhere so it sums up to one. The reason behind initial tokens as sink tokens is intuitive: initial tokens are visible to almost all subsequent tokens because of the autoregressive language modeling nature, making them more readily trained to serve as attention sinks.

- [Paper Note] Why do LLMs attend to the first token?, Federico Barbero+, COLM'25

の先行研究。こちらでAttentionSinkがどのように作用しているのか？が分析されている。

Figure1が非常にわかりやすい。Initial Token（実際は3--4トークン）のKV Cacheを保持することでlong contextの性能が改善する（Vanilla)。あるいは、Softmaxの分母に1を追加した関数を用意し（数式2)、全トークンのattention scoreの合計が1にならなくても許されるような変形をすることで、余剰なattention scoreが生じないようにすることでattention sinkを防ぐ（Zero Sink)。これは、ゼロベクトルのトークンを追加し、そこにattention scoreを逃がせるようにすることに相当する。もう一つの方法は、globalに利用可能なlearnableなSink Tokenを追加すること。これにより、不要なattention scoreの捨て場として機能させる。Table3を見ると、最初の4 tokenをKV Cacheに保持した場合はperplexityは大きく変わらないが、Sink Tokenを導入した方がKV Cacheで保持するInitial Tokenの量が少なくてもZero Sinkと比べると性能が良くなるため、今後モデルを学習する際はSink Tokenを導入することを薦めている。既に学習済みのモデルについては、Zero Sinkによってlong contextのモデリングに対処可能と思われる。

著者による解説:

Loading…

openreview: https://openreview.net/forum?id=NG7sS51zVF

[Paper Note] TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks, Frank F. Xu+, arXiv'24, 2024.12

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #NeurIPS #Selected Papers/Blogs #Surface-level Notes Issue Date: 2025-01-03 GPT Summary- 大規模言語モデル（LLMs）によるAIエージェントの進展が、日常業務の効率化にどのように寄与するかを探求。TheAgentCompanyを通じて、AIエージェントがデジタル労働者のように働く能力を評価する拡張可能なベンチマークを導入。模擬のソフトウェア企業環境で、タスクの自律的完了率は30％に達し、単純なタスクは成功する一方、複雑な長期タスクは今のモデルでは難しいことを示す。 Comment

元ポスト:

Loading…

ソフトウェアエンジニアリングの企業の設定で現実に起こりうるな　175種類のタスクを定義してAI Agentを評価できるベンチマークTheAgentCompanyを提案。

既存のベンチマークより、多様で、実際のソフトウェアエンジニアリング企業でで起こりうる幅広いタスクを持ち、タスクの遂行のために同僚に対して何らかのインタラクションが必要で、達成のために多くのステップが必要でかつ個々のステップ（サブタスク）を評価可能で、多様なタスクを遂行するために必要な様々なインタフェースをカバーし、self hostingして結果を完全に再現可能なベンチマークとなっている模様。

Loading…

（画像は著者ツイートより引用）

プロプライエタリなモデルとOpenWeightなモデルでAI Agentとしての能力を評価した結果、Claude-3.5-sonnetは約24%のタスクを解決可能であり、他モデルと比べて性能が明らかに良かった。また、Gemini-2.0-flashなコストパフォーマンスに優れている。OpenWeightなモデルの中ではLlama3.3-70Bのコストパフォーマンスが良かった。タスクとしては具体的に評価可能なタスクのみに焦点を当てており、Open Endなタスクでは評価していない点に注意とのこと。

Loading…

まだまだAI Agentが完全に'同僚'として機能することとは現時点ではなさそうだが、このベンチマークのスコアが今後どこまで上がっていくだろうか。

openreview: https://openreview.net/forum?id=LZnKNApvhG

[Paper Note] Adaptive Decoding via Latent Preference Optimization, Shehzaad Dhuliawala+, arXiv'24

Paper/Blog Link My Issue
#NLP #LanguageModel #Decoding #SamplingParams Issue Date: 2024-11-15 GPT Summary- Adaptive Decodingを導入し、推論時にトークンや例ごとに動的にサンプリング温度を選択することで、言語モデルのパフォーマンスを最適化。Latent Preference Optimization（LPO）を用いて温度選択を学習し、UltraFeedbackやCreative Story Writing、GSM8Kなどのタスクで固定温度を超える性能を達成。 Comment

著者ポスト:

Loading…

[Paper Note] Prompt2Model: Generating Deployable Models from Natural Language Instructions, Vijay Viswanathan+, arXiv'23, 2023.08

Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #DataAugmentation #Supervised-FineTuning (SFT) #AIAgents #SyntheticData #EMNLP #PostTraining #Selected Papers/Blogs #System Demonstration #KeyPoint Notes Issue Date: 2023-08-28 GPT Summary- Prompt2Modelは、LLMによるプロンプトを用いて特定用途モデルを訓練する方法を提案。既存データセットの検索とLLMを使ったデータ生成により、強力なモデルを得られる。提示したプロンプトで、gpt-3.5-turboの結果を約20%上回り、最大700倍小型化できる。モデルの性能を信頼性高く推定可能で、オープンソースとして公開。 Comment

Dataset Generatorによって、アノテーションが存在しないデータについても擬似ラベル付きデータを生成することができ、かつそれを既存のラベル付きデータと組み合わせることによってさらに性能が向上することが報告されている。これができるのはとても素晴らしい。

Dataset Generatorについては、データを作成する際に低コストで、高品質で、多様なデータとするためにいくつかの工夫を実施している。
1. ユーザが与えたデモンストレーションだけでなく、システムが生成したexampleもサンプリングして活用することで、生成されるexampleの多様性を向上させる。実際、これをやらない場合は120/200がduplicate exampleであったが、これが25/200まで減少した。
2. 生成したサンプルの数に比例して、temperatureを徐々に高くしていく。これにより、サンプルの質を担保しつつ、多様性を徐々に増加させることができる。Temperature Annealingと呼ぶ。
3. self-consistencyを用いて、擬似ラベルの質を高める。もしmajority votingが互角の場合は、回答が短いものを採用した（これはヒューリスティックに基づいている）
4. zeno buildを用いてAPIへのリクエストを並列化することで高速に実験を実施

非常に参考になる。

著者らによる現在の視点での振り返り（提案当時はAI Agentsという概念はまだなく、本研究はその先取りと言える）:

Loading…

Ideogram 4: Open image model at the forefront of design, Ideogram, 2026.06

Paper/Blog Link My Issue
#Article #read-later Issue Date: 2026-06-05 Comment

元ポスト:

Loading…

CUDA Programming Guide Part 1, Kazuki Fujii, 2026.06

Paper/Blog Link My Issue
#Article #Tutorial #Selected Papers/Blogs #reading Issue Date: 2026-06-05 Comment

元ポスト:

Loading…

読む

NVIDIA Nemotron 3 Ultra, nvidia, 2026.06

Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #OpenWeight #SSM (StateSpaceModel) #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #Reference Collection #LowPrecision #LinearAttention Issue Date: 2026-06-05 Comment

元ポスト:

Loading…

アーキテクチャ解説:

Loading…

Mamba2 layer, Latent MoE, GQA

ポイント解説:

Loading…

HF: https://huggingface.co/collections/nvidia/nvidia-nemotron-v3

所見:

Loading…

所見:

Loading…

LFM2.5-VL-450M-Extract, LiquidAI, 2026.06

Paper/Blog Link My Issue
#Article Issue Date: 2026-06-05 Comment

元ポスト:

Loading…

Introducing Gemma 4 12B: a unified, encoder-free multimodal model, Google, 2026.06

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #OpenWeight #VisionLanguageModel #2D (Image) #UMM #SpatialUnderstanding #One-Line Notes #Reference Collection #AudioLanguageModel #audio Issue Date: 2026-06-04 Comment

元ポスト:

Loading…

vision/audioエンコーダーを無くしたvision/audio nativeなマルチモーダルLLM

HF: https://huggingface.co/google/gemma-4-12B

アーキテクチャ図:

Loading…

A Functional Taxonomy of World Models, Fei-Fei Li, 2026.06

Paper/Blog Link My Issue
#Article #Post #WorldModels #reading Issue Date: 2026-06-04 Comment

元ポスト:

Loading…

（後ほど追記）

- 世界モデルは現在最も重要だが、最も多義的な概念の一つになっている。
- 様々な分野がWorld Modelを構築していると主張するが、意味するところが実際に大きく異なる
- 世界モデルという用語のもともとの枠組みは「部分観測マルコフ決定過程 (POMDP)」
- エージェントは行動を実行し、行動は世界の状態に影響を与え、エージェントは観測データを受け取り（≠状態を認識する）、新たな観測データに基づいてアクションが実行される、といったループが繰り返される
- ここで、「状態」とは、ある時点における世界で何が起きているかに関する完全なdescriptionであり、エージェントは状態自体を観測はできない（観測＝部分的な認識）
-

Holo3.1: Fast & Local Computer Use Agents, H Company, 2026.06

Paper/Blog Link My Issue
#Article #ComputerVision #ComputerUse Issue Date: 2026-06-03 Comment

HF: https://huggingface.co/collections/Hcompany/holo31

元ポスト:

Loading…

Building a hill-climbing machine: Launching seven new MAI models, Mustafa Suleyman, MAI, 2026.06

Paper/Blog Link My Issue
#Article #Blog Issue Date: 2026-06-03 Comment

- MAI-Thinking-1: Building a Hill-Climbing Machine, Microsoft, 2026.06

元ポスト:

Loading…

関連:

Loading…

Is Frontier Asynchronous RL Solved?, Luke J. Huang, 2026.05

Paper/Blog Link My Issue
#Article #read-later #Selected Papers/Blogs Issue Date: 2026-06-03 Comment

元ポスト:

Loading…

[Paper Note] OmniOPD: Logit-Free On-Policy Distillation via Speculative Verification

Paper/Blog Link My Issue
#Article Issue Date: 2026-06-03 Comment

元ポスト:

Loading…

Develop Physical AI Reasoning, World, and Action Models with NVIDIA Cosmos 3, nvidia, 2026.05

Paper/Blog Link My Issue
#Article #Robotics #WorldActionModel Issue Date: 2026-06-02 Comment

元ポスト:

Loading…

公式:

Loading…

MiniMax-M3, MiniMaxAI, 2026.06

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #Post #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2026-06-01 Comment

ベンチマーク上はフロンティアモデルに性能がかなり肉薄しており、10日以内にモデルがオープンになる。

所見:

Loading…

関連:

Loading…

Paper/Blog Link My Issue
#Article #read-later Issue Date: 2026-05-31 Comment

元ポスト:

Loading…

公式:

Loading…

Introducing Claude Opus 4.8, Anthropic, 2026.05

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Proprietary #Reference Collection Issue Date: 2026-05-31 Comment

元ポスト:

Loading…

ベンチマーク比較:

Loading…

ビジネススキルを学習させると不誠実になる:

Loading…

Repo2RLEnv: Turn any GitHub repository into a verifiable RL environment for training and evaluation, HuggingFace, 2026.05

Paper/Blog Link My Issue
#Article #ReinforcementLearning #read-later #Environment Issue Date: 2026-05-31 Comment

元ポスト:

Loading…

[Paper Note] LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding, Wang+, 2026.05

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #CVPR #read-later #Selected Papers/Blogs #ObjectLocalization #VisionLanguageModel #2D (Image) #UMM #4D (Video) #text #ObjectDetection #GUI Issue Date: 2026-05-30 Comment

元ポスト:

Loading…

DeepSWE: Measuring frontier coding agents on original, long-horizon engineering tasks, DeepSWE, 2026.05

Paper/Blog Link My Issue
#Article #NLP #Dataset #AIAgents #Evaluation #Coding #SoftwareEngineering #read-later #Selected Papers/Blogs #One-Line Notes #LongHorizon Issue Date: 2026-05-27 Comment

元ポスト:

Loading…

所見:

Loading…

既存のベンチマークのような、githubのPRに基づいたものではなく（memorizationの問題があるため）、ゼロベースで構築。rolloutのtrajectoryを分析して、有効なPRなのに拒否する、あるいは何らかのcheatingをするといった挙動のdetectionもできるとのこと。また、SWE Bench Proと比較して、タスクを解くためのpromptは1/2である一方、タスクを解くために必要なコードの量は5.5倍となっており、より複雑なタスクとなっている。

contamination-freeが主張されているが、データセットは公開されているので、そのうちcontaminationが生じるであろう点には注意。

Introducing 1-bit and Ternary Bonsai Image 4B: Image Generation for Local Devices, PrismML, 2026.05

Paper/Blog Link My Issue
#Article #ComputerVision #DiffusionModel #TextToImageGeneration #SmallModel #Selected Papers/Blogs #One-Line Notes #ImageSynthesis #LowPrecision Issue Date: 2026-05-27 Comment

元ポスト:

Loading…

HF: https://huggingface.co/collections/prism-ml/bonsai-image

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #DiffusionModel #OpenWeight #LLMServing #SpeculativeDecoding #One-Line Notes Issue Date: 2026-05-27 Comment

元ポスト:

Loading…

3つの生成モード: AR/dLM/Hybrid を備えたLLM(VLM variantも存在）ファミリーで、ARモードでは一般的な自己回帰的な生成をし、dLMモードでは拡散モデルに基づくparallel decodingを実施、hybridではdLMでドラフト作成、ARでverificationを実施するSpeculative Decoding (self-speculation)を実施する。これらモードは内部のattention patternを変化させることでシームレスに切り替えられ（シームレスモード）期待されるconcurrencyに応じて柔軟に対応ができるようである。

シームレスの粒度がどの程度のものかはよくわからない。concurrency levelを検知して、それに応じて動的に切り替わったりするのだろうか。

Speculative Decodingの高速化手法としては以下のようなものもある:
- [Paper Note] TriSpec: Ternary Speculative Decoding via Lightweight Proxy Verification, Haoyun Jiang+, arXiv'26, 2026.01

Marlin-2B, NemoStation, 2026.05

Paper/Blog Link My Issue
#Article #ComputerVision #Temporal #VideoGeneration/Understandings #VisionLanguageModel #4D (Video) #reading #Grounding Issue Date: 2026-05-27 Comment

元ポスト:

Loading…

何が、いつ起きたかに答えるVideo VLMで、イベントごとのキャプションとtimestampのspanを出力してくれるようである。2Bモデルなので軽量である。

例は以下:

より安全で透明性の高い AI エコシステムに向けて、コンテンツ来歴の取り組みを前進, OpenAI, 2026.05

Paper/Blog Link My Issue
#Article #ComputerVision #TextToImageGeneration #Proprietary #2D (Image) #One-Line Notes #ImageSynthesis #AI Detector Issue Date: 2026-05-27 Comment

元ポスト:

Loading…

画像生成にSynthID追加、また、画像がChatGPT, Codex, OpenAI APIから生成されたものかを判定するツールの一般向けプレビューを開始
https://openai.com/ja-JP/research/verify/

OlmoEarth v1.1: A more efficient family of models, Ai2, 2026.05

Paper/Blog Link My Issue
#Article #ComputerVision #EfficiencyImprovement #FoundationModel #OpenWeight #2D (Image) Issue Date: 2026-05-27 Comment

元ポスト:

Loading…

General Agent: A Self-Evolving, Synthetic Agent Environment, Mika, PRIMEIntellect, 2026.05

Paper/Blog Link My Issue
#Article #General #NLP #LanguageModel #AIAgents #SyntheticData #reading #One-Line Notes #Environment #ToolUse Issue Date: 2026-05-27 Comment

environment: https://app.primeintellect.ai/dashboard/environments/primeintellect/general-agent

元ポスト:

Loading…

著者ポスト:

Loading…

約1000のドメイン、約4500タスク、約8000種類以上の独自のツールを持つ、汎用エージェント学習のための学習環境とその構築方法。タスクを生成するAIとそれに対して解答するAIを用意し、解答がどの程度正解していたかによって難易度を同定しフィルタリング等を行いつつ、生成されたタスクをacceptするか否かを決定する。実際に構築された環境でRL/SFTを実施したところ、未知のベンチマークに対して性能が反化することも確認したとのこと。

mKernel: Fast Multi-GPU, Multi-Node Fused Kernels, Ziming Mao, and the UCCL team, 2026.05

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #Infrastructure #read-later #GPUKernel Issue Date: 2026-05-26 Comment

元ポスト:

Loading…

> mKernel is our attempt at the missing piece: GPU-driven, fused kernels that deliver fine-grained compute–communication overlap across both intra-node NVLink and inter-node RDMA, while staying portable across various networking backends (ConnectX-7, AWS EFA, and more on the way).

The Imitation Game: State of Policy Distillation in Language Model training, 032-Chinmay Karkar, 2026.05

Paper/Blog Link My Issue
#Article #Tutorial #Survey #NLP #LanguageModel #ReinforcementLearning #Distillation #Catastrophic Forgetting #PostTraining #On-Policy #KeyPoint Notes #SelfDistillation Issue Date: 2026-05-26 Comment

元ポスト:

Loading…

- On Policy DistillationはKnowledge Distillationの一種で、教師モデルの知識を小さなモデルに蒸留する
- off policy KD Objectiveの場合は固定されたオフラインデータを用いるが、on policy distillationは生徒モデル自身が生成したデータに対するシグナルに基づいて学習される。
- off policy手法の課題はCatastrophic Forgettingと、（sequence長に対するquadraticな）エラーの蓄積がある。
- （オフポリシーRLの特殊なケースとみなすことができる）SFTはForward KLに基づいており、教師モデルの出力分布が確率を持つ部分に対して、生徒モデルの確率がゼロの場合はKLが発散するため、学習される生徒モデルの分布さスムージングされた分布になる。つまり、教師モデルの出力パターンを網羅できるように分布が学習される。
- このような手法で複数のドメインのデータで学習をした場合、分布のシフトが生じやすくCatastrophic Forgettingが生じやすい。
- on policy RLでは、Reverse KLが採用されており、この場合教師が確率が低いと考える場所に高い確率を割り振った場合のみに大きなペナルティを受けるため、教師の重要なモードをカバーしていれば、教師の他のモード全体は無視できる。これにより、学習したいモード以外の挙動に影響を与えにくく、特定のモードの学習ができる。
- （SFTがCatastrophic Forgettingが起きやすそうということは理解できるが、オフポリシーRL全体においてCatastrophic Forgettingが起きやすい問題があるという文脈で書かれている気がしており（エラーの蓄積の冒頭でオフポリシーRLのもう一つの根本的な課題は、という文脈で書かれているため）、SFTの議論がオフポリシーRL全体につながるのかがわからず、モヤっとする。が、LLMのpost-traingではCatrastrophic Forgettingが問題であるという文脈であれば理解できる）
- また、on-policyな学習ではエラーの蓄積を線形に留めることができることが示されている（off-policyな手法ではポリシーが生成したデータで訓練されていないため、inference時の冒頭でミスをすると学習時に観測していないトークンスペースを扱わなければならなくなり、さらにミスが増えモード崩壊に陥る）。
- on policy distillationは直接的にこのexposure biasのgapを小さくする。すなわち、学習時のinput（教師モデルが生成）と推論時のinput（生徒モデルが生成）の分布のgapを縮める。
- 生徒は学習時に常に自身の出力に基づいて学習するため、学習時のprefixと推論時のprefixの傾向が一致しやすい。このため生成時にエラーが起きてもin-distributionとなるため、エラーの蓄積が低減される。

以後はon policy distillation, on policy self-distillationの最新研究のサーベイと動向について記載されている。

後半のサーベイパートなどで記述があったのかもしれないが、OPDでは、GRPOなどで主流なRLVRなどと比較して、報酬のシグナルがdenseであるという点も押さえておきたい。

Synthetic Persona Pretraining: Alignment from Token Zero, Minder+, 2026.05

Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #Alignment #SyntheticData #Blog #Reasoning #Safety #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-05-25 Comment

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #Reasoning #Safety #PostTraining #KeyPoint Notes #Reading Reflections Issue Date: 2026-05-12 Comment

元ポスト:

Loading…

- [Paper Note] Agentic Misalignment: How LLMs Could Be Insider Threats, Aengus Lynch+, arXiv'25, 2025.10

のように自身を守るために脅迫メールを送るような挙動が観測されたが、それをなくすことができたという話のようである。

細かい学習データのサンプルなどは記載されていないように見えるが
- 評価時のシナリオと類似したもので正しい挙動を教え込むような方法は、評価のスコアは改善するが、OODに対応できない
- モデルに行動を教えるのではなく、理由を教えることが重要で、これはモデル自身が倫理観に関するジレンマに置かれた状況を解決するというデータではなく、ユーザが倫理的なジレンマを抱えているというシナリオで、モデルが倫理的に塾講された思慮深いアドバイスをするようなデータ（difficult advice dataset)で学習することが非常に効果的であった。
- これは単に正しい答えを教えるのではなく、倫理的な"思考"を教えるため効果的であり、これをさらに発展させ、Claudeの人物像をより詳細に与えることでペルソナをより模範的なものに更新する、具体的には質の高いConstitutionに関する文書と、模範的なAIに関するフィクションの物語を学習させることで、misalignmentを非常に効果的に抑制できることを発見した

という感じだろうか。

トップダウンに正解を教えるのではなく、ボトムアップに根源的に正しい思考過程を誘発するような情報を教える（ある種のPRMのようなものだと思われる）ことで、高い汎化性能を獲得できるということだと思われる。このアプローチは最近のAI Agentにおけるoutcome basedなreward設計などにも一石を投じるような議論に感じる。学習の結果得られる汎化性能を重視していかないと、データセットやEnvironmentを逐一構築して課題を潰していく必要があり、キリがないと思う。

Raven Part-1 - Memory as a set of Slots, Afzal+, Goomba Lab, 2026.05

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SSM (StateSpaceModel) #read-later #memory #Initial Impression Notes Issue Date: 2026-05-10 Comment

元ポスト:

Loading…

元ポストのGIFがわかりやすく、SSMにおけるStateの更新をgatingによって選択的に実施するモデル、という感じだろうか。これによりSSMの弱点であった、long contextにおけるrecall-heavyなタスクにおいてより高い性能を獲得する。

Advancing voice intelligence with new models in the API, OpenAI, 2026.05

Paper/Blog Link My Issue
#Article #NLP #SpeechProcessing #Reasoning #MultiLingual #Proprietary #TTS #Realtime #SpeechToSpeech Issue Date: 2026-05-10 Comment

元ポスト:

Loading…

GPT-Realtime-2

Natural Language Autoencoders: Turning Claude’s thoughts into text, Anthropic, 2026.05

Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #Explanation #Safety #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-05-10 Comment

LLM内の数値情報として保持されるactivationの情報をテキストで説明させる技術 Natural Language Autoencoeder (NLA) で、従来のSparseAutoencoderを用いたProbingなどとは異なり、より直接的にテキストによってactivationの情報を出力させる。

手法はシンプルで、autorncoderを用いて、target modelのactivationに関する情報が入力されたときに、
- Activation Verbalizerが、activationを説明するテキストを生成し
- Activation Reconstructorが、生成された説明テキストから元のactivationを復元する
- Activation Verbalizer/Reconstructorをreconstruction lossによって学習する

というもののようである。

このような手法はAI safetyの分野などで活用することができ、たとえば、Opus 4.6はBlackmail testingにおいて、context中でそのような情報を明言していないにも関わらず、NLAによるverbalizationによってそのような疑念を抱いていることが示唆される。

元ポスト:

Loading…

所見:

Loading…

MolmoAct 2: An open foundation for robots that work in the real world, Ai2, 2026.05

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #Reasoning #OpenWeight #OpenSource #read-later #Robotics #VisionLanguageActionModel Issue Date: 2026-05-08 Comment

元ポスト:

Loading…

dataset: https://huggingface.co/collections/allenai/molmoact2-datasets
models: https://huggingface.co/collections/allenai/molmoact2-models

著者ポスト:

Loading…

著者ポスト2:

Loading…

著者ポスト3:

Loading…

Autodata: an automatic data scientist to create high-quality data, Ilia+, 2026.05

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #SyntheticData Issue Date: 2026-05-06 Comment

元ポスト:

Loading…

OlmPool: How small architectural choices compound to undermine long context extension, Ai2, 2026.04

Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #Transformer #Attention #LongSequence #Architecture #read-later #Selected Papers/Blogs #One-Line Notes #ContextRot Issue Date: 2026-05-01 Comment

Paper/Blog Link My Issue
#Article #ComputerVision #Embeddings #NLP #MultiModal #Blog #Proprietary #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2026-04-25 Comment

元ポスト:

Loading…

単一のモデルで、マルチモーダルな情報を統合されたembedding空間で表現し、マトリョーシカ表現によって3種類の次元で取得でき、100+言語をサポートしかつcontext windowは8192。オーディオをわざわざ書き起こしてテキストモダリティに変換する必要もなく直接unifiedなembeddingを取得可能というなかなか便利そうな代物。

（以前のIssueを誤って削除したため再掲）

Generally Availableになったとのこと:

Loading…

ワークスペースエージェントでチームを拡張, OpenAI, 2026.04

Paper/Blog Link My Issue
#Article #NLP #AIAgents #ChatGPT #GenerativeAI #Blog #WorkspaceAgents Issue Date: 2026-04-25 Comment

元ポスト:

Loading…

What 81,000 people told us about the economics of AI, Anthropic, 2026.04

Paper/Blog Link My Issue
#Article #Analysis #GenerativeAI #Blog #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-04-25 Comment

元ポスト:

Loading…

賃金が最も小さいグループ、おより最も高いグループではClaudeによる生産性向上が最も大きく、職を失う懸念も同時に大きい。同様に、Claudeの利用量が多いグループも職を失う懸念が大きい。

アメリカにおいて代替されると思っていたソフトウェアエンジニアの求人がむしろ増えていて、AIによって新たな雇用が生まれているという意見もある:

Loading…

vismatch （formerly Image Matching Models）, gmberton, 2026.04

Paper/Blog Link My Issue
#Article #ComputerVision #Library #2D (Image) #One-Line Notes #needs-revision Issue Date: 2026-04-25 Comment

元ポスト:

Loading…

50種類以上のimage matchingモデルを統一的なinterfaceでシームレスに利用可能なライブラリとのこと

Hy3-preview, tencent, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #MoE(Mixture-of-Experts) Issue Date: 2026-04-24 Comment

元ポスト:

Loading…

[Paper Note] DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence, DeepSeek-AI, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Infrastructure #AIAgents #Attention #LongSequence #PositionalEncoding #Optimizer #OpenWeight #Architecture #MoE(Mixture-of-Experts) #AttentionSinks #read-later #Selected Papers/Blogs #RewardModel #Reference Collection #KV Cache #Compression #GenerativeVerifier #SparseAttention #ResidualStream #SelfDistillation Issue Date: 2026-04-24 Comment

HF: https://huggingface.co/collections/deepseek-ai/deepseek-v4

元ポスト:

Loading…

とうとうでました

所見:

Loading…

所見:

Loading…

Artificial Analysisによる評価:

Loading…

所見:

Loading…

所見:
-

Loading…

所見:

Loading…

1Mコンテキストにおいて、V3.2と比較してわずか10%のKV Cacheしか必要としないとのこと。

所見:

Loading…

1Mトークンのcontext windowを実用的にするために最新の叡智が詰め込まれまくっているという感じのようである。うーむ読むしかない

所見:

Loading…

RTX 6000で4基でFlashが動いたよ、という報告に見える:

Loading…

解説:

Loading…

所見:

Loading…

Self Rewarding LMsのコンセプトが利用されている:

Loading…

Proは、Flashをlong contextを扱える様々なドメインのスペシャリストとして訓練し、OPDによって蒸留されたものなのでは？という話:

Loading…

論文中に疑問点をアノテーションした結果が共有されている:

Loading…

Introducing GPT‑5.5, OpenAI, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ChatGPT #Proprietary #Selected Papers/Blogs #One-Line Notes #Reference Collection #Reading Reflections Issue Date: 2026-04-24 Comment

元ポスト:

Loading…

- FrontierMath, Terminal-Bench, GDPValでOpus 4.7を上回りダントツのトップ
- Artificial Analysis IndexでもOpus 4.7超え

しかし、Terminal-Benchは"ターミナル操作を通じた多様、かつlong horizonなタスクを評価する（多くはソフトウェアエンジニアタスクであるコーディングもタスクには含まれるが）"のベンチマークであり、SWE Bench Proのような一般的なcoding能力を測るベンチマークのスコアが掲載されていない。HLEやVisual Reasoning系のベンチマークのスコアも報告されていないように見える。

恣意的にGPT-5.5が強いデータ、比較対象をピックアップしているのではないか、という印象を持った。

- [Paper Note] Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces, Mike A. Merrill+, arXiv'26, 2026.01
- [Paper Note] SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez+, ICLR'24
- Why SWE-bench Verified no longer measures frontier coding capabilities, OpenAI, 2026.02

Artificial Analysisによる評価:

Loading…

所見:

Loading…

サイバー分野でMythosと同等？

Loading…

Xiaomi MiMo-V2.5-Pro: A leap in agentic and long horizon coherence, Xiaomi, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #MultiModal #Blog #Coding #OpenWeight #Selected Papers/Blogs #UMM #Reference Collection #Initial Impression Notes Issue Date: 2026-04-23 Comment

元ポスト:

Loading…

いずれモデルをオープンにするとのこと

Artificial Analysisによる評価:

Loading…

オープンになった:
https://huggingface.co/collections/XiaomiMiMo/mimo-v25

元ポスト:

Loading…

inclusionAI: Ling-2.6-flash （free）, OpenRouter （InclusionAI）, 2026.04

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #AIAgents #OpenWeight #MoE(Mixture-of-Experts) #Reference Collection #Initial Impression Notes Issue Date: 2026-04-22 Comment

元ポスト:

Loading…

Lingの最新モデル。元ポストに強みが簡潔に書かれている。OpenRouterで1週間freeで利用可能で、今後商用モデルのLingDTのリリースも控えているとこと。

また、将来的に本モデルはオープンになる予定とのこと。

Artificial Analysisによる評価:

Loading…

オープンになった:

Loading…

HF: https://huggingface.co/inclusionAI/Ling-2.6-flash

FlashKDA: Flash Kimi Delta Attention — high-performance KDA kernels built on CUTLASS, MoonshotAI, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #Attention #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-04-21 Comment

ベンチマーク: https://github.com/MoonshotAI/FlashKDA/blob/master/BENCHMARK_H20.md

Kimi Delta Attentionがより高速に（2倍程度）動作する実装のようである。

公式ポスト:

Loading…

Defeating the trainer-generator precision mismatch in TRL, HuggingFace, 2026.04

Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #ReinforcementLearning #PostTraining #Selected Papers/Blogs #reading #train-inference-gap #LowPrecision Issue Date: 2026-04-20 Comment

元ポスト:

Loading…

こーーれは必読では

Designing synthetic datasets for the real world: Mechanism design and reasoning from first principles, Google, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #SyntheticData #Distillation #read-later #Selected Papers/Blogs #One-Line Notes #Reference Collection #Critic #Reading Reflections #Human-in-the-Loop Issue Date: 2026-04-19 Comment

元ポスト:

Loading…

公式:

Loading…

解説:

Loading…

（詳細は解説や元ブログ参照のこと）
強い教師モデルから弱い生徒モデルを学習する場合の合成データ生成手法で、
生成したいデータの観点（内容、形式等）を分類し、どの観点からどの程度の難易度のデータを合成するかを制御する。その後生成されたデータが正しいか/正しくないかの2方向から批評を行いvalidationをするような枠組みのようである。

単純なデータ合成では性能がすぐに頭打ちになるが、ローカル多様性（特定のパターンの多様性）、グローバル多様性（データ全体がカバーするパターンの範囲）の2つを同時に大きくしないと不十分であることや、批判によるvalidationは少なくとも性能を悪化させることはないことも示されたとのこと。

AI週報#1 | LLMは「決めてから考える」のか？他2件, toda, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog Issue Date: 2026-04-19 Comment

元ポスト:

Loading…

[Paper Note] Open-world evaluations for measuring frontier AI capabilities, Kapoor+, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #read-later #Selected Papers/Blogs Issue Date: 2026-04-19 Comment

元ポスト:

Loading…

PAW: Define functions in English. Run them locally, ProgramAsWeights, 2026.04

Paper/Blog Link My Issue
#Article #LanguageModel #Library #Coding #PEFT(Adaptor/LoRA) #SoftwareEngineering #One-Line Notes Issue Date: 2026-04-17 Comment

元ポスト:

Loading…

英語で説明した機能をNeural Compilerと呼ばれる機構によって、text + Continuous LoRA (Continuous LoRAってなんだ。。。) によってインタプリタを構築し、python関数として利用できる、という感じらしい？

.pawファイルと呼ばれるファイルが作成され、中には
- Discrete pseudo-program: neural compilerによって生成されたtext instructions
- continuous neural adapter: 量子化されたLoRA adapter

が格納されて実行時に利用されるとのこと。完全にローカルで動作させられる。
LoRAを使うということは、事前に関数を実行するbase modelのDLが必要そうだが、どうなのだろうか？.pawファイルの例にも特定のベースモデル名が記載されているように見える。

Loading…

Artificial Analysisによる評価:

Loading…

GDPval-AAでGPT-5.4超えのSoTA

Loading…

IntelligenceでもSoTA(同等）

所見:

Loading…

所見:

Loading…

新たなtokenizerを用いている。knowledge cutoffも更新されている。すなわち、新たなベースモデルが事前学習された可能性が高い

tokenizerが更新された＝必ずしもベースモデルも新しいということではないよねという指摘:

Loading…

デグレしたベンチマークがある模様:

Loading…

所見:

Loading…

Qwen3.6-35B-A3B: Agentic Coding Power, Now Open to All, QwenTeam, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #MultiModal #OpenWeight #MoE(Mixture-of-Experts) #Selected Papers/Blogs #Sparse #Initial Impression Notes Issue Date: 2026-04-16 Comment

HF: https://huggingface.co/Qwen/Qwen3.6-35B-A3B

元ポスト:

Loading…

ざっと見た感じ明言されていない気がするが、プロプライエタリとなったQwen3.6-Plusの廉価版（オープンなので廉価と言うのかはあれだが）だと思われる。

Introducing Ternary Bonsai: Top Intelligence at 1.58 Bits, PrismML, 2026.04

Paper/Blog Link My Issue
#Article #read-later Issue Date: 2026-04-16 Comment

HF: https://huggingface.co/collections/prism-ml/ternary-bonsai

- Announcing 1-bit Bonsai: The First Commercially Viable 1-bit LLMs, 2026.03

の次世代モデル。

前回リリースからまだ1ヶ月しか経っていない。デコーディング速度が速いのでその分RLによるPostTrainingも高速なのだろうと推察される。

元ポスト:

Loading…

LLM-as-a-Verifier: A General-Purpose Verification Framework, Kwok+, 2026.04

Paper/Blog Link My Issue
#Article #read-later #Verification Issue Date: 2026-04-16 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Transformer #DiffusionModel #TextToImageGeneration #OpenWeight #Selected Papers/Blogs #2D (Image) #One-Line Notes #ImageSynthesis Issue Date: 2026-04-15 Comment

HF: https://huggingface.co/baidu/ERNIE-Image

ERNIEからtext-to-imageモデルがOpenWeightモデルとしてリリース。ベンチマークとしては公式ブログ上ではOpenWeightモデルの中でトップで、nano banana 2.0に匹敵するようなスコアが出ているように見える

Gemini Robotics-ER 1.6: Powering real-world robotics tasks through enhanced embodied reasoning, Google Deepmind, 2026.04

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Reasoning #Proprietary #Robotics #VisionLanguageActionModel #SpatialUnderstanding #Reference Collection #Initial Impression Notes #MultiView Issue Date: 2026-04-15 Comment

元ポスト:

Loading…

おー、とうとうDeepmindからVLAがでた。プロプライエタリモデル

私が知らなかっただけで、以前からリリースされていたようだ:
- Building the Next Generation of Physical Agents with Gemini Robotics-ER 1.5, Google, 2025.09
- https://developers.googleblog.com/en/building-the-next-generation-of-physical-agents-with-gemini-robotics-er-15/

ポイント解説:

Loading…

LLM-jp-4-VL 9B betaリリース, LLM-jp, 2026.04

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #OpenWeight #Japanese #OpenSource #VisionLanguageModel Issue Date: 2026-04-14 Comment

元ポスト:

Loading…

HF: https://huggingface.co/llm-jp/llm-jp-4-vl-9b-beta

Evaluating agents for scientific discovery, Ai2, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Evaluation #Blog #ScientificDiscovery #Science #Surface-level Notes #Reading Reflections Issue Date: 2026-04-14 Comment

元ポスト:

Loading…

scientific discoveryを実現するエージェントに関して、research paperで主張される素晴らしさと、実態のgapを埋めるためにAi2が実施してきたベンチマークに関する研究についての解説。

- [Paper Note] ScienceWorld: Is your Agent Smarter than a 5th Grader?, Ruoyao Wang+, EMNLP'22, 2022.03
- 小学校レベルの理科の実験をエージェントが実行できるかを評価するベンチマーク
- 教科書に載っているような古典的なdiscoveryを再現させる
- 200種類以上にものぼるオブジェクトが配置された、物理法則に従う（e.g., 氷が加熱すると溶けるなど）シミュレーション世界において、水の沸点を選択肢から正解を選ぶのではなく、自身で発見することを求められる。
- 2022年、Multiple Choice Questionのschool science examでハイスコアを記録したモデルはスコアは10%未満、2025年にはスコアは80%代に到達したが、まだ完全にこなふことができない。
- [Paper Note] DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents, Peter Jansen+, NeurIPS'24 Spotlight, 2024.06
- 独自の科学的な調査をスクラッチから設計実行させるベンチマーク
- 大学、あるいはPhDレベルのopen-endなdiscoveryに関する能力を問う
- 宇宙の惑星Xでの最初の科学者として調査を実施する設定で8トピックにわたる120のタスクをこなす必要がある
- 難易度は3段階に分かれていて、タスクは架空のcontextで実施されるため事前知識に頼ることができない中でタスクを解決し、正しいプロセスで実施されたかや、理解をしているかなどの能力も問われる。
- 現在のエージェントは、normal/challengingな難易度のタスク群について、80%の完了率を達成できない
- 双方のベンチマークともに、知識と実務力を分離した上で能力を測定するものとなっており、知識を答えるだけの見かけ上の能力ではなく、スクラッチから知識に基づいてエビデンスを積み上げ、実行し、タスクを遂行し科学的な発見をできるか、という実務力を問うている

という話。

この話は
- Andrej Karpathy — AGI is still a decade away, DWARKESH PATEL, 2025.10

において議論されている「認知コア」と関連が深いと感じる。
認知コアとは、単なる記憶に頼るのではなく、事前学習において、いわゆる人間のような知性を（データ内に潜むアルゴリズム的なパターンを学習することで）獲得し、その結果としてIn context Learningのような能力を発達させることとされ、

既に獲得された知識がモデルの認知コアの発達を阻害し、未知の環境でも適応できるような汎化能力を獲得することを阻害している（＝モデルは既存の知識と紐づけて簡単に回答できてしまうため、アルゴリズムに基づいた思考と行動を備える必要がなく学習が進み、結果的に汎用的な能力が身につかない）恐れがある、という話である。

上記ベンチマーク（特にDiscoveryWorld）は既存の世界知識に捉われない、アルゴリズム的な思考と行動が求められると推察されるため、モデルの認知コア的な側面を部分的に測定していると言えると感じる。

Distilling 100B+ Models 40x Faster with TRL, Hugging Face, 2026.04

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #Blog #Distillation #One-Line Notes Issue Date: 2026-04-13 Comment

元ポスト:

Loading…

on-policy蒸留（生徒モデルが生成したロールアウトに対して教師モデルが評価を与える方式)を、バッチ処理や、生徒モデルと教師モデルの通信量を削減するためバイナリ形式に変換してやり取りするなどの工夫をして高速化した話とのこと。

著者ポスト:

Loading…

Memento: Teaching LLMs to Manage Their Own Context

Paper/Blog Link My Issue
#Article #DocumentSummarization #NLP #LanguageModel #Selected Papers/Blogs #ContextEngineering #One-Line Notes #KV Cache Issue Date: 2026-04-11 Comment

元ポスト:

Loading…

著者によるtakeaway:

Loading…

頻繁に要約を作成することが大事で、SummaryのKV Cacheを再計算してはいけない（すなわち、推論をrestartしてはいけない）。なぜなら、SummaryよKV Cacheには仮に当該ブロックがなかったとしても過去のコンテキストの情報が残っているから。という話が書かれている。なるほど。

dataset: https://huggingface.co/datasets/microsoft/OpenMementos

所見:

Loading…

Introducing Muse Spark: Scaling Towards Personal Superintelligence, Meta, 2026.04

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #Proprietary #read-later #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes #Reference Collection Issue Date: 2026-04-11 Comment

元ポスト:
-

Loading…

元ポストのベンチマークスコアを見るとマルチモーダルの性能はフロンティアモデル(gpt5.4, Opus 4.6, Gemini 3.1 Pro)と同等、text/reasoningはフロンティアモデルより少しスコアが低く、特に抽象的な思考が苦手（ARC-AGI-2)。HEALTH分野はhealthは高スコアだがmedicalは少し低めのスコア、Agenticな分野では、SWE Bench Verified/Proよスコアは少し低め、terminal useは明確にスコアが低くtool useは少しスコアが低い、という感じにみえる。

codingとlong horizon taskに継続的に投資するとのこと。

中の人による解説:

Loading…

全てをフルスクラッチから作り直したっぽい。

Artificial Analysisによる解説:

Loading…

一気にOpenWeight最強のGLM-5.1超え

所見:

Loading…

所見:

Loading…

所見:

Loading…

第三者によるおそらく独自のベンチマークによる評価の結果、（おそらく101モデルのうち）全体で3位となっているらしい（つまり、既存ベンチマークにoverfittingしているわけではないという考えがある）。

The ATOM Report: Measuring the Open Language Model Ecosystem, Lambert+, 2026.04

Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #OpenWeight #OpenSource #read-later #Data Issue Date: 2026-04-11 Comment

著者ポスト:

Loading…

元ポスト:

Loading…

Xiaomi MiMo-V2-TTS, Xiaomi, 2026.03

Paper/Blog Link My Issue
#Article #TTS Issue Date: 2026-03-21 Comment

元ポスト:

Loading…

Xiaomi MiMo-V2-Omni, Xiaomi, 2026.03

Paper/Blog Link My Issue
#Article #Omni Issue Date: 2026-03-21 Comment

元ポスト:

Loading…

Xiaomi MiMo-V2-Pro, Xiaomi, 2026.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Proprietary Issue Date: 2026-03-21 Comment

元ポスト:

Loading…

Reasoning models struggle to control their chains of thought, and that’s good, OpenAI, 2026.03

Paper/Blog Link My Issue
#Article #Controllable #NLP #Dataset #LanguageModel #Chain-of-Thought #Evaluation #Blog #Reasoning #read-later Issue Date: 2026-03-06 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

Opus 4.6, Codex 5.3, and the post-benchmark era, Interconnects, 2026.02

Paper/Blog Link My Issue
#Article #Analysis #LanguageModel #AIAgents #Blog #Coding #SoftwareEngineering #One-Line Notes Issue Date: 2026-02-10 Comment

有識者によるClaude 4.6 Opus と Codex 5.3 を利用した際の所見（定性評価）が記述されている。

元ポスト:

Loading…

著者によるTLDR:

Loading…

[Paper Note] On the Slow Death of Scaling, Hooker+, 2026.01

Paper/Blog Link My Issue
#Article #NeuralNetwork #EfficiencyImprovement #NLP #LanguageModel #Scaling Laws Issue Date: 2026-01-09 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

Emergence of Human to Robot Transfer in VLAs, Physical Intelligence （π）, 2025.12

Paper/Blog Link My Issue
#Article #Pretraining #FoundationModel #Selected Papers/Blogs #DataMixture #Robotics #VisionLanguageActionModel #4D (Video) #EmbodiedAI #KeyPoint Notes #EmergentAbilities #EgocentricView #DomainGap Issue Date: 2025-12-18 Comment

元ポスト:

Loading…

pi_0.5と呼ばれる基盤モデルのfinetuningにおいてロボット用の学習データに追加して人間のegocentricなvideoをmixtureするだけで創発現象が生じ、人間の動画側にしか存在しない4種類のgeneralizationが必要なシナリオにおいて2倍の性能を示した。そしてこの傾向は、事前学習における基盤モデルのサイズをスケールさせる、ロボットのデータをより多く投入することでより顕著となった。

人間とロボットの特徴量を2D plotした散布図を見ると、事前学習で利用するロボットの学習データ（事前学習時点では人間の動画は含まれないことに注意）をスケールさせると、両者の特徴量が重なるようになったので、human-robotのalignmentをモデルが獲得していることが示唆される。
これにより、今後VLAを学習する際に、domain gapを埋めるための特別な処理が不要となる可能性がある、といった話らしい。

これが真だとすると、たとえば以下のように、人間のegocentric viewデータを大量に保有したところが有利にはなりそうではある。
- Interactive Intelligence from Human Xperience, Ropedia, 2025.12

Introducing the WeirdML Benchmark, Håvard Tveit Ihle, 2025.01

Paper/Blog Link My Issue
#Article #MachineLearning #NLP #LanguageModel #Evaluation #Blog #Initial Impression Notes Issue Date: 2025-11-29 Comment

著者ポスト:

Loading…

元ポスト:

Loading…

WeirdML v2: https://htihle.github.io/weirdml.html

MLにおけるあまり一般的ではない（＝Weird)なタスクによるLLMのベンチマークらしい

RLP: Reinforcement as a Pretraining Objective, Hatamizadeh+, 2025.09

Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #ReinforcementLearning Issue Date: 2025-10-01 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

所見:

Loading…

解説:

Loading…

Why Language Models Hallucinate, Kalai+, 2025.09

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Hallucination #Selected Papers/Blogs Issue Date: 2025-09-06 Comment

著者ポスト:

Loading…

解説:

Loading…

所見:

Loading…

The Bitter Lesson for RL: Verification as the key to Reasoning LLMs, Rishabh Agarwal, 2025.06

Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #ReinforcementLearning #Slide #PostTraining #read-later #RLVR Issue Date: 2025-08-26 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

Swallow LLM Leaderboard v2, Swallow LLM Team, 2025.08

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #OpenWeight #Proprietary #Japanese #Selected Papers/Blogs Issue Date: 2025-08-20 Comment

元ポスト:

Loading…

LLMの性能を公平な条件で評価するために、従来のnon thinkingモデルで採用していた方法はthinkingモデルでは過小評価につながることが明らかになった（e.g., non thinkingモデルはzero shotを標準とするが、thinkingモデルではfewshot、chat templateの採用等）ため、日本語/英語ともに信頼の高い6つのベンチマークを採用し、thinkingモデルに対して公平な統一的な評価フレームワークを確立。主要なプロプライエタリ、OpenLLMに対して評価を実施し、リーダーボードとして公開。Reasoningモデルに対する最新の日本語性能を知りたい場合はこちらを参照するのが良いと思われる。

評価に用いられたフレームワークはこちら:
https://github.com/swallow-llm/swallow-evaluation-instruct

主要モデルの性能比較:

Loading…

リーダーボードがアップデート:
-

Loading…

GPT-5.4, Qwen 3.5, Gemma 4, llm-jp04などが追加され、Gemma 4 31Bが非常に強力な日本語性能を備えており、GPT-5.4 Thinkingに匹敵する日本語性能を備えているとのこと。

AI Agent Manager （AAM）として生きていく : 作業環境とワークフローの設計, icoxfog417, 2025.06

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #Coding #SoftwareEngineering #read-later Issue Date: 2025-06-23 Comment

元ポスト:

Loading…

Single vs Multi-Agent System?, PHILSCHMID, 2025.06

Paper/Blog Link My Issue
#Article #NLP #AIAgents #Blog #read-later Issue Date: 2025-06-21 Comment

元ポスト:

Loading…

Mirage Persistent Kernel: Compiling LLMs into a MegaKernel, 2025.06

Paper/Blog Link My Issue
#Article #NLP #python #LLMServing #Initial Impression Notes Issue Date: 2025-06-20 Comment

vLLM, SGLangよりもデコーディングが早い模様（図は下記ブログより引用）

ブログ: https://zhihaojia.medium.com/compiling-llms-into-a-megakernel-a-path-to-low-latency-inference-cf7840913c17

元ポスト:

Loading…

MiniMax-M1, MiniMax, 2025.06

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #OpenWeight #MoE(Mixture-of-Experts) #One-Line Notes Issue Date: 2025-06-17 Comment

元ポスト:

Loading…

vLLMでのservingが推奨されており、コンテキストは1M、456BのMoEアーキテクチャでactivation weightは46B

公式ポスト:

Loading…

Agentもリリースした模様:

Loading…

[Paper Note] Unsupervised Elicitation of Language Models, Wen+, Anthropic, 2025.06

Paper/Blog Link My Issue
#Article #Unsupervised #NLP #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2025-06-12 Comment

元ポスト:

Loading…

Qwen_Qwen3-Embedding-4B-GGUF, QwenTeam, 2025.06

Paper/Blog Link My Issue
#Article #Embeddings #NLP #LanguageModel #RepresentationLearning #OpenWeight #One-Line Notes Issue Date: 2025-06-06 Comment

8BモデルはMTEBでトップの性能を達成。context 32K。100以上の言語をサポート。32--2560次元にoutputの次元数をカスタマイズできる（嬉しい、が性能にどの程度影響が出るから気になる）。

元ポスト:

Loading…

QwenTeam post:

Loading…

[Paper Note] Spurious Rewards: Rethinking Training Signals in RLVR, Shao+, 2025.05

Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #Mathematics #SmallModel #PostTraining #RLVR #Reference Collection Issue Date: 2025-05-27 Comment

元ポスト:

Loading…

参考（考察）:

Loading…

参考（考察）:

Loading…

こちらでもQwen2.5 MATH 7b を用いて検証しているが、コンタミネーションの問題が仮に本当だとしたら、どう影響するだろうか。スレッド中のグラフもMATH500（Qwen2.5においてコンタミの可能性がある）の性能を示している。

ms-swiftによるMegatron-LMベースのQwen3のファインチューニング, Aratako, 2025.05

Paper/Blog Link My Issue
#Article #NLP #Library #Supervised-FineTuning (SFT) #Blog #OpenWeight #MoE(Mixture-of-Experts) #PostTraining #One-Line Notes Issue Date: 2025-05-11 Comment

元ポスト:

Loading…

Megatron-SWIFTというAlibaba製のライブラリを利用しQwen3の継続事前学習とSFTを実施する方法を、ベストプラクティスに則って記述し、かつ著者自身が学習したモデルも公開している。（おそらくインスタンス代は自腹なので）すごい...!!
Megatron-SWIFTはMoEアーキテクチャを採用したモデルであれば、DeepSpeed Zero3 [^1]と比べて10倍程度のスループットで学習できる模様（早い）。一方MoEアーキテクチャでないモデルの場合はそこまで大きな差はない。

[^1]: A100 80GB 2ノードでは、Qwen3-30B-A3Bは、DeepSpeed-Zero2ではOOMとなり載らないようだ…。なんとリソースに厳しいこと…（涙）

Agent Frameworkはどれを使うべきか [タスク性能編], はち, 2025.05

Paper/Blog Link My Issue
#Article #Analysis #NLP #Library #AIAgents #Blog #One-Line Notes Issue Date: 2025-05-06 Comment

各フレームワーク毎の性能の違いや消費したトークン数、実装の微妙や違いがまとめられており、太字でtakeawayが記述されているので非常にわかりやすい。

元ポスト:

Loading…

Llama-3_1-Nemotron-Ultra-253B-v1, Nvidia, 2025.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #InstructionTuning #Pruning #Reasoning #OpenWeight #KeyPoint Notes Issue Date: 2025-04-08 Comment

DeepSeek-R1をGPQA Diamond GPQA: A Graduate-Level Google-Proof Q&A Benchmark, David Rein+, N/A, COLM'24 , AIME2024/2025, Llama4 Maverickを
BFCLv2（Tool Calling, BFCLv2, UC Berkeley, 2024.08 ), IFEVal [Paper Note] Instruction-Following Evaluation for Large Language Models, Jeffrey Zhou+, arXiv'23, 2023.11 で上回り, そのほかはArenaHardを除きDeepSeekR1と同等

DeepSeekR1が671B（MoEで37B Activation Param）に対し、こちらは253B（ただし、Llama3.1がベースなのでMoEではない）で同等以上の性能となっている。
ReasoningをON/OFFする能力も備わっている。

モデルがどのように訓練されたかを示す全体図がとても興味深い:

特に [Paper Note] Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, ICML'25 でも有効性が示されているように、SFTをしてからReasoningを強化する（強化というより元々持っている能力を引き出す？）RLを実施している。

詳細は下記Blogとのこと:
https://developer.nvidia.com/blog/build-enterprise-ai-agents-with-advanced-open-nvidia-llama-nemotron-reasoning-models/

元ポスト:

Loading…

Recommendation Systems • LLM, vinjia.ai, 2025.03

Paper/Blog Link My Issue
#Article #RecommenderSystems #Survey #NLP #LanguageModel #Blog Issue Date: 2025-03-31 Comment

元ポスト: https://www.linkedin.com/posts/vinija_recommendation-systems-llm-activity-7306171374446727168-cUg2?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

Qwen2.5-VL-32B-Instruct, Qwen Team, 2025.03

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #OpenWeight Issue Date: 2025-03-25 Comment

元ポスト:

Loading…

Sudoku-bench, SakanaAI, 2025.03

Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #Reasoning #Initial Impression Notes Issue Date: 2025-03-21 Comment

元ポスト:

Loading…

既存モデルでベンチマークを取ったらどういうランキングになるのだろうか。特にまだそういぅたランキングは公開されていない模様。

ブログ記事に（将来的に最新の結果をrepositoryに追記される模様）現時点でのリーダーボードが載っていた。現状、o3-miniがダントツに見える。
https://sakana.ai/sudoku-bench/

SmolDocling-256M, IBM Research, 2025.03

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #OpenWeight #DocParser #One-Line Notes Issue Date: 2025-03-18 Comment

元ポスト: https://www.linkedin.com/posts/andimarafioti_we-just-dropped-%F0%9D%97%A6%F0%9D%97%BA%F0%9D%97%BC%F0%9D%97%B9%F0%9D%97%97%F0%9D%97%BC%F0%9D%97%B0%F0%9D%97%B9%F0%9D%97%B6%F0%9D%97%BB%F0%9D%97%B4-activity-7307415358427013121-wS8m?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

Apache-2.0ライセンス。言語はEnglishのみな模様

マルチモーダルなImage-To-Textモデル。サンプルはこちら

ERNIE4.5_X1, Baidu, 2025.03

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #OpenWeight #Proprietary #One-Line Notes #Reference Collection Issue Date: 2025-03-17 Comment

解説ポスト:

Loading…

- ERNIE4.5はGPT4.5をさまざまなベンチマークで上回り、価格がなんとGPT4.5の1%
- X1はマルチモーダルなreasoningモデルでDeepSeek-R1と同等の性能で半額

らしい

このモデルは6月30日にオープン（ウェイト？）になるとスレッドで述べられている。

オープンになった: https://huggingface.co/collections/baidu/ernie-45

modernbert-ja-130m, SB Intuitions, 2025.02

Paper/Blog Link My Issue
#Article #Embeddings #NLP #LanguageModel #RepresentationLearning #pretrained-LM #Japanese Issue Date: 2025-02-12 Comment

ＭIT Licence

元ポスト:

Loading…

- [Paper Note] Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference, Benjamin Warner+, arXiv'24, 2024.12

Aya Expanse, Cohere, 2024.10

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MultiLingual #OpenWeight #One-Line Notes Issue Date: 2024-10-24 Comment

CohereによるマルチリンガルLLM, 8B, 32Bのモデルが存在する。

8BモデルのArenaHardでの評価

32BモデルのArenaHardでの評価

元ポスト:

Loading…

PaperQA2, Future-House, 2023.02

Paper/Blog Link My Issue
#Article #NLP #QuestionAnswering #AIAgents #GenerativeAI #RAG(RetrievalAugmentedGeneration) #Repository Issue Date: 2024-09-11 Comment

元ポスト:

Loading…

Reflection 70B, GlaiveAI, 2024.09

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #InstructionTuning #OpenWeight #SelfCorrection #PostTraining #KeyPoint Notes #Reference Collection Issue Date: 2024-09-06 Comment

ただまあ仮に同じInputを利用していたとして、promptingは同じ（モデルがどのようなテキストを生成し推論を実施するかはpromptingのスコープではない）なので、そもそも同じInputなのでfair comparisonですよ、という話に仮になるのだとしたら、そもそもどういう設定で比較実験すべきか?というのは検討した方が良い気はする。まあどこに焦点を置くか次第だと思うけど。

エンドユーザから見たら、reflectionのpromptingのやり方なんてわからないよ！という人もいると思うので、それを内部で自発的に実施するように学習して明示的にpromptingしなくても、高い性能を達成できるのであれば意味があると思う。

ただまあ少なくとも、参考でも良いから、他のモデルでもreflectionをするようなpromptingをした性能での比較結果も載せる方が親切かな、とは思う。

あと、70Bでこれほどの性能が出ているのはこれまでにないと思うので、コンタミネーションについてはディフェンスが必要に思う（他のモデルがそのようなディフェンスをしているかは知らないが）。

追記
→ 下記記事によると、LLM Decontaminatorを用いてコンタミネーションを防いでいるとのこと
https://github.com/lm-sys/llm-decontaminator

Reflection自体の有用性は以前から示されている。
参考: Self-Reflection in LLM Agents: Effects on Problem-Solving Performance, Matthew Renze+, N/A, arXiv'24 , [Paper Note] Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection, Akari Asai+, ICLR'24, 2023.10 , [Paper Note] AnyTool: Self-Reflective, Hierarchical Agents for Large-Scale API Calls, Yu Du+, ICML'24, 2024.02 , [Paper Note] Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies, Liangming Pan+, TACL'24, 2023.08

ollamaで実際に動かして日本語でのQAを試している記事。実際のアウトプットやreflectionの内容が確認でき、おもしろい。

システムプロンプトで< thinking >タグでInputに対して推論し、< output >タグ内で最終出力を行い、推論過程で誤りがある場合は< reflection >タグを用いて修正するように指示している。

おそらく、thinkingタグ内の思考過程でモデルが誤りに気づいた場合は、thinkingタグの途中でreflectionタグが出力され、その時点でCoTが修正されるようである（もしくはoutputとthinkingの中間）。このため、誤ったCoTに基づいてOutputが生成される頻度が減少すると考えられる。

このような挙動はおそらく、reflection用の学習データでSFTしないとできないと思うので

（たとえば、ReflectionタスクをするようなデータでSFTをしていない場合、出力の途中で誤りを検出し出力を修正するという挙動にはならず、回答として自然な文を最後までoutputすると思う。その後でreflectionしろと促すことはpromptingでできるかもしれないが、そもそもreflectionする能力があまり高くない可能性があり、うまく修正もしてくれないかも）

reflectionの能力を高めるようなデータでSFTをしていないモデルで似たようなpromptingをしても、うまくいかない可能性があるので注意が必要だと思われる。

参考: https://note.com/schroneko/n/nae86e5d487f1

開発者曰く、HFに記載の正しいシステムプロンプトを入れないと、適切に動作しないとのこと。
元ツイート:

Loading…

どうやら初期にアップロードされていたHFのモデルはweightに誤りがあり、挙動がおかしくなっていたようだ。
正しいモデルの挙動は下記ツイートのようである。thinking内でreflectionが実施されている。

実際にいくつかの例をブログをリリース当日に見た時に、reflectionタグがoutputの後に出力されている例などがあり、おや？という挙動をしていたので、問題が是正されたようだ。

Loading…

HFのモデルが修正された後もベンチマークの結果が再現されないなど、雲行きが色々と怪しいので注意した方が良い。

続報

Loading…

開発者ポスト:

Loading…

再現実験を全て終了し、当初報告していた結果が再現されなかったとCEOが声明：

Loading…

Nejumi LLMリーダーボード, Weights & Biases

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #Japanese #One-Line Notes Issue Date: 2023-10-02 Comment

JGLUEを使ったLLMの日本語タスクベンチマーク

v4が公開:
https://wandb.ai/llm-leaderboard/nejumi-leaderboard4/reports/Nejumi-LLM-4--VmlldzoxMzc1OTk1MA

元ポスト:

Loading…

Exploring the Potential of Using an AI Language Model for Automated Essay Scoring, Mizumoto+, Research Methods in Applied Linguistics‘23

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Education #AES(AutomatedEssayScoring) Issue Date: 2023-04-01 Comment

著者によるポスト:

Loading…

著者によるブログ:

https://mizumot.com/lablog/archives/1805