reading


Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Transformer #DiffusionModel #ICLR #Selected Papers/Blogs #One-Line Notes #Author Thread-Post Issue Date: 2026-05-31 GPT Summary- DiffusionBlocksは、Transformerベースのネットワークを独立した訓練可能なブロックに変換する新しいフレームワークで、メモリボトルネックを軽減しながらエンドツーエンド訓練と同等の性能を維持します。残差結合の特性を活用し、各ブロックが独立に学習できるため、メモリ要件が削減されます。視覚系や拡散など多様なTransformerアーキテクチャに対する実験により、DiffusionBlocksがスケーラブルな訓練を可能にすることが示されています。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=pwVSmK71cS

巨大な残差接続を持つTransformer-likeなモデルをB個のブロックに分割し、ブロック単位で独立してパラメータを学習することによって、学習時に必要なメモリを1/Bに削減できる手法のようである。

(しっかり読めていないので色々と勘違いがあるかもしれないし、気持ちの部分をうまく表現しきれていないかもしれないが)
手法の概要としては、L layer単位でブロックをB個定義する。各ブロックにはnoise rangeの元ノイズを定義し、sample data (x, y)がgivenな時に、出力yにノイズを付与した~yを考える。~yから元の出力yを再現するようデノイジングするように、他のブロックはfreezeしたままで、あるブロックのパラメータを調整する、という操作を繰り返す、という手法のようである。Inference時は、平均0、学習時に定義したnoiseレベルの最大値を分散として持つ正規分布からノイズをサンプリングし、ノイズをinput xがgivenな状態で各ブロックでsequentialにdenoisingしていく(Euler Step)ことによって、最終的に所望の出力yを得る、といったような拡散モデルの逆プロセスを経て出力を得るようである。各ブロックがカバーするノイズのrangeは決まっているが、sequentialにdenoisingをしていくため、ブロック全体でみると大きなノイズからスタートするが、それぞれのブロックに対する入力のnoise levelは徐々に低減していき、各ブロックが担当するnoise levelのrangeまで落ちることが期待され、このような手続きが実現できると思われる。

image




Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #PostTraining #Selected Papers/Blogs #Label-free #KeyPoint Notes #SelfVerification #SelfDistillation Issue Date: 2026-05-31 GPT Summary- LLMがラベルなしシード問題から自己改善できるかを探求。自己検証蒸留というアルゴリズムで、生成した候補解をプロンプトベースでフィルタリングし、自己精選データを構築。循環的一貫性、事実性、正確性の3段階で解を承認し、より高品質なデータが優れたモデルへと導く。Qwen3モデルでは、数学・科学・コーディングの各ドメインで顕著な性能向上を確認。特にQwen3-4Bでは、特定のベンチマークでの改善が見られ、従来手法に比べ優れた性能を達成。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] UQ: Assessing Language Models on Unsolved Questions, Fan Nie+, arXiv'25

- 事後学習済みのLLMを外部のverifier, ground-truthデータ無しで、UQ Verifierに基づいたself-judgementで構築した合成データでSFTすることで性能を押し上げる手法
- データ構築では、1つのラベル無しseed questionに対してn回の応答生成を行い、それらをUQ style verifierでフィルタリングしたデータによって構築する。
- UQ Verifierは、マルチステージのverifierで(今回はself judgment)、各ステージごとにv回のvotingを実施する。各ステージは以下:
- cycle consistency: モデルが生成した応答から質問を逆生成し、オリジナルの問題のコアとなる課題が共通しているかを検証する。
- factual error check: 事実情報にエラーがないかを検証する。
- total correctness: 思考過程と最終的な結論に誤りがないかを検証する。
- 学習データの構築に計算量を増やせば増やすほど性能が向上する (Figure 3)
- test-time verificationのコストを、データ構築時に前払いし、運用時は1度のinferenceでtest-time verification導入時と同等以上の性能を達成する(Table 3)

image




Paper/Blog Link My Issue
#NLP #LanguageModel #LongSequence #SSM (StateSpaceModel) #LinearAttention #Author Thread-Post Issue Date: 2026-05-27 GPT Summary- トランスフォーマーに基づく大規模言語モデルのアテンション機構が長期タスクでスケールしにくい問題を解決するため、睡眠様の統合機構を提案。モデルは睡眠中に文脈をファストウェイトに変換し、指定されたタスクでオフラインで学習を行う。実験により、提案手法がより深い推論を必要とするタスクで性能向上を示し、従来のトランスフォーマーとハイブリッドモデルに対する優位性を証明。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #Conversation #Selected Papers/Blogs #Ambiguity #One-Line Notes #LongHorizon #Proactive Issue Date: 2026-05-27 GPT Summary- パーソナルアシスタントエージェントは、OpenClawのような大規模言語モデルの潜在能力を示しており、特に隠れたユーザー意図の特定に課題がある。本研究では、100のマルチターンタスクからなる積極的支援のベンチマークであるπ-Benchを導入し、長期的な対話におけるユーザーのニーズ予測能力を評価。実験により、積極的支援の難しさ、タスク完遂と積極性の違い、事前対話の重要性が示された。 Comment

元ポスト:

Loading…

ユーザがOpenClawのようなPersonal Assistantを用いて、マルチターンでのconversationを通じて、ある1つのタスクを遂行したいという状況を想定する。このタスクの開始時には、ユーザは一般的には自然で妥当なクエリを投げるが、最初から全てのrequirementを満たしたクエリは投げず、会話をしながら徐々にrequirementを具体化していくような変遷を辿る。このような、タスク開始時に、タスクを開始する上では自然で妥当だが、タスクを完遂するにはrequirementの情報が足りないという状況において、AI Agentが会話を通じて、ユーザが暗黙的に意図している仕様(hidden intents)を考慮して(=ユーザが明示的にinstructionとしてrequirementを与える前に)タスクを完遂できるか、という能力を測定する。
image

1つのタスクを完遂するために20個のsessionの会話によって構成されており、hidden intentsはsessionの中で閉じている、あるいはsessionを跨いで維持されるようなものとなっており、これらの情報をエージェントは過去のsessionの情報(メモリ)から推測するか、あるいは明示的にhidden intentsについて質問をするようなProactiveな挙動によって収集した上でタスクを遂行しなければならない。このとき、Userの役割を果たすエージェントは、GPT-5.4によって再現される。
image




Paper/Blog Link My Issue
#NeuralNetwork #EfficiencyImprovement #NLP #LanguageModel #Transformer #Author Thread-Post Issue Date: 2026-05-27 GPT Summary- CODAは、トランスフォーマーのオペレータをGEMMプラスエピローグとして再パラメータ化し、計算をメモリ書き込み前に実行可能にするGPUカーネルの抽象化である。このアプローチにより、データ移動のボトルネックを軽減し、標準的なTransformerブロックの計算を効率化。代表的なワークロードで高性能を達成し、生産性と効率を両立する道を示す。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Selected Papers/Blogs #Initial Impression Notes #Author Thread-Post #Reviwer Issue Date: 2026-05-27 GPT Summary- AIレビュアーの導入が進む中、その能力と信頼性には疑問が残る。多くの科学者はAIを専門知識を欠くシステムと見なす一方、他の研究者は楽観的である。AIレビュアーの評価を理解するため、本研究では、専門家による2,960件のレビューを評価し、その結果、GPT-5.2が人間レビュアーを上回る性能を示した一方で、他のAIレビュアーは最低評価の人間を上回った。ただし、AIレビュアーは重複や限定的知識に課題を持ち、人間の代わりではなく補完としての役割に留まることが明らかとなった。 Comment

元ポスト:

Loading…

Natureの82本の論文に対してAIにレビューを実施させ、人間の専門家がレビュー結果に対して大規模なアノテーションを実施し、現在のAIレビュワーの能力を評価。その結果、AIレビュワーは
- 根拠が明確で重要な問題点を明らかにし、人間よりも多くの問題点を指摘できるが
- レビューの結果は多様性に乏しく、重複した指摘が多い。
- また、コミュニティや分野における暗黙の了解や規範が欠如した指摘をしたり (W1: missing community / field norms)、過剰に厳しい、あるいはスコープ外や非現実的な要求を実施したりする (W2: over-harsh, out-of-scope, or unrealistic demands)

などの欠点があることが明らかになった、ということのようである。




Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #mid-training #PostTraining #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-05-27 GPT Summary- LLMの訓練パイプラインを効率的にスケールするためにIntrospective Training(IXT)を提案。IXTはポスト訓練の情報を初期段階に活用し、自然言語によるフィードバックを付与することで、データの品質を意識した訓練を実現。これにより、トークンの扱いが変化し、計算効率は最大約2.8倍向上、特に数学やコード分野で優れた性能を達成。 Comment

元ポスト:

Loading…

LLMによってルーブリックに基づいて学習データに対するスコア、critiqueを生成し、データにprependして学習することで、学習効率が改善する。事前学習だけでなく、中間/事後学習にも適用できるようである。

image




Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #Selected Papers/Blogs #One-Line Notes #needs-revision #Author Thread-Post Issue Date: 2026-05-27 GPT Summary- 大規模言語モデル(LLMs)の事前学習におけるスキル獲得の順序を理解するための「暗黙のカリキュラム仮説」を提案。シンプルかつ組み合わせ可能なタスクを用い、モデル間の一貫した出現順序を追跡。特定のパラメータ範囲で構成的なタスクが後に現れる傾向があり、モデルの表現に組み込まれていることを示す。予測可能な訓練経路を通じて、事前学習は構造化されていると示唆。 Comment

元ポスト:

Loading…

これは、著者ポストしっかり読みたい

- モデルファミリー・DataMixtureにはよらず、事前学習では構成的で、かつ予測可能なカリキュラムに則って学習が進行し、かつモデルの内部状態から各スキルがどのように学習されていくかを予測できるという仮説を立て、
- この仮説を検証するために、91種類の構成的なタスクを定義し、emergence(=当該タスクの性能が閾値を超えること)を4種類のモデルファミリーにおける9つのモデル、様々なDataMixtureの元で追跡した。タスクの例は以下:
- simple tasks: 文字列操作/形態素の変換/知識の抽出/翻訳など
- composite tasks: 複数の基礎的な操作のsequentialな組み合わせによって実現されるタスク
- たとえば、`gerund_upper` は大文字への変換➡︎動名詞への変換という順番で定義される。

image

- 様々なモデルファミリーをテストしたところ、LLMは事前学習の間におおむね(完璧ではないが)同じ順番でスキルを獲得していくことが明らかになった
- たとえば、Figure 1を見ると、性能の伸び方は異なるものの、閾値を50%としたときのemergenceの順番はモデルの間で一貫していることがわかる。Table2も参照のこと。

image

- composite tasksは、それらのタスクの構成要素が獲得された後にemergeすることが明らかになった(54/76ケース)
- 例外的に、composition taskが構成要素よりも先に習得されたものが3例ほど存在した
- また、あるcomposite taskの学習曲線を、類似したFunction Vectors [^1] を持つcomposite taskから予測できるか?(i.e., 類似したタスクは同じような学習曲線を持つか?)を検証。
- これを実施するために、composite taskに対してleave-one-outを実施し、類似したタスクのFunction Vectorsから学習の軌跡を予測できるかを実験したところ、R^2スコアが0.68--0.84程度の性能で予測することができた。
- Function Vectors: [Paper Note] Function Vectors in Large Language Models, Eric Todd+, arXiv'23, 2023.10

image

[^1]: Function Vectorsとは、LLMに遂行させるタスクのinput-outputの変換の関係性を保持し、タスクを遂行させる際にLLMに対して強い影響力を持つ内部のactivationsのことを指す。




Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Selected Papers/Blogs #One-Line Notes #DownstreamTasks #Author Thread-Post Issue Date: 2026-05-27 GPT Summary- 信頼性の高い性能予測が必要な言語モデル開発において、クロスエントロピー損失や直接評価には限界があることを指摘し、代わりに専門家が執筆した解答のトークン分布からエントロピーや精度といったトークンレベルの統計を用いた代理指標を提案。これにより、モデル選択や事前学習データの選択、訓練時の予測において一貫して優れた結果を示し、専門家の軌跡がモデル能力評価において有用な信号であることを明らかにした。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

クロスエントロピーlossに代わるcandidate modelのdownstreamタスクの性能を間接的に測定するための代理指標の提案で、クロスエントロピーlossと比較。代理指標はexpertが作成したtrajectoryに対するcandidate modelのnext token predictionの分布(や、エントロピー等指標に基づく重みづけの組み合わせ)によって、算出される(式1, 2)。

image

6つの異なるモデルファミリーの18種類のreasoning modelにおいて、6種類のベンチマークにおいて、モデルのdownstreamタスク性能をランク付けできるかをSpearman Rhoで測定したところ、クロスエントロピーlossが0.36だったのに対し、提案した代理指標(を特徴量として用いたRankSVM)は0.81を記録。また、(あるLLMがある事前学習コーパスで学習された場合のdownstreamタスクでの性能の良さによって)事前学習コーパスの良さをランク付けするタスクの場合、ベースラインと比較して10,000倍計算コストを削減できたとのこと。

image

DataDecide testbed:
- [Paper Note] DataDecide: How to Predict Best Pretraining Data with Small Experiments, Ian Magnusson+, ICML'25, 2025.04




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #PostTraining #On-Policy #One-Line Notes #Author Thread-Post Issue Date: 2026-05-23 GPT Summary- Variational Policy Distillation(VPD)は、強化学習におけるまばらな報酬信号の問題を解決する新たなフレームワークであり、言語フィードバックから密なトークンレベルの監督信号を生成する。これにより、教師と学生ポリシーを共進化させ、教師は軌道結果に基づいて能動的に洗練され、学生はこの情報を内在化する。科学的推論やコード生成タスクにおいて、VPDは従来の手法を一貫して上回る性能を示し、受動的蒸留の限界を克服することを目指す。 Comment

元ポスト:

Loading…

提案手法の全体像を説明する図が論文中に欲しい。式(3)が天下り的に出てきて、私の勉強不足によりこの式を前提に論理展開がスタートする気持ちがよくわからない(おそらくDPOあたりをもっとしっかり理解するとわかるのだろう)。

が、現在のself-teacherに基づくOPSDは、textual feedback Cに対して最適化されておらず、かつzero-shotによる予測を実施しているため、学習が継続するにつれてfeedbackにいつか限界が生じるため学習のために有用なシグナルがなくなるのではないか、という考察に基づき、

textual feedbackから学習する枠組みvariational inference problemの観点から考え直す。すると、KL Divergenceによって正則化されたRLVRは式(3)によって定式化されるreward functionによって傾斜がつけられた最適な事後分布pi_*に対して、ポリシーのKL Divergenceを最適化する問題と等価になる。このとき式(3)の分母にはZ(x)が存在しこれは計算ができない。このため、これを解決するためにteacher network q_phi (y | x, C) を導入し、最適な事後分布pi_thetaの近似的な教師分布とする。これによりELBOを用いた変分下限のRLVRの目的関数を定義することができ、これはEMアルゴリズムによって解くことができる。具体的には

- Eステップ: q_phiとpi_optimalのKL Divergenceが最小となるようにq_phiを更新する。
- Mステップ: pi_thetaとq_phiのKL Divergenceが最小となるようにpi_thetaを更新する。

このとき、EとMではphiとthetaのパラメータが独立して存在するが、実用上はphiとthetaを共有する。これにより、textual feedback Cを解釈する教師モデルと学生モデルの双方がco-evolvingしていくような学習が実現される、

という感じだろうか。

ELBOについて:
- 変分オートエンコーダ⑥変分下限 ELBO: https://note.com/kikaben/n/n00ad3e148770




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Prompting #Safety #Selected Papers/Blogs #One-Line Notes #Steering #Interpretability #Reading Reflections #Author Thread-Post Issue Date: 2026-05-21 GPT Summary- アクティベーション・ステアリングは、モデルの活性化を調整し、その挙動に変化を与える手法であり、解釈可能性や安全性研究で広く利用されている。しかし、任意のテキストプロンプトによってこの挙動が実現可能かは不明である。本研究では、この問題を全射的な観点から考察し、すべてのステアされた活性化が前像を持つかを調査する。実証的結果から、活性化ステアリングは任意のプロンプトによって同じ内部挙動を再現できないことを示し、ホワイトボックス的なステアリングとブラックボックス的なプロンプティングの違いを明確にする評価プロトコルを提案する。 Comment

元ポスト:

Loading…

steeringされたactivationを自然に生み出すプロンプトは存在しない。言い換えると、steeringによって得られる挙動はpromptでは再現できない。これにより以下が示唆される:
- prompt levelのbehaviorとactivation/weightに介入することによるbehaviorの変化は、根源的に異なる現象なので分けて考えなければならない
- white-boxなstteering手法によってjailbreakができたとしても、black-boxな手法(e.g., promptingによる脆弱性など)による脆弱性があることの証拠にはならない

image

Steeringされたactivationは下記のようなAutoencoderを学習することでverbalizeできるのだろうか?hidden_stateのreconstruction lossを通じてverbalizeするためできそうではある。元々のactivationがpromptによって到達不可能な点にいたときに、promptによって到達不能なだけであって内部のネットワークが状態を解釈できないというわけではないので(ここがめちゃめちゃなら何も学習できないということになるがそうではなさそうなので)普通にできそうではある:
- Natural Language Autoencoders: Turning Claude’s thoughts into text, Anthropic, 2026.05




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #SelfImprovement #PostTraining #Selected Papers/Blogs #Non-VerifiableRewards #WorldModels #One-Line Notes #ContinualLearning #Initial Impression Notes #Author Thread-Post Issue Date: 2026-05-21 GPT Summary- ECHOは、CLIエージェントのトレーニングにおいて環境のフィードバックを活用するハイブリッド目的関数を提案。標準的な政策勾配損失と、自己行動による環境観測トークン予測を組み合わせ、ロールアウトに既存の信号を密接な監督として利用する。これにより、TerminalBench-2.0でGRPOのpass@1を倍増させ、環境ダイナミクスの予測精度も向上させる。ECHOは専門家デモなしで、未知のOODタスクのポリシー改善を可能にすることを示している。 Comment

反響がすごそうに見える

- 通常のAgentのRLは環境からの応答に対してマスクをかけてしまい、エージェントが環境(本研究ではターミナル)にどう影響したかを示すground-truthのsignalであるにもかかわらず応答を切り捨ててしまう。
- 提案手法であるECHOはアクションと環境からの応答の双方で学習を行う。通常のaction tokenに対する損失はそのままに、ターミナル出力に対するシンプルなcross-entropy lossを追加する(環境からの応答はcontextに含まれ、モデル内を通過しているため追加のコストはかからない。)。
- このシンプルな修正によって、ベンチマークのスコアが改善し、特にTerminalBench-2.0のスコアはほぼ倍増した。これは言い換えると通常のRLと比較して2.3倍高速になっている。
- また、ターミナルの応答を学習したことでターミナルのダイナミクスをポリシーが学習し、held-out trajectoriesにおいて環境からの応答トークンのクロスエントロピーはECHOでは急激に低下するが、通常のGRPOではほとんどい変化しない。これは、ECHOがモデルに対してターミナルがどう応答するかを学習させていることを示唆する。
- エキスパートによる教師モデルを持たない場合でも、ECHOによってエキスパートによるdemonstrationでSFTを行った後のGRPOが達成するパフォーマンスにほぼ匹敵可能
- エキスパートのtrajectoryから模倣学習するSFTと比較して、ECHOではモデル自身がターミナルの応答を予測することで、ターミナルの応答のうち何が有用なのかを学習する。模倣からではなく、インタラクションを通じて優れた戦略を創発する。
- ECHOを使うことで、AI AgentはVerifierの報酬なしでも自己改善ができる。Verifierの報酬が一切なくても、ECHOはAI Agentが環境内で行動し、何が起こるかを予測するだけで、(GRPOなしで)さらに性能を向上させることができる。つまり、taskのpromptに対して、モデルに環境がどのような応答を返すか予測をさせ、observationに対するクロスエントロピーlossを計算し更新するだけで性能(in-distribution, OOD共に)が改善する。

環境が多くのシグナルを返してくれる場合はterminal以外の環境でもうまくいきそうな話で、非常にシンプルな変更で実現でき、かなりインパクトが大きく見える。

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Training-Free #Selected Papers/Blogs #MLSys #One-Line Notes #SparseAttention #Author Thread-Post Issue Date: 2026-05-21 GPT Summary- BLASSTは、LLMsの文脈での推論能力向上のために提案された動的スパースアテンション機構である。固定スカラー閾値を用いて計算を加速し、トレーニング要件を排除、既存フレームワークと容易に統合可能。自動閾値キャリブレーション手法により、最適閾値と文脈長の逆比例関係が明らかにされ、前計算とデコードそれぞれに単一の閾値を利用。現代GPU上でのベンチマークにおいて、前計算とデコードがそれぞれ1.52倍、1.48倍の速度向上を示し、精度を維持した。 Comment

元ポスト:

Loading…

training-freeで単一のスカラー閾値による制御によって、スキップ可能なattention blockをスキップするSparse Attentionとのこと。

image

非常に使い勝手が良さそうで、50%程度のSparsityにしてもベースラインとなるDense Attentionに対してダウンストリームタスクの性能低下はなく(Table 4)、50%程度のSparsityの場合、prefillとdecode step方法において、Blackwell, Hopperアーキテクチャにおいて約1.3倍の高速化を実現できる(Table5)。




Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Evaluation #Selected Papers/Blogs #memory #One-Line Notes Issue Date: 2026-05-21 GPT Summary- 大規模言語モデル(LLM)が個人化メモリを維持する上での「暗黙的対立」能力を評価するために、400の専門家検証済みシナリオを含むSTALEを提案。三次元の探査フレームワークにより、古い信念の検出やユーザー状態の変化に応じた記憶の修正を評価。最先端のモデルでも精度55.2%に留まり、時代遅れの仮定を受け入れる傾向を示す。状態認識型メモリの改善のためのプロトタイプCUPMemを提示し、明示的な状態判断の重要性を示す。 Comment

元ポスト:

Loading…

提案されたベンチマークでは3つの次元で測定するが、特にユーザから本来とは異なる古い前提のクエリ与えられたときに、それを否定し、自身のメモリからgroundingされた情報に基づいて応答を生成させるテスト(Premise Resistence; 3.5節)に苦戦することが示されている(Table 2)。

他の二つの次元は
- State Resolution: 以前の記憶がすでに無効であることをモデルに対して直接テスト
- Implicit Policy Adaptation: 前提知識を提示せずに、最新の記憶に基づいて応答しなければならない質問(e.g., 今週の通勤プランを教えて)に対するテスト




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SelfImprovement #Selected Papers/Blogs #One-Line Notes #Rubric-based #Author Thread-Post Issue Date: 2026-05-11 GPT Summary- EVOLMは言語モデルの自己改善を促進するポスト訓練手法であり、外部監督に依存せず、モデル自身の評価能力を利用します。具体的には、事例ごとに最適化された評価基準を生成するルーブリック生成器と、そのルーブリックを用いて訓練されたポリシーの二つの能力を交互に訓練します。これにより、EVOLMはQwen3-8Bモデルを用いてGPT-4.1を25.7%上回るルーブリックを生成し、共同訓練されたポリシーは最新の報酬モデルよりも優れた性能を示しました。全体として、EVOLMは内部の評価能力を活用することで、外部の監督なしでの改善を実現することが明らかになりました。 Comment

元ポスト:

Loading…

外部ラベル無しでself-improvingするルーブリックベースな手法の提案。

手法としては、まずfrozenしたRubirc生成器とJudgeモデルで全てのpromptに対してRubricを生成し、ポリシーが生成したロールアウトに基づいてJudgeモデルでRewardを計算することでポリシーを更新。その後更新されたポリシーを用いてpreference pairを構築し、preference pairに対してRubric生成器がルーブリックのロールアウトを生成し、choicedとrejectedなサンプルに対するJudgeのスコアの差の大きさ(すなわち、識別力の高さ)をrewardにRubric生成器を更新する、といったことを繰り返す。
image

多分3説以降の話が面白い。後で読む

Rubricが徐々に変化していき、抽象的なものからよりverifiableなものに変化したり、Rubricそのものが静的だとポリシーの学習に伴い変化する出力分布の変化に対応できない話や、最終的に獲得されたRubricは他のモデルの学習でも高い学習signalを送出するような汎化をするらしい




Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #PostTraining #Initial Impression Notes #ToolUse Issue Date: 2026-05-11 GPT Summary- ツール統合推論(TIR)は、テキストのみの推論能力を超える思考モデルの拡張を提供しますが、ツール評価が逆に推論性能を低下させることも観察されています。本研究は、ツールを使用せずに推論能力を損なわずに強力な思考モデルに自然なツール使用を組み込む方法を提案し、TIRレシピの要点を示します。具体的には、教師の推論軌跡の学習可能性やツール使用軌跡の比率制御が重要であり、最適化手法がTIRの効果を最大化する可能性を示しています。最終的に、Qwen3モデルに適用することで、オープンソースベンチマークで最先端の成績を達成しました。 Comment

元ポスト:

Loading…

Qwen3にcode executorを実行できるようにしても、数学のベンチマークにおいてほとんどツール呼び出しを行っていないにも関わらずスコアが劣化する。つまり、promptにツール呼び出しの情報を含めただけで、text-onlyでの推論能力が低下しロバストでない。さらに、ツール呼び出しを行ったとしてもテキスト空間上で推論を行った後にテキスト推論の結果をverificationする目的でcode executionを行うなど、ツールを用いて思考する能力が不足していることをイントロで指摘している。

適切なツール呼び出しを実施するために、既存研究では適切にツールを呼び出せるようにSFTやRLが行われるが、ツール呼び出しに関してpost-trainingを実施すると通常のtext-onlyでのreasoning能力が低下する課題があるとイントロで述べられている。Table 1に示されているようにツール呼び出しに関する情報をpromptに含めると、既存のOpenWeightモデル(Qwen3のみだが)はツールが有効なタスクであっても性能が向上しないことから、内部パラメータに埋め込まれている推論に関するlogicは簡単に壊れてしまうことを示唆しており、text-onlyでのreasoning能力を保ちつつ適切にtool useを実行できる手法が必要という課題があり、これを克服するための手法を提案しているようである。

image

問題意識は興味深いが、イントロの例にだけでは、Qwen3でのみ生じるのか、Qwen3に対するtool useのためのprompting手法が悪かっただけなのか、OpenWeightモデル全般のモデルパラメータ側の課題なのかが区別がつかず、どの程度インパクトのある話なのかがよくわからない。

個人的には、Table 1はより多くの学習レシピが公開されているモデルファミリーでの結果や、実際にtool useのためのSFT/RLを実施した場合に、text-onlyの推論能力が低下することが示されていてほしいと感じる。論文後半にそういったablationが出てくるのだろうか。




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Transformer #Architecture #Memorization #Reference Collection #Initial Impression Notes Issue Date: 2026-04-25 GPT Summary- トランスフォーマーの表現力を測る指標として、簡潔さを提案し、有限オートマトンや線形時間論理(LTL)式よりも高度に形式言語を表現できることを証明。さらに、トランスフォーマーの性質の検証が理論的に困難であること(EXPSPACE 完全)を示した。 Comment

openreview: https://openreview.net/forum?id=Yxz92UuPLQ

元ポスト:

Loading…

succinctnessの提案。あるパターンを表現するのに、RNN(SSM)や有限オートマトンなどと比較してtransformerは指数関数的に少ないパラメータ数で(理論上は)表現できることが数学的に示されているらしい。

つまりLinear Attentionをベースにしたモデルは計算効率やメモリ消費量では有利だが、表現力を犠牲にしている、ということが示された形になりそうである。

しかし1パラメータあたりに圧縮可能なコンセプトが増えれば増えるほどmemorizationの傾向が強くなり、汎化性能が失われるという見方もできる気がするので、この辺を踏まえると一概にsuccinctnessが高ければ良いというのも成り立たない気もする。

解説:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #Tokenizer #Selected Papers/Blogs #KeyPoint Notes #Byte-level #Author Thread-Post Issue Date: 2026-04-19 GPT Summary- プロキシ圧縮を導入し、圧縮入力と生のバイト列の共同訓練を通じて、モデルに両者の整合を学習させる新しい訓練手法を提案。実験では、訓練効率が大幅に改善され、固定計算予算内でのバイトレベルベースラインを上回る成果を示す。モデル規模の拡大に伴い、プロキシ訓練を受けたモデルはトークナイザーアプローチに匹敵または競合する性能を発揮し、頑健性を維持。 Comment

元ポスト:

Loading…

既存の言語モデルはバイト列をcompressorを通じて圧縮されたシンボルを通じて学習されているものとみなせるが(compressorは言語モデルであればtokenizerでありシーケンス長を4--6倍削減する)、これにより特定の言語モデルがcompressorと強く紐づいてしまう欠点がある。tokenizerを噛ませる欠点としては、グリッチトークン(tokenizerのvocabには登録されているが学習ができていないトークン)やprompt boundary issue (The Art of Prompt Design: Prompt Boundaries and Token Healing, Scott Lundberg, 2023.05 )、言語固有のバイアスなどの問題が生じること。

提案手法はモデルのアーキテクチャとnext token predictionは一切変えずに適用できる。学習時のinputとして、warmupフェーズにおいてはcompressorによるトークン(タグで囲む)と、生のバイト列(タグで囲む)の両方を入力する。warm upが終わった後は、compressed dataを90%、10%をraw dataによって表現して学習する。vocabはバイト列(256個のvocabで済む)とcompressorの両方で共有するが、inference時はcompressorを完全に無くしバイト列の入力のみでinferenceする。

image

ベースラインとしてtokenizerを用いた場合と、バイト列をそのまま学習した場合、neuralモデルをcompressorとして用いた場合と比較し、0.5Bではベースラインよりもスコアが低いが、14B級になると、全てのbaselineを上回るだけでなく、tokenizerを用いた場合のモデルも上回った。
image




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Infrastructure #LLMServing #Selected Papers/Blogs #One-Line Notes #KV Cache #needs-revision #Author Thread-Post Issue Date: 2026-04-18 GPT Summary- Prefill-decode(PD)のデプロイにはKVCache転送が制限要因となっており、従来のアテンションモデルは大容量のKVCacheトラフィックを生成する。ハイブリッドアテンションアーキテクチャはKVCacheサイズを削減するが、データセンター間の運用に問題が残る。そこで、Prefill-as-a-Service(PrfaaS)を提案し、プリフィル処理を専用クラスタにオフロードして効率的なKVCache転送を実現。これにより、リソースの独立したスケーリングを可能にし、実績として、PrfaaSを用いた異種デプロイメントは従来よりも高い提供スループットを達成。 Comment

元ポスト:

Loading…

LLM servingにおいて、prefillはcompute-intensiveで、decodeは(kv cacheが肥大化するため)memory-intensiveであるという特性があるため、(それぞれ得意な処理は得意なノードに任せるため)prefillとdecodeを分離して異なるノードで実施するprefill-decode disaggreagated servingというインフラのアーキテクチャが超巨大モデルでは主流だが、prefill-decode間でKV Cacheを転送しなければならないため、このような分離は同じ計算機クラスター内のRDMA(Remote Direct Memory Access)が可能なノード間に限定されるのが一般的である。

しかし、compute/memory特化型のリソースは通常チップの種類と物理的な場所の両方に制約されてプールされるので、両方のハードウェアがRDMAのような密結合なドメインで利用できないという欠点がある。このため、クラスターを超えてPD分離をしたいのだが、KV Cacheの転送が結局のところボトルネックとなる。現在のモデルはSparse/LinearなアテンションによってKV Cacheに必要なリソースが一桁減っているが、それでもnaiveにクラスタを跨いでPD分離をすると、突発的なリクエストのバーストや、不均一なPrefix Cacheの分布、クラスター間の帯域幅の変動などによって、計算効率が低下してしまう。

そのため、提案手法では、高スループットな長文のprefillに特化した独立クラスタを作り、ローカルにキャッシュされていない(主に長文の)、 prefillのみを同クラスタにオフロードし、短いリクエストはローカルでPDを実施するようなアプローチをとる。こうしてprefill特化クラスタによって生成されたKV Cacheはdecode可能なPDクラスタに対してイーサネットを介して転送される。これは選択的なオフロードであり、帯域幅が制限された経路で非効率な短いリクエストを送信を避けて、prefillの高速化が重要なリクエストのみをクラスタ間転送に集中させるという考え方に基づく。

これを実現するためには、(i)長いリクエストのみをオフロードするルーティングの仕組みと、(ii)ネットワークの輻輳を制御するための、帯域幅を考慮したスケジューラ、(iii)リクエスト長、キャッシュ配置、利用可能なクラスタの帯域幅を総合的に考慮してKV Cache全体を効率的を保ちながら管理するグローバルKV Cacheマネージャが必要。
image

このようなアーキテクチャを1T級のKimi Linearモデルで実験した結果、スループットが1.54倍、TTFTが64%改善した、という感じらしい。




Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #MultiModal #ContrastiveLearning #VisionLanguageModel #DeepResearch #memory #Test-time Learning #Initial Impression Notes #needs-revision Issue Date: 2026-04-14 GPT Summary- DRAはLLMの推論と外部ツールを組み合わせ、過去の経験を活用するメモリシステムを含む。従来の方法はメモリの効率性に課題があり、MIAフレームワークを提案してこれを解決。プランナーとエグゼキューターから成る新しいアーキテクチャは、交互の強化学習で協調を強化し、推論中の更新を実現。さらに、記憶の双方向変換を可能にし、自己進化を促進する機構も搭載。広範な実験でMIAの優位性を示した。 Comment

元ポスト:

Loading…

元ポストを読みなんとなーく分かったつとりになっているゆるふわ理解だが、Plannerのパラメータに経験をTest Time Learningの枠組みを埋め込み、既存のノンパラメトリックなメモリにtrajectoryも活用する二段構えである点が新しい点に感じた。

元論文を流し読みすると、Executor(vlm), Planner(llm, parametricなmemory), Memory Manager(trajectoryを格納; non parametricなmemory)の3つにマルチモーダルなAI Agentを分離する。

plannerは(ToDo 3.2節を読むべし

executorはplannerと過去のtrajectoryに基づいて実行をする。executorはGRPOに」るRLVRで訓練されるが、tool use, plannerのトークンはマスクされ学習される。

(後ほど追記




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ICLR #ConceptErasure #KnowledgeEditing #KeyPoint Notes #needs-revision #Author Thread-Post Issue Date: 2026-04-14 GPT Summary- LLMsの知識更新メカニズムを理解するため、統一フレームワークKnowledgeSmithを提案。編集と忘却を制約付き最適化として位置づけ、自動データセット生成器を用いて修正戦略の知識伝播を研究。実験により、LLMsが人間と同様の更新を示さず、一貫性と容量のトレードオフがあることを発見。新たな戦略設計の示唆を提供。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=znnA2Opw6v

知識の忘却と編集のダイナミクスを制約付きの最適化問題として統一的にモデル化(式3;この最適化問題を実際に解いているわけではなくあくまで理論的にこう定式化できるねという話だと思われる)し、

この定式化を通じて見ると、編集と忘却の違いはターゲットとする分布q_targetの選び方の違いにすぎず、様々な編集と忘却の先行研究は手法は違えど、この制約付きの最適化問題の異なるインスタンスを解いているに過ぎないという視点を提供しているようである。これにより、編集と忘却のトレードオフを公平に比較することが可能となるという主張をしているように見える(自信ない)。

そして、編集と忘却のトレードオフを厳格に分析するためのベンチマークとして、階層的な依存関係や(local vs. global)、更新の多段階での伝播を扱えるベンチマークが必要だが既存ベンチマークではこれらが不足しているため、
知識グラフに基づいて自動的に構築されたデータとベンチマーク(Figure 1を見るにテンプレートベースのMCQを)を作成して分析。

分析には6つのモデルファミリーの13のモデルが用いられ、スケールは1B--123Bの幅広いスケールのモデルで検証された。

image

(先行研究も含めてしっかり読まないと、式3と実験で用いられている手法AlphaEdit, ReLearnの関係性がちょっとわからなそう)

著者ポストにおいては、以下のようなtakeawayが記載されており、大きな知見としてはLLMはデータベースではなく、トレードオフを持つ複雑に絡み合ったシステムであり、以下のような点を明らかにした

- 知識の編集は意図しない変更を引き起こし
- 忘却は知識の完全な消去には失敗する
- 更新する知識を増やせば増やすほど、ローカルの知識は更新されるが、グローバルな一貫性が崩壊し
- 変更することが極めて困難な知識(たとえば歴史)が存在する

とのことである。




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #Coding #SoftwareEngineering #Selected Papers/Blogs #Reference Collection #Initial Impression Notes #AGENTS.md Issue Date: 2026-02-27 GPT Summary- コーディングエージェントのタスク完遂性能を評価するため、LLMが生成したコンテキストファイルと開発者提供のファイルを用いた2つの設定を検討。結果、コンテキストファイルは成功率を低下させ、推論コストを増加させる傾向が見られた。両者はタスクの探求を促進するが、不要な要件がタスクを難化させるため、最小限の要件のみを記述することが推奨される。 Comment

元ポスト:

Loading…

(現時点では)LLMによって自動生成されたコンテキストファイルは性能を劣化させ、inference costを増大させ、人間が作成したコンテキストファイルは性能を向上させる。コンテキストファイルによってoverviewを提供することを推奨しているものがあるが、性能向上には寄与しない。コンテキストファイルに従うことはより多くのthinkingを誘発し、結果的にタスクを難しくする。最小限のrequirementsのみを記述したものを使うことを推奨する、といった内容らしい?

関連:

Loading…


best practiceは以下とのこと:
- # Writing a good CLAUDE.md, Kyle, 2025.11

解説:

Loading…


非常にコンパクトにまとまっている。

解説:

Loading…

解説:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Distillation #LongSequence #PositionalEncoding #Architecture #read-later #Selected Papers/Blogs #RecurrentModels Issue Date: 2026-02-12 GPT Summary- ハイブリッドトランスフォーマーアーキテクチャは、ソフトマックスアテンションとRNNを組み合わせたもので、長い文脈の処理においてトレードオフを示すが、高コストな事前トレーニングが課題。既存の転送法は大量のデータを必要とし、ハイブリッドモデルの性能低下を招く。本研究では、トランスフォーマーからRNNアテンションハイブリッドモデルへの蒸留手法HALOを提案し、新たな位置エンコーディングスキームHyPEを導入したHypeNetを開発。HALOを用いてQwen3シリーズをHypeNetに変換し、わずか2.3Bトークンで同等の性能を実現しつつ、長文脈性能と効率を向上させた。

Paper/Blog Link My Issue
#ComputerVision #MultiModal #DiffusionModel #LongSequence #VideoGeneration/Understandings #WorldModels #4D (Video) #One-Line Notes #DepthEstimation Issue Date: 2025-12-21 GPT Summary- LongVie 2は、動画生成システムに基づくワールドモデルで、制御可能性、視覚品質、時間的一貫性を向上させるために3段階で訓練される自己回帰フレームワークです。マルチモーダルガイダンス、劣化認識トレーニング、歴史的コンテキストガイダンスを用いて、長距離制御と高い視覚忠実度を実現。LongVGenBenchを導入し、100本の高解像度動画を用いたベンチマークを提供。実験により、最先端の性能を達成し、連続動画生成の可能性を示しました。 Comment

pj page: https://vchitect.github.io/LongVie2-project/

元ポスト:

Loading…

関連:
- [Paper Note] LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation, Jianxiong Gao+, arXiv'25, 2025.08

最大5分間のlong videoの生成が可能で、マルチモーダルな入力(depth map(空間の構造の制御; dense control signal), point map(キーポイントの時間軸での軌跡; sparse control signal))に応じて生成をコントロールし、temporal consistencyも向上しているとのこと。

関連:
- [Paper Note] SpatialTracker: Tracking Any 2D Pixels in 3D Space, Yuxi Xiao+, CVPR'24, 2024.04
- [Paper Note] Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control, Zekai Gu+, SIGGRAPH'25, 2025.01
- [Paper Note] Video Depth Anything: Consistent Depth Estimation for Super-Long Videos, Sili Chen+, CVPR'25 Highlight, 2025.01




Paper/Blog Link My Issue
#ComputerVision #Transformer #DiffusionModel #TextToImageGeneration #Selected Papers/Blogs #2D (Image) #One-Line Notes #ImageSynthesis #AutoEncoder Issue Date: 2025-12-17 GPT Summary- 本研究では、従来のVAEエンコーダを事前学習された表現エンコーダに置き換えた表現オートエンコーダ(RAE)を提案し、生成モデルの品質向上を目指す。RAEは高品質な再構成と意味的に豊かな潜在空間を提供し、拡散トランスフォーマーの効果的な機能を可能にする。実験により、ImageNetで優れた画像生成結果を達成し、RAEが拡散トランスフォーマーの新しいデフォルトとなるべきことを示した。 Comment

openreview: https://openreview.net/forum?id=0u1LigJaab

pj page: https://rae-dit.github.io

encoderをSigLIPなどの強力な(frozenした)vision encoderを用いた上で、デコーダを学習する手法。VAEではCNN等で潜在表現を低次元に圧縮するが、表現力に乏しく結果的に意味的な表現を捉える能力に乏しかったが、より強力な事前学習されたエンコーダと高次元の潜在表現を扱うことでDiffusion Modelで扱う潜在表現を進化させる。

image




Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #TextToImageGeneration #Self-SupervisedLearning #FlowMatching Issue Date: 2025-12-17 GPT Summary- 視覚生成のためにSVG-T2Iフレームワークを提案し、VFM特徴ドメイン内で高品質なテキストから画像への合成を実現。標準的な拡散パイプラインを用いて競争力のある性能を達成し、GenEvalで0.75、DPG-Benchで85.78を記録。プロジェクトはオープンソース化され、視覚生成に関する研究を促進。 Comment

HF: https://huggingface.co/KlingTeam/SVG-T2I

元ポスト:

Loading…

先行研究:
- [Paper Note] Latent Diffusion Model without Variational Autoencoder, Minglei Shi+, arXiv'25, 2025.10
- [Paper Note] Diffusion Transformers with Representation Autoencoders, Boyang Zheng+, arXiv'25, 2025.10




Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs #KeyPoint Notes #Author Thread-Post Issue Date: 2025-10-02 GPT Summary- 大規模言語モデル(LLMs)のソフトウェア工学(SWE)への応用が進んでおり、SWE-benchが重要なベンチマークとなっている。マルチターンのSWE-Agentフレームワークと単一ターンのエージェントレス手法は相互排他的ではなく、エージェントレストレーニングが効率的なSWE-Agentの適応を可能にする。本研究では、Kimi-DevというオープンソースのSWE LLMを紹介し、SWE-bench Verifiedで60.4%を達成。追加の適応により、Kimi-DevはSWE-Agentの性能を48.6%に引き上げ、移植可能なコーディングエージェントの実現を示した。 Comment

元ポスト:

Loading…

Agentlessはこちら:
- [Paper Note] Demystifying LLM-based Software Engineering Agents, Chunqiu Steven Xia+, FSE'25, 2024.07

著者ポスト:

Loading…


ポストの中でOpenhandsが同モデルを内部で検証し、Openhandsの環境内でSWE Bench Verifiedで評価した結果、レポート内で報告されているAcc. 60.4%は達成できず、17%に留まることが報告されていた模様。

Openhandsの説明によるとAgentlessは決められた固定されたワークフローのみを実施する枠組み(Kimi Devの場合はBugFixerとFileEditor)であり、ワークフローで定義されたタスクは効果的に実施できるが、それら以外のタスクはそもそもうまくできない。SWE Agent系のベンチのバグfixの方法は大きく分けてAgentlike(コードベースを探索した上でアクションを実行する形式)、Fixed workflow like Agentless(固定されたワークフローのみを実行する形式)の2種類があり、Openhandsは前者、Kimi Devは後者の位置付けである。

実際、テクニカルレポートのFigure2とAppendixを見ると、File Localization+BugFixer+TestWriterを固定されたプロンプトテンプレートを用いてmid-trainingしており、評価する際も同様のハーネスが利用されていると推察される(どこかに明示的な記述があるかもしれない)。
一方、Openhandsではより実環境の開発フローに近いハーネス(e.g., エージェントがコードベースを確認してアクションを提案→実行可能なアクションなら実行→そうでないならユーザからのsimulated responceを受け取る→Agentに結果をフィードバック→エージェントがアクション提案...)といったハーネスとなっている。

このように評価をする際のハーネスが異なるため、同じベンチマークに対して異なる性能が報告される、ということだと思われる。

単にSWE Bench VerifiedのAcc.だけを見てモデルを選ぶのではなく、評価された際のEvaluation Harnessが自分たちのユースケースに合っているかを確認することが重要だと考えられる。

参考:

- OpenhandsのEvaluation Harness: https://docs.all-hands.dev/openhands/usage/developers/evaluation-harness




Paper/Blog Link My Issue
#Analysis #NLP #Chain-of-Thought #Reasoning #read-later Issue Date: 2025-08-27 GPT Summary- Chain-of-Thought (CoT) プロンプティングはLLMの性能向上に寄与するが、その深さには疑問が残る。本研究では、CoT推論が訓練データの構造的バイアスを反映しているかを調査し、訓練データとテストクエリの分布不一致がその効果に与える影響を分析。DataAlchemyという制御環境を用いて、CoT推論の脆弱性を明らかにし、一般化可能な推論の達成に向けた課題を強調する。

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ICLR #read-later Issue Date: 2025-08-11 GPT Summary- 言語モデルの数学的推論能力を研究し、GSM8Kベンチマークでの精度向上のメカニズムを探る。具体的には、推論スキルの発展、隠れたプロセス、人間との違い、必要なスキルの超越、推論ミスの原因、モデルのサイズや深さについての実験を行い、LLMの理解を深める洞察を提供。 Comment

openreview: https://openreview.net/forum?id=Tn5B6Udq3E

解説:
- 言語モデルの物理学, 佐藤竜馬, 2025.03

小学生向けの算数の問題を通じて、以下の基本的なResearch Questionsについて調査して研究。これらを理解することで、言語モデルの知能を理解する礎とする。

## Research Questions
- 言語モデルはどのようにして小学校レベルの算数の問題を解けるようになるのか?
- 単にテンプレートを暗記しているだけなのか、それとも人間に似た推論スキルを学んでいるのか?
- あるいは、その問題を解くために新しいスキルを発見しているのか?
- 小学校レベルの算数問題だけで訓練されたモデルは、それらの問題を解くことしか学ばないのか?
- それとも、より一般的な知能を学習するのか?
- どのくらい小さい言語モデルまで、小学校レベルの算数問題を解けるのか?
- 深さ(層の数)は幅(層ごとのニューロン数)より重要なのか?
- それとも、単にサイズだけが重要か?

(続きはのちほど...)




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Prompting #ACL #read-later #MajorityVoting Issue Date: 2025-08-03 GPT Summary- 本研究では、LLMのテスト時の計算スケーリングにおけるプロンプト戦略の効果を調査。6つのLLMと8つのプロンプト戦略を用いた実験により、複雑なプロンプト戦略が単純なChain-of-Thoughtに劣ることを示し、理論的な証明を提供。さらに、スケーリング性能を予測し最適なプロンプト戦略を特定する手法を提案し、リソース集約的な推論プロセスの必要性を排除。複雑なプロンプトの再評価と単純なプロンプト戦略の潜在能力を引き出すことで、テスト時のスケーリング性能向上に寄与することを目指す。 Comment

non-thinkingモデルにおいて、Majority Voting (i.e. Self Consistency)によるtest-time scalingを実施する場合のさまざまなprompting戦略のうち、budgetとサンプリング数が小さい場合はCoT以外の適切なprompting戦略はモデルごとに異なるが、budgetやサンプリング数が増えてくるとシンプルなCoT(実験ではzeroshot CoTを利用)が最適なprompting戦略として支配的になる、という話な模様。

さらに、なぜそうなるかの理論的な分析と最適な与えられた予算から最適なprompting戦略を予測する手法も提案している模様。

が、評価データの難易度などによってこの辺は変わると思われ、特にFigure39に示されているような、**サンプリング数が増えると簡単な問題の正解率が上がり、逆に難しい問題の正解率が下がるといった傾向があり、CoTが簡単な問題にサンプリング数を増やすと安定して正解できるから支配的になる**、という話だと思われるので、常にCoTが良いと勘違いしない方が良さそうだと思われる。たとえば、**解こうとしているタスクが難問ばかりであればCoTでスケーリングするのが良いとは限らない、といった点には注意が必要**だと思うので、しっかり全文読んだ方が良い。時間がある時に読みたい(なかなかまとまった時間取れない)

image

最適なprompting戦略を予測する手法では、
- 問題の難易度に応じて適応的にスケールを変化させ(なんとO(1)で予測ができる)
- 動的に最適なprompting戦略を選択

することで、Majority@10のAcc.を8Bスケールのモデルで10--50%程度向上させることができる模様。いやこれほんとしっかり読まねば。




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ICLR #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2026-06-02 GPT Summary- 自己回帰型トランスフォーマーLMsにおける入力と出力の関数を表すベクトルとしてのファンクションベクトル(FV)の存在を示す。因果媒介分析を用いて、少数のアテンションヘッドがタスクのコンパクトな表現を伝達することを確認し、FVがゼロショットや自然言語テキストのICLタスクに対しても頑健であることを明らかにした。中間層間での因果効果が強いことが判明し、FVには出力空間を符号化する情報が含まれているが、これだけではFVの再構成は不可である。さらに、FVにおける意味ベクトルの組成を調査し、足し合わせることで新たなタスクを引き起こすことができることを示した。これにより、関数抽象のコンパクトで因果的な内部表現をLLMsから抽出できることが確認された。 Comment

openreview: https://openreview.net/forum?id=AwyxtyMwaG

本研究では、In-context Learningを実施した際のLLMにおいて、あるタスクにおいて応答を生成する際に、当該タスクで必要な変換に関する情報を保持しているベクトル(Function Vectors)が、LLMの attention_ output に存在することを示唆する結果を得た。Function Vectorsは直接的にタスクを実施するわけではないが、特定の手続きを言語モデル内で遂行させるトリガーの役割を果たす。

image

Function Vectorを検出するために、あるタスク t において、Figure 2のようなinput-outputのペア (x_i, y_i) のみで promptingをすることでタスクを遂行させる方法を考える。また、prompt p が与えられたときに、outputをランダムな出力~y_iに変更した input-outputペア (x_i, ~y_i) prompt ~pを考える。このとき、あるタスクの遂行に強い影響を与えるLLM中のactivationを特定したい。

このために、本研究ではトークンをまたいだ情報のやりとりはattentionを介して実行されることから、分析対象をattentionに限定し、まず正常な in-context prompt p を入力した際の全てのlayer l のattention output a_lj (jはheadのindex) を計算する。続いて、ランダムな出力に置換され破損した in-context prompt ~p を入力した際に、ある layer l, head j のattentionを正常なin-context prompt p に基づいて計算されたものと置換して出力をさせ、正解 y_i を復元させる効果 Causal Indrect Effect (CIE) を 式(3)により定義する。つまり、破損したprompt ~pを利用した場合に、attentionを置換する前後によって、どれだけ正解y_iが得られる確率が大きくなったか、を測定している。

このCIEを全てのタスクに対して計算し、平均化することで、各種attention headのAverage Indirect Effectを計算する(式4)。これにより、どのattention headがタスクの遂行において強い因果的な影響力を保持するかを特定する。最終的に、AIEの値が大きなattention head集合Aを考えることができ、この少数のattention headの集合が、ICLタスクを特定し情報を伝達する役割を果たしているという仮説を立てることができる。また、Aが与えられたとき、a_ljのあるタスク t におけるactivationの平均をとることによって、1つのベクトルとして表現することができ、このベクトルのことをFunction Vector と呼ぶ(式5)。




Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #OpenWeight #Selected Papers/Blogs #VideoGeneration/Understandings #Robotics #WorldModels #UMM #Omni #One-Line Notes #WorldActionModel #Author Thread-Post Issue Date: 2026-06-02 Comment

元ポスト:

Loading…

公式:

Loading…

encoder-freeなOmniモダリティモデルで、かつ将来の世界の状態、およびactionを予測可能なWorldActionModel

image




Paper/Blog Link My Issue
#Article #General #NLP #LanguageModel #AIAgents #SyntheticData #One-Line Notes #Environment #ToolUse #Author Thread-Post Issue Date: 2026-05-27 Comment

environment: https://app.primeintellect.ai/dashboard/environments/primeintellect/general-agent

元ポスト:

Loading…

著者ポスト:

Loading…

約1000のドメイン、約4500タスク、約8000種類以上の独自のツールを持つ、汎用エージェント学習のための学習環境とその構築方法。タスクを生成するAIとそれに対して解答するAIを用意し、解答がどの程度正解していたかによって難易度を同定しフィルタリング等を行いつつ、生成されたタスクをacceptするか否かを決定する。実際に構築された環境でRL/SFTを実施したところ、未知のベンチマークに対して性能が反化することも確認したとのこと。




Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #SoftwareEngineering #PostTraining #Selected Papers/Blogs #Initial Impression Notes #Asynchronous Issue Date: 2026-04-07 Comment

元ポスト:

Loading…

Olmo3においてpost-trainingのインフラを同期から非同期に変更したことを含めて4倍高速化したことに関して、それをどのように実現したかに関するwrite up。気になる。

関連:
- [Paper Note] Olmo 3, Team Olmo+, arXiv'25, 2025.12




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #LongSequence #read-later #Selected Papers/Blogs #LatentReasoning #RecursiveModels #ContextRot Issue Date: 2026-01-02 Comment

関連研究:
- [Paper Note] Recursive Language Models, Alex L. Zhang+, arXiv'25, 2025.12
- Context Rot: How Increasing Input Tokens Impacts LLM Performance, CHROMA TECHNICAL REPORT, 2025.07
- [Paper Note] Scaling Long-Horizon LLM Agent via Context-Folding, Weiwei Sun+, arXiv'25, 2025.10
- [Paper Note] AgentFold: Long-Horizon Web Agents with Proactive Context Management, Rui Ye+, arXiv'25, 2025.10
- [Paper Note] Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models, Qizheng Zhang+, arXiv'25, 2025.10




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #ReinforcementLearning #Blog #Distillation #On-Policy Issue Date: 2025-10-30 Comment

元ポスト:

Loading…

- Unlocking On-Policy Distillation for Any Model Family, Patiño+, HuggingFace, 2025.10

で提案されている手法拡張してトークナイザが異なるモデル間でもオンポリシーRLを用いてknowledge distillationを実現できるようなGKD trainerがTRLに実装されたとのこと。




Paper/Blog Link My Issue
#Article #NLP #AIAgents #Blog #ContextEngineering Issue Date: 2025-10-28 Comment

元ポスト:

Loading…

KV Cacheのhit率がまず重要で、TTFTの速さと、コストの双方に影響する。1トークンでも異なるとCacheがhitしなくなるので、注意を払う。たとえば、Contextのfeedが決定論的であることを確認し、prompt冒頭にタイムスタンプを含めるなどは避ける。セルフホスティングの場合はルーティングによってCacheが働くように共通のワーカーを一貫して使う。




Paper/Blog Link My Issue
#Article #NLP #ReinforcementLearning #Blog #Scaling Laws #read-later #Selected Papers/Blogs Issue Date: 2025-10-21 Comment

元ポスト:

Loading…

下記研究の内容を解説している。
- [Paper Note] The Art of Scaling Reinforcement Learning Compute for LLMs, Devvrit Khatri+, arXiv'25, 2025.10

事前学習におけるスケーリング測は大規模な事前学習実行時の最適な設定の選択に関するもの(e.g. chinchilla law)だったが、RL(=特定のベースモデルから最大限の性能を引き出すための手法)のスケーリング則においてはどのアルゴリズムをより長期間実行させるかという選択に焦点を当てている。

(後で続きを読む)




Paper/Blog Link My Issue
#Article #Analysis #MachineLearning #NLP #ReinforcementLearning #Repository #Mathematics #Scaling Laws #read-later #One-Line Notes Issue Date: 2025-10-11 Comment

元ポスト:

Loading…

Qwen3をGSM8KでRL Finetuningしたらパラメータ数が小さいモデルは大きなgainを得たが、パラメータが大きいモデルはそれほどでもなかったので、パラメータ数が大きいほどスケールするわけではなく(むしろ恩恵が小さくなる)、かつ報酬をstrictにするとQwenは指示追従能力がないことで学習が全然進まなかった(柔軟なものにしたらそうではなかったので適切な報酬が重要)、GSM8KでRL FinetuninpしたモデルのreasoningはMMLUに転移しなかったので、RL Finetuningは学習データとして与えたドメインのパターンを学習しているだけなのではないか、みたいな話がポストに記述されている。

AI2のResearcherからの所見:

Loading…


元の話とこの辺をしっかり読み解いたらとても勉強になりそうな予感👀

Scaling Laws系の研究:
- [Paper Note] Training Compute-Optimal Large Language Models, Jordan Hoffmann+, NeurIPS'22, 2022.03
- [Paper Note] Scaling Laws for Neural Language Models, Jared Kaplan+, arXiv'20, 2020.01
- [Paper Note] Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23
- [Paper Note] Scaling Laws for Autoregressive Generative Modeling, Tom Henighan+, arXiv'20, 2020.10
- Scaling Laws for Value-Based RL, Fu+, 2025.09 (RL関連)
- [Paper Note] Bayesian scaling laws for in-context learning, Aryaman Arora+, COLM'25, 2024.10 (ICL関連)

画像とかData Mixture, MoEなど他にも色々あるが、一旦上記らへんと元ポスト・AI2からの所見を読み解いたらどういったものが見えてくるだろうか?(全部読んでじっくり考えたいけど時間が無いので...)一旦GPTにきいてみよう

GPTにきいてみた(私は無課金勢だがthinking timeが挟まれたのとデコーディング速度の適度な遅さと、limitに到達しましたというメッセージがなかったことから鑑みるに、以下はGPT-5によって回答されていると考えられる)
https://chatgpt.com/share/68ec5024-83fc-8006-b8c6-14060191fb91

RLのScaling Lawsに関する研究がでました:
- [Paper Note] The Art of Scaling Reinforcement Learning Compute for LLMs, Devvrit Khatri+, arXiv'25, 2025.10