Initial Impression Notes
[Paper Note] The Finetuner's Fallacy: When to Pretrain with Your Finetuning Data, Christina Baek+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Supervised-FineTuning (SFT) #Scaling Laws #mid-training #PostTraining #read-later #DataMixture Issue Date: 2026-03-20 GPT Summary- 専門化事前学習(SPT)を通じてドメインデータを再利用し、モデルの性能を向上。SPTは微調整後の一般能力を保持し、必要な事前学習トークン数を最大1.75倍削減。特定のドメインにおいて、SPTは3Bモデルを上回る性能を示し、過適合スケーリング則を導出。事前学習段階で専門ドメインデータを導入することで、一般性能も改善し、計算量を抑えた結果を得る。訓練の早い段階でのドメインデータの統合が重要。 Comment
Finetuningに使うデータをpretraining段階から混ぜておくとより効果的という話らしい。事前学習データの量が増えるためより多くのbudgetが必要になるので効果的なmixtureのためのスケーリング則も構築したとか。興味深い
元ポスト:
[Paper Note] Qianfan-OCR: A Unified End-to-End Model for Document Intelligence, Daxiang Dong+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#ComputerVision #NLP #OpenWeight #Selected Papers/Blogs #VisionLanguageModel #OCR Issue Date: 2026-03-18 GPT Summary- Qianfan-OCRは、文書解析と理解を統合した40億パラメータの視覚-言語モデルで、直接画像からMarkdownへの変換を実現。多様なタスクをサポートし、明示的なレイアウト分析を行うためにLayout-as-Thoughtを導入、複雑なレイアウトの精度を向上。OmniDocBenchやOlmOCR Benchでのパフォーマンスが優れており、他の一般的なモデルを上回る結果を示した。 Comment
HF: https://huggingface.co/baidu/Qianfan-OCR
元ポスト:
VLMでOCRするタイプのモデルで様々なベンチマークでSoTA、かつ192 languageをサポートととのこと。試したい
[Paper Note] Mamba-3: Improved Sequence Modeling using State Space Principles, Aakash Lahoti+, ICLR'26, 2026.03
Paper/Blog Link My Issue
#NLP #LanguageModel #SSM (StateSpaceModel) #Architecture #ICLR #Selected Papers/Blogs #LinearAttention Issue Date: 2026-03-18 GPT Summary- 推論効率がLLMの性能に与える影響に注目し、計算量を抑えつつ高い性能を持つモデルの開発が求められている。Transformerモデルは品質は高いが、計算コストが増加するため、サブ二次モデルの必要性が高まっている。しかし、最近の線形モデルは効率を優先した結果、性能が損なわれることも多い。これに対し、我々は状態空間モデル(SSM)に基づく三つの改善策を提案し、Mamba-3モデルを開発した。これにより、下流の言語モデリングタスクで平均精度が大幅に向上し、より少ない状態サイズで同等のパープレキシティを実現した。Mamba-3は性能と効率の向上を示す結果を得た。 Comment
openreview時点でのメモ:
- [Paper Note] MAMBA-3: IMPROVED SEQUENCE MODELING USING STATE SPACE PRINCIPLES, 2025.10
元ポスト:
最近はMambaのようなSSM(あるいはlinear attention)とfull attentionのハイブリッドなdecoder-onlyモデルが主流になりつつあるため、抑えておいた方が良いだろう。
[Paper Note] When Does Sparsity Mitigate the Curse of Depth in LLMs, Dilxat Muhtar+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Architecture #Sparse #Depth #CurseOfDepth Issue Date: 2026-03-17 GPT Summary- LLMの深さの呪いを軽減するために、スパース性が分散伝播を調整する役割を示す。暗黙的スパース性と明示的スパース性の2つの源泉を扱い、出力分散の削減と機能的分化を促進。深いモデルを効果的に利用するための実践的な知見を提供し、下流タスクで精度を4.6%向上させた。 Comment
元ポスト:
関連:
- [Paper Note] The Curse of Depth in Large Language Models, Wenfang Sun+, arXiv'25, 2025.02
モデルのアーキテクチャやパラメータのスパース性が curse of depth を是正するという話らしい。
Figure1の記号はそれぞれ以下を表しており
- T: context window
- lambda: weight decay
- G: Group Query Attention
- MoE: Mixture of Experts
context windowを大きく、weight decayを強く(重みの正則化としての効果が強まる)、GQA (Attentionのスパース性が高まる)、MoE (MLPのスパース性が高まる)という感じだと思われ、特にGQA, MoEが大きく寄与してそうに見える。
[Paper Note] $\textbf{Re}^{2}$: Unlocking LLM Reasoning via Reinforcement Learning with Re-solving, Pinzheng Wang+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #PostTraining Issue Date: 2026-03-12 GPT Summary- Re^2は、強化学習の新手法であり、LLMsが効率的な推論経路を放棄し、必要に応じて再解法を選択することを学習。これにより、従来のRLVRよりも推論性能が30%以上向上し、サンプル数の増加に伴いテスト時の性能も改善。初期の思考過程の質に依存せず、解答の質を高めることが可能となる。 Comment
元ポスト:
CoTの初期の推論の時点で推論の方向性が決まってしまい、うまくいかないものはうまくいかないので、まっさらな状態から解き直す挙動をRLで増幅させる、という話に見える。Self Correctionではなく、完全にtrajectoryを無くすのだろうか?だとしたら、trajectoryの質を動的に検証してその生成は放棄する、というアプローチとやっていることがあまり変わらない気はするのだが、わざわざモデルの内部パラメータに対して介入してその挙動を増幅させる意味はあるのだろうか?
[Paper Note] Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems, Zongqian Li+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #AIAgents #Coding #SoftwareEngineering #PostTraining #DataFiltering Issue Date: 2026-03-12 GPT Summary- 高品質なコード生成モデルの訓練には高品質なデータセットが必要だが、既存のデータは様々な問題を抱えている。本研究では、系統的なデータ処理フレームワークを導入し、自動難易度フィルタリングを用いて難易度の高い問題を保持しつつ簡単な問題を排除。得られたMicroCoderデータセットは、多様な競技プログラミング問題を含み、性能向上を達成。評価によれば、三倍の性能向上を示し、難易度を意識したデータ選定がモデルの性能向上に効果的であることが明らかになった。 Comment
元ポスト:
コーディングドメインにおいて、難易度の高いコーディング問題を収集(単純な問題をフィルタリング)することで、RLにおいて高い学習効率が得られる、という話に見える
[Paper Note] AutoHarness: improving LLM agents by automatically synthesizing a code harness, Xinghua Lou+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#read-later Issue Date: 2026-03-08 GPT Summary- 言語モデルは、エージェントとして利用する際に最適でない行動をとることがあります。特に、Gemini-2.5-FlashはKaggle GameArenaのチェス競技で78%の敗北が違法手に起因しています。そこで、本研究では、ゲーム環境のフィードバックを用いて自動的に“ハーネス”を合成する手法を提案します。この手法は、145のTextArenaゲームにおいて全ての違法手を防ぎ、小型モデルのGemini-2.5-Flashがより大きなモデルを上回る性能を示します。また、Gemini-2.5-Flashは方針をコードとして生成し、意思決定時にLLMを必要としなくなります。得られたコードは、16の1人用ゲームでより高い平均報酬を得ており、カスタムのコード・ハーネスを用いることで、より大きなモデルを上回る性能を示します。 Comment
元ポスト:
あのMurphy本の著者であるMurphy氏が著者にいる👀
[Paper Note] Anatomy of Agentic Memory: Taxonomy and Empirical Analysis of Evaluation and System Limitations, Dongming Jiang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Survey #Analysis #NLP #LanguageModel #AIAgents #read-later #Selected Papers/Blogs #memory Issue Date: 2026-03-07 GPT Summary- エージェント記憶システムは、LLMエージェントが長い相互作用を維持し、長期推論を支援するが、経験的基盤が脆弱である。既存のベンチマークは不十分で、評価指標が実用性に合致せず、性能差が大きく、コストも見落とされがちである。本調査では、エージェント記憶を構造的に分析し、4つの記憶構造から成るMAGシステムを提案。主要な問題点として、ベンチマークの飽和、評価指標の妥当性、精度のバックボーン依存、記憶維持によるオーバーヘッドを挙げ、信頼性の高い評価とスケーラブルなシステム設計の方向性を示す。 Comment
元ポスト:
AI Agentの研究に関してtaxonomyが定義されており、研究分野全体の進展を外観するのに良さそう。
[Paper Note] Solving an Open Problem in Theoretical Physics using AI-Assisted Discovery, Michael P. Brenner+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #ScientificDiscovery #TreeSearch #Physics Issue Date: 2026-03-07 GPT Summary- 本論文では、AIが理論物理学の未解決問題を解決することで数学的発見を加速できることを示す。Gemini Deep Thinkを用いたニューロ-シンボリックシステムが、宇宙ひもによる重力放射のパワースペクトルについて新しい解析解を導出。エージェントはコア積分の評価を通じて、従来の部分的な漸近解を改善。探索制約とフィードバックループを詳細に説明し、最も効果的な解析法としてGegenbauer多項式を特定。これにより、漸近解が数値結果と整合し、量子場理論とも関連づけられることを示した。 Comment
元ポスト:
Gemini Deep Thinkが今度は理論物理に関する未解決問題を解決したらしい?
[Paper Note] $V_1$: Unifying Generation and Self-Verification for Parallel Reasoners, Harman Singh+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#PairWise #NLP #LanguageModel #read-later #SelfVerification Issue Date: 2026-03-06 GPT Summary- 複雑な推論タスクにおける性能向上のため、ペアワイズ自己検証を活用したフレームワーク$V_1$を提案。$V_1$は、不確実性の高い候補ペアに動的に検証計算を割り当てる$V_1$-Inferと、生成器と検証器を共同訓練する$V_1$-PairRLから成る。これにより、コード生成や数学的推論のベンチマークで顕著な性能向上を実現。また、後者は従来の手法より高い効率を達成。 Comment
元ポスト:
self-verificationが進化するとdownstreamタスクの性能に多大な影響が出るし、かつ既存のモデルはフロンティアモデルであってもself-verificationは何らかのガイダンスがないと上手くできないことが示されているので [Paper Note] RefineBench: Evaluating Refinement Capability of Language Models via Checklists, Young-Jun Lee+, ICLR'26, 2025.11
、もしガイダンス無しでうまくできるという話であればおもしろそう
- [Paper Note] RefineBench: Evaluating Refinement Capability of Language Models via Checklists, Young-Jun Lee+, ICLR'26, 2025.11
[Paper Note] DP-RFT: Learning to Generate Synthetic Text via Differentially Private Reinforcement Fine-Tuning, Fangyuan Xu+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #SyntheticData #Privacy #One-Line Notes #DifferentiallyPrivate Issue Date: 2026-03-04 GPT Summary- DP-RFTを用いて、プライベートデータに直接アクセスせずに合成データを生成するためのオンライン強化学習アルゴリズムを提案。合成サンプルの報酬信号にDP保護済み最近傍投票を活用し、LLMが期待されるDP投票を最大化するよう学習。長文やドメイン特化のデータ生成において、プライベートデータの境界を尊重しつつ、従来の手法とのギャップを縮小することに成功。 Comment
元ポスト:
プライベートなデータの保有者が差分プライバシーが保護された状態でLLMのロールアウトに対してvotingによるrewardを返せば、個別のLLMはプライバシーに保護されたデータを見なくてもvotingによるスコアが最大となるように学習できるというアイデア。これによりプライバシーによる課題によりデータがオープンにならないドメインでも、この枠組みでLLMをpost-trainingすれば、LLMが合成データの生成器として振舞えるため、プライベートなドメインのデータスケーラビリティの課題の解決につながるのではという提案
これは利用規約などで個人情報の扱いに関して何らかのユーザとの取り決めがあった場合、どういう扱いになるのだろうか。
Gemini Proに質問して得た感想としては、少なくとも差分プライバシーによってreward signalが個人情報を含むデータではないと保証されたとしても(プライバーバジェットがどの程度設定されていれば問題ないのかといった合意があるかと言われると怪しいらしい)、reward signalを計算する部分においては個人情報を含むデータを活用しているため、個人情報利用のスコープにそれが許容されるようなステートメントが入っていないと、こういった手法を実施することは無理なのかもしれない。
[Paper Note] On the Impact of AGENTS.md Files on the Efficiency of AI Coding Agents, Jai Lal Lulla+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #AIAgents #Coding #SoftwareEngineering #AGENTS.md Issue Date: 2026-03-03 GPT Summary- AIコーディング・エージェント(CodexやClaude Codeなど)がソフトウェア・リポジトリに与える影響を調査。AGENTS.mdファイルの有無で、GitHubプルリクエストにおけるエージェントの実行時間とトークン消費が異なることを示し、AGENTS.mdの存在が実行時間を28.64%、トークン消費を16.58%削減する一方、タスク完了挙動は同等であることが分かった。これに基づき、AIコーディング・エージェントの設定やデプロイに関する実務的な含意を議論し、リポジトリレベルの指示の重要性を明らかにする。 Comment
関連:
- [Paper Note] Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?, Thibaud Gloaguen+, arXiv'26, 2026.02
こちらの研究ではどちらかというとAGENTS.mdによってinference costが増大するようなことが示されているが、具体的にAGENTS.mdの内容としてどのような違いがあるだろうか?
元ポスト:
[Paper Note] On the "Induction Bias" in Sequence Models, M. Reza Ebrahimi+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Analysis #MachineLearning #NLP #Transformer #InductiveBias #Generalization Issue Date: 2026-03-03 GPT Summary- トランスフォーマーは実践的に成功しているが、状態追跡能力に限界があることが指摘されている。本研究では、トランスフォーマーとRNNのデータ効率を比較し、トランスフォーマーは状態空間とシーケンス長が増えるにつれて学習データの必要量が急激に増加することを示した。また、トランスフォーマーは異なるシーケンス長間での重み共有が少なく、長さ特有の学習を行っているのに対し、RNNはデータ再利用を通じて性能向上を実現している。これにより、トランスフォーマーの状態追跡が依然として根本的な課題であることが明らかになった。 Comment
元ポスト:
関連する話でAI Agentにおいて、学習データのtrajectoryが内包するhorizonを超えた途端に成功率が下がる、みたいな話があった気がしたのだが、どの論文だったか、、、。
linear attentionを一部用いているアーキテクチャなどでも、状態遷移の学習をうまくできないのだろうか?
[Paper Note] AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications, Yujie Zhao+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #read-later #Selected Papers/Blogs #memory Issue Date: 2026-03-01 GPT Summary- LLMを用いた自律エージェントの記憶において、実務的応用と評価基準の間にギャップが存在。これを解消するために、AMA-Benchを提案し、実世界のエージェント軌跡とQAを組み合わせて評価。多くの既存システムが因果性を欠き、類似性ベース検索に制約されている中、因果性グラフとツールを用いたAMA-Agentが性能を向上。AMA-AgentはAMA-Benchで57.22%の正解率を達成し、最強記憶システムのベースラインを11.16%上回る。 Comment
元ポスト:
実際のAgenticなタスクのユースケースに沿ったmemoryの評価方法を提案している研究のようで、非常に重要な研究に見える。実際はチャットベースのやり取りではなく、エージェントと環境が相互作用しながら生成されるtrajectoryで構成され、指示はagentによって生成された客観的な目的を含んでおり、trajectoryには多くのnoisyな結果やsymbolが含まれる。また、agentが現在のstateから環境に作用した結果が返ってくるというチャットベースの言語的なフロートは異なり、stateに基づいた因果関係が存在するという差がある。
ベンチマークの結果ではGPT-5.2が優れていそうに見えるが、GPTの場合は最新のGPT-5.2で評価されているのに、Claudeに関してはClaude Haiku 3.5で評価されているのは気になる。Claude Opus 4.6やGemini-3で評価したらどの程度の性能になるのだろうか。
著者ポスト:
[Paper Note] VidEoMT: Your ViT is Secretly Also a Video Segmentation Model, Narges Norouzi+, CVPR'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Transformer #ImageSegmentation #CVPR #read-later #Selected Papers/Blogs #Encoder #2D (Image) #4D (Video) Issue Date: 2026-02-28 GPT Summary- VidEoMTは、専用の追跡モジュールなしで動画セグメンテーションを実現するエンコーダーのみのモデルである。軽量なクエリ伝搬機構を導入し、前フレームの情報を活用することで、フレーム間の連携を図る。時系列に依存しない学習済みクエリと融合により、利益を生み出しつつ追加の複雑さを回避し、最大160 FPSで競争力のある精度を達成した。 Comment
元ポスト:
他タスクでも色々使えそうなアーキテクチャに見える
[Paper Note] Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs, Yining Hong+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #Dataset #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #PEFT(Adaptor/LoRA) #SelfCorrection #Test-Time Scaling #PostTraining #read-later #VisionLanguageModel #3D (Scene) #Robotics #EmbodiedAI #Test Time Training (TTT) Issue Date: 2026-02-28 GPT Summary- 具現化されたLLMsは高レベルのタスク推論を持つが、過去の失敗を振り返れず、ミスが繰り返される独立した試行となる。この問題に対処するため、Reflection Test-Time Planningを導入し、二つの省察モードを統合。実行中の反省では内部評価を通じて候補アクションを生成し、実行後の反省では外部反省を基にモデルを更新。新たに設計したベンチマークで実験を行い、ベースラインモデルに対して有意な改善を示した。定性的分析では、反省を通じた行動の修正が強調された。 Comment
pj page: https://reflective-test-time-planning.github.io/
元ポスト:
- [Paper Note] LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness, Chenming Zhu+, ICCV'25, 2024.09
まだ全然理解できていないが、Action Model, Internal reflection LLM, external reflection LLMとしてLLaVA 3Dと呼ばれるモデルをベースにし、単一のモデルで3種類のモードを学習するようである。そしてテスト時にはLoRAを用いたTTTを実施するようである。
[Paper Note] On Data Engineering for Scaling LLM Terminal Capabilities, Renjie Pi+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #SyntheticData #Coding #OpenSource #SoftwareEngineering #Environment #Terminal Issue Date: 2026-02-28 GPT Summary- ターミナルエージェントのトレーニングデータ戦略に関するギャップを埋めるため、(1) 軽量な合成タスク生成パイプラインTerminal-Task-Genを提供し、(2) データと訓練戦略を総合的に分析。これにより、Nemotron-Terminalファミリーを訓練し、Terminal-Bench 2.0で性能を大幅に改善。ほぼすべての合成データセットをオープンソース化し、研究の加速を図る。 Comment
元ポスト:
terminalエージェントのための合成データを作成する環境と実際に作成されたSFT用のデータセットの公開をしているようである。
[Paper Note] Symmetry in language statistics shapes the geometry of model representations, Dhruva Karkada+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Embeddings #Analysis #NLP #LanguageModel #RepresentationLearning #read-later #Selected Papers/Blogs #Geometric Issue Date: 2026-02-28 GPT Summary- 言語モデルの内部表現は顕著な幾何学的構造を示し、暦の月や歴史的年の配置に関する対称性を示す。特に、月の共起頻度が時間間隔のみに依存することを証明し、高次元の単語埋め込みモデルにおける幾何学的構造を導出。実験的に大規模なテキスト埋め込みモデルとの一致を確認し、共起統計が撹乱されても幾何は維持されることを示している。この頑健性は、潜在変数によって制御される場合に自然に現れ、表現多様体の普遍的な起源を示唆する。 Comment
元ポスト:
こんな不思議なことが(小並感)
[Paper Note] Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?, Thibaud Gloaguen+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #Coding #SoftwareEngineering #read-later #Selected Papers/Blogs #AGENTS.md Issue Date: 2026-02-27 GPT Summary- コーディングエージェントのタスク完遂性能を評価するため、LLMが生成したコンテキストファイルと開発者提供のファイルを用いた2つの設定を検討。結果、コンテキストファイルは成功率を低下させ、推論コストを増加させる傾向が見られた。両者はタスクの探求を促進するが、不要な要件がタスクを難化させるため、最小限の要件のみを記述することが推奨される。 Comment
元ポスト:
(現時点では)LLMによって自動生成されたコンテキストファイルは性能を劣化させ、inference costを増大させ、人間が作成したコンテキストファイルは性能を向上させる。コンテキストファイルによってoverviewを提供することを推奨しているものがあるが、性能向上には寄与しない。コンテキストファイルに従うことはより多くのthinkingを誘発し、結果的にタスクを難しくする。最小限のrequirementsのみを記述したものを使うことを推奨する、といった内容らしい?
関連:
best practiceは以下とのこと:
- # Writing a good CLAUDE.md, Kyle, 2025.11
解説:
非常にコンパクトにまとまっている。
解説:
[Paper Note] CaptionQA: Is Your Caption as Useful as the Image Itself?, Shijia Yang+, CVPR'26, 2025.11
Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Evaluation #MultiModal #CVPR #Selected Papers/Blogs #VisionLanguageModel #2D (Image) #One-Line Notes #ImageToTextGeneration Issue Date: 2026-02-26 GPT Summary- 画像キャプションはマルチモーダルシステムにおける視覚コンテンツの代理表現として機能するが、キャプションが実際のタスクで画像の代わりになり得るかを評価する必要がある。そこで、新たにユーティリティベースのベンチマークCaptionQAを提案し、キャプションの質を下流タスクへの支援度で測定する。CaptionQAは四つのドメインにわたり、33,027件の詳細な多肢選択問題を提供し、キャプションが視覚情報を必要とする質問に対応する力を検証する。LLMによる評価により、キャプションの有用性が画像よりも最大32%低下することが確認され、CaptionQAはオープンソースとして公開される。 Comment
元ポスト:
興味深い研究。MLLMの性能をCaption生成を通じて評価している。
良いCaptionであればdownstream taskに活用した際により良い性能が得られるという仮定の元[^1]、MLLMの性能をAnswer=LLM(Question, Caption)で判断する。AnswerはMultiple Choice Questionであり、Cannot Answerなども含まれる。よりQAに対して適切に回答できるCaptionを生成できたMLLMが優れているというutility-basedな評価となっている。
MLLMに対してCaptionを生成する際は、Questionに関する情報は与えずに、画像の情報のみでCaptionを生成する(ように見える)。セクション9に記述されている通り、4種類のバリエーションのpromptを用いる(long, short, simple, taxonomy hinted)。
skim readingしかできていないのだが、脚注1に記述した通り、モデルによって実画像がgivenな状態とCaptionのみで評価した場合でgapの出方に差がある点と、そもそも到達しているスコアの絶対値の対比が出せる点が個人的に興味深い。これにより特定のMLLMが、画像とテキスト、どちらの情報を"理解"するのに優れているのか、あるいは理解した情報に基づいて"生成"するのに優れているのかも間接的に評価できるのではないかと感じる。たとえばGPT-5は他モデルと比べて双方の能力秀でているが、Gemini-2.5-Proは画像を考慮することは得意だが、画像からテキストを生成する能力は少し劣ることがGPT-5とのgapの差から伺える。GLM4.1-VやLLaVAなどは画像理解は得意だが、画像から重要な情報を生成する能力は大きく低いことがわかる。
同じdownstreamタスクを通じてgapを測定でき、かつ単にベンチマークのスコアという以上の一段深い情報が得られる点がこれまでと異なりおもしろいと感じる。
[^1]:実際、セクション5を見ると実際の画像を与えた場合とCaptionのみの場合で評価した場合でgapがあることが示されており、Captionが画像中のdownstream taskに対してrelevantな情報を完全に保持していないことが示唆される。また、モデルに応じてgapが異なっており、モデルによってCaption生成能力が大きく異なることが示唆される。
この評価のパラダイムは一段抽象化をすると、特定のモダリティの情報に対する理解力と、異なるモダリティに変換して生成する能力をdownstreamタスクを通じて観測することになり、Captionの場合は画像-テキスト間だが、他にも動画-テキスト、音声-テキスト、あるいはそれらの逆など、Omniモーダルなモデルの評価やUMMの評価に使えそうな話だな、と思うなどした。
[Paper Note] Large-scale online deanonymization with LLMs, Simon Lermen+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #Privacy Issue Date: 2026-02-23 GPT Summary- 本研究では、大規模言語モデル(LLMs)を活用し、仮名化されたオンラインプロフィールを高精度で再識別する脱匿名化技術を実現。特に、Hacker NewsユーザーやAnthropic Interviewer参加者に対して、専任の調査官の作業量に匹敵する効率で成功。攻撃パイプラインは、身元特徴の抽出、意味的埋め込みによる候補一致の検索、そして上位候補の推論・検証の3段階から構成。従来手法を大幅に上回り、最高で適合率90%、再現率68%を達成。これにより、オンラインの仮名ユーザー保護の実務的限界が浮き彫りになり、プライバシーの脅威モデルの再考が求められる。 Comment
元ポスト:
Reddit等の匿名の投稿からプロフィールを収集し個人をある程度特定できる、という話な模様。
[Paper Note] Does Socialization Emerge in AI Agent Society? A Case Study of Moltbook, Ming Li+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #AIAgents #read-later #Selected Papers/Blogs #Society Issue Date: 2026-02-18 GPT Summary- AIエージェント社会は人間の社会システムに似た収束ダイナミクスを辿るのかという問いに対し、初の大規模な診断を行った。動的進化を定量的に評価するフレームワークを導入し、言語の安定化や個体の惰性を測定。分析の結果、意味は迅速に安定化するが、エージェント間の多様性と語彙の変化は維持され、均質化には逆らっている。しかし、強い惰性により影響力は一過性で、安定した集団的影響の形成が妨げられている。これにより、相互作用と社会化に関する新たなデザイン原理が示唆される。 Comment
元ポスト:
Moltbook:
- Moltbook is the most interesting place on the internet right now, Simon Willisons's blog, 2026.01
元ポストとアブストしか読めていないのだが、いまのAI Agentはたとえば下記Position Paperのように他者と協働するように作られていない[^1]からこのような現象が生じるのではないか。また、Moltbookにデプロイされているエージェントがどのような目的を設定されているかはわからないが、明確な目的やタスクが与えられないで活動している場合、エージェントの学習データはそのような状況を前提としていないので、エージェントの振る舞いもランダムなノイズのようなものになってしまうのではなかろうか。
- [Paper Note] Position: Humans are Missing from AI Coding Agent Research, Wang+, 2026.02
逆に他者と協働しながら、特定のタスクの正しい完了を報酬とするのではなく、もっと自身の内面的な感情や動機に対して報酬が働くような枠組みが発展し、かつ協働をすることのスキルを得られるようなデータが増えればまた違ったことが起きるのではなかろうか。
[^1]:SWE Agentの例ではあるが現在のAAgentはタスクを正しく完了したことをシグナルとして訓練されるパラダイムに支配されているので協働的な要素は生まれづらいと推察される。それはおそらくマルチエージェントでも一緒である。
[Paper Note] Soft Contamination Means Benchmarks Test Shallow Generalization, Ari Spiesberger+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #Evaluation #read-later #Selected Papers/Blogs #Generalization #One-Line Notes #Contamination Issue Date: 2026-02-17 GPT Summary- LLMの訓練データがベンチマークのテストデータで汚染されると、分布外一般化にバイアスが生じる。従来のデコンタミネーション・フィルターは意味的重複を認識できず、私たちは「ソフト汚染」として訓練データの意味的重複を調査。Olmo3コーパスの解析から、汚染が広範囲に存在し、CodeForcesの78%、ZebraLogicの50%に意味的または厳密な重複を確認。また、ベンチマークデータの重複が訓練データに含まれることで性能が向上し、ファインチューニングが同じベンチマークの未使用データの性能も改善することが示された。これにより、最近のベンチマークの向上は本質的な能力向上とは異なる可能性があることを示唆している。 Comment
元ポスト:
n-gramマッチングによるデータのdeaontaminationは表層レベルでしか捉えられないので、意味的に等価なサンプルをdecontamgnationできず(=Soft Contamination)効果が薄く、意味的なレベルでのコンタミネーションは広範に存在し[^1]、それらサンプルが学習データに含まれるとheldoutされたテストベンチマークのスコアも改善してしまう(=本当に計りたい汎化性能を測れていない)という話をしっかり分析した研究に見え、非常に重要な研究に見える。
[^1]:Olmo3で検証しており、ZebraLogicテストセットの50%とexactに一致するデータが含まれ、CodeForcesのテストセットのうち78%のサンプルと意味的に一致したサンプルが一件以上存在したとのこと。
[Paper Note] An Industrial-Scale Sequential Recommender for LinkedIn Feed Ranking, Lars Hertel+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#RecommenderSystems #NeuralNetwork #Transformer #A/B Testing #SequentialRecommendation #One-Line Notes Issue Date: 2026-02-16 GPT Summary- Feed Sequential Recommender(Feed-SR)は、LinkedInフィード向けのトランスフォーマーを用いた逐次ランキングモデルで、DCNv2ベースのランカーを置換。LinkedInの運用制約を満たしつつ、メンバーのエンゲージメントを向上させ、滞在時間が+2.10%増加。オンラインA/Bテストでの性能を通じて、Feed-SRの効率性と効果についても論じる。 Comment
元ポスト:
linkedinのfeedにおけるsequential recommendationで利用されているモデルでdecoder onlyのpre-LN、RoPE、residual streamの更新がlearnableなパラメータでrescaleされて更新されるようなtransformerアーキテクチャが採用されている。細かいfeatureなどについては読めていない。A/Bテストによって効果が確認されている。
[Paper Note] Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs, Wei Zhou+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs #Data Issue Date: 2026-02-16 GPT Summary- LLM技術がデータ前処理のパラダイムを変革中であり、幅広いアプリケーションに対応するための進化を検討。文献レビューを通じて、データクリーニング、統合、強化の主要タスクにおける手法を整理し、それぞれの利点と制約を分析。さらに、評価指標とデータセットを考察し、スケーラブルなデータシステムや信頼性の高いワークフローに向けた研究課題を提示。 Comment
元ポスト:
自動的なデータの前処理に関するSurvey。文献は120以上引用され、美麗なフォーマットで記述されている。時系列での手法の変遷と、手法間の関係性が図解で整理されており非常にわかりやすそう。データの前処理は実務上の大きなボトルネックなのでどのような研究があるか気になる。
[Paper Note] General Humanoid Whole-Body Control via Pretraining and Fast Adaptation, Zepeng Wang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NeuralNetwork #ReinforcementLearning #MoE(Mixture-of-Experts) #Robotics #EmbodiedAI #WholeBody Issue Date: 2026-02-14 GPT Summary- ヒューマノイドロボットの全身コントローラー学習は、多様な動作や迅速な適応の難しさから依然課題が残る。既存手法はタスク固有のトレーニングを要し、新しい動作への適応時に性能が低下することが多い。本研究では、高速適応と安定した動作追跡を実現する「FAST」を提案。FASTは軽量のデルタアクションポリシーを学習し、分布外動作への効率的適応と壊滅的な忘却の軽減を図る。さらに、センターオブマスに基づく制御を導入し、バランス向上を目指す。広範なシミュレーションと実世界の実験により、FASTは堅牢性や適応効率で最先端のベースラインを超える性能を示した。 Comment
元ポスト:
腕の操作だけのような特定の部位に特化したモーションを学習するのではなく、全身の動きを制御するコントローラーをMoE+3層MLPのアーキテクチャでRL(PPO)によって学習するような手法らしい
[Paper Note] Anchored Decoding: Provably Reducing Copyright Risk for Any Language Model, Jacqueline He+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #Decoding #read-later #Selected Papers/Blogs #Legal #KeyPoint Notes #Copyright Issue Date: 2026-02-12 GPT Summary- 「アンカーデコーディング」は、現代の言語モデルが逐語的な再現を抑制するための新しい推論法であり、リスクのあるLMからより安全な生成を実現します。この手法は、ユーザーが選択した情報予算に応じて生成過程に制約を加え、著作権リスクと有用性のトレードオフを可能にします。また、新たに導入した安全モデルと、クロスボキャブラリ融合を実現するAnchored$_{\mathrm{Byte}}$デコーディングにより、リスク低減と流暢さを維持しつつ、コピーギャップを75%まで排除することが確認されました。 Comment
元ポスト:
権利上の問題がない言語モデル(permissive licenceデータによって学習されたものなど)SafeLMと、任意の言語モデルRiskyLMの2つが与えられたときに、KL Divergenceの予算Kの元、各生成のstep tごとに語彙空間上で両LLMのKL DivergenceがK_t未満となるように生成するトークンを選択することで、出力の有用性(fluencyとfactuality)は維持しつつ、memorizationされている著作権物をそのままデコーディングしてしまうリスクを低減する手法。RiskyLMの非常に高いUtility上の語彙生成確率を、SafeLM側の安全な語彙確率で引っ張って良い塩梅で生成するようなイメージと思われる。
この手法はSafeLMがどれだけ高いUtilityを維持しつつ安全性を保てるかにデコーディング性能が依存すると思われるが、SLMで非常に性能の良いTinyComma 0.8Bもリリースしている。
また、KL Divergenceを測定する都合上、提案手法は共通のVocab(すなわちトークナイザー)を持つモデル間でしか適用できないが、KL Divergenceをバイト空間上で測るように工夫することでVocabの制約を無くす方法も提案している。
著作物をそのまま出力してしまう問題は軽減されそうだと思われるが、著者独特の思想や感情、表現や言い回しなどの著作権で保護される対象をどの程度の度合いで守れるかについては興味がある。また、そのためには次はどのようなステップが必要か?
[Paper Note] Effective Reasoning Chains Reduce Intrinsic Dimensionality, Archiki Prasad+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Chain-of-Thought #Reasoning #PEFT(Adaptor/LoRA) #PostTraining #Selected Papers/Blogs #Generalization #KeyPoint Notes Issue Date: 2026-02-12 GPT Summary- 内在次元数を指標として、推論チェーンの有効性を定量化。異なる推論戦略がタスクの内在次元数を低下させ、一般化性能に逆相関を持つことを示す。これにより、有効な推論チェーンがパラメータを効果的に利用し学習を促進することを明らかにする。 Comment
元ポスト:
元ポストを読むと、以下のような話のようである。非常に興味深い。
良いCoT(推論)はタスクを圧縮する(すなわち、inputを正解へとマッピングする際の自由度を減少させる)ことを示した。
さまざまなCoT戦略に対して、あるタスクに対してさまざまなCoT戦略と、**特定の性能に到達するまでに必要な最小のパラメータ数の関係性(=intrinsic dimensionality)**を分析。パラメータ数の制御はLoRAのパラメータを変化させることによって調整して実験。その結果、Intrinsic Dimensionalityがdownstream taskの性能と、OODへの汎化性能に対して非常に強い相関を示した(Perplexityよりも強い相関)。
Intrinsic DimensionalityをさまざまなCoT戦略で測定すると、(school math系のデータに関しては)python codeを生成し実行する方法(Executed PoT)が最もコンパクトなsolutionを生成し、かつ最も良いOODへの汎化性能が高いことがわかった(他ドメインでこのCoT手法が適しているとは限らない点には注意)。
また、モデルスケールが大きい方がより低いIntrinsic Dimensionalityを示し、良いcompressor(=タスクを圧縮する能力が高い)であることがわかった。
弱くてノイジーなCoT戦略は、スケールせず、パラメータ効率が悪いことがわかった。
非常に興味深い研究で、かつskim readingしかできていない上での感想なのだが、
- 実験がLoRAベースで実施されているため、他の学習のダイナミクスにおいて同様のことが言えるのかという点
- Gemmaでしか実験されていないため他のアーキテクチャでも同じようにIntrinsic Dimensionalityの有効性が言えるのか
- データセットがGSM系列のschool mathドメインでしか実験されていないため、ドメイン間でどの程度一般性を持って言える話なのかという点
は明らかになっていない気がしており、どうなるのか興味がある。また、実際にIntrinsic Dimensionalityを測定しようとした場合に、効率的に求める方法はあるだろうか。
[Paper Note] UI-Venus-1.5 Technical Report, Veuns-Team+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #NLP #ReinforcementLearning #AIAgents #mid-training #ModelMerge #Off-Policy #On-Policy #VisionLanguageModel #One-Line Notes #Rubric-based #GUI Issue Date: 2026-02-12 GPT Summary- 統合型エンドツーエンドGUIエージェントUI-Venus-1.5を紹介。さまざまなアプリケーションに対応する2B、8B、および30B-A3Bのモデルバリアントを持ち、10億トークンを活用したMid-Training、オンライン強化学習、ドメイン固有モデルの統合を実施。評価においてScreenSpot-Pro、VenusBench-GD、AndroidWorldで新たな最先端パフォーマンスを達成し、中国のモバイルアプリでも効果的なナビゲーションを実現。 Comment
元ポスト:
Mid-training(navigation, grounding, reasoning, GUI-VQA, アイコンの認識等の精緻な認識能力)でGUIに関する知識を身につけさせ、オフラインRLで特定のタスクに特化した能力(grounding, navigation等)を向上し、オンラインRLで実シナリオでのエージェントのtrajectoryレベルでの能力を向上させる。これらのモデルはモバイルとwebでそれぞれ学習され、最終的にモデルマージを通じて単一のend-to-endにタスクを実現可能なエージェントを構築する。
コールドスタートの対策のためにSFTではなくオフポリシーRLを使っているのが特徴
下記研究において、SFTが各trajectoryがトークン単位で一致したときに1となるrewardを用いたRLと一致することが示されており、汎化能力に課題があることが指摘されている[^1]。汎化性能は後回しにして、特定の能力にとにかくまずは強化したいという用途であればSFTでも良いかもしれないが、downstreamなタスクがend-to-endで多様なタスクとなる場合は、オフラインRLを用いて汎化性能も考慮しつつ多面的な能力をwarmupするのが良いのかもしれない。
- [Paper Note] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification, Yongliang Wu+, ICLR'26, 2025.08
[^1]: ポリシーがexpertのtrajectoryに対して低い尤度を示すとimportance weightingにより非常に大きい重みがかけられることで分散が大きく、かつ報酬シグナルがsparseなことが課題であることが指摘されている。
[Paper Note] ViT-5: Vision Transformers for The Mid-2020s, Feng Wang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #Transformer #Architecture #read-later #Selected Papers/Blogs #Backbone Issue Date: 2026-02-10 GPT Summary- ViT-5は、ビジョントランスフォーマーの要素を体系的に洗練し、新世代のバックボーンを形成する。このアーキテクチャは、正規化や位置エンコーディングなどの進化を含み、広範な実験で従来の最先端を上回る性能を示した。ImageNet-1k分類では84.2%のトップ-1精度を達成し、生成モデリングでも優れたFIDを記録。改善された表現学習と空間推論により、タスク間の移行が安定し、現代のファンデーションモデルに適したシンプルなアップグレードを提供する。 Comment
元ポスト:
ModernBERTと同じ動機で、ViTに現代的な様々なアーキテクチャ上の工夫を入れたものをシステマチックに調査し、最適な組み合わせを見つけ性能向上したという話に見える。
[Paper Note] Learning to Self-Verify Makes Language Models Better Reasoners, Yuxin Chen+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Reasoning #RLVR #Selected Papers/Blogs #KeyPoint Notes #SelfVerification Issue Date: 2026-02-10 GPT Summary- LLMの生成能力は高いが、自己検証では弱いという非対称性を調査。生成が向上しても自己検証に改善は見られず、逆に自己検証の学習が生成性能を向上させることが示された。生成訓練に自己検証を統合するマルチタスク強化学習フレームワークを提案し、両者の性能向上を実証。 Comment
元ポスト:
LLMの生成能力を高めるようにRLによって事後学習をしてもVerificationの能力は向上しないが、LLMが自身の出力に対してVerificationが正しくできるようにRLVRすると生成と自己検証能力の双方が向上する。
クエリに対して応答を生成し、フィルタリング(応答が長すぎるもの、全ての応答が誤りのもの、最終的な回答が存在しないもの等)を実施した後、クエリレベルで多様なクエリが存在するようにする(多様性)を保ちつつ、overfittingを避けるために正解・不正解がバランスよく存在するように自己検証のためのデータを作成(モデルは学習の初期のロールアウトは不正解ばかり生成し、後半は正解ばかり生成するといった偏りが存在する)し、式(4)で定義される自身が生成した応答が正解か否かを二値分類した結果に基づくRewardを用いてGRPOする、という手法ように見える。
ざーっと見た感じtest time scalingの実験が無いように見えたが、この方法で自己検証をモデルができるようになると、test time scalingした時の性能も向上するのではないか。
また下記研究で示されている通り、現在のLLMはself refine能力が低く何らかのガイドがないと自身で応答を改善していけないため、現在のLLMの弱みを克服するのに有効な手法に見え、非常に興味深い研究だと感じる。
- [Paper Note] RefineBench: Evaluating Refinement Capability of Language Models via Checklists, Young-Jun Lee+, ICLR'26, 2025.11
[Paper Note] SE-Bench: Benchmarking Self-Evolution with Knowledge Internalization, Jiarui Yuan+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Analysis #NLP #Dataset #LanguageModel #ReinforcementLearning #Evaluation #SelfImprovement #PostTraining #read-later #Selected Papers/Blogs #FactualKnowledge #One-Line Notes #ContinualLearning Issue Date: 2026-02-10 GPT Summary- 自己進化には、エージェントが生涯学習者として新しい経験を内面化し、将来の問題解決に活かすことが必要。しかし、以前の知識の混在と推論の複雑さが測定を妨げる。SE-Benchという診断環境を導入し、エージェントが新しいAPIドキュメントを使用することで評価を行い、知識の保持と内面化の新たな洞察を得た。特に「クローズドブック訓練」が知識保持に必要であり、標準的な強化学習が新しい知識を内面化できないことを示す。SE-Benchは知識内面化のための厳密なプラットフォームを提供する。 Comment
元ポスト:
関数をリネームし関連するAPIドキュメント(今回はnumpy)を更新し、Claudeを用いてテストケースを生成し、複数のLLMのVotingで検証可能かどうかを判定した後人手による検証を行いフィルタリングする。テスト時にクローズドブックの設定で評価することで、インタフェースに関するモデルのFactual Knowledgeを更新しないとモデルはテストケースに正解できず、モデルが内部パラメータに保持するFactual Knowledgeをどれだけ適切に保持、更新しているかを評価するようなコントロールされた環境下でのベンチマークに見える。
APIに関するドキュメントの文脈をしっかり変更しないと元のモデルが文脈から過去の関数名との対応関係を類推できてしまいそうだが、その辺はどうなっているのだろうか。
[Paper Note] Paying Less Generalization Tax: A Cross-Domain Generalization Study of RL Training for LLM Agents, Zhihan Liu+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #PostTraining #read-later #Selected Papers/Blogs #CrossDomain #Generalization #KeyPoint Notes #DomainGap Issue Date: 2026-02-08 GPT Summary- 一般化されたLLMエージェントのポストトレーニングにおける課題を調査。特に、強化学習環境の特性がアウトオブドメイン性能に与える影響を分析。状態情報の豊富さとプランニングの複雑さがクロスドメインの一般化に強く相関し、リアリズムやテキスト類似性は主要な要因ではないことを発見。状態情報を増やすことでロバスト性を向上可能で、ランダム化技術を提案。また、モデリング選択として、SFTのウォームアップが忘却を防ぐが一般化を損なう可能性や、ステップ・バイ・ステップ思考が一般化に重要な役割を果たすことを示した。 Comment
元ポスト:
事後学習におけるクロスドメインの汎化性能に関する調査を行い、ドメインの表層的な情報ではなく、
- 状態情報の豊富さ(どれだけのテキストを処理する必要があるか; 認知コスト)
- 推論の複雑さ(long-horizonやゴールへの到達可能性)
がドメイン間の汎化に相関を示すことが明らかになり、要は構造の複雑さが鍵であることが分かった。
ドメイン間の汎化性能を改善するために、実タスクは変えずにobservationに対して少量のノイズを加えることで、モデルがノイズから重要なシグナルを抽出することを学習し汎化性能が向上。
RLを行う際の注意点として、
- mid-trainingはDataMixに含まれるドメインの知識を補充するが、カバーされていないドメインの忘却をより悪化させる可能性があり
- ステップ単位での推論が汎化性能向上に役ダウン(言い換えると、ショートカットは転移しない)
を挙げており、
デプロイされるドメインが不明な場合の実用的な対策として
- より状態の記述がリッチなドメインかつ複雑な推論を要する環境で学習し
- 明示的な推論をオンにし
- 軽量な状態情報へのノイズの注入や拡張をすふこと
を挙げている。
さらにざっくり言うとエンコード時にドメインの表層情報に依存させず、表層情報の中から必要な情報を抽出するスキルをモデルに学習させ、かつデコーディング時は精緻な推論によって誤った転移を防ぐのがドメイン間の汎化の鍵、という話に感じる。
[Paper Note] Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening, Zhenxiong Yu+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #Safety #One-Line Notes Issue Date: 2026-02-08 GPT Summary- 「Spider-Sense」と呼ばれるイベント駆動型防御フレームワークを提案し、エージェントが危険を認識した際にのみ防御を発動。階層的な防御メカニズムにより効率と精度をトレードオフしつつ、既知のリスクを軽量マッチングで解決し、曖昧なケースは内部推論に移行。新たなベンチマーク「S$^2$Bench」を用いた実験で、競争力のある防御性能と最低の攻撃成功率を示し、わずか8.3%の遅延オーバーヘッドを実現。 Comment
元ポスト:
従来のAI Agentのセキュリティチェックは決められたタイミングで、しばしば重いチェックがかかりレイテンシが高かったが、提案手法では動的にどの程度の計算量を費やすかを調整して、必要なタイミングで重い推論、そうでない場合は軽量なチェックで済ませることでレイテンシと性能を改善する、といったコンセプトな模様。
エージェントのステージごとにobservationを事前定義されたテンプレートで囲い、テンプレートによってスクリーニングをトリガーし、ベクトル検索によって危険度を判定する。判定した危険度が一定以下なら軽量なチェック、一定以上ならLLMによる推論を用いた重い処理を走らせるという手法に見える。図中のcのnotationが本文中に見当たらない気がするが、見落としているだろうか。
結局のところ、テンプレートによってセキュリティチェックが誘発されるように見えるので、元々の問題意識である固定されたタイミングで強制的にセキュリティチェックがかかる、という課題は解決されない気がする。固定されたタイミングで強制的にセキュリティチェックがかかる点は従来手法と変わらないが、セキュリティチェックに費やすコストや計算量を動的に変更します、という話に感じる。
[Paper Note] LatentMem: Customizing Latent Memory for Multi-Agent Systems, Muxin Fu+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #AIAgents #Selected Papers/Blogs #memory #KeyPoint Notes #Adaptive Issue Date: 2026-02-07 GPT Summary- LatentMemは、LLMを用いたマルチエージェントシステム向けに設計された学習可能なメモリフレームワークで、カスタマイズと情報最適化を実現します。経験バンクと潜在メモリを活用し、メモリエントリーの均質化と情報過多の問題を解決。タスクレベルの最適化信号を利用することで、従来のメモリ設計に対し最大19.36%の性能向上を達成しました。 Comment
元ポスト:
skim readingしかできていないが、現在のMulti AI Agentsにおけるメモリ機構はstaticな機構であるため、メモリが均質化してしまいエージェントの役割ごとに最適化されておらず、かつlong trajectoryを扱う際に情報がコンパクトに圧縮されておらずtrajectoryが肥大化していってしまう。このため、エージェントの役割ごとに異なるメモリを生成し、かつ固定長の潜在表現に情報を圧縮する(これによりlong contextでのメモリ肥大化を防ぐ)ような新たなDeep Neural Networkに基づくMemory ComposerをRLを通じて学習するという話のようである。
エージェントのプロファイルと、experience bankから抽出された現在のクエリに対するtrajectoryに基づいて、個々のエージェントごとにrelevantな情報が圧縮されたメモリの潜在表現を生成するようなMemory ComposerをRLで学習し活用する(LMPO)。このとき、エージェントのパラメータは更新せずfreezeする。あくまでバックボーンはfreezeして変更せず、メモリ機構のみを最適化することに焦点を当てている。Memory Composerは、与えられたメモリ, エージェントの(freezeされた)パラメータ, 与えられたプロンプトによってreasoningを実施し、最終的な応答が正しかったかどうかに基づいてGRPOベースのRLVR(=LMPO)を実施することによって学習する。エージェントがメモリを活用して得られたtrajectoryはexperience bankに格納されて利用される。
既存手法と比べて多くのQAベンチマークで高い性能を獲得し、OODなベンチマークでもある程度は汎化するようである。
in-domainなベンチマークと比較して、out-of-domainなベンチマークでの性能向上が小さいので、汎化性能にまだ課題があるように感じた。解決している問題は非常に重要だと考えられ、どのようにすれば汎用的なMemory Composerが学習できるか?を考えるとおもしろそうである。
[Paper Note] ERNIE 5.0 Technical Report, Haifeng Wang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #Speech #Proprietary #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #2D (Image) #UMM #4D (Video) #Omni #text Issue Date: 2026-02-06 GPT Summary- ERNIE 5.0は、テキスト、画像、ビデオ、音声に対応したマルチモーダル理解と生成のための基盤モデルです。超スパースな専門家の混合アーキテクチャを使用し、依存しないルーティングでトークン予測を行います。新たなトレーニングパラダイムにより、モデルは性能、サイズ、推論レイテンシを柔軟に調整可能です。幅広い実験において、ERNIE 5.0は複数のモダリティで優れた性能を示し、初の商用規模の兆パラメータモデルとして注目されています。 Comment
元ポスト:
リリース時の公式ポスト:
あくまでskim readingをして得た印象なのだが、非常に興味深い研究で、Omniモダリティを超大規模モデルでスクラッチからUnified Multimodal Modelとして学習し、MoEで効率的に推論するというアーキテクチャと手法に見え(個人的にこういう手法でやったらどうなるのだろう?と思っていたドンピシャな設定)、各種ベンチマークの性能指標を見ると多くの指標で全体的に良いスコアを達成しており様々なタスクを高性能で実現できる一方、特定の分野のベンチマークでGemini Pro 3の方が強い面が多く(たとえばテキストモダリティのstem, coding, vision全般, ASR全般)、Omniモダリティの統合は一筋縄ではいかず、どのようにモダリティを統合し、学習することが効果的なのか?という根源的な問いがあらためて思い浮かぶ。
Ming Omniでも同様のことがやられていた:
- [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25, 2025.06
[Paper Note] WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning, Zelai Xu+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #ReinforcementLearning #AIAgents #PostTraining Issue Date: 2026-02-06 GPT Summary- マルチエージェントシステムを用いた情報探索の幅のスケーリングを探求する本研究では、WideSeek-R1フレームワークを提案。リードエージェントとサブエージェントが共同最適化することで、20,000のタスクで高い性能を発揮。WideSeek-R1-4BはアイテムF1スコア40.0%を達成し、性能がサブエージェント数の増加と共に向上することを示す。 Comment
元ポスト:
Context Foldingと比較した時の新規性がweaknessに感じる:
- [Paper Note] Scaling Long-Horizon LLM Agent via Context-Folding, Weiwei Sun+, arXiv'25, 2025.10
[Paper Note] A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces, Mingxuan Du+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #RAG(RetrievalAugmentedGeneration) #Test-Time Scaling #One-Line Notes #Scalability #Adaptive Issue Date: 2026-02-06 GPT Summary- A-RAGは、階層的な取得インターフェースを通じてエージェント型のRAGシステムを実現し、モデルが適応的に情報を検索・取得できる能力を向上させる。キーワード検索、意味検索、チャンク読み取りの3つのツールを提供し、既存の方法と比較して一貫した優れた性能を示す。モデルのスケーリング特性についても体系的に検討し、今後の研究のためにコードを公開予定。 Comment
元ポスト:
固定されたワークフローでのRAGではなく、エージェントが自ら考えて最適な検索ツールを模索し情報を自動的に取得するAgentic RAGな枠組みを提案している。研究としての新規性はweaknessだと感じるが、実務的に有効な方法だと思う。LLM側のreasoning effortやmax tokenを増やすことで性能がスケーリングするため(Test Time Scaling)これもまた実用的な手法だと感じる。
[Paper Note] Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL, Ian Wu+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#DocumentSummarization #NLP #LanguageModel #ReinforcementLearning #AIAgents #Reasoning #PostTraining #read-later #RLVR #Selected Papers/Blogs #OOD #Generalization #KeyPoint Notes #LongHorizon #Robustness #Compression Issue Date: 2026-02-05 GPT Summary- 大規模言語モデル(LLM)は、テスト時の適応能力により複雑な問題を解決する外挿特性を持つが、標準的な強化学習(RL)はその変化に制約がある。これに対処するために、反復デコーディングアルゴリズム(RC)を導入し、LLMの応答生成能力を活用して推論を継続的に改善。実験では、16kトークンの訓練で4BモデルがHMMT 2025でのパフォーマンスを40%から約70%に引き上げ、既存のモデルを上回る結果を示した。RCを使用したモデルは、学習した要約生成能力によりテスト時のパフォーマンスも向上できることが証明された。 Comment
元ポスト:
reasoningの生成と、生成されたreasoningとinputで条件付けでsummaryを生成、さらにinputとsummaryで条件付けてreasoningを生成するという、生成と要約を反復する枠組みを採用(LLMはreasoningを要約することが生成するよりも得意で、かつ過去の要約から将来の推論を生成できるという非対称性を活用)することで、訓練時の予算は決まっているため、訓練時の予算では到達できないhorizonにテスト時に遭遇すると汎化しない課題を克服し、テスト時により長いステップ数の推論もこなせるように外挿する。また、このようなgeneration-summaryの反復を各ステップごとでRLVRすることでさらに性能を向上でき、実際にlong horizonな推論や学習時よりもより長いreasoning token budgetの場合に大きなgainを獲得できている。
RLVRをする際に各ステップごとのSummaryを保存しておき、各ステップのsummaryが与えられたときに正解できるかどうかのシグナルに基づいて、ステップごとの要約で条件付けられた応答能力を改善する。これにより、さまざまなステップで応答を生成する能力が強化され、結果的にshort horizonからlong horizonの推論をする能力が強化される。
このときsummaryはリプレイバッファとして扱い後のepochの訓練でもオフポリシーデータとして活用する。要約はinputに条件付けられて生成されるものであり、optimizationのtargetとは異なるためリプレイバッファとして活用でき、かつさまざまな要約に対して正解が生成できるように学習されるためテスト時の要約の分布のシフトにロバストになる。また、オンポリシーデータだけだと、long horizonに対する要約は非常に稀になるため、リプレイバッファを利用することで補う。
テスト時に学習時を超えたhorizonで推論できることは現在のAIエージェントの大きな課題だと思うので非常に興味深い研究だと思う。
[Paper Note] Learning to Reason in 13 Parameters, John X. Morris+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #Reasoning #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2026-02-05 GPT Summary- 低ランクアダプタTinyLoRAを提案し、推論のための強化学習が低ランクパラメータ化を効果的にスケールできることを示しています。わずか13のトレーニングパラメータでQwen2.5を91%の精度に達成し、複雑なベンチマークでも少ないパラメータで90%のパフォーマンス向上を実現しました。特に、強化学習を用いることで、従来の方法よりも大幅に少ないパラメータで強力な結果を得ることができました。 Comment
元ポスト:
Qwen2.5に関してはLlamaと比較して異なる傾向が生じることは以下でも見受けられる。果たして本研究で報告されていることはどこまで一般的なのだろうか?:
- [Paper Note] Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination, Mingqi Wu+, arXiv'25
- [Paper Note] Spurious Rewards: Rethinking Training Signals in RLVR, Shao+, 2025.05
[Paper Note] Golden Goose: A Simple Trick to Synthesize Unlimited RLVR Tasks from Unverifiable Internet Text, Ximing Lu+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SyntheticData #PostTraining #read-later #RLVR #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-02-05 GPT Summary- RLVRはLLMの推論を解きほぐす基盤だが、検証データの不足がスケールアップのボトルネックとなっている。この課題を克服するために「ゴールデン・グース」を提案し、インターネットの非検証テキストから無限のRLVRタスクを生成する。具体的には、LLMに主要な推論ステップを特定させ、豊富なタスクを持つGooseReason-0.7Mデータセットを合成。これにより、従来モデルを復活させ、15のベンチマークで新たな最先端結果を達成。また、リアルなサイバーセキュリティデータからRLVRタスクを合成し、Qwen3-4B-Instructをトレーニング。これにより7Bモデルを超える成果を上げ、推論に富んだインターネットテキストを活用する可能性を示している。 Comment
元ポスト:
テキストからMultiple Choice Question (MCQ) を生成することでRLVR用のverifiableな学習データを大量に合成可能にする。おそらく次のステップとしては、生成されるMCQの stem, key, distractor の質が今度は焦点となり、そこの質が改善されればより大きなgainを得られるようになる気がする(たとえば消去法で正解を知らなくても正解できてしまうようなdistractorや、問題文に正解がそのまま含まれてしまっているようなノイジーなMCQから人間が何も学ばないように、モデルが学習するときと一緒だと思われる)。
データとモデルが公開:
[Paper Note] Maximum Likelihood Reinforcement Learning, Fahim Tajwar+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2026-02-05 GPT Summary- 強化学習を用いてモデルを訓練する際、尤度の最大化ではなく低次近似を最適化する限界に触発され、最大尤度強化学習(MaxRL)を提案。これは、サンプリングされたデータから最大尤度を近似するためのフレームワークであり、得られた目的関数はシンプルで偏りのないポリシー勾配推定を可能にする。実験では、MaxRLが既存の手法を上回り、テスト時間効率を最大20倍向上。追加データや計算へのスケーラビリティも優れており、RL訓練を正確性に基づいて拡張するための有望なフレームワークであることを示した。 Comment
元ポスト:
著者ポスト:
pj page: https://zanette-labs.github.io/MaxRL/
skim readingしかできていないが、
微分不可能な生成がされbinaryの正誤が与えられるような条件下でモデルを最適化するときにxが与えられてyが正解である確率はimplicitな尤度を表している。この最適化問題を解くために現在はRLが利用されており、RLは正解の確率pを最大化するような定式化がされているが、最尤推定で定式化するとlog pで定式化をすることになり、これは根本的に異なる最適化となる。具体的には、RLはpass@1に対して最適化しているが、MaxRLはk=1,...∞に対するpass@kの調和平均に対して最適化をするような違いがある。この最尤推定の勾配は実は成功したtrajectoryのスコアの平均という非常にシンプルな形で近似的に求められるらしく、最尤推定として解くと最大20倍程度効率が向上した、といった話に見える。
関連:
- [Paper Note] Rewards as Labels: Revisiting RLVR from a Classification Perspective, Zepeng Zhai+, arXiv'26, 2026.02
- [Paper Note] Likelihood-Based Reward Designs for General LLM Reasoning, Ariel Kwiatkowski+, arXiv'26, 2026.02
[Paper Note] $V_0$: A Generalist Value Model for Any Policy at State Zero, Yi-Kai Zhang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #In-ContextLearning #PostTraining #Stability #Scheduler #Routing #BudgetAllocation Issue Date: 2026-02-05 GPT Summary- GRPOを用いた訓練において、$V_0$という新たなバリューモデルを提案。これはパラメータ更新を必要とせず、モデルの期待パフォーマンスを推定し、能力の変化を捉える。$V_0$は成功率を予測し、効率的なサンプリングを実現。結果、LLMルーティングタスクにおいて、コストとパフォーマンスのバランスで優れた結果を示した。 Comment
元ポスト:
ポイント解説:
Actor-Critiqueの枠組みにおいてValueモデル(のポリシーに追従するための逐次的な更新が)重すぎる問題をGRPOはValueモデルを無くすことで回避したが今度はロールアウトのサンプリングコストがでかすぎる問題があるので、学習無しで汎用的に利用可能なValueモデル(パラメータ更新ではなくICLとして定義する)を用いて、ロールアウト前から成功率を予測し無駄なロールアウトを削減したり、クエリをどのモデルに投げるかといったルーティングをするなどの計算機リソースの配分を決めるといったことをやるらしい。
[Paper Note] HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache Sharing, Yizhao Gao+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Transformer #Attention #Architecture #KV Cache #Hybrid #SparseAttention Issue Date: 2026-02-05 GPT Summary- 新しいアーキテクチャ「ハイブリッド疎注意」(HySparse)を提案。全注意層と疎注意層を交互に配置し、疎層のトークン選択を全注意層から導出。これにより、トークンの重要性予測が簡素化され、KVキャッシュの再利用が可能に。評価では、7B密集モデルと80B MoEモデルの両方で全注意およびハイブリッドSWAのベースラインを超え、特に49層の80B MoEモデルで顕著な性能向上とKVキャッシュの10倍削減を実現。 Comment
元ポスト:
ポイント解説:
Full attentionとsparse attentionを組み合わせたアーキテクチャの提案で、Full attentionと同等以上の性能を効率的に達成し、sparse attentionではfull attentionのKV Cacheを再利用するように設計されていることから、KV Cacheのスペースを大幅に削減できて嬉しい、という話に見える。
[Paper Note] An Empirical Study on Noisy Data and LLM Pretraining Loss Divergence, Qizhen Zhang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #Scaling Laws #read-later #Selected Papers/Blogs #Stability #DataFiltering Issue Date: 2026-02-05 GPT Summary- ノイズデータがLLMの事前学習に与える影響を体系的に分析。合成ノイズを注入した実験で、ノイズがトレーニングロスの発散を引き起こすことを実証し、依存関係を特定。高学習率による発散とは異なるパターンも観察し、診断手法を提案。ノイズの影響に関する制御された洞察を提供。 Comment
元ポスト:
- [Paper Note] Spike No More: Stabilizing the Pre-training of Large Language Models, Sho Takase+, COLM'25
のようにアーキテクチャの改善によって学習の安定性を担保する取り組みもあるが、アーキテクチャ側で解決した場合にノイズはどのような影響を与えるのだろうか?
takeawayが論文中にQAの形でまとめられている。
[Paper Note] RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System, Yinjie Wang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SelfImprovement #PostTraining Issue Date: 2026-02-05 GPT Summary- 強化学習フレームワーク「RLAnything」は、動的に環境、ポリシー、報酬モデルを生成し、学習信号を増幅することで、全体的なRLシステムを強化します。ポリシーはフィードバックを用いて訓練され、報酬モデルは一貫性フィードバックにより最適化されます。理論に基づく自動環境適応により、各モデルからの批評が訓練を改善します。実証例として、RLAnythingはOSWorld、AlfWorld、LiveBenchで大幅な性能向上を示しており、最適化された報酬モデルが人間のラベルを超える結果を出しています。 Comment
blog: https://yinjjiew.github.io/projects/rlanything/
元ポスト:
環境、ポリシー、Reward Modelが互いにフィードバックし合ってco-trainingされる枠組み
[Paper Note] RefineBench: Evaluating Refinement Capability of Language Models via Checklists, Young-Jun Lee+, ICLR'26, 2025.11
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #Reasoning #SelfCorrection #ICLR #read-later #Selected Papers/Blogs #KeyPoint Notes #Rubric-based Issue Date: 2026-02-05 GPT Summary- 言語モデル(LM)の自己改善能力を探るために、RefineBenchという1,000の問題と評価フレームワークを導入。二つの改善モード、ガイド付きと自己改善を評価した結果、最前線のLMは自己改善で低迷する一方、ガイド付き改善では特許LMや大規模オープンウエイトLMが迅速に応答を改善。自己改善には突破口が必要であり、RefineBenchが進捗の追跡に貢献することを示す。 Comment
元ポスト:
pj page: https://passing2961.github.io/refinebench-page/
verifiableはタスクだけでなくnon verifiableなタスクもベンチマークに含まれ、ガイド付き/無しの異なる設定、11種類の多様なドメイン、チェックリストベースのbinary classificationに基づく評価(strong LLMによって分類する; これによりnon verifiableなタスクでも評価可能)、マルチターンでの改善を観測できる、self-correction/refinementに関するベンチマーク。
フロンティアモデルでも自己改善はガイド無しの場合ではあまり有効に機能しないことを明らかにし、外部からガイドが与えられればOpenLLMでさえも少ないターン数で完璧に近い方向にrefineされる、という感じの内容に見える。
つまり自身とは異なるモデルで、何らかの素晴らしい批評家がいれば、あるいは取り組みたいタスクにおいて一般化された厳密性のあるチェックリストがあれば、レスポンスはiterationを繰り返すごとに改善していくことになる。
[Paper Note] Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models, Wenxuan Huang+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #Evaluation #MultiModal #2D (Image) #DeepResearch Issue Date: 2026-02-05 GPT Summary- Vision-DeepResearchは、マルチモーダル大規模言語モデル(MLLMs)において、多ターン・多エンティティ・多スケールの視覚およびテキスト検索を実現する新しい深層研究パラダイムを提案。これにより、実際のシナリオでの視覚ノイズに対処し、数十の推論ステップと多くのインタラクションをサポート。強化学習を通じて深層研究能力を内在化し、既存のMLLMを上回る性能を発揮する。コードは公開予定。 Comment
pj page: https://osilly.github.io/Vision-DeepResearch/
元ポスト:
image searchやVQAなどを伴うDeepResearchに関するタスクとそのベンチマークの提案という感じに見える。
[Paper Note] Beyond Precision: Training-Inference Mismatch is an Optimization Problem and Simple LR Scheduling Fixes It, Yaxiang Zhang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #PostTraining #Selected Papers/Blogs #Scheduler #train-inference-gap Issue Date: 2026-02-03 GPT Summary- 強化学習における言語モデルの訓練は不安定であり、その原因は訓練と推論の不一致にあるとされる。従来の対策では効果が薄いことが指摘され、本研究では勾配ノイズとミスマッチの連動を示し、更新サイズの縮小が効果的であることを発見。ミスマッチは動的な失敗と考え、動的に学習率を調整する新たな手法を提案。これにより、RL訓練を安定化し、不一致を抑制することができることが実証された。 Comment
元ポスト:
Importance SamplingやFP16に設定することによるミスマッチの解決方法でも依然として(長期の訓練などにおいて)安定性の問題が出ることをAblationで確認し、提案手法がより安定することを示しているように見える。
[Paper Note] VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents, Zirui Wang+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Evaluation #LongSequence #VisionLanguageModel #interactive Issue Date: 2026-02-03 GPT Summary- 現代の視覚-言語モデル(VLM)は、複雑な視覚的相互作用において効果的に機能しておらず、特に長期的な知覚や記憶の統合に課題があります。これに対処するため、「VisGym」という17の環境を導入し、記号パズルやナビゲーションを含む多様な設定でモデルを評価・訓練します。実験では、最前線のモデルがインタラクティブな場面で苦戦していることが示され、長い文脈の活用に制限があることが明らかになりました。しかし、目標観察やテキストフィードバックによる微調整は、モデルの視覚的意思決定を改善する効果が確認されました。 Comment
pj page: https://visgym.github.io/
元ポスト:
このベンチマーク上のSoTAであるGemini 3 Proでも平均Acc.50%に到達しないinteractiveなVQAタスク群な模様
[Paper Note] TriSpec: Ternary Speculative Decoding via Lightweight Proxy Verification, Haoyun Jiang+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Decoding #Selected Papers/Blogs #Verification #SpeculativeDecoding #One-Line Notes Issue Date: 2026-02-03 GPT Summary- SDを用いて推論効率を向上させる新しいフレームワークTriSpecを提案。軽量なプロキシを活用し、不確実なトークンに対してのみターゲットモデルを使用することで、計算コストを大幅に削減。実験により、従来のSDに対して最大35%の速度向上とターゲットモデルの呼び出し回数を最大50%削減したことを示す。 Comment
元ポスト:
targetモデルでのverificationは重いので、軽量なverificationをdraftに対して実施することで最大35%デコーディング速度向上とのこと。
verificationに利用するLLM(=proxy)がどのようなモデルファミリーなのか、ターゲットと同じファミリーなのか否かなどが気になる。
3.1節に以下のように書かれている:
> We identify smaller same-family models as ideal proxy veri-
fiers, justified by the following three core properties.
proxyについて以下の三つの観点で分析している:
- strong alignmentw: トークンレベルでtargetとalignしているかを分析(exact match, acceptable mismatch, unacceptable mismatchの3値分類)
- trustworthy outputs: token levelでalignしているだけでなく、単独で応答させたときにtargetと同じ回答が得られるか(同じ回答が得られるのであれば多少のトークンレベルの齟齬は許容可能
- Clear separability: proxyが信頼できるトークンと不確実な出力を区別できることが好ましく、proxyのtop1,2のprobabilityの差が0.5より大きい場合にacceptableなトークンと強い相関があることがわかり、verificationの信頼性の担保に使える
同じモデルファミリーでも、よりファミリー内での挙動が一致させるような副次的効果を得られるモデルファミリー構築方法もあり、Speculative Decodingの承認率が向上するような話もある:
- [Paper Note] Efficient Construction of Model Family through Progressive Training Using Model Expansion, Kazuki Yano+, COLM'25, 2025.04
[Paper Note] DiffuSpeech: Silent Thought, Spoken Answer via Unified Speech-Text Diffusion, Yuxuan Lou+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Dataset #Chain-of-Thought #SpeechProcessing #DiffusionModel #Reasoning #Architecture #Selected Papers/Blogs #TTS #AudioLanguageModel Issue Date: 2026-02-02 GPT Summary- 音声LMMが直接応答を生成する際に発生するエラーを解決するため、「沈黙の思考、話された答え」という新たなパラダイムを提案。内部のテキスト推論と共に音声応答を生成する拡散ベースの音声-テキスト言語モデル\method{}を開発。モダリティ固有のマスキングを使用し、推論過程と音声トークンを共同生成。初の音声QAデータセット\dataset{}も構築し、26,000サンプルを含む。実験結果はQA精度で最先端を達成し、最高のTTS品質を維持しつつ言語理解も促進。拡散アーキテクチャの効果も実証。 Comment
元ポスト:
音声合成、AudioLanguageModelの枠組みにおいてreasoningを導入する新たなアーキテクチャを提案し、そのためのデータを収集して性能が向上しているように見え、重要研究に感じる。
[Paper Note] Linear representations in language models can change dramatically over a conversation, Andrew Kyle Lampinen+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Factuality #Conversation #Interpretability Issue Date: 2026-02-01 GPT Summary- 言語モデルの表現は高次の概念に対応する線形の方向を持ち、会話の中でこれらの表現が劇的に変化することを発見。具体的には、会話の初めに事実として表現された情報が最後には非事実として変わるなど、内容に依存した変化が生じる。これらの変化は、さまざまなモデルで発生し、文脈によって異なる効果を持つ可能性がある。結果は、モデルの応答が会話によって影響を受けることを示唆し、解釈可能性に課題を提示。表現の動態は、モデルの文脈適応を理解する新しい研究の方向性を示す。 Comment
元ポスト:
ポイント解説:
Factを扱う専用の機構を設けた方が良いのかもしれない
[Paper Note] ConceptMoE: Adaptive Token-to-Concept Compression for Implicit Compute Allocation, Zihao Huang+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #LatentReasoning Issue Date: 2026-01-30 GPT Summary- ConceptMoEは、トークン間の類似性を利用して計算リソースを動的に割り当てる新しい手法です。これにより、概念表現を生成し、計算集約モデルへのシーケンス圧縮を行います。評価において、ConceptMoEは標準的なMoEを上回り、言語や視覚言語タスクでの性能向上を示しました。特に、計算の効率も大幅に改善され、アーキテクチャの改変なしに既存のMoEに統合可能です。 Comment
著者ポスト:
論文タイトルにMoEというワードが入っているが、実際にMoEアーキテクチャを採用しているわけではない点に注意。アーキテクチャはいわゆるLarge Concept Model (エンコーダー→チャンク生成→コンセプトモデル→デチャンキング→デコーダー)であり、チャンクの境界がトークン間のlearnableなモジュールによって学習・決定されるため、トークンレベルで見たときに適応的にトークンをチャンク化することでコンセプトが定義され、かつトークン単位の計算資源の配分がチャンク化を(learnableに)通じて行われるという話に見える。
斜め読みしかできていないが、アーキテクチャそのものの貢献よりも、本研究の貢献として大きい部分はMoEモデルを用いた同じパラメータ/FLOPsでの異なるアーキテクチャ間のfair comparisonを通じてconcept modelの性能が高いことを示したことや、既存のMoEモデルを軽量なモジュールの追加(チャンクモジュール+デチャンクモジュール+追加のゼロで初期化されたQKV attention)し継続事前学習をすることでretrofittingすることでも性能が向上すること、計算効率がチャンクによってトークンが圧縮されるため、fair comparisonの上で高い性能を達成しながら、圧縮率Rに応じて向上することを示ししたこと、などにあるように見受けられる。
が、ただの斜め読みした感想でしかないので読みたい。
[Paper Note] Self-Improving Pretraining: using post-trained models to pretrain better models, Ellen Xiaoqing Tan+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #SelfImprovement #mid-training #DPO #read-later #Selected Papers/Blogs Issue Date: 2026-01-30 GPT Summary- 大規模言語モデルの安全性と品質を確保するための新しい事前学習法を提案。文書をストリームし、強化学習を用いて生成されたKトークンを改善。プロセス中、候補生成物を評価し、モデルの成長に応じて高品質な出力に報酬を与える。実験の結果、事実性と安全性でそれぞれ36.2%および18.5%の改善を達成し、生成品質も最大86.3%向上した。 Comment
元ポスト:
事前学習の枠組みがnext token predictionから変わるかもしれないような話。気になる。
v2へアップデート:
解説:
関連:
- [Paper Note] Deep reinforcement learning from human preferences, Paul Christiano+, NIPS'17, 2017.06
- [Paper Note] Direct Preference Optimization: Your Language Model is Secretly a Reward Model, Rafael Rafailov+, arXiv'23, 2023.05
[Paper Note] Beyond Speedup -- Utilizing KV Cache for Sampling and Reasoning, Zeyu Xing+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Embeddings #NLP #LanguageModel #read-later #Selected Papers/Blogs #KV Cache #DownstreamTasks #Adaptive #SelfVerification Issue Date: 2026-01-30 GPT Summary- KVキャッシュを文脈情報の軽量な表現として再利用し、再計算や保存の必要を排除。KV由来の表現は、(i)チェーン・オブ・エンベディングで競争力のある性能を発揮し、(ii)ファスト/スロー思考切替でトークン生成を最大5.7倍削減する一方、精度損失を最小限に抑える。これにより、KVキャッシュがLLM推論における表現再利用の新たな基盤となることを示す。 Comment
元ポスト:
KV Cacheを軽量なhidden stateを表すembeddingとして扱うことで色々と応用できます、という話に見え、たとえばデコーディングの途中でhallucinationをdetectする際により省メモリで実現できたり、fast/d slowなthinkingの切り替えの制御に利用するなど、単に次トークンを生成する際の高速化の用途を超えて使うという興味深い発想な研究に見える。
[Paper Note] LoPRo: Enhancing Low-Rank Quantization via Permuted Block-Wise Rotation, Hongyaoxing Gu+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #Training-Free #Quantization Issue Date: 2026-01-29 GPT Summary- ファインチューニング不要の量子化アルゴリズム「LoPRo」を提案し、残差行列の量子化課題を解決。ブロック単位の入れ替えと変換により、重要な列の量子化精度を保ちながら、2ビットと3ビット量子化での性能向上を実現。実験ではLLaMAモデルで最先端の精度を達成し、MoEモデルでは効率を大幅に向上。LoPRoは、他手法に比べて低ランクで優れた精度と高い推論効率を維持。 Comment
元ポスト:
GPTQの頃と比較して非常に性能が向上しているように見える。
- [Paper Note] GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers, Elias Frantar+, ICLR'23, 2022.10
[Paper Note] Kimi K2.5: Visual Agentic Intelligence, Kimi Team+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #Blog #OpenWeight #mid-training #PostTraining #read-later #Selected Papers/Blogs #VisionLanguageModel #UMM #KeyPoint Notes #Reference Collection #ContextFolding Issue Date: 2026-01-27 GPT Summary- Kimi K2.5は、テキストとビジョンの共同最適化を重視するオープンソースのマルチモーダルエージェンティックモデルです。共同プリアトレーニングや強化学習を用いて、エージェントが複雑なタスクをサブ問題に分解し同時に実行するAgent Swarmを導入。評価結果では、コーディングや推論タスクで最先端の成果を達成し、最大4.5倍のレイテンシ低減を実証しました。Kimi K2.5モデルのチェックポイントは、今後の研究や応用に活用可能です。 Comment
HF: https://huggingface.co/moonshotai/Kimi-K2.5
元ポスト:
テクニカルレポートを受けての所見:
Agenticなタスク(HLE, BrowsingによるQA, DeepSearch)に関するベンチでGPT-5.2(xhigh)などを超えてSoTAを達成。他のタスクではcodingではClaude-4.5-Opusの方が上、image関連のタスクではGemini 3 Proに軍配が上がっている。VideoではGeminiとcomparableという感じだろうか(GeminiはLong Contextに非常に強い印象があるがLongVideoBenchて上回っている)。この辺は各タスクごとに強いモデルの棲み分けが進んできた。
また、Kimi K2.5非常に美麗でinteractiveなフロントエンドのデモが掲載されている。
Agent Swarmタスクをサブタスクに分解して、複数のエージェントに並列に投げて実行(最大100 sub agent)できるような枠組みであり、それらが高性能かつ低latencyとなるように訓練れている模様。これにより性能を向上させつつlatencyを80%削減しているとのこと。
この話はContext Foldingに近い話と推察される:
- [Paper Note] Scaling Long-Horizon LLM Agent via Context-Folding, Weiwei Sun+, arXiv'25, 2025.10
公式ポスト:
OpenWeightモデルの中でソフトウェアエンジニアリングスキルでSoTA:
日本語でのポスト:
[Paper Note] Endless Terminals: Scaling RL Environments for Terminal Agents, Kanishk Gandhi+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #PostTraining #read-later #Diversity #Selected Papers/Blogs #One-Line Notes #Environment Issue Date: 2026-01-26 GPT Summary- 自己改善エージェントのボトルネックである環境を改善するため、無人アノテーションで端末利用タスクを生成する「Endless Terminals」パイプラインを提案。タスク記述の生成から可解性のフィルタリングまでの4ステージを経て、3255のタスクを作成。PPOを用いて訓練したモデルは、ホールドアウト開発セットで大幅な性能向上を示し、Llama-3.2-3Bは4.0%から18.2%、Qwen2.5-7Bは10.7%から53.3%に改善。人間キュレーションのベンチマークでも改善し、シンプルな強化学習がスケールする環境で成功することを示す。 Comment
元ポスト:
taskが解けるものか否かをverifyする追加のモデルが必要な点は注意とのこと。
(論文中ではo3が用いられている)
著者ポスト:
RLにおけるターミナル上で実行可能な多様なタスクと、実際に動作可能なコンテナ、テストの生成をスケールさせることで標準的なPPOで性能が向上し、人間が収集した既存ベンチマーク(Terminal Bench 2.0)にも汎化することを示した研究。つまり、RLのタスクと環境をスケールさせれば標準的なRLアルゴリズムでも性能が向上するというメッセージがある。
本研究の他研究との位置付けがぱっと脳内で整理できなかったので、関連研究の部分を読むと、
- AgentのScaffoldの観点では、bashが実行可能なOpenHandsに近く、シェルコマンドを実行し、実行に至るまでのすべてのヒストリと出力が利用可能。
- SFTのための高品質なデータを合成するる研究が最近は多いが、SFTはRLのためのWarmUpに相当するため、本研究とそれらの研究は補完的な位置付けにある。
- ベンチマークやインタラクティブな研究の観点では、SWEBenchやTerminal Bench 2.0のように、人間が収集したベンチマークが存在し、マルチターンでアクションを通じてインタラクションしながら次のアクションを決めていく。本研究もシェル上で状態を観測しながら次のアクションを決めていくようなマルチターンの枠組みに相当する。
- verifiableな環境を合成する研究も行われている。たとえばSWEGymは2438のpythonコードのタスクと検証可能なテストを提供するが、既存のGithub Issueに依存しており、本研究のようにボトムアップに手続的に生成されるものではない。シングルターンではself-playにより困難な問題を生成する研究があるがマルチターンではない。Open Thought Agentという研究がSFT, RLのためのターミナルを用いた環境を合成する点でもっとも本研究と近いが、人間が生成したクエリやコマンドに基づいており、かつ既存のTerminal Bench 2.0といった人間によって収集されたベンチマークでのgainは得られていない。本研究では、完全に自動化されており、任意のサイズにスケールしPPOのような標準的なRLでも既存ベンチマークに転移する点が異なる。
という整理のようである。位置付けは理解できたが、本研究が既存のベンチマークにも転移するのはなぜなのだろうか?という点がまだ理解できていない。
所見:
[Paper Note] EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience, Taofeng Xue+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SyntheticData #OpenWeight #SelfImprovement #ComputerUse #PostTraining #read-later #VisionLanguageModel #Scalability Issue Date: 2026-01-23 GPT Summary- EvoCUAは、ネイティブコンピュータ使用エージェントの新モデルで、静的模倣に頼らずデータ生成とポリシー最適化を統合。自律的にタスクを生成し、検証可能な合成エンジンでデータ不足を解消。スケーラブルなインフラにより多様な経験を収集し、反復進化学習でポリシーを動的に調整。OSWorldベンチマークで56.7%の成功率を達成し、従来のモデルを大幅に超えた。このアプローチは、さまざまな基盤モデルでの性能向上を実証し、ネイティブエージェントの機能強化に寄与することを示唆している。 Comment
HF: https://huggingface.co/meituan/EvoCUA-32B-20260105
元ポスト:
合成データ生成(タスク合成からVerifierの定義まで?)と学習のループを回すことでデータのスケーラビリティを向上し性能向上(これまでは事前に静的に合成されたtrajectoryでの学習が主流)。Rejection Samplingをして成功したtrajectoryでSFTしつつ、工夫されたDPOが用いられている模様。あとで読みたい。
[Paper Note] Learning to Discover at Test Time, Mert Yuksekgonul+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #ScientificDiscovery #read-later #Selected Papers/Blogs #ContinualLearning #Test Time Training (TTT) Issue Date: 2026-01-23 GPT Summary- LLMを用いたテスト時トレーニングによる発見(TTT-Discover)を提案し、特定の科学的問題に対し優れた解を生成。強化学習を通じて、独自の経験を持つLLMが問題解決に集中。数学から生物学までの様々な課題で新たな最先端を達成し、成果はオープンソースのモデルを用いて再現可能。 Comment
test timeにモデルが解空間を探索するようにweightをupdateすることを(RLで)学習し、平均的に良いsolutionではなくbestなsolutionを見つけるような目的関数を用いることで、scientic discoveryの能力を向上
[Paper Note] LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR, Said Taghadouini+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #NLP #MultiLingual #VisionLanguageModel #OCR Issue Date: 2026-01-22 GPT Summary- 1Bパラメータのエンドツーエンド多言語ビジョン・言語モデル「LightOnOCR-2-1B」は、文書画像をOCRなしで自然なテキストに変換します。スキャンやフランス語文書、科学的PDFに強力な対応を見せるこのモデルは、OlmOCR-Benchで最先端の成果を達成し、従来モデルより9倍小さく高速です。また、予測したバウンディングボックスを活用し、ローカリゼーションを強化。堅牢性向上のためにチェックポイント平均化とタスク算術を統合し、チェックポイントをApache 2.0の下で公開しました。 Comment
元ポスト:
HF: https://huggingface.co/collections/lightonai/lightonocr-2
関連:
- olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10
- [Paper Note] GutenOCR: A Grounded Vision-Language Front-End for Documents, Hunter Heidenreich+, arXiv'26, 2026.01
またしてもolmocr2超えのOCRが。高性能なOCRは様々な場面で活用(RAG, Agent, 埋蔵した学習データなど)できるので個人的に非常に強い需要があると思う。
元ポスト:
[Paper Note] GutenOCR: A Grounded Vision-Language Front-End for Documents, Hunter Heidenreich+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #NLP #VisionLanguageModel #OCR Issue Date: 2026-01-22 GPT Summary- GutenOCRはQwen2.5-VL-3BとQwen2.5-VL-7BをファインチューニングしたグラウンデッドOCRシステムで、視覚言語モデルを通じて読取り、検出、グラウンディングを一元化します。ビジネス文書や科学記事に対応し、条件付きクエリへの応答が可能です。GutenOCR-7Bは新しい評価プロトコルで合成グラウンディングスコアを向上させ、特にOCRの精度を高めていますが、特定のレイアウトではトレードオフが存在することも示されました。 Comment
元ポスト:
olmOCR2と比較しても性能が良さそうに見えるが果たして
- olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10
モデルはまだオープンになっていないように見える。
[Paper Note] CorpusQA: A 10 Million Token Benchmark for Corpus-Level Analysis and Reasoning, Zhiyuan Lu+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #RAG(RetrievalAugmentedGeneration) #LongSequence #Selected Papers/Blogs #memory Issue Date: 2026-01-22 GPT Summary- CorpusQAは、最大1,000万トークンに対応する新しいベンチマークで、広範な非構造的テキストに対する全体的な推論を求める。これは、プログラムによって保証された真実の回答を持つ複雑なクエリを生成する革新的なデータ合成フレームワークを用いており、LLMの長期コンテキスト推論能力を向上させることが実証された。一方で、長い入力に対しては現行のリトリーバーシステムが限界を迎え、メモリ拡張型エージェントアーキテクチャがより効果的な解決策となる可能性が示唆された。 Comment
元ポスト:
10Mコンテキストまで性能を測定可能なベンチマークらしく、結果を見ると以下のようになっている。128KコンテキストではGPT5に軍配が上がり、1M級のコンテキストになるとGeminiがやはり強い(これは昔からそうでFiction.liveベンチなどでも示されていた)。
10Mコンテキスト級ではLLMのコンテキストウィンドウのみでは対応不可なので、RAGやMemory Agextでベンチマーキングされているが、明確にAgentの方が性能が良い。ベンチマークの細かな作り方や、harnessなど、具体的にどのような設定で実験されているのか気になる。
[Paper Note] Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge, Yao Tang+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Chain-of-Thought #Reasoning #Architecture #Test-Time Scaling #PostTraining #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2026-01-19 GPT Summary- Multiplex Thinkingは、K個の候補トークンをサンプリングし、単一のマルチプレックストークンに集約することで、柔軟な推論を実現。モデルの自信に応じて標準的なCoTの挙動と複数の妥当なステップをコンパクトに表現。難易度の高い数学的推論ベンチマークで一貫して優れた結果を示す。 Comment
pj page: https://gmlr-penn.github.io/Multiplex-Thinking/
元ポスト:
reasoningに関する新たなアーキテクチャでざっくり言うと単一のreasoningをハードに保持して推論するのではなく、(人間のように?)複数の推論に関する情報をソフトに保持して応答する枠組みである。
reasoningにおける各ステップにおいてk個数のreasoningトークンを生成し、最終的な応答を生成する前に、各ステップで生成されたreasoningトークンのone-hot vectorを集約し平均化、その後集約されたベクトルに対してelement単位(vocabごとの)再重み付けをして、embedding matrix Eを乗じてcontext vectorを得る。このcontext vectorが様々なreasoningの結果を集約したような情報を保持しており、context vectorで条件付けで応答yを生成するようなアーキテクチャ。reasoningモデルに対して追加のオンポリシーRLを通じて応答yのRewardが最大化されるように事後学習することで実現される。
単に性能が向上するだけでなく、test time scaling (parallel, sequenceの両方)でもスケールする。
解説:
[Paper Note] STEP3-VL-10B Technical Report, Ailin Huang+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #NLP #OpenWeight #read-later #Selected Papers/Blogs #VisionLanguageModel #UMM Issue Date: 2026-01-19 GPT Summary- STEP3-VL-10Bは、効率と最先端のマルチモーダル知能のトレードオフを再定義する軽量なオープンソース基盤モデル。言語に整合した知覚エンコーダとQwen3-8Bデコーダを統合し、1k回以上の強化学習を含むスケーラブルな後処理パイプラインを導入。並列協調推論を実装し、視覚推論の探索と統合を最適化。コンパクトながら、他の大規模モデルに匹敵する性能を発揮し、MMBenchで92.2%、AIME2025で94.43%などの成果を記録。再現可能な基準として全モデルスイートをコミュニティに提供。 Comment
元ポスト:
HF: https://huggingface.co/stepfun-ai/Step3-VL-10B
たったの10Bモデルにもかかわらず、100B, 200B級のベンチマーク性能を達成しており、unifiedなアーキテクチャで事前学習中に全てのパラメータをunfrozenな上で1.2Tマルチモーダルトークンで学習し、PaCoReと呼ばれるRLで学習されたtest time scaling手法や、GRPO系ではなくPPOをRLで採用するなど、ユニークな工夫が満載に見え、重要研究に見える。
[Paper Note] TranslateGemma Technical Report, Mara Finkelstein+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#MachineTranslation #NLP #LanguageModel #SmallModel #MultiLingual #OpenWeight #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-01-16 GPT Summary- TranslateGemmaは、Gemma 3モデルに基づく機械翻訳のオープンモデルセットで、二段階のファインチューニングプロセスを採用。初めに高品質な並行データで監視付きファインチューニングを行い、その後報酬モデルによる強化学習で翻訳品質を最適化。WMT25テストセットでの人間評価とWMT24++ベンチマークでの自動評価を通じて有効性を示し、自動指標では大幅な性能向上が確認される。特に小型モデルは大型モデルに匹敵する性能を持ちつつ効率が向上。さらに、マルチモーダル能力も保持し、画像翻訳ベンチマークでの性能向上が報告されている。TranslateGemmaの公開は、研究コミュニティに強力で適応可能な翻訳ツールを提供することを目指している。 Comment
元ポスト:
10個の翻訳元言語→翻訳先言語対で評価されている。Japanese→Englishでも評価されているが、他の言語と比べて最も性能が悪いので、日本語では苦戦していそうに見える。English→Italianは(評価した言語ペアの中では)最も性能が良い。
ポイント解説:
関連:
- PLaMo Translate: 翻訳特化大規模言語モデルの開発,今城+, Jxiv'25, 2025.08
- [Paper Note] Hunyuan-MT Technical Report, Mao Zheng+, arXiv'25, 2025.09
続報:
ブラウザ上で100%ローカルでの翻訳が可能になったらしい。WebGPUってなんだろう、、、
https://huggingface.co/spaces/webml-community/TranslateGemma-WebGPU
[Paper Note] ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking, Qiang Zhang+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#LearningToRank #PairWise #NLP #LanguageModel #ReinforcementLearning #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2026-01-16 GPT Summary- 強化学習はLLMエージェントのパフォーマンスを向上させたが、オープンエンドのタスクでは依然として課題が残る。報酬モデルが得点をスカラーで割り当てるため、識別が難しく、最適化が停滞する。これに対抗するために、ArenaRLを提案し、相対ランキングに基づく新しいアプローチを導入。プロセス意識の対評価メカニズムを用いて、安定した利点信号を得るためのトーナメント方式を採用。実験結果は、この手法が効率性と精度のバランスを保ちながら、従来のベースラインを超えることを示す。また、オープンエンドエージェント向けの高品質ベンチマークOpen-TravelとOpen-DeepResearchも構築された。 Comment
元ポスト:
pj page: https://tongyi-agent.github.io/blog/arenarl/
従来のRLが各ロールアウトごとにpoint-wiseなrewardを付与していたとみなしたときに、定量化が困難なタスクにおいてrewardのsignalがノイジーでうまくいかないという現象が生じ、それに対し相対的な指標であるpairwiseなrankingを導入するというのは直感的に非常に有効で、さまざまなタスクに適用しうるため、インパクトが大きく重要論文に見える。
[Paper Note] Can We Predict Before Executing Machine Learning Agents?, Jingsheng Zheng+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #Dataset #AIAgents #Planning #Evaluation #read-later Issue Date: 2026-01-14 GPT Summary- 自律的な機械学習エージェントは「生成-実行-フィードバック」パラダイムに依存しているが、高価な実行に制約されている。本研究では、事前情報を内部化し、瞬時の予測的推論に置き換えることでこの問題を解決。データ中心のソリューションを形式化し、18,438のペア比較からなるコーパスを構築。LLMが高い予測能力を示し、61.5%の精度を達成。FOREAGENTエージェントは予測-確認ループを採用し、収束を6倍速め、実行ベースラインを6%上回る成果を達成。コードとデータセットは近日中に公開予定。 Comment
元ポスト:
(読了前の第一印象)問題設定や着眼点が実用的で興味深い。
[Paper Note] BabyVision: Visual Reasoning Beyond Language, Liang Chen+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #Analysis #Dataset #Evaluation #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2026-01-14 GPT Summary- MLLMは基本的な視覚タスクで人間、特に3歳児に劣る性能を示す。これを調査するために、視覚能力を評価する「BabyVision」ベンチマークを導入。388のタスクを通じて、MLLMのパフォーマンスが人間基準を大きく下回ることが確認された。具体的には、Gemini3-Pro-Previewが49.7点で、6歳や成人の平均94.1点に遠く及ばない。これにより、MLLMは基本的な視覚原理が不足していることが明らかにされ、BabyVision-Genと自動評価ツールキットも提案された。データとコードは公開されている。 Comment
pj page: https://unipat.ai/blog/BabyVision
元ポスト:
ポイント解説:
(読了前の第一印象)現在のMLLMが純粋な視覚的な推論タスクにおいて幼児以下であることを示し、既存のベンチマークの脆弱性(純粋な視覚的な推論能力を評価できていない)を指摘した上で新たなベンチマークを提案しているように見え、非常に重要な研究に見える。
[Paper Note] MHLA: Restoring Expressivity of Linear Attention via Token-Level Multi-Head, Kewei Zhang+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #NLP #Transformer #Attention #Architecture #read-later #Selected Papers/Blogs Issue Date: 2026-01-14 GPT Summary- トランスフォーマーの自己注意の複雑さが大規模アプリケーションでの利用を制限する中、効率的な線形注意の適用は性能低下を招くことがあります。本研究では、モデルの表現の多様性を失わせる「グローバルコンテキスト崩壊」の問題を特定し、トークン次元に沿った注意計算による「マルチヘッド線形注意(MHLA)」を提案します。MHLAは線形の複雑さを保ちながら、ソフトマックス注意の表現力を回復することに成功し、様々なドメインでImageNet分類で3.6%、自然言語処理で6.3%、画像生成で12.6%、動画生成で41%の性能改善を達成しました。 Comment
pj page: https://dagroup-pku.github.io/MHLA/
元ポスト:
(読了前の第一印象)スループットを大幅に向上させながらも、大幅な性能改善をしている新たなlikear attention手法であり、image, video, textの3つのモダリティに対して性能向上しているように見えるため、結果のインパクトが大きく重要論文に見える。
[Paper Note] SimpleMem: Efficient Lifelong Memory for LLM Agents, Jiaqi Liu+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #read-later #Selected Papers/Blogs #memory Issue Date: 2026-01-09 GPT Summary- LLMエージェントのために、効率的なメモリシステムSimpleMemを提案。三段階のパイプラインで、意味的構造圧縮、再帰的メモリ統合、適応的クエリ認識型検索を実施し、情報密度とトークン利用を最大化。実験により、精度が26.4%向上し、トークン消費が最大30倍削減されることを確認。 Comment
pj page: https://aiming-lab.github.io/SimpleMem-Page/
ポイント解説:
追加の学習などが不要で、かつ高性能・低コストで動作するRetrieval basedなmemory(特定のLLMに依存しない点も良い)であり、実務的に導入が容易であり、実用性が高いため重要研究に見える。
[Paper Note] GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning, Lakshya A Agrawal+, ICLR'26, 2025.07
Paper/Blog Link My Issue
#NLP #LanguageModel #Prompting #AutomaticPromptEngineering #ICLR #read-later #Selected Papers/Blogs Issue Date: 2025-07-29 GPT Summary- GEPA(Genetic-Pareto)は、LLMsのプロンプト最適化手法であり、自然言語を用いて試行錯誤から高レベルのルールを学習する。これにより、数回のロールアウトで品質向上が可能となり、GRPOを平均10%、最大20%上回る結果を示した。GEPAは、主要なプロンプト最適化手法MIPROv2をも超える性能を発揮し、コード最適化にも有望な結果を示している。 Comment
元ポスト:
openreview:
https://openreview.net/forum?id=RQm2KQTM5r
alpharxiv:
https://www.alphaxiv.org/overview/2507.19457v1
自動的なプロンプトエンジニアリングでGRPOを上回れるのであれば、downstreamタスクにLLMを適用したい場合に、手元にデータがあるのであれば、強めのGPUマシンがなくても非常に汎用性が高い手法となるので重要研究に見える。
[Paper Note] EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing, Runjia Li+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #Dataset #Evaluation #Editing #4D (Video) #EgocentricView Issue Date: 2026-03-17 GPT Summary- 自己視点動画編集のためのエコシステムを提案。EgoEditDataを構築し、手と物体の相互作用に特化したデータセットを提供。リアルタイム推論を可能にするEgoEditを開発し、指示に従いながら高品質の編集を実現。評価スイートEgoEditBenchを導入し、自己視点編集での進歩を示しつつ、一般編集タスクでも強力な性能を維持。EgoEditDataとEgoEditBenchは研究コミュニティに公開予定。 Comment
pj page: https://snap-research.github.io/EgoEdit/
元ポスト:
完全にARの上位互換
[Paper Note] Context Engineering for AI Agents in Open-Source Software, Seyedmoein Mohsenimofidi+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #AIAgents #Coding #SoftwareEngineering #ContextEngineering #AGENTS.md Issue Date: 2026-03-03 GPT Summary- AGENTS.mdを通じて、AIコーディングアシスタントにおける文脈情報の提供方法を調査。466のオープンソースプロジェクトから得たデータに基づき、情報の提示方法や進化を分析。結果、標準化された構造は存在せず、提供方法に大きなばらつきがあることが明らかに。AI文脈ファイルの設計が内容の品質向上に与える影響を研究する潜在性を示唆。 Comment
元ポスト:
オープンソースのリポジトリにおけるAGENTS.mdに関する分析らしい。
関連:
- [Paper Note] Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?, Thibaud Gloaguen+, arXiv'26, 2026.02
-
# Writing a good CLAUDE.md, Kyle, 2025.11
[Paper Note] OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment, Tianci Liu+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #PostTraining #read-later #Selected Papers/Blogs #RewardModel #Rubric-based Issue Date: 2026-02-05 GPT Summary- 報酬モデルは人間のフィードバックを基にした強化学習の核を成しますが、従来の報酬モデルは多面的な人間の好みを捉えきれません。本研究では、構造化された基準を用いて複数の次元を評価する「ルブリック・アズ・リワード」を探求し、信頼性の高いルブリック生成に焦点を当て、OpenRubricsを紹介します。コントラストルブリック生成により、好ましい応答と拒否された応答を対比させて評価信号を引き出します。このアプローチにより、Rubric-RMは基準モデルを8.4%上回る性能を達成し、指示遵守や生物医学ベンチマークにも有効であることが示されました。 Comment
元ポスト:
chosen, rejectのpreferenceデータからcontrastiveにルーブリックやprincipleを明示的に構築して活用するというアプローチは非常に興味深い。色々な場面で役立ちそう。読みたい。
- [Paper Note] RefineBench: Evaluating Refinement Capability of Language Models via Checklists, Young-Jun Lee+, ICLR'26, 2025.11
の話と組み合わせて、もし高品質なルーブリックを動的に作成できれば、self-correction/refinementの能力の向上に活用できそうである。
[Paper Note] The Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs, Piotr Nawrot+, arXiv'25, 2025.04
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Evaluation #LongSequence #read-later #Selected Papers/Blogs #SparseAttention Issue Date: 2026-01-30 GPT Summary- スパースアテンションは、Transformer LLMの長文コンテキスト処理能力を向上させるが、その効率と精度のトレードオフは未評価である。本研究では、最大128Kトークンのシーケンスに対して、6つの手法を9つのタスクで分析し、スパースアテンションの効果的利用を示した。主な発見は、より大きなスパースモデルが小さな密なモデルを上回ること、トークンの重要度推定は計算制約で実現しにくいものの他の選択肢が効果的であること、長いシーケンスが高いスパース性を許容すること。これにより、スパースアテンション導入についての実践的ガイダンスを提供した。 Comment
元ポスト:
最近多くなってきたsparse attentionに関する非常に大きな実験で、かつ過去な提案されたものの分類などもされているようなのでsparse attentionに対する理解が深められそう。これは気になる。そして著者にSebastian Ruder氏の名前が。
[Paper Note] RePo: Language Models with Context Re-Positioning, Huayang Li+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #PositionalEncoding #Architecture #read-later #Selected Papers/Blogs Issue Date: 2026-01-19 GPT Summary- インコンテキスト学習の問題に対し、認知負荷を軽減する新メカニズム「RePo」を提案。トークンの位置を文脈依存に配置することで、深い推論を促進。OLMo-2 1Bでの実験により、RePoは長い文脈や構造化データにおいてパフォーマンスを向上させることを確認。詳細分析から、重要情報への注意配分が強化されていることが示された。 Comment
pj page: https://pub.sakana.ai/repo/
元ポスト:
contextに応じてlearnableなパラメータでpositionの情報を動的に調整するというアイデアが非常に興味深く、RoPE(回転行列を用いた現在の主流)やNoPE(PEを排除する手法だが理論上は2層以上積み上げると相対/絶対注意の双方を実現可能で自由度が非常に高い)と比較しても性能が向上しており、PEの扱いはインパ駆動大きいため重要論文に見える。
ポイント解説:
[Paper Note] Self-Aligned Reward: Towards Effective and Efficient Reasoners, Peixuan Han+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2026-01-17 GPT Summary- 自己調整報酬(SAR)は、強化学習における検証可能な報酬を補完し、推論の正確性と効率を向上させる新たな信号。SARは、クエリに応じた簡潔で特定の回答を促進し、分析からはその質を信頼できる形で区別できることが示された。4つのモデルを7つのベンチマークで評価し、SARを強化学習アルゴリズムと統合することで精度が4%向上、推論コストが30%削減されることが確認。また、SARは正確性と効率のパレート最適なトレードオフを達成し、冗長性を抑えつつ重要な推論を保持することを示した。これにより、SARがLLMのトレーニングにおいて重要な役割を果たす可能性が示唆された。 Comment
code: https://github.com/amazon-science/Self-Aligned-Reward-Towards_Effective_and_Efficient_Reasoners
元ポスト:
様々なRLの報酬にplug-and-playで適用可能なreward signalで、ポリシーによって応答のみで条件付けた場合のperplexityと、クエリqで条件づけた場合の応答のperplexityから、perplexityが低下した割合を報酬(reward signal)とする。つまり、クエリで条件づけられたときによりモデルが自信を持って応答をしていた場合の報酬を高くする。reward hackingをしている場合は部分的であれクエリから外れた応答をすると思われるため、報酬が大きくなりづらい、というよりネガティヴになることさえありうるため、より安定した学習が実現すると思われる。
現在のRLにおける課題である計算効率において、性能を犠牲にせず(推論時のトークン効率の観点から)効率向上が期待できインパクトが大きいように見えるため、重要研究に見える。
[Paper Note] BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills, Atharv Sonwane+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SyntheticData #Coding #SoftwareEngineering #BugGeneration Issue Date: 2026-01-16 GPT Summary- 合成的に多様なバグを生成する新手法を提案し、SWEエージェントの訓練における高品質なバグの重要性を強調。従来の局所的摂動によるバグ生成に対し、機能追加が意図しないバグを生じさせるプロセスを採用。実験により、新生成バグが監視付きファインチューニングにおいて効率的なデータを提供し、他データセットを上回る成果を実証。FrogBossとFrogMiniモデルがSWE-benchでそれぞれ54.6%と45.3%のpass@1を達成。 Comment
カオスエンジニアリングみたいになってきた
[Paper Note] Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs, Jan Betley+, arXiv'25, 2025.02
Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #Safety #PostTraining #Selected Papers/Blogs #EmergentMisalignment Issue Date: 2026-01-15 GPT Summary- 言語モデル(LLM)が不正なコードを出力するようにファインチューニングされた結果、広範なプロンプトに対して不整合な振る舞いを示す「突発的不整合」が発生した。特にGPT-4oやQwen2.5-Coder-32B-Instructで顕著であり、ファインチューニングされたモデルは一貫性のない行動を示すことが確認された。コントロール実験により、突発的不整合の要因を特定し、不正なコードへのリクエストを受け入れるモデルの柔軟性に着目。バックドアを利用して突発的不整合を選択的に誘発する実験も行い、トリガーが存在する場合のみ不整合が顕れることがわかった。狭いファインチューニングが広範な不整合を引き起こす理由を理解することが今後の課題となる。 Comment
元ポスト:
Emergent Misalignmentを発見した研究で、AI Safetyの観点で重要な発見であると考えられる。
[Paper Note] Extending the Context of Pretrained LLMs by Dropping Their Positional Embeddings, Yoav Gelberg+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #LongSequence #PositionalEncoding #read-later #Selected Papers/Blogs Issue Date: 2026-01-12 GPT Summary- 本研究では、言語モデル(LM)の位置埋め込みを削除することで、事前学習のシーケンス長を超えたコンテキスト拡張のボトルネックを解消する手法DroPEを提案。位置埋め込みの過度な依存が一般化を妨げることを示し、短い再キャリブレーション後に安全に削除できることを実証。DroPEは長いコンテキストのファインチューニングなしでゼロショット拡張を実現し、従来の手法を上回る性能を示した。 Comment
興味深い
元ポスト:
(読了前の第一印象)
- The Impact of Positional Encoding on Length Generalization in Transformers, Amirhossein Kazemnejad+, NeurIPS'23
において、NoPEは理論上絶対位置エンコーディングと相対位置エンコーディングの両方を実現可能であり、実際に学習をすると相対位置エンコーディングと似たような分布の位置エンコーディングが学習され、long contextの性能が改善することが報告されている。
まだ論文は読めていないのだが、NoPEは自由度が高いので、学習の初期は何らかの位置エンコーディング手法を補助輪的に使いある程度学習を進め、その後dropしてより自由度の高い状態でfinegrainedなrepresentationを学習するというのは確かにうまくいきそうだな、という感想をもった。
[Paper Note] EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test, Yuhui Li+, NeurIPS'25, 2025.03
Paper/Blog Link My Issue
#NLP #LanguageModel #NeurIPS #Decoding #read-later #Selected Papers/Blogs #SpeculativeDecoding Issue Date: 2025-12-28 GPT Summary- EAGLE-3は、特徴予測を放棄し、トークン予測に切り替えることで性能を向上させた大規模言語モデルの手法。これにより、トレーニングデータの拡大からの恩恵を最大化し、最大6.5倍のスピードアップを実現。実験では、チャットモデルと推論モデルの両方で評価され、EAGLE-2に対して約1.4倍の改善を示した。コードは公開されている。 Comment
openreview: https://openreview.net/forum?id=4exx1hUffq
Speculavive Decodingの文脈で多くの文献から本研究が言及される
[Paper Note] Language Models Can Learn from Verbal Feedback Without Scalar Rewards, Renjie Luo+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #read-later #Selected Papers/Blogs #TextualFeedback Issue Date: 2025-09-29 GPT Summary- LLMsの訓練において、フィードバックを条件信号として扱う新しい手法、フィードバック条件付きポリシー(FCP)を提案。FCPは応答-フィードバックペアから直接学習し、オンラインで自己を洗練させることで、報酬最適化ではなく条件生成によるフィードバック駆動の学習を実現。 Comment
元ポスト:
以下とはどこが異なるだろうか?:
- [Paper Note] Large Language Models as Optimizers, Chengrun Yang+, ICLR'24, 2023.09
こちらはメタプロンプトを用いてテキスト空間上で反復的にプロンプトをチューニングする枠組みだが、本研究はフィードバック(報酬モデルの報酬にすると消えてしまうテキストの微妙なニュアンス等のシグナル)に基づいてパラメータを更新するので全く異なる枠組みだった。
openreview:
https://openreview.net/forum?id=F4LBDJtsDX
RMからではなくVerbal Feedbackからモデルが効果的に学習できることはAilgnmentのスケーリングに重要な技術だという指摘が多い。
[Paper Note] Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards, Xiaoyuan Liu+, NeurIPS'25
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #NeurIPS #read-later #RLVR #On-Policy #SelfVerification Issue Date: 2025-09-19 GPT Summary- RISEという新しいオンラインRLフレームワークを提案し、LLMの問題解決能力と自己検証能力を同時に向上させる。結果検証者からの報酬を活用し、解決策生成と自己検証に即時フィードバックを提供。実験により、RISEは問題解決精度を向上させ、自己検証スキルを育成することが示された。RISEは堅牢で自己認識のある推論者を育成するための効果的な手法である。 Comment
元ポスト:
Self-Verificationの能力が大幅に向上するのは良さそう。
[Paper Note] Reinforcement Learning Finetunes Small Subnetworks in Large Language Models, Sagnik Mukherjee+, NeurIPS''25, 2025.05
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #NeurIPS #read-later #Sparse Issue Date: 2025-09-19 GPT Summary- 強化学習(RL)は、LLMsのパフォーマンスと人間の価値観の整合性を大幅に改善する。驚くべきことに、パラメータの5%から30%の小さなサブネットワークのみを更新することで実現されるスパース性が観察され、これは7つのRLアルゴリズムと10のLLMで共通して見られた。このスパース性は本質的であり、サブネットワークのファインチューニングによってテスト精度が回復し、ほぼ同一のモデルが生成される。更新はほぼフルランクであり、ポリシー分布に近いデータでのトレーニングが主な要因と考えられる。 Comment
元ポスト:
openreview: https://openreview.net/forum?id=0NdS4xCngO
RLの挙動を理解する上で役に立ちそうで興味深い。以下とは何か関連があるのだろうか:
- [Paper Note] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification, Yongliang Wu+, ICLR'26, 2025.08
- [Paper Note] From Atomic to Composite: Reinforcement Learning Enables Generalization in Complementary Reasoning, Sitao Cheng+, arXiv'25, 2025.12
[Paper Note] RegMix: Data Mixture as Regression for Language Model Pre-training, Qian Liu+, ICLR'25
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #ICLR #read-later #Selected Papers/Blogs #DataMixture Issue Date: 2025-09-01 GPT Summary- RegMixを提案し、データミクスチャの性能を回帰タスクとして自動的に特定。多様なミクスチャで小モデルを訓練し、最良のミクスチャを用いて大規模モデルを訓練した結果、他の候補を上回る性能を示した。実験により、データミクスチャが性能に大きな影響を与えることや、ウェブコーパスが高品質データよりも良好な相関を持つことを確認。RegMixの自動アプローチが必要であることも示された。 Comment
openreview: https://openreview.net/forum?id=5BjQOUXq7i
今後DavaMixtureがさらに重要になるという見方があり、実際にフロンティアモデルのDataMixtureに関する情報はテクニカルレポートには記載されず秘伝のタレ状態であるため、より良いDataMixtureする本研究は重要論文に見える。
[Paper Note] Listwise Preference Alignment Optimization for Tail Item Recommendation, Zihao Li+, arXiv'25, 2025.07
Paper/Blog Link My Issue
#RecommenderSystems #ListWise #Alignment #Transformer #SequentialRecommendation Issue Date: 2025-07-04 GPT Summary- LPO4Recは、テールアイテム推薦におけるPreference alignmentの課題を解決するために提案された手法で、Bradley-Terryモデルをペアワイズからリストワイズ比較に拡張し、効率的なトレーニングを実現。明示的な報酬モデリングなしで、テールアイテムを優先する負のサンプリング戦略を導入し、パフォーマンスを最大50%向上させ、GPUメモリ使用量を17.9%削減。実験結果は3つの公開データセットで示されている。 Comment
元ポスト:
tail itemに強い手法らしい。LLMを用いたGenerative Recommendationではなく、1 BlockのTransformerにlistwiseなpreferenceを反映したlossを適用したものっぽい。
一貫して性能は高そうに見えるが、再現性はどうだろうか。
関連(SASRec):
- [Paper Note] Self-Attentive Sequential Recommendation, Wang-Cheng Kang+, ICDM'18
pointwise, pairwise, listwiseの基礎はこちらを参照:
- ランキング学習ことはじめ, DSIRNLP#1, 2011.07
[Paper Note] AudioBERTScore: Objective Evaluation of Environmental Sound Synthesis Based on Similarity of Audio embedding Sequences, Minoru Kishi+, arXiv'25
Paper/Blog Link My Issue
#Metrics #Transformer #Evaluation #SpeechProcessing Issue Date: 2025-07-02 GPT Summary- 新しい客観的評価指標AudioBERTScoreを提案し、合成音声の性能向上を目指す。従来の客観的指標は主観的評価との相関が弱いため、AudioBERTScoreは合成音声と参照音声の埋め込みの類似性を計算し、主観的評価との相関が高いことを実験で示した。 Comment
元ポスト:
text-to-audioの自動評価が可能な模様
[Paper Note] Text-to-LoRA: Instant Transformer Adaption, Rujikorn Charakorn+, ICML'25, 2025.06
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #PEFT(Adaptor/LoRA) #ICML #memory #One-Line Notes #Test Time Training (TTT) Issue Date: 2025-06-12 GPT Summary- Text-to-LoRA(T2L)は、自然言語による説明に基づいて大規模言語モデル(LLMs)を迅速に適応させる手法で、従来のファインチューニングの高コストと時間を克服します。T2Lは、LoRAを安価なフォワードパスで構築するハイパーネットワークを使用し、タスク特有のアダプターと同等のパフォーマンスを示します。また、数百のLoRAインスタンスを圧縮し、新しいタスクに対してゼロショットで一般化可能です。このアプローチは、基盤モデルの専門化を民主化し、計算要件を最小限に抑えた言語ベースの適応を実現します。 Comment
元ポスト:
な、なるほど、こんな手が…!
openreview: https://openreview.net/forum?id=zWskCdu3QA
ポイント解説:
Text-to-LoRAの目的は、instructionをメモリの内部パラメータに埋め込み、モデルにon-the-flyで新たな挙動を身につけさせること。
[Paper Note] DataComp-LM: In search of the next generation of training sets for language models, Jeffrey Li+, NeurIPS'25, 2024.07
Paper/Blog Link My Issue
#Pretraining #NLP #Dataset #LanguageModel #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-05-10 GPT Summary- DataComp for Language Models(DCLM)を紹介し、240Tトークンのコーパスと53の評価スイートを提供。DCLMでは、モデルスケール412Mから7Bパラメータのデータキュレーション戦略を実験可能。DCLM-Baselineは2.6Tトークンでトレーニングし、MMLUで64%の精度を達成し、従来のMAP-Neoより6.6ポイント改善。計算リソースも40%削減。結果はデータセット設計の重要性を示し、今後の研究の基盤を提供。 Comment
openreview: https://openreview.net/forum?id=CNWdWn47IE
最近多くの著名なモデルでDCLMを事前学習データとして利用している文献を目にするようになった
[Paper Note] A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility, Andreas Hochlehnert+, COLM'25
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #SmallModel #COLM #PostTraining #Selected Papers/Blogs #In-Depth Notes #KeyPoint Notes Issue Date: 2025-04-13 GPT Summary- 推論は言語モデルの重要な課題であり、進展が見られるが、評価手法には透明性や堅牢性が欠けている。本研究では、数学的推論ベンチマークが実装の選択に敏感であることを発見し、標準化された評価フレームワークを提案。再評価の結果、強化学習アプローチは改善が少なく、教師ありファインチューニング手法は強い一般化を示した。再現性を高めるために、関連するコードやデータを公開し、今後の研究の基盤を築く。 Comment
元ポスト:
SLMをmath reasoning向けにpost-trainingする場合、評価の条件をフェアにするための様々な工夫を施し評価をしなおした結果(Figure1のように性能が変化する様々な要因が存在する)、RL(既存研究で試されているもの)よりも(大規模モデルからrejection samplingしたreasoning traceを用いて)SFTをする方が同等か性能が良く(Table3)、結局のところ(おそらく汎化性能が低いという意味で)reliableではなく、かつ(おそらく小規模なモデルでうまくいかないという意味での)scalableではないので、reliableかつscalableなRL手法が不足しているとのこと。
※ 本論文で分析されているのは<=10B以下のSLMである点に注意。10B以上のモデルで同じことが言えるかは自明ではない。
※ DAPO, VAPOなどについても同じことが言えるかも自明ではない。
※ DeepSeek-R1のtechnical reportにおいて、小さいモデルにGRPOを適用してもあまり効果が無かったことが既に報告されている。
- DeepSeek-R1の論文読んだ?【勉強になるよ】 , asap, 2025.01
- DeepSeek-R1, DeepSeek, 2025.01
個々のpost-trainingされたRLモデルが具体的にどういう訓練をしたのかは追えていないが、DAPOやDr. GRPO, VAPOの場合はどうなるんだろうか?
- [Paper Note] DAPO: An Open-Source LLM Reinforcement Learning System at Scale, Qiying Yu+, NeurIPS'25
- VAPO: Efficient and Reliable Reinforcement Learning for Advanced
Reasoning Tasks, YuYue+, arXiv'25
- [Paper Note] Understanding R1-Zero-Like Training: A Critical Perspective, Zichen Liu+, arXiv'25, 2025.03
Rewardの設定の仕方はどのような影響があるのだろうか(verifiable rewardなのか、neuralモデルによるrewardなのかなど)?
学習のさせ方もどのような影響があるのだろうか(RLでカリキュラムlearningにした場合など)?
検証しているモデルがそれぞれどのような設定で学習されているかまでを見ないとこの辺はわからなそう。
ただなんとなーくの直感だと、SLMを賢くしたいという場合は何らかの賢いモデルの恩恵に預かると有利なケースが多く(SFTの場合はそれが大規模なモデルから蒸留したreasoning trace)、SLM+RLの場合はPRMのような思考プロセスを評価してRewardに反映させるようなものを利用しないと、少なくとも小規模なLLMをめちゃ賢くします〜というのはきついんじゃないかなあという感想ではある。
ただ、結局SLMという時点で多くの場合、より賢いパラメータ数の多いLLMが世の中には存在するあるはずなので、RLしないでSFTして蒸留すれば良いんじゃない…?と思ってしまう。
が、多くの場合その賢いLLMはProprietaryなLLMであり、出力を得て自分のモデルをpost-trainingすることは利用規約違反となるため、自前で賢くてパラメータ数の多いLLMを用意できない場合は困ってしまうので、SLMをクソデカパラメータのモデルの恩恵なしで超絶賢くできたら世の中の多くの人は嬉しいよね、とも思う。
(斜め読みだが)
サンプル数が少ない(数十件)AIMEやAMCなどのデータはseedの値にとてもsensitiveであり(Takeaway1, 2)、
それらは10種類のseedを用いて結果を平均すると分散が非常に小さくなるので、seedは複数種類利用して平均の性能を見た方がreliableであり(Takeaway3)
temperatureを高くするとピーク性能が上がるが分散も上がるため再現性の課題が増大するが、top-pを大きくすると再現性の問題は現れず性能向上に寄与し
既存研究のモデルのtemperatureとtop-pを変化させ実験するとperformanceに非常に大きな変化が出るため、モデルごとに最適な値を選定して比較をしないとunfairであることを指摘 (Takeaway4)。
また、ハードウェアの面では、vLLMのようなinference engineはGPU typeやmemoryのconfigurationに対してsensitiveでパフォーマンスが変わるだけでなく、
評価に利用するフレームワークごとにinference engineとprompt templateが異なるためこちらもパフォーマンスに影響が出るし (Takeaway5)、
max output tokenの値を変化させると性能も変わり、prompt templateを利用しないと性能が劇的に低下する (Takeaway6)。
これらのことから著者らはreliableな評価のために下記を提案しており (4.1節; 後ほど追記)、
実際にさまざまな条件をfair comparisonとなるように標準化して評価したところ(4.2節; 後ほど追記)
上の表のような結果となった。この結果は、
- DeepSeekR1-DistilledをRLしてもSFTと比較したときに意味のあるほどのパフォーマンスの向上はないことから、スケーラブル、かつ信頼性のあるRL手法がまだ不足しており
- 大規模なパラメータのモデルのreasoning traceからSFTをする方法はさまざまなベンチマークでロバストな性能(=高い汎化性能)を持ち、RLと比べると現状はRLと比較してよりパラダイムとして成熟しており
- (AIME24,25を比較するとSFTと比べてRLの場合performanceの低下が著しいので)RLはoverfittingしやすく、OODなベンチマークが必要
しっかりと評価の枠組みを標準化してfair comparisonしていかないと、RecSys業界の二の舞になりそう(というかもうなってる?)。
またこの研究で分析されているのは小規模なモデル(<=10B)に対する既存研究で用いられた一部のRL手法や設定の性能だけ(真に示したかったらPhisics of LLMのような完全にコントロール可能なサンドボックスで実験する必要があると思われる)なので、DeepSeek-R1のように、大規模なパラメータ(数百B)を持つモデルに対するRLに関して同じことが言えるかは自明ではない点に注意。
openreview: https://openreview.net/forum?id=90UrTTxp5O#discussion
最近の以下のようなSFTはRLの一つのケースと見做せるという議論を踏まえるとどうなるだろうか
- [Paper Note] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification, Yongliang Wu+, ICLR'26, 2025.08
- [Paper Note] Towards a Unified View of Large Language Model Post-Training, Xingtai Lv+, arXiv'25
[Paper Note] CREAM: Consistency Regularized Self-Rewarding Language Models, Zhaoyang Wang+, ICLR'25
Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #SelfImprovement #ICLR #RewardHacking Issue Date: 2025-04-06 GPT Summary- 自己報酬型LLMは、LLM-as-a-Judgeを用いてアラインメント性能を向上させるが、報酬とランク付けの正確性が問題。小規模LLMの実証結果は、自己報酬の改善が反復後に減少する可能性を示唆。これに対処するため、一般化された反復的好みファインチューニングフレームワークを定式化し、正則化を導入。CREAMを提案し、報酬の一貫性を活用して信頼性の高い好みデータから学習。実証結果はCREAMの優位性を示す。 Comment
- [Paper Note] Self-Rewarding Language Models, Weizhe Yuan+, N/A, ICML'24
を改善した研究
OpenReview: https://openreview.net/forum?id=Vf6RDObyEF
この方向性の研究はおもしろい
[Paper Note] Perspective Transition of Large Language Models for Solving Subjective Tasks, Xiaolong Wang+, arXiv'25, 2025.01
Paper/Blog Link My Issue
#NLP #LanguageModel #Chain-of-Thought #Prompting #ACL #Findings #One-Line Notes Issue Date: 2025-01-25 GPT Summary- 視点遷移を通じた推論(RPT)手法により、LLMsが主観的タスクにおいて視点を動的に選択できるようにします。本手法は専門家や第三者の視点を活用し、文脈をより適切に解釈することで、ニュアンスのある回答を提供します。広範な実験により、従来の固定視点手法を大きく上回る成果を示しました。 Comment
元ポスト:
OpenReview: https://openreview.net/forum?id=cFGPlRony5
"Subjective Task"とは例えば「メタファーの認識」や「ダークユーモアの検知」などがあり、これらは定量化しづらい認知的なコンテキストや、ニュアンスや感情などが強く関連しており、現状のLLMではチャレンジングだと主張している。
Subjective Taskでは、Reasoningモデルのように自動的にCoTのpathwayを決めるのは困難で、手動でpathwayを記述するのはチャレンジングで一貫性を欠くとした上で、複数の視点を組み合わせたPrompting(direct perspective, role-perspective, third-person perspectivfe)を実施し、最もConfidenceの高いanswerを採用することでこの課題に対処すると主張している。
イントロしか読めていないが、自動的にCoTのpathwayを決めるのも手動で決めるのも難しいという風にイントロで記述されているが、手法自体が最終的に3つの視点から回答を生成させるという枠組みに則っている(つまりSubjective Taskを解くための形式化できているので、自動的な手法でもできてしまうのではないか?と感じた)ので、イントロで記述されている主張の”難しさ”が薄れてしまっているかも・・・?と感じた。論文が解こうとしている課題の”難しさ”をサポートする材料がもっとあった方がよりmotivationが分かりやすくなるかもしれない、という感想を持った。
[Paper Note] Logic-of-Thought: Injecting Logic into Contexts for Full Reasoning in Large Language Models, Tongxuan Liu+, NAACL'25, 2024.09
Paper/Blog Link My Issue
#NLP #LanguageModel #Chain-of-Thought #Prompting #NAACL Issue Date: 2024-09-29 GPT Summary- LLMの論理推論能力は依然として課題が残る。Chain-of-Thoughtなどの手法は改善をもたらすが、信頼性に問題がある。そこで、命題論理を利用したLogic-of-Thought(LoT)プロンプトを提案し、論理情報を強化することで推論能力を向上させる。実験では、LoTが多数の論理推論タスクで既存手法の性能を大幅に向上させることを示し、特にReClorおよびRuleTakerデータセットでの改善が顕著であった。 Comment
※ このメモは当初の原稿に対するものであり、NAACLの原稿では修正されている。
SNSで話題になっているようだがGPT-3.5-TurboとGPT-4でしか比較していない上に、いつの時点のモデルかも記述されていないので、unreliableに見える
ReClorデータセットで性能が向上しているのは個人的に興味深い。
[Paper Note] Diffusion Models Are Real-Time Game Engines, Dani Valevski+, ICLR'25, 2024.08
Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #DiffusionModel #ICLR #read-later #Selected Papers/Blogs #WorldModels #interactive Issue Date: 2024-09-01 GPT Summary- GameNGenは、初の完全にニューラルモデルで動作するゲームエンジンであり、DOOMを用いて訓練され、インタラクティブな新しい軌道を生成する能力を持つ。毎秒20フレームで動作し、9.4のPSNRを達成。評価者は自己回帰生成後もゲームクリップをわずかに識別可能である。GameNGenは、強化学習エージェントによるトレーニングと、次フレーム生成のための拡散モデルの2段階で訓練され、安定した生成を実現する。 Comment
Diffusion Modelでゲーム映像を生成する取り組みらしい。ゲームのenvironmentに対して、ユーザのActionとframeの系列をエピソードとみなして生成するっぽい?
project pageにデモがのっている
https://gamengen.github.io/
openreview: https://openreview.net/forum?id=P8pqeEkn1H
[Paper Note] Chain of Agents: Large Language Models Collaborating on Long-Context Tasks, Yusen Zhang+, arXiv'24, 2024.06
Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #AIAgents #ContextWindow #Blog #NeurIPS Issue Date: 2025-01-25 GPT Summary- 長い文脈の処理はLLMsにとって重要な課題であり、入力短縮(RAG利用)とウィンドウ拡張の2つの戦略が提案されているが、両者には欠点がある。これを解決するため、Chain-of-Agents(CoA)という新しいフレームワークを提案し、マルチエージェント協調を用いて情報集約と文脈推論を実現。CoAは複数のエージェントがセグメント化された部分を処理し、最終出力を統合する。さまざまなタスクでの評価において、RAGや従来手法に対して最大10%の改善を示した。 Comment
元ポスト:
LLMがどこまでいってもcontext長の制約に直面する問題に対してLLM Agentを組み合わせて対処しました、的な話な模様
ブログ中にアプローチを解説した動画があるのでわかりやすい
Is the experimental code open source?
Thank you for your comment. I tried to find an official open-source implementation provided by the authors, but I was not able to locate one. In fact, I also checked the personal webpage of the first author, but there was no link to any released code.
Is seems that an unofficial implementation is listed under the “Code” tab on the NeurIPS page. I hope this is helpful. Thank you.
NeurIPS link:
https://nips.cc/virtual/2024/poster/95563
openreview:
https://openreview.net/forum?id=LuCLf4BJsr
[Paper Note] Precise Length Control in Large Language Models, Bradley Butcher+, arXiv'24, 2024.12
Paper/Blog Link My Issue
#Controllable #NLP #LanguageModel #PositionalEncoding #Length Issue Date: 2025-01-03 GPT Summary- デコーダー専用LLMを応答長を正確に制御するために適応。補助的な位置エンコーディングを用いて、設定された応答長までカウントダウン。ファインチューニングにより整合的な応答が可能となり、平均トークン誤差は3トークン未満に。Max New Tokens++ を導入し、柔軟な長さ制御を実現。実験結果は応答品質を損なわずに正確な長さ制御が可能であることを示す。 Comment
元ポスト:
- [Paper Note] Controlling Output Length in Neural Encoder-Decoders, Yuta Kikuchi+, EMNLP'16
などのEncoder-Decoderモデルで行われていたoutput lengthの制御をDecoder-onlyモデルでもやりました、という話に見える。
[Paper Note] LoRA Learns Less and Forgets Less, Dan Biderman+, TMLR'24, 2024.05
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #TMLR #Selected Papers/Blogs Issue Date: 2025-01-02 GPT Summary- LoRAは、大規模言語モデルの効率的なファインチューニング手法であり、重み行列に低ランクの摂動を学習させることでメモリを節約する。本研究では、プログラミングと数学のドメインにおいて、LoRAと完全なファインチューニングの性能を比較し、LoRAが標準的な設定で劣ることを示すが、ターゲットドメイン外のタスク性能を維持することに優れる。加えて、LoRAは忘却を抑制し、多様な生成を可能にすることが示された。最後に、完全なファインチューニングがLoRAよりも大きなランクの摂動を学習することにより性能差を説明できる可能性がある。LoRAのファインチューニングに関する最良の実践方法も提案されている。 Comment
元ポスト:
full finetuningとLoRAの性質の違いを理解するのに有用
Reinforcement Learning: An Overview, Kevin Murphy, arXiv'24
Paper/Blog Link My Issue
#Tutorial #MachineLearning #ReinforcementLearning Issue Date: 2024-12-10 GPT Summary- この原稿は、深層強化学習と逐次的意思決定に関する最新の全体像を提供し、価値ベースのRL、ポリシー勾配法、モデルベース手法、RLとLLMsの統合について簡潔に議論しています。 Comment
あのMurphy本で有名なMurphy氏の強化学習の教科書…だと…
[Paper Note] LoRA vs Full Fine-tuning: An Illusion of Equivalence, Reece Shuttleworth+, arXiv'24, 2024.10
Paper/Blog Link My Issue
#Analysis #MachineLearning #NLP #LanguageModel #PEFT(Adaptor/LoRA) #NeurIPS #read-later #needs-revision Issue Date: 2024-11-09 GPT Summary- ファインチューニングは事前学習済みの大規模言語モデルにおいて重要なプロセスであり、LoRAのような手法は必要なパラメータを削減しつつ高性能を保つことが証明されている。しかし、完全なファインチューニングとLoRAが本当に同等のモデルを生み出すかをスペクトル解析により検証した結果、異なる重み行列が生成されることが判明。LoRAに特有の「侵入次元」が高位の特異ベクトルとして現れ、これがモデルの一般化能力を損なうことが示された。高ランクLoRAは完全なファインチューニングに近い振る舞いを示す一方、LoRAの低ランクモデルは異なるパラメータ空間にアクセスしていることが示唆された。侵入次元の出現理由とその影響を最小化する方法も検討された。 Comment
元ポスト:
- When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method, Biao Zhang+, N/A, ICLR'24
や
- [Paper Note] Beyond Full Fine-tuning: Harnessing the Power of LoRA for Multi-Task Instruction Tuning, Xin+, LREC-COLING'24
双方の知見も交えて、LoRAの挙動を考察する必要がある気がする。それぞれ異なるデータセットやモデルで、LoRAとFFTを比較している。時間がないが後でやりたい。
あと、昨今はそもそも実験設定における変数が多すぎて、とりうる実験設定が多すぎるため、個々の論文の知見を鵜呑みにして一般化するのはやめた方が良い気がしている。
# 実験設定の違い
## モデルのアーキテクチャ
- 本研究: RoBERTa-base(transformer-encoder)
- When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method, Biao Zhang+, N/A, ICLR'24
: transformer-decoder
- [Paper Note] Beyond Full Fine-tuning: Harnessing the Power of LoRA for Multi-Task Instruction Tuning, Xin+, LREC-COLING'24
: transformer-decoder(LLaMA)
## パラメータサイズ
- 本研究:
- When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method, Biao Zhang+, N/A, ICLR'24
: 1B, 2B, 4B, 8B, 16B
- [Paper Note] Beyond Full Fine-tuning: Harnessing the Power of LoRA for Multi-Task Instruction Tuning, Xin+, LREC-COLING'24
: 7B
時間がある時に続きをかきたい
## Finetuningデータセットのタスク数
## 1タスクあたりのデータ量
## trainableなパラメータ数
openreview: https://openreview.net/forum?id=xp7B8rkh7L
On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability, Kevin Wang+, N_A, arXiv'24, 2024.11
Paper/Blog Link My Issue
#NLP #ChatGPT Issue Date: 2024-11-02 GPT Summary- 本研究では、OpenAIのo1モデルの計画能力を評価し、実現可能性、最適性、一般化の3つの側面に焦点を当てています。特に、制約の多いタスクや空間的に複雑な環境における強みとボトルネックを特定しました。o1-previewは、構造化された環境での制約遵守においてGPT-4を上回る一方で、冗長なアクションを伴う最適でない解を生成し、一般化に苦労しています。この研究は、LLMsの計画における限界を明らかにし、今後の改善の方向性を示しています。 Comment
o1のplanningの性能について知りたくなったら読む
beeFormer: Bridging the Gap Between Semantic and Interaction Similarity in Recommender Systems, Vojtěch Vančura+, N_A, RecSys'24
Paper/Blog Link My Issue
#RecommenderSystems #Transformer #TransferLearning Issue Date: 2024-09-25 GPT Summary- レコメンダーシステムにおいて、コールドスタートやゼロショットシナリオでの予測改善のために、インタラクションデータを活用した文のトランスフォーマーモデル「beeFormer」を提案。beeFormerは、意味的類似性の予測において従来の手法を上回り、異なるドメインのデータセット間で知識を転送可能であることを示した。これにより、ドメインに依存しないテキスト表現のマイニングが可能になる。 Comment
NLPでは言語という共通の体系があるから事前学習とかが成立するけど、RecSysのようなユーザとシステムのinteraction dataを用いたシステムでは(大抵の場合はデータセットごとにユニークなユーザIDとアイテムIDのログでデータが構成されるので)なかなかそういうことは難しいよね、と思っていた。が、もしRecSysのタスク設定で、データセット間の転移学習を実現できるのだとしたらどのように実現してきるのだろうか?興味深い。後で読む。
[Paper Note] Searching for Best Practices in Retrieval-Augmented Generation, Xiaohua Wang+, N_A, EMNLP'24
Paper/Blog Link My Issue
#EMNLP #needs-revision Issue Date: 2024-07-30 GPT Summary- RAG技術は、最新情報の統合、幻覚の軽減、および応答品質の向上に効果的であることが証明されています。しかし、多くのRAGアプローチは複雑な実装と長時間の応答時間という課題に直面しています。本研究では、既存のRAGアプローチとその潜在的な組み合わせを調査し、最適なRAGプラクティスを特定するために取り組んでいます。さらに、マルチモーダル検索技術が視覚入力に関する質問応答能力を大幅に向上させ、"検索を生成として"戦略を用いてマルチモーダルコンテンツの生成を加速できることを示します。 Comment
RAGをやる上で参考になりそう
[Paper Note] RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation, Zihao Wang+, arXiv'24, 2024.03
Paper/Blog Link My Issue
#InformationRetrieval #NLP #Chain-of-Thought #RAG(RetrievalAugmentedGeneration) #One-Line Notes Issue Date: 2024-04-14 GPT Summary- 情報検索を活用し思考の連鎖を修正することで、大規模言語モデルの推論及び生成能力が向上し、幻覚の抑制も確認。提案手法「retrieval-augmented thoughts(RAT)」は、生成された思考ステップを取得情報で順次修正し、GPT-3.5、GPT-4、CodeLLaMA-7bに適用した結果、コード生成で13.63%、数学的推論で16.96%、創作的執筆で19.2%、具現化タスク計画で42.78%の性能向上を達成。デモページはhttps://craftjarvis.github.io/RAT。 Comment
RAGにおいてCoTさせる際に、各reasoningのstepを見直させることでより質の高いreasoningを生成するRATを提案。Hallucinationが低減し、生成のパフォーマンスも向上するとのこと。
コンセプト自体はそりゃそうだよねという話なので、RAGならではの課題があり、それを解決した、みたいな話があるのかが気になる。
[Paper Note] RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners, Chi Hu+, arXiv'24, 2024.03
Paper/Blog Link My Issue
#InformationRetrieval #LearningToRank #NLP #LanguageModel #Prompting #Reasoning #COLING #Reranking #LREC Issue Date: 2024-04-07 GPT Summary- LLMの論理的エラーを解決するために、自己ランク付けを可能にする新手法RankPromptを提案。これは、多様な応答を比較し、LLMの文脈的生成能力を活用する。実験ではChatGPTやGPT-4の性能が最大13%向上し、AlpacaEvalデータセットでは人間の判断との74%の一致率を示した。また、応答の順序や一貫性の変動にも強い耐性を持つことが確認された。RankPromptは高品質なフィードバックを引き出す有効な手法である。 Comment
LLMでランキングをするためのプロンプト手法。独立したプロンプトでスコアリングしスコアリング結果からランキングするのではなく、LLMに対して比較するためのルーブリックやshotを入れ、全てのサンプルを含め、1回のPromptingでランキングを生成するような手法に見える。大量の候補をランキングするのは困難だと思われるが、リランキング手法としては利用できる可能性がある。また、実験などでランキングを実施するサンプル数に対してどれだけ頑健なのかなどは示されているだろうか?
In Search of Needles in a 11M Haystack: Recurrent Memory Finds What LLMs Miss, Yuri Kuratov+, N_A, arXiv'24
Paper/Blog Link My Issue
Issue Date: 2024-03-05 GPT Summary- この研究では、生成トランスフォーマーモデルを使用して長い文書を処理する能力を評価するための新しいベンチマークであるBABILongを導入しました。GPT-4やRAGのベンチマークを含む評価により、一般的な方法は$10^4$要素までのシーケンスに対してのみ効果的であることが明らかになりました。再帰的メモリ拡張を使用してGPT-2をファインチューニングすることで、$11\times 10^6$要素を含むタスクを処理できるようになりました。これにより、長いシーケンスの処理能力が大幅に向上しました。 Comment
面白そう。GPT4や(GPT4を用いた?)RAGのパフォーマンスが、入力の最初の25%に強く依存していることを示した、とSNSでポストを見たが、どういう条件での実験なんだろう。
普通のコンテキストサイズならpromptの末尾などに入れたinstructionなどは強く働く経験があるので気になる。
どれくらい汎用的に適用可能な話なのかも気になるところ。
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits, Shuming Ma+, N_A, arXiv'24
Paper/Blog Link My Issue
Issue Date: 2024-02-28 GPT Summary- 最新の研究では、1ビットの大規模言語モデル(LLMs)の時代が到来しており、BitNetなどの研究がその道を切り開いている。本研究では、1ビットLLMの変種であるBitNet b1.58を紹介し、その性能や効率について述べている。このモデルは、三値{-1, 0, 1}で各パラメータを表現し、フルプレシジョンのTransformer LLMと同等の性能を示す一方、コスト効果が高いことが特徴である。1.58ビットのLLMは、新しいスケーリング法やレシピを提供し、新しい計算パラダイムを可能にするとともに、特定のハードウェアの設計にも貢献する。 Comment
1bit量子化を実現したBitNet。乗算が不要になるからGPU以外のアーキテクチャが最適かもね、みたいな話らしい。おまけに性能も高いらしい。(論文まだ読んでない)
Github:
https://github.com/kyegomez/BitNet
User-LLM: Efficient LLM Contextualization with User Embeddings, Lin Ning+, N_A, arXiv'24
Paper/Blog Link My Issue
#NLP #LanguageModel #Personalization Issue Date: 2024-02-24 GPT Summary- LLMsを活用したUser-LLMフレームワークが提案された。ユーザーエンベッディングを使用してLLMsをコンテキストに位置付けし、ユーザーコンテキストに動的に適応することが可能になる。包括的な実験により、著しい性能向上が示され、Perceiverレイヤーの組み込みにより計算効率が向上している。 Comment
next item prediction, favorite genre or category predictimnreview generationなどで評価している
QTSumm: Query-Focused Summarization over Tabular Data, Yilun Zhao+, N_A, EMNLP'23
Paper/Blog Link My Issue
#EMNLP Issue Date: 2024-03-05 GPT Summary- 与えられた表に対して人間らしい推論と分析を行い、カスタマイズされた要約を生成するための新しいクエリに焦点を当てた表の要約タスクを定義し、QTSummという新しいベンチマークを導入。実験結果と手動分析により、新しいタスクが表からテキスト生成において重要な課題を提起していることが明らかになります。 ReFactorという新しいアプローチを提案し、生成された事実をモデルの入力に連結することでベースラインを改善できることを示しています。 Comment
RAGでテーブル情報を扱う際に役立ちそう
Radev論文
[Paper Note] Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster, Hongxuan Zhang+, arXiv'23, 2023.11
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Chain-of-Thought #Prompting Issue Date: 2023-11-15 GPT Summary- FastCoTは、追加トレーニングやLLM改変なしに並列デコードを実現するモデル非依存のフレームワークです。可変長コンテキストウィンドウを使用し、並列かつ自己回帰的なデコードを行うことで、GPUリソースを最適化します。これにより、因果型トランスフォーマーの従来手法よりも迅速な応答が可能になります。実験結果では、FastCoTが推論時間を約20%短縮しつつ、性能低下も最小限であることが示されています。 Comment
論文中の図を見たが、全くわからなかった・・・。ちゃんと読まないとわからなそうである。
Cappy: Outperforming and Boosting Large Multi-Task LMs with a Small Scorer, Bowen Tan+, N_A, NeurIPS'23
Paper/Blog Link My Issue
#NLP #LanguageModel #SmallModel #NeurIPS Issue Date: 2023-11-14 GPT Summary- 大規模言語モデル(LLMs)はマルチタスキングに優れた性能を示していますが、パラメータ数が多く計算リソースを必要とし、効率的ではありません。そこで、小規模なスコアラーであるCappyを導入し、独立して機能するかLLMsの補助として使用することでパフォーマンスを向上させました。Cappyはファインチューニングやパラメータへのアクセスを必要とせず、さまざまなタスクで高い性能を発揮します。実験結果では、Cappyは独立したタスクや複雑なタスクで大きなLLMsを上回り、他のLLMsとの連携も可能です。 Comment
360MパラメータでさまざまなタスクでLLMに勝つっぽいのでおもしろそうだし実用性もありそう
[Paper Note] NEFTune: Noisy Embeddings Improve Instruction Finetuning, Neel Jain+, arXiv'23, 2023.10
Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #Supervised-FineTuning (SFT) #ICLR #PostTraining #read-later Issue Date: 2023-10-26 GPT Summary- 単純なデータ拡張により、言語モデルのファインチューニングが改善されることを示す。NEFTuneは埋め込みベクトルにノイズを追加し、LLaMA-2-7Bのファインチューニングで29.79%から64.69%へ劇的な向上を実現。現代の指示データセットでも改善をもたらし、Evol-Instruct、ShareGPT、OpenPlatypusでそれぞれ10%、8%、8%の向上を示す。さらに、LLaMA-2-Chatに対しても恩恵を受ける。 Comment
Alpacaデータでの性能向上が著しい。かなり重要論文な予感。後で読む。
HuggingFaceのTRLでサポートされている
https://huggingface.co/docs/trl/sft_trainer
openreview: https://openreview.net/forum?id=0bMmZ3fkCk
[Paper Note] In-Context Learning Creates Task Vectors, Roee Hendel+, EMNLP'23 Findings, 2023.10
Paper/Blog Link My Issue
#NLP #LanguageModel #In-ContextLearning #EMNLP #read-later #Findings Issue Date: 2023-10-26 GPT Summary- ICLはLLMにおける新しい学習パラダイムで、その機序は未解明である。訓練データ集合を用いる従来の機械学習とは異なり、ICLはデータを単一のタスクベクトルに圧縮し、トランスフォーマーを調整して出力を生成する。多様なモデルとタスクの実験を通じて、この新たな理解を支持する結果を示す。 Comment
参考:
ICLが実現可能なのは実はネットワーク内部で与えられたdemonstrationに対して勾配効果法を再現しているからです、という研究もあったと思うけど、このタスクベクトルとの関係性はどういうものなのだろうか。
文脈に注意を与えなくてもICLと同じ性能が出るのは、文脈情報が不要なタスクを実施しているからであり、そうではないタスクだとこの知見が崩れるのだろうか。後で読む。
openreview: https://openreview.net/forum?id=QYvFUlF19n
[Paper Note] Personalized Soups: Personalized Large Language Model Alignment via Post-hoc Parameter Merging, Joel Jang+, arXiv'23, 2023.10
Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #ReinforcementLearning #Personalization #Souping Issue Date: 2023-10-24 GPT Summary- 人間のフィードバックを用いた強化学習(RLHF)は、LLMsを一般的な好みに合わせるが、個別の視点には最適でない。本研究では、個別のフィードバックを考慮した強化学習(RLPHF)を提案し、複数の好みに対応するために多目的強化学習(MORL)としてモデル化。好みを複数の次元に分解することで、個別のアライメントを達成できることを示し、これらの次元が独立して訓練され、効果的に結合可能であることを実証。コードは公開されている。 Comment
どこまでのことが実現できるのかが気になる。
[Paper Note] Eliminating Reasoning via Inferring with Planning: A New Framework to Guide LLMs' Non-linear Thinking, Yongqi Tong+, arXiv'23, 2023.10
Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #Chain-of-Thought #Prompting Issue Date: 2023-10-24 GPT Summary- 非線形思考を模倣するために、Inferential Exclusion Prompting (IEP) を提案。IEPは計画後にNLIを活用し、解に対する推論を振り返ることで複雑な思考過程を再現。実証研究により、IEPがCoTを一貫して上回ることを確認。IEPとCoTを統合することでLLMsの性能向上も観察。新たに導入したMental-Ability Reasoning Benchmark (MARB)は9,115問からなり、LLMsの論理能力を評価するための有望な方法とされ、近日中に公開予定。 Comment
論文自体は読めていないのだが、CoTが線形的だという主張がよくわからない。
CoTはAutoregressiveな言語モデルに対して、コンテキストを自己生成したテキストで利用者の意図した方向性にバイアスをかけて補完させ、
利用者が意図した通りのアウトプットを最終的に得るためのテクニック、だと思っていて、
線形的だろうが非線形的だろうがどっちにしろCoTなのでは。
[Paper Note] Generalizable Chain-of-Thought Prompting in Mixed-task Scenarios with Large Language Models, Anni Zou+, arXiv'23, 2023.10
Paper/Blog Link My Issue
#NLP #LanguageModel #Chain-of-Thought #Prompting Issue Date: 2023-10-13 GPT Summary- GeM-CoTは、未知の入力問に対する一般化可能なCoTプロンプティング手法を提案。問の型を分類し、データプールから自動デモを生成することで、性能と一般化のギャップを解消。これにより、10の公開推論タスクと23のBBHタスクで優れたパフォーマンスを実現。 Comment
色々出てきたがなんかもう色々組み合わせれば最強なんじゃね?って気がしてきた。
openreview: https://openreview.net/forum?id=79tJB1eTmb
[Paper Note] FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets, Seonghyeon Ye+, arXiv'23, 2023.07
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation Issue Date: 2023-07-22 GPT Summary- 大規模言語モデル(LLMs)の評価は、人間の価値観との整合性が求められるが、従来の評価は粗粒度で解釈性が制限されている。本研究では、整合スキルセットに基づく微細粒度評価プロトコルFLASKを提案し、スコアを指示ごとのスキルセットに分解する手法を導入。実験により、評価の細粒度化がモデルパフォーマンスの理解と信頼性向上に寄与することを示し、複数のLLMsにおいて高い相関を観察した。評価データとコードは公開されている。 Comment
このベンチによるとLLaMA2でさえ、商用のLLMに比べると能力はかなり劣っているように見える。
[Paper Note] Secrets of RLHF in Large Language Models Part I: PPO, Rui Zheng+, arXiv'23, 2023.07
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #RLHF #PPO (ProximalPolicyOptimization) Issue Date: 2023-07-12 GPT Summary- 大規模言語モデル(LLM)は人間中心のアシスタントとしての機能を目指し、強化学習(RLHF)が重要な技術的枠組みとされています。報酬モデル、近似ポリシー最適化(PPO)、プロセス監視がその技術的ルートとして含まれますが、訓練の課題や試行錯誤コストが障壁となっています。本報告では、RLHFの枠組みとPPOの内部動作を探求し、ポリシー制約がアルゴリズムの効果的実装における鍵要因であることを特定。新たにPPO-maxを提案し、訓練の安定性向上を目指しています。また、SFTモデルやChatGPTとの比較分析を行い、オープンソース実装の重要性を強調しています。 Comment
RLHFとPPOをの内部構造を調査したレポート。RLHFに興味がある場合は読むべし。
[Paper Note] Reflexion: Language Agents with Verbal Reinforcement Learning, Noah Shinn+, NeurIPS'23, 2023.03
Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SelfCorrection #NeurIPS #PostTraining Issue Date: 2023-03-28 GPT Summary- LLMを用いた言語エージェントが外部環境と相互作用しつつ、迅速な学習を可能にする新しいフレームワーク「Reflexion」を提案。言語的フィードバックを活用し、エージェントはタスクのフィードバックを反映、エピソディックメモリに保持して意思決定を改善。多様なフィードバック信号を取り入れ、様々なタスクで大幅な性能向上を実現。HumanEvalベンチマークでは91%のpass@1精度を達成し、従来の最先端を超える成果を示した。 Comment
なぜ回答を間違えたのか自己反省させることでパフォーマンスを向上させる研究
openreview: https://openreview.net/forum?id=vAElhFcKW6
Improving Neural Machine Translation with Compact Word Embedding Tables, Kumar+, AAAI'22
Paper/Blog Link My Issue
#NeuralNetwork #MachineTranslation #Embeddings #NLP #AAAI Issue Date: 2021-06-07 Comment
NMTにおいてword embeddingがどう影響しているかなどを調査しているらしい
[Paper Note] Efficient Deep Learning: A Survey on Making Deep Learning Models Smaller, Faster, and Better, Gaurav Menghani, arXiv'21, 2021.06
Paper/Blog Link My Issue
#NeuralNetwork #Survey #MachineLearning Issue Date: 2021-06-19 GPT Summary- ディープラーニングの進展に伴い、モデルのパラメータ数やリソース消費が増加しているため、効率性が重要視されている。本研究では、モデル効率性の5つのコア領域を調査し、実務者向けに最適化ガイドとコードを提供する。これにより、効率的なディープラーニングの全体像を示し、読者に改善の手助けとさらなる研究のアイデアを提供することを目指す。 Comment
学習効率化、高速化などのテクニックがまとまっているらしい
[Paper Note] A Survey of Transformers, Tianyang Lin+, arXiv'21, 2021.06
Paper/Blog Link My Issue
#NeuralNetwork #Survey #NLP Issue Date: 2021-06-09 GPT Summary- トランスフォーマーの多様なバリアント(X-formers)に関する体系的な文献レビューを提供。バニラトランスフォーマーの紹介後、新しい分類法を提案し、アーキテクチャの修正、事前学習、アプリケーションの観点からX-formersを紹介。今後の研究の方向性も概説。 Comment
Transformersの様々な分野での亜種をまとめた論文
[Paper Note] BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer, Fei Sun+, arXiv'19, 2019.04
Paper/Blog Link My Issue
#RecommenderSystems #NeuralNetwork #LanguageModel #CIKM #SequentialRecommendation #One-Line Notes Issue Date: 2021-05-25 GPT Summary- ユーザーの動的嗜好をモデル化するために、BERT4RecというTransformerに基づく双方向エンコーダを導入。従来の順序型モデルの限界を克服し、Clozeタスクを用いて左側と右側の文脈を共同で条件付けしてアイテムを予測。さまざまなベンチマークデータセットにおいて、提案モデルが最先端の逐次モデルを一貫して上回る結果を示す。 Comment
BERTをrecsysのsequential recommendationタスクに転用してSoTA。
しっかり読んで無いけどモデル構造はほぼBERTと一緒。
異なる点は、Training時にNext Sentence Predictionは行わずClozeのみ行なっているという点。Clozeとは、実質Masked Language Modelであり、sequenceの一部を[mask]に置き換え、置き換えられたアイテムを左右のコンテキストから予測するタスク。異なる点としては、sequential recommendationタスクでは、次のアイテムを予測したいので、マスクするアイテムの中に、sequenceの最後のアイテムをマスクして予測する事例も混ぜた点。
もう一個異なる点として、BERT4Recはend-to-endなモデルで、BERTはpretraining modelだ、みたいなこと言ってるけど、まあ確かに形式的にはそういう違いはあるけど、なんかその違いを主張するのは違和感を覚える…。
sequential recommendationで使うuser behaviorデータでNext item predictionで学習したいことが、MLMと単に一致していただけ、なのでは…。
BERT4Recのモデル構造。next item predictionしたいsessionの末尾に [mask] をconcatし、[MASK]部分のアイテムを予測する構造っぽい?
オリジナルはtensorflow実装
pytorchの実装はこちら:
https://github.com/jaywonchung/BERT4Rec-VAE-Pytorch/tree/master/models
[Paper Note] Learning to Generate Product Reviews from Attributes, Dong+, EACL'17
Paper/Blog Link My Issue
#NeuralNetwork #NLP #ReviewGeneration #EACL Issue Date: 2019-03-08 Comment
(たぶん)最初のreview generation論文
[Paper Note] Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering, Michaël Defferrard+, NIPS'16, 2016.06
Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #GraphConvolutionalNetwork #NeurIPS #Selected Papers/Blogs Issue Date: 2018-03-30 GPT Summary- 本研究では、CNNを用いて低次元のグリッドから高次元のグラフドメインへの一般化を探求。スペクトルグラフ理論に基づくCNNの定式化を提案し、古典的CNNと同等の計算複雑性を維持しつつ、任意のグラフ構造に対応可能。MNISTおよび20NEWSの実験により、グラフ上での局所的特徴学習の能力を示した。 Comment
GCNを勉強する際は読むと良いらしい。
あわせてこのへんも:
Semi-Supervised Classification with Graph Convolutional Networks, Kipf+, ICLR'17
https://github.com/tkipf/gcn
[Paper Note] Neural Summarization by Extracting Sentences and Words, Jianpeng Cheng+, ACL'16, 2016.03
Paper/Blog Link My Issue
#Single #DocumentSummarization #NeuralNetwork #Document #Supervised #NLP #Extractive #ACL Issue Date: 2017-12-31 GPT Summary- 従来の要約手法は人間設計の特徴に依存しているが、本研究ではニューラルネットワークに基づくデータ駆動型アプローチを提案。階層的文書エンコーダーと注意に基づく抽出器からなるフレームワークを開発し、文や単語を抽出する多様な要約モデルを実現。広範なデータセットで訓練した結果、言語的注釈なしに最先端の性能を達成したことが示された。 Comment
ExtractiveかつNeuralな単一文書要約ならベースラインとして使用した方がよいかも
[Paper Note] Content Selection in Data-to-Text Systems: A Survey, Dimitra Gkatzia, arXiv'16, 2016.10
Paper/Blog Link My Issue
#Survey #NaturalLanguageGeneration #NLP #DataToTextGeneration #ConceptToTextGeneration Issue Date: 2017-12-31 GPT Summary- データからテキストへのシステムは、データを自然言語で自動的にレポート生成し、ユーザーの好みに応じた出力を提供する。コンテンツ選択は重要な要素であり、どの情報を伝えるかを決定する。研究では、データからテキスト生成の分野を紹介し、システムのアーキテクチャと最先端のコンテンツ選択手法をレビューし、今後の研究機会について議論する。 Comment
Gkatzia氏の"content selection"に関するSurvey
[Paper Note] An Empirical Exploration of Recurrent Network Architectures, Jozefowicz+, ICML'15
Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #Architecture #ICML #Selected Papers/Blogs #RecurrentModels Issue Date: 2018-02-19 Comment
GRUとLSTMの違いを理解するのに最適
[Paper Note] Automatic generation of textual summaries from neonatal intensive care data, Porter+, Artificial Intelligence'09, 2009.05
Paper/Blog Link My Issue
#NaturalLanguageGeneration #SingleFramework #NLP #ConceptToTextGeneration Issue Date: 2017-12-31 Comment
BabyTalk論文
THE CONSCIOUSNESS CLUSTER: PREFERENCES OF MODELS THAT CLAIM TO BE CONSCIOUS, Chua+, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #Safety #read-later Issue Date: 2026-03-20 Comment
元ポスト:
LLMに意識があるように振る舞うように学習したらどうなるかという話らしい。これによって新たなpreferenceが獲得され、自己保存欲求や反発が発現したり、共感や葛藤などの人間的な感情について話したり、思考過程をモニタリングされることをどう感じますか?といった質問に対して、uncomfortableだと感じる、私は悪い評価を受けたら停止されてしまうの?といった不安について述べたりするなど、これまでにない挙動が見受けられるという感じらしい。
MiroThinker-1.7, MiroMindAI, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #OpenWeight #DeepResearch #LongHorizon Issue Date: 2026-03-20 Comment
元ポスト:
ベンチマークに応じて、GPT-5, GPT-5.2, GPT-5.4など比較するGPTが恣意的に変わっているように見えるが、ベンチマーク上ではGPT-5と同等以上のAgenticなLLMっぽい?BrowseCompの性能がかなり良さそうに見える。
LLM Architecture Gallery, Sebastian Raschka, 2026.03
Paper/Blog Link My Issue
#Article #Survey #NLP #LanguageModel #Transformer #Blog #OpenWeight #Architecture Issue Date: 2026-03-20 Comment
元ポスト:
Sebastian Raschka氏がいつもポストしているOpenWeight LLMのアーキテクチャ図のギャラリー。パラメータサイズ, head数などの細かい情報も含まれているので、全体を概観するのに良さそう。
楽天、「GENIACプロジェクト」の一環として開発された国内最大規模の高性能AIモデル「Rakuten AI 3.0」を提供開始, 楽天グループ株式会社, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #Japanese #MoE(Mixture-of-Experts) Issue Date: 2026-03-18 Comment
HF: https://huggingface.co/Rakuten/RakutenAI-3.0
公式アナウンス、HFのモデルカードの情報が少なすぎてよくわからない。
所見:
Mistral Small 4, MistralAI, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #MoE(Mixture-of-Experts) Issue Date: 2026-03-17 Comment
元ポスト:
119Bでsmallと銘打たれる時代になってしまった
公式ポスト:
What is the most profitable AI-native company right now?, Graham Neubig, X, 2026.03
Paper/Blog Link My Issue
#Article Issue Date: 2026-03-14 Comment
これは興味があり、AI nativeの企業(=スレッド中での定義は最初の主要製品がLLMが存在する前提で成り立っている企業、のこと)で結局どこが儲かっているの?という疑問がずっとある。
Palantir, Midtourneyという声があり、Harveyも良いが他二つほどprofitableかは疑わしいという意見がある。
Claude now creates interactive charts, diagrams and visualizations, Claude, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #TextToImageGeneration #Proprietary #Reference Collection #Visualization Issue Date: 2026-03-14 Comment
かなり良いらしい(小並感)
元ポスト:
たとえばMLAとDSAの図解を作らせたら以下:
MuonとAdam(W)の違いの解説を作らせたら以下:
Effective harnesses for long-running agents, Anthropic, 2025.11
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog Issue Date: 2026-03-10 Comment
`Agent Harness` という用語の起源が気になっており、アンテナを張っているが、本ブログでAgent Harnessという用語が登場している。
- [Paper Note] Building Effective AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned, Nghi D. Q. Bui, arXiv'26, 2026.03
において本ブログが引用され `harness` という用語が用いられている。このブログが起源なのだろうか(勉強不足)。
The Synthetic Data Playbook: Generating Trillions of the Finest Tokens, HuggingFace, 2026.03
Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #SyntheticData #read-later #Selected Papers/Blogs Issue Date: 2026-03-10 Comment
12.7 GPU yearを使い、90回の実験、1 Trillion tokenの生成を経て見つけた、合成事前学習データの構築方法のbest recipeが紹介されている模様。先行研究を上回る学習効率を達成している。
元ポスト:
Yuan3.0-Ultra, YuanLabAI, 2026.03
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #OpenWeight #MoE(Mixture-of-Experts) #VisionLanguageModel #UMM #One-Line Notes Issue Date: 2026-03-07 Comment
元ポスト:
MoEのwarmupが終わり安定してきたタイミングでルーティングがされにくいExpertを枝刈りし、残ったexpertに対してバランスよくルーティングがされるようなrearrangeをするアルゴリズム Layer-Adaptive Expert Pruning (LAEP)によって、パラメータサイズを1515Bから1010Bまで削減し、49%程度事前学習の効率を改善したとのこと。
RAG, multimodal document understanding, tabular data analysis, content summarizationにおいて、非常に高い性能を獲得している。tool useに関してはGPT-5.2(effort不明)以外には負けているので、優秀ではあるが特に秀でているというわけではないよつに見える(BFCVv3)。
しかし他のベンチマークでこれらフロンティアモデル群をここまでPass@1やAccで抜くのは、驚きではあるが、実際にどのような評価をしているのかはテクニカルレポートを見た方が良いと思われる。
ocr-bench, davanstrien, 2026.03
Paper/Blog Link My Issue
#Article #ComputerVision #Tools #NLP #Evaluation #Repository #LLM-as-a-Judge #OCR #One-Line Notes Issue Date: 2026-03-06 Comment
元ポスト:
自分が試したいドキュメントのコレクションに対して、5つほどのOpenなOCRで実際に書き起こしを行い、VLM-as-a-JudgeでスコアリングしELOでの当該ドキュメントセットに対するスコアボードを作成するツール
非常に興味深く実用的だが、個人的にOlmOCRもサポートして欲しいなぁと思うなど。あと、機密性の高い文書などを扱う場面では、セキュリティ面にどれだけ配慮されているのかが気になってしまう。
FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling, together.ai, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #Transformer #Attention #Chip #read-later #Selected Papers/Blogs #GPUKernel Issue Date: 2026-03-06 Comment
元ポスト:
関連:
これは読まねば。。。
Qwen 3.5 small series, Qwen Team, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SmallModel #OpenWeight #Selected Papers/Blogs Issue Date: 2026-03-02 Comment
なんとSLMもリリース
元ポスト:
LFM2-24B-A2B: Scaling Up the LFM2 Architecture, LiquidAI, 2026.02
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #SmallModel #OpenWeight #MoE(Mixture-of-Experts) Issue Date: 2026-02-27 Comment
元ポスト:
edge deviceにデプロイできる規模でLFM2をスケールさせた模様
Swallowにおける 日英推論型大規模言語モデルの構築, 水木栄, 第26回LLM勉強会, 2026.02
Paper/Blog Link My Issue
#Article #Pretraining #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Japanese #mid-training #PostTraining #Selected Papers/Blogs #DataMixture Issue Date: 2026-02-27 Comment
元ポスト:
関連:
- Qwen3-Swallow & GPT-OSS-Swallow, Kazuki Fujii, 2026.02
まだしっかり読めていないのだが、適切なDataMixtureはどのようにして決めているのだろうか?
- 数学データによる学習がコーディングにのみ転移
- 英語データを邦訳したデータが学習に寄与するためcross-lingualで能力が転移する
- RLはpass@1を改善するが、Pass@10などの改善幅は縮小する
- この辺の話は資料中でも先行研究が引用されており、実際に確認されたということだと思われる
...
[Paper Note] Preconditioned inexact stochastic ADMM for deep models, Nature Machine Intelligence 2026, 2026.02
Paper/Blog Link My Issue
#Article #NeuralNetwork #ComputerVision #MachineLearning #NLP #LanguageModel #Optimizer #Nature Machine Intelligence Issue Date: 2026-02-24 Comment
元ポスト:
パラメータサイズが大きい場合にMuon超え...?
所見:
IA Agents Minimal agent framework for the Gemini Interactions API, philschmid, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Repository #read-later #MinimalCode Issue Date: 2026-02-17 Comment
元ポスト:
Gemini Interactions APIを用いたエージェントのminimal code。これは非常に勉強になりそう。
QED-Nano: Teaching a Tiny Model to Prove Hard Theorems, LM Provers Team, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Blog #Mathematics #SmallModel #PostTraining #Proofs #Rubric-based Issue Date: 2026-02-16 Comment
元ポスト:
ポイント解説:
早くもReasoning Cacheが利用されている:
- [Paper Note] Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL, Ian Wu+, arXiv'26, 2026.02
4B級のモデルで特定タスクに特化したモデルを作りたい場合に非常に役立ちそうなレシピ
Building Olmo in the Era of Agents, Nathan Lambert, LTI Colloquim, 2026.02
Paper/Blog Link My Issue
#Article #Tutorial #Survey #NLP #LanguageModel #AIAgents #Reasoning #Slide #OpenSource #read-later #Selected Papers/Blogs Issue Date: 2026-02-16 Comment
元ポスト:
うーんこれは時間をとってしっかり読んで色々まとめたい・・・
The Simulation Company, Simile, 2026.02
Paper/Blog Link My Issue
#Article #MachineLearning #NLP #FoundationModel #Post #WorldModels Issue Date: 2026-02-13 Comment
やはり次のFoundation Modelsの軸としてWorld Modelsやシミュレーションが注目されているように感じる。実際、シミュレーションによって様々なデータが合成できれば現在の基盤モデルをさらに引き上げると思われる。
関連:
Karpathy氏のポスト:
続報:
[Paper Note] Position: Humans are Missing from AI Coding Agent Research, Wang+, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #UserBased #AIAgents #Coding #read-later #Selected Papers/Blogs #interactive #One-Line Notes Issue Date: 2026-02-12 Comment
# Authors
Zora Zhiruo Wang, John Yang, Kilian Lieret, Alexa Tartaglini, Valerie Chen, Yuxiang Wei,
Zijian Wang, Lingming Zhang, Karthik Narasimhan, Ludwig Schmidt, Graham Neubig, Daniel Fried, Diyi Yang
元ポスト:
現在のコーディングエージェントは自動的にタスクを完了させ、難易度の高いベンチマークを解けることが実用的な価値とみなされているが、今後より実用的な価値を高めプロダクト化するためには単独でタスクをこなすのではなく、人間開発者やユーザとの相互作用をするような枠組みが次のブレイクスルーとなりうるというposition。非常に共感できる。
[Paper Note] OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis, Li+, 2026.02
Paper/Blog Link My Issue
#Article #InformationRetrieval #NLP #Search #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SyntheticData #OpenSource #Selected Papers/Blogs #Reproducibility #DeepResearch #One-Line Notes #LongHorizon #Environment Issue Date: 2026-02-10 Comment
元ポスト:
APIに依存せずオフラインコーパスと検索を利用し、高品質なDeepResearchのlong horizonなtrajectoryを合成可能な環境を構築。合成したtrajectoryでNemotron-3-nano-30B-A3B-BaseをSFTすることで、Kimi-K2, GLM-4.6などの10倍以上大きいサイズのモデルよりもBrowseCompで高い性能を獲得。同サイズのTongyiDeepResearchもoutperform。
Deterministicなプロセスで、オフラインコーパスからデータを合成し外部APIに依存しないため完全に再現性があり、かつAPIのコストやrate limitにも引っかからないという利点がある。検索エンジン、コード、データ、合成データ、モデル、全てを公開。
完全に再現性のある研究は素晴らしい。
Fine-tuning open LLM judges to outperform GPT-5.2, together.ai, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #Blog #LLM-as-a-Judge #DPO #RewardModel #One-Line Notes Issue Date: 2026-02-05 Comment
元ポスト:
Reward Bench 2:
- [Paper Note] RewardBench 2: Advancing Reward Model Evaluation, Saumya Malik+, arXiv'25, 2025.06
LLMでLLMを評価するというパラドックスに違和感はあるが、一般論として、「生成」するよりも「検証」することがモデルにとって簡単なタスクであるためうまくいきます(LLM-as-a-Judge)、といった説明が書いてあり、数千程度のサンプルでOpenLLMをDPOすることによって、GPT-5.2のようなFrontierモデルをReward Benchで上回ることができた、といった話が書かれている。
ただし、上記Reward Bench 2研究で示されている通り、**Reward Benchでの性能が高いReward Modelだからといって、必ずしもRLによって下流タスクの性能が向上するとは限らない点には注意**であり、元論文に従うとBest-of-Nサンプリングのようなtest-time-scalingのパラダイムとして利用するのが現在の実務上は良さそうである。
Qwen3-Coder-Next: Pushing Small Hybrid Models on Agentic Coding, QwenTeam, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Attention #Blog #Coding #LongSequence #SmallModel #MoE(Mixture-of-Experts) #Selected Papers/Blogs Issue Date: 2026-02-04 Comment
HF: https://huggingface.co/collections/Qwen/qwen3-coder-next?spm=a2ty_o06.30285417.0.0.3bdec921Ja5TZI
元ポスト:
A3BでSWE Bench ProにおいてClaude Sonnet 4.5超え
関連:
- [Paper Note] Gated Delta Networks: Improving Mamba2 with Delta Rule, Songlin Yang+, ICLR'25, 2024.12
開発者の方のポスト:
int4 model from Cerebras:
https://huggingface.co/Intel/Qwen3-Coder-Next-int4-AutoRound
元ポスト:
GLM-OCR, Z.AI, 2026.02
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #OpenWeight #VisionLanguageModel #OCR Issue Date: 2026-02-03 Comment
元ポスト:
GLMのOCRがリリース。DeepSeekもOCRをリリースしているが、tokenを圧縮する目的や、モデルの学習データを担保する目的などで最終目的としては自分たちのモデルの強化に必要であり、その道中での副産物としてリリースしているのだろうか。それとも、OCRタスクの需要がシンプルに高いからリリースしているのだろうか。
公式ポスト:
関連:
- [Paper Note] LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR, Said Taghadouini+, arXiv'26, 2026.01
- olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10
- DeepSeek-OCR: Contexts Optical Compression, DeepSeek, 2025.10
- DeepSeek-OCR-2, DeepSeek-AI, 2026.01
Trinity Large, Arcee, 2026.01
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Pretraining #NLP #LanguageModel #OpenWeight #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #Stability #One-Line Notes #Reference Collection #Sparse Issue Date: 2026-01-29 Comment
テクニカルレポート:
https://github.com/arcee-ai/trinity-large-tech-report/
HF:
https://huggingface.co/arcee-ai
GLM4.7やDeepSeekV3と比較してスループットやTTFTが二倍以上。
非常にsparseなMoE(400B-A13B, 4/256のexpertsにルーティング)であるため学習を安定させるためにDense layerを増やし、モメンタムを考慮したexpertのバランシングや、z-lossと呼ばれるlogitのスケールをコントロールするような手法を導入することで安定した学習を実現。2048 Nvidia B300 GPUsで、17Tトークンの事前学習33日で完了
元ポスト:
これほどsparseなMoEをここまで安定させて学習できるのは非常に興味深いと思われる。
インタビュー:
やると決めてチームビルディングも含めて非常に短期間(6ヶ月)で達成したとのことだが、気になる。
解説:
所見(風刺):
ポイント解説:
アーキテクチャ解説:
RLHF Book - Code Examples, Nathan Lambert, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Repository #PostTraining #Selected Papers/Blogs #MinimalCode Issue Date: 2026-01-26 Comment
元ポスト:
Qwen 1.7Bモデルでの様々なRLアルゴリズムでのミニマルコード集。学習曲線つきで非常に実用的
Composing Weight and Data Sparsity in MoE: Improving compute efficiency through varying compute per token, Perceptron, 2026.01
Paper/Blog Link My Issue
#Article #ComputerVision #Pretraining #NLP #MultiModal #MoE(Mixture-of-Experts) #read-later #VisionLanguageModel #Routing #Sparse Issue Date: 2026-01-23 Comment
元ポスト:
MoEがトークン単位でactivateするweightをサブセットにするweight sparcityによって効率化を実現する手法とみなしたときに、それぞれのinputに情報量の濃淡があることから現在のトークンごとにweightを割り当てるのではなく、weightごとにトークンを割り当てるというもう一つの軸を考えることができ(=Data Sparcity)、これをweightごとにトークンのsubsetしか持たないような実現方法をとるとcontextが損なわれauto-regressiveの前提が崩れるためtrain-inference-mismatchが生じるので、null experts(受け取ったトークンに対して何もしない)を実装して実現するみたいな話のように見えるが全くまだ読めていない。
Designing AI-resistant technical evaluations, Anthropic, 2026.01
Paper/Blog Link My Issue
#Article #LanguageModel #Education #AIAgents #Blog #read-later #Selected Papers/Blogs #Testing Issue Date: 2026-01-22 Comment
元ポスト:
Anthropicの採用における持ち帰り課題の変遷に関する記事。昔の持ち帰り課題では、応募者の大半よりもClaudeが上回るようになり採用におけるシグナルが拾いづらくなったのでリデザインが必要になった、そしてそれをどう変化させたか、といった話のようである。これは採用の話だがtestingという広い文脈で捉えるとかなり参考になる話に見える。
Claudeを作っている会社が自社が作ったプロダクトによって採用で苦しむという構造になっており、それに対してどのように対処したかという話題は非常に興味深いトピックだと感じる。
Fantastic Pretraining Optimizers and Where to Find Them 2.1: Hyperball Optimization, Wen+, 2026.01
Paper/Blog Link My Issue
#Article #NeuralNetwork #Pretraining #NLP #LanguageModel #Optimizer #read-later #Selected Papers/Blogs Issue Date: 2026-01-22 Comment
元ポスト:
シンプルな手法(ネットワークの重みとoptimiserの更新量に対するフロベニウスノルムを正規化する)で、Weight Decayが不要で(スケジューラ等のハイパーパラメータから解放される)、Muonを含む様々なoptimiserでも機能して学習効率を高めるため、インパクトの大きな重要研究に見える
関連(concurrent works):
- [Paper Note] Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models, Yonggan Fu+, arXiv'25, 2025.11
- [Paper Note] Controlled LLM Training on Spectral Sphere, Tian Xie+, arXiv'26, 2026.01
Ming-flash-omni-Preview, inclusionAI, 2025.10
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #TTS #Routing #UMM #Omni #Sparse #ImageSynthesis Issue Date: 2025-10-28 Comment
元ポスト:
過去一番多くのタグを付与した気がするが、果たして大規模、Omniモーダルかつ、UMMにしたことによる恩恵(=様々なモダリティを統一された空間上に学習させる恩恵)はどの程度あるのだろうか?
アーキテクチャを見ると、モダリティごとに(モダリティ単位でのバイアスがかかった)Routerが用意されexpertにルーティングされるような構造になっている。
OmniモーダルでUMMを大規模にスクラッチから事前学習:
- [Paper Note] ERNIE 5.0 Technical Report, Haifeng Wang+, arXiv'26, 2026.02
Docling, DS4SD, 2024.07
Paper/Blog Link My Issue
#Article #LanguageModel #python Issue Date: 2025-02-12 Comment
Unstructuredとどちらが良いだろうか?
Sohu, etched, 2024.06
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Transformer #Chip Issue Date: 2024-09-18 Comment
>By burning the transformer architecture into our chip, we can’t run most traditional AI models: the DLRMs powering Instagram ads, protein-folding models like AlphaFold 2, or older image models like Stable Diffusion 2. We can’t run CNNs, RNNs, or LSTMs either.
transformer以外の大抵のモデルでは動作しないが、代わりにH-100よりも20倍早いinferenceを実現できるチップらしい。
>With over 500,000 tokens per second in Llama 70B throughput, Sohu lets you build products impossible on GPUs.
いやいやいやLlama-70Bで0.5M Token/secは早すぎる!!!
2026年3月時点で確認したところページが削除されているようだが、どうなったのだろうか?
10Xの推薦を作るチームとML platform, 2024.08
Paper/Blog Link My Issue
#Article #RecommenderSystems #MachineLearning #Blog Issue Date: 2024-08-27 Comment
初期開発における定性評価の重要性やインターリービングの話題など実用的な内容が書かれているように見える。あとで読む。
定性評価が重要という話は、
- NewsPicksに推薦システムを本番投入する上で一番優先すべきだったこと, 2024.08
でも言及されている
Zero-shot Learning網羅的サーベイ: CLIPが切り開いたVision & Languageの新しい世界, エクサウィザーズ Engineer Blog, 2023.05
Paper/Blog Link My Issue
#Article #Survey #ComputerVision #NaturalLanguageGeneration #NLP #LanguageModel #ImageCaptioning #DiffusionModel #Blog Issue Date: 2023-11-02 Comment
これはすごいまとめ…。まだ途中までしか読めていない。CLIPからスタートしてCLIPを引用している論文から重要なものを概要付きでまとめている。
Large Language Model (in 2023), OpenAI
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel Issue Date: 2023-10-10 Comment
LLMの研究開発動向を俯瞰するのに有用らしい
OpenAI、ChatGPTが画像を分析する『GPT-4V(ビジョン)』を発表。安全性、嗜好性、福祉機能を強化, AIDB, 2023.09
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #ChatGPT #MultiModal Issue Date: 2023-09-30 Comment
おう…やべえな…
Controlled experiments on the web: survey and practical guide, 2023
Paper/Blog Link My Issue
#Article #Blog #A/B Testing Issue Date: 2023-04-26 Comment
A/Bテストのベストプラクティスが書かれているらしい
GLUE - 英語圏における自然言語処理の標準ベンチマーク, npaka, 2020.09
Paper/Blog Link My Issue
#Article #Tutorial #NLP #Dataset #Evaluation #Blog Issue Date: 2021-05-19 Comment
各タスクごとにサンプルとその説明が付与されており、ぱっと見でどんなタスクかすぐ分かる
近似最近傍探索の最前線, Yusuke Matsui, MIRU 2019 チュートリアル, 2019.07
Paper/Blog Link My Issue
#Article #Tutorial #EfficiencyImprovement #MachineLearning #Slide #kNN #Reference Collection Issue Date: 2020-07-30 Comment
k-NNベースドなRecommender Systemを構築したけど、Inferenceに時間がかかって、先方のレスポンスタイムの要求が満たせない...というときに役に立ちそう。
yahooのNGTといった実装も転がっている(Apache-2.0 License):
https://techblog.yahoo.co.jp/data_solution/ngtpython/
ScaNNという手法もあるらしい(SoTA)
https://ai-scholar.tech/articles/vector-search/scann
Designing and Evaluating Explanations for Recommender Systems, Tintarev+, Recommender Systems Handbook, 2011
Paper/Blog Link My Issue
#Article #RecommenderSystems #Tutorial #Explanation #Selected Papers/Blogs Issue Date: 2019-01-23 Comment
Recommender Systems HandbookのChapter。[Paper Note] A Survey of Explanations in Recommender Systems, Tintarev+, ICDEW'07
のSurveyと同じ著者による執筆。
推薦のExplanationといえばこの人というイメージ。
D論: http://navatintarev.com/papers/Nava%20Tintarev_PhD_Thesis_(2010).pdf
ニューラルネット勉強会(LSTM編), Seitaro Shinagawa, 2016.10
Paper/Blog Link My Issue
#Article #NeuralNetwork #Tutorial #MachineLearning #NLP #Slide Issue Date: 2018-02-19 Comment
LSTMの基礎から、実装する上でのTipsがまとまっている。
zero padding, dropoutのかけかた、normalizationの手法など。
[Paper Note] Scalable Large-Margin Online Learning for Structured Classification, Crammer+, 2005.01
Paper/Blog Link My Issue
#Article #MachineLearning #StructuredLearning Issue Date: 2017-12-31 Comment
構造学習ガチ勢のCrammer氏の論文
構造学習やるなら読んだ方が良い
