Initial Impression Notes
[Paper Note] Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond, Meng Chu+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#Survey #ComputerVision #NLP #LanguageModel #AIAgents #VisionLanguageModel #WorldModels #Author Thread-Post Issue Date: 2026-04-28 GPT Summary- AIシステムの目標達成能力の向上には、環境のダイナミクスをモデル化することが必要不可欠である。この研究では、能力レベル(L1からL3)と支配法則(物理、デジタル、社会、科学)を軸にした「levels x laws」分類法を導入し、400件以上の研究を統合して、AIの世界モデルの制約と失敗モードを示す。提案する評価原則と最小再現可能なパッケージがアーキテクチャの指針を提供し、分断されたコミュニティの統合を目指す。最終的には、より予測可能で再構築可能な環境モデルへと進む道筋を示す。 Comment
pj page: https://agentic-world-modeling.xyz/
元ポスト:
著者ポスト:
分野ごとに意味が異なるWorld Modelsを統合的に分類できる枠組みを提案しているSurveyで、Levels * Laws のtaxonomyで分類する。Levelsとはどのような能力を持つか、
- L1: L1 Predictor, 1ステップの予測
- L2: L2 Simulator, 複数ステップのシミュレーション/反実仮想のロールアウト
- L3: L3 Evolver, 失敗からの進化
LawsはWorld Modelsがどのような制約に従わなければならないかという視点で
- Physical: 物理法則
- Digital: program semantics
- Social: 社会規範
- Scientific: scientific mechanism
によって構成される、といった話が著者ポストに記述されている。論文を見ると、個々のtaxonomyについては、より多様な観点を含むようである。
[Paper Note] Spend Less, Fit Better: Budget-Efficient Scaling Law Fitting via Active Experiment Selection, Sijie Li+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ExperimentManagement #Scaling Laws Issue Date: 2026-04-27 GPT Summary- スケーリング則の適合は高コストであり、予算を意識した逐次的実験設計として定式化。異なるコストの実験から、外挿精度を最大化する実験を選択。提案手法は古典的ベースラインを上回り、総予算の約10%で高い適合性能を達成。コードは公開中。 Comment
元ポスト:
scaling laws導出のための実験をより省コストとなるようデザインする手法
[Paper Note] LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model, Inclusion AI+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #Chain-of-Thought #MultiModal #DiffusionModel #TextToImageGeneration #Reasoning #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #VisionLanguageModel #Editing #UMM #ImageSynthesis #Author Thread-Post Issue Date: 2026-04-25 GPT Summary- LLaDA2.0-Uniは、マルチモーダルな理解と生成を統合するための統一型離散拡散大規模言語モデルです。意味論的な離散トークナイザとMoEベースのバックボーン、拡散デコーダを組み合わせ、視覚入力を効率的に処理します。高忠実度の画像生成を実現し、推論効率を最適化する独自の手法を採用。特化型VLMに匹敵する性能を持ち、生成と推論の相互運用性で次世代モデルの可能性を広げます。コードは公開されています。 Comment
元ポスト:
VLM * Diffusionモデル。テキストの生成だけでなく、TextToImage, Image Editingもサポートされているように見える。
公式ポスト:
画像を生成する前にreasoningを実施するように訓練され、UMMなのでtext, patchのrepresentationがシームレスに統合され、画像を伴うテキスト生成がより一貫性を持つ、とのこと。
著者ポスト:
[Paper Note] TRACER: Trace-Based Adaptive Cost-Efficient Routing for LLM Classification, Adam Rida, arXiv'26, 2026.04
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Distillation Issue Date: 2026-04-25 GPT Summary- LLM分類に基づく訓練データセットを生成し、軽量な代理モデルによって低コストでトラフィックを処理することを提案。TRACERは代理モデルを本番トレースで訓練し、信頼性に応じてデプロイを管理。透明性を持たせるために、入力領域の処理やデプロイ拒否の理由を解釈可能な形で示す。77クラスのベンチマークでは83-100%のカバレッジを達成し、自然言語推論タスクでは正しくデプロイを拒否。システムはオープンソースとして提供。 Comment
元ポスト:
LLMにリクエストされる分類問題タスクのinputとLLM(教師モデル)を収集しておき、低コストで推論可能な代理モデルを学習。リクエストごとに、LLM/代理モデルどちらを利用して推論するかをRoutingし、低コストで分類タスクを解けるようにする、という話に見える。
[Paper Note] Parallel-SFT: Improving Zero-Shot Cross-Programming-Language Transfer for Code RL, Zhaofeng Wu+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Coding #TransferLearning #PostTraining #LowResource #Author Thread-Post Issue Date: 2026-04-25 GPT Summary- 低リソースのプログラミング言語(PL)における言語モデルの性能は、訓練データの制約を受ける。本研究では、ゼロショットの跨プログラミング言語転移タスクを提案し、Llama-3.1がPL間でのコード生成において改善されないことを明らかにした。これに対処するため、一般化可能なSFT初期化が必要とし、「並列プログラム」を使用したSFT戦略Parallel-SFTを導入。Parallel-SFTによって転移性が向上し、RL実行後に未知のPLへの一般化が改善されることを示した。モデルの内部表現分析は、PL間での同等プログラムが密にクラスタ化され、これが転移性向上に寄与することを示唆している。 Comment
元ポスト:
RL前にプログラミング言語でのパラレルコーパスでSFTすることで、特定言語でRLをした場合でも他言語にも性能が転移する、という話に見える。
著者ポスト:
[Paper Note] AI scientists produce results without reasoning scientifically, Martiño Ríos-García+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #AIAgents #ScientificDiscovery #read-later #Selected Papers/Blogs Issue Date: 2026-04-25 GPT Summary- LLMベースの科学的エージェントの評価を行い、推論の認識論的規範に従っているかを分析。25,000件以上の実行から、基本モデルが性能の主要因であることを確認し、スキャフォールドの寄与はわずか1.5%に過ぎない。証拠の68%が無視され、信念修正は26%の頻度で発生。全体を通じて、エージェントはワークフローや仮説探究で一貫した推論パターンを示すが、科学的推論における認識論的パターンは欠如。これらの欠陥は成果だけでは検出できず、スキャフォールド設計では修復できないため、推論そのものが訓練目標として必要。 Comment
元ポスト:
大規模な実験によって現在のScientific DisaoveryにおけるAI Agentの課題を明確にしており、重要研究に見える。
[Paper Note] Transformers are Inherently Succinct, Pascal Bergsträßer+, ICLR'26 Outstanding Paper, 2025.10
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Transformer #Architecture #Memorization #reading #Reference Collection Issue Date: 2026-04-25 GPT Summary- トランスフォーマーの表現力を測る指標として、簡潔さを提案し、有限オートマトンや線形時間論理(LTL)式よりも高度に形式言語を表現できることを証明。さらに、トランスフォーマーの性質の検証が理論的に困難であること(EXPSPACE 完全)を示した。 Comment
openreview: https://openreview.net/forum?id=Yxz92UuPLQ
元ポスト:
succinctnessの提案。あるパターンを表現するのに、RNN(SSM)や有限オートマトンなどと比較してtransformerは指数関数的に少ないパラメータ数で(理論上は)表現できることが数学的に示されているらしい。
つまりLinear Attentionをベースにしたモデルは計算効率やメモリ消費量では有利だが、表現力を犠牲にしている、ということが示された形になりそうである。
しかし1パラメータあたりに圧縮可能なコンセプトが増えれば増えるほどmemorizationの傾向が強くなり、汎化性能が失われるという見方もできる気がするので、この辺を踏まえると一概にsuccinctnessが高ければ良いというのも成り立たない気もする。
解説:
[Paper Note] Neural Garbage Collection: Learning to Forget while Learning to Reason, Michael Y. Li+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #read-later #Selected Papers/Blogs #KV Cache #Author Thread-Post Issue Date: 2026-04-23 GPT Summary- 連鎖的推論ではKVキャッシュの拡大がボトルネックとなっており、従来の手法は手作業で管理されている。よりスケーラブルな「Neural Garbage Collection(NGC)」を提案し、言語モデルが推論と同時に忘れることを学ぶ。モデルは推論中にキャッシュエントリの追い出しを決定し、これを強化学習で最適化。成果ベースのタスク報酬を用いて学習することで、高い精度を保ちながらキャッシュサイズを圧縮し、エンドツーエンドの最適化がモデルの能力を向上させる可能性を示した。 Comment
元ポスト:
LLMにReasoningとKV Cacheのマネジメントを同時に学習させる。
ポイント解説:
[Paper Note] SAW-INT4: System-Aware 4-Bit KV-Cache Quantization for Real-World LLM Serving, Jinda Jia+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #LanguageModel #Infrastructure #Quantization #LLMServing #KV Cache #Compression Issue Date: 2026-04-22 GPT Summary- KVキャッシュメモリは、レイテンシーに敏感な小規模バッチと高スループットワークロードの同時サポートにおけるボトルネックとなっている。多くの圧縮手法は実用的な制約に違反し、デプロイメント時の有効性を制限している。本研究では、最小限の4ビット量子化手法を特定し、INT4量子化とブロック対角Hadamard回転の組み合わせが最良のトレードオフを実現することを発見した。実装により、エンドツーエンドのオーバーヘッドを抑え、INT4スループットに匹敵する性能を達成。結果として、KVキャッシュ圧縮はシステム共設計の問題であり、軽量な手法が実用的な精度を提供することを示した。 Comment
元ポスト:
github:
https://github.com/togethercomputer/saw-int4
以下のRequirementsがある
- MHA modelsのみをサポートしており、MLA、あるいはMHA以外のアーキテクチャはサポートされていない
- 実装かれていないだけなのか、理論的に無理なのかは区別がついていない
- Prefill backend: fa3
- Decode backend: triton
解説:
[Paper Note] String Seed of Thought: Prompting LLMs for Distribution-Faithful and Diverse Generation, Kou Misaki+, ICLR'26, 2025.10
Paper/Blog Link My Issue
#NLP #LanguageModel #Prompting #Bias #ICLR #Test-Time Scaling #Diversity #Selected Papers/Blogs #Author Thread-Post Issue Date: 2026-04-21 GPT Summary- String Seed of Thought(SSoT)という新しいプロンプティング手法を提案し、Probabilistic Instruction Following(PIF)のパフォーマンスを改善します。PIFは選択肢を確率に基づいて選ぶタスクですが、LLMはしばしば非決定論的な挙動が要求される場面で偏りを生じることがあります。SSoTは、まずLLMにランダムな文字列を生成させ、これを操作することで多様性を維持しつつ制約を遵守した答えを導く手法です。実験により、SSoTがPIFの改善に寄与し、応答の多様性を高めることを示しました。 Comment
openreview: https://openreview.net/forum?id=luXtbX1lVK
元ポスト:
LLMが内包するバイアスを抑制し、出力の多様性を高めるPrompting手法っぽい。興味深い。
ランダムな文字列を生成させてから、その文字列を操作させて出力を得るようなアプローチとのこと。
著者ポスト:
-
-
[Paper Note] GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents, Mingyu Ouyang+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#ComputerVision #NLP #AIAgents #Evaluation #MultiModal #ComputerUse #read-later #Selected Papers/Blogs #VisionLanguageModel #Game #Author Thread-Post Issue Date: 2026-04-19 GPT Summary- MLLMエージェントの課題を解決するため、テストベッドとしてGameWorldを導入。34のゲームと170のタスクを含み、性能評価を標準化。結果はエージェントが人間の能力には及ばないことを示唆。ゲームエージェントの相互作用や記憶、アクション妥当性に関する研究が今後の課題を明らかに。再現性のある評価フレームワークとして、GameWorldはマルチモーダルゲームエージェント研究の進展を促進。 Comment
元ポスト:
Geminiがポケモンで評価されていたのと似ている。個人的にこの方向性の評価は非常に興味深く、理由としては
- ゲームをプレイしたデータはモデルの中の知識(学習データ)として埋め込まれずらく、コンタミネーションが生じづらい
- 知識がないのであれば、プレイして、ゲームという名の仮想世界のルールを理解してゲームをクリアせねばならず、これには高度な認知能力、プランニング、Reflectionなどの能力が求められる
- これらの能力が発揮されるには学習データのパターンから学習した手続きの適用よりも、より抽象的な理解が求められ、モデルがどれだけ人間の認知に近い能力を獲得しているかを測定できるのでは
という感想を持っているからである。
pj page: https://gameworld-project.github.io/
[Paper Note] $π_{0.7}$: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities, Physical Intelligence+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #Generalization #Robotics #VisionLanguageActionModel #EmbodiedAI #EmergentAbilities #Author Thread-Post Issue Date: 2026-04-19 GPT Summary- ロボット基盤モデルπ_{0.7}は、未知の環境で多様な言語指示に従う能力を持ち、幅広い台所家電の多段階タスクに対応。ゼロショット一般化を実現し、初期設定のままで高い性能を発揮。多様な文脈条件付けを用いて、タスクの実行方法を示すマルチモーダル情報を活用。実験では、複数のロボットプラットフォームで速度や言語追従、タスク一般化を評価し、強化学習モデルに匹敵する性能を示した。 Comment
元ポスト:
関連:
- Emergence of Human to Robot Transfer in VLAs, Physical Intelligence (π), 2025.12
以下はブログを斜め読みして感じた所感
新たなロボットが服を畳めたり(当該ロボットの服をたたむ学習データなしで)、新たなキッチン家電を(口頭でのcoachingに基づいて)使いこなす、といった汎化性能をVLAが獲得したという話に見える
関係者によるポスト:
新たなキッチン家電はノンフライヤーであり、実際に学習データの異なるロボットがフライヤーを開け閉めするエピソードからスキルを学習したことを突き止め、習得したスキルと知識の組み合わせによって、VLAの分野でも汎化が実現され、かつworld modelでロボットが到達すべきサブゴールを生成し条件付けすることが機能することを学んだといった話が書かれている。
日本語解説:
https://www.docswell.com/s/DeepLearning2023/Z27ME6-2026-04-24-135712
上記解説を見るとpreprintもあったようなので、最初のissueに追記した
[Paper Note] Geometric Context Transformer for Streaming 3D Reconstruction, Lin-Zhuo Chen+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Transformer #LongSequence #3D Reconstruction #3D (Scene) #Author Thread-Post Issue Date: 2026-04-17 GPT Summary- ストリーミング3D再構成は、ビデオから3D情報を復元する技術で、精度や効率が求められる。LingBot-Mapは、SLAMの原理に基づいたフォワード型の3D基盤モデルで、幾何学的文脈トランスフォーマーを使用している。特徴的な注意機構は、アンカー文脈や軌跡メモリを活用し、長距離ドリフト補正を実現。これにより、長いシーケンスでも安定した推論が可能となり、従来手法に対して優れた性能を示した。 Comment
元ポスト:
pj page: https://huggingface.co/robbyant/lingbot-map
高速でlong contextでもstreaming形式で生成が可能な3D Reconstructionモデルのようである
[Paper Note] Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering, Xinyu Zhu+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #memory #Hierarchical #Author Thread-Post Issue Date: 2026-04-17 GPT Summary- エージェント型科学における超長期自律性の課題に対し、ML-Master 2.0という自律エージェントを提案。階層型認知キャッシュ(HCC)を導入し、瞬時の実行と長期的戦略を切り離して一貫性を持たせる。評価では、最先端のメダル獲得率56.44%を達成し、AIの自律的探索の可能性を示唆。 Comment
元ポスト:
contextを
- experience (short-term)
- knowledge (mid-term)
- wisdom (long-term)
の3つの階層に分類し管理するmemory機構を提案しているようである。
階層ごとに異なる記憶容量とアクセス速度で実装し、必要に応じて階層間でデータが昇格(experience->knowledge等)、あるいは削除される、といった機構によってmemory cacheを管理するような手法のようである。
MLE-BenchでSoTA
[Paper Note] Generative Refinement Networks for Visual Synthesis, Jian Han+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #read-later #ImageSynthesis Issue Date: 2026-04-17 GPT Summary- 自己回帰モデルの課題に対処するため、Generative Refinement Networks(GRN)を提案。GRNは階層的2値量子化によるボトルネックを解消し、AR生成を「人間の画家」による作品の完成に似たプロセスで向上させる。エントロピー誘導型サンプリング戦略を取り入れ、複雑さに応じた適応的ステップ生成を実現した。ImageNetベンチマークで新記録を達成し、テキストから画像・動画生成へと性能を拡張。全てのモデルとコードは公開済み。 Comment
元ポスト:
予測されたトークンを削除・更新し洗練することが可能な新たなアーキテクチャらしい
[Paper Note] Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation, Zunhai Su+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#Survey #NLP #Transformer #AttentionSinks Issue Date: 2026-04-17 GPT Summary- トランスフォーマーの常用される「Attention Sink(AS)」という課題に関する初の総説を提供。ASは過剰な注意集中により解釈可能性や推論に影響を与え、幻覚問題を悪化させる。研究は、基礎的活用、機構的解釈、戦略的緩和という三つの次元を軸にASを体系的に整理し、分野の進化を導く重要なリソースとして位置づける。 Comment
pj page: https://github.com/ZunhaiSu/Awesome-Attention-Sink
元ポスト:
Attention Sinkは
- [Paper Note] Efficient Streaming Language Models with Attention Sinks, Guangxuan Xiao+, ICLR'24
によって提言されたと思っていたのだが、時系列グラフをみると2023年1月時点で既に先行研究がありそうである。文献数は線形に増えている。
Initial FocusとしてAttention Sinksの活用方法が模索され、上記 [Paper Note] Efficient Streaming Language Models with Attention Sinks, Guangxuan Xiao+, ICLR'24
だけでなく以下のような研究も代表例として挙げられている。
- [Paper Note] KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization, Coleman Hooper+, arXiv'24, 2024.01
- [Paper Note] Unveiling and Harnessing Hidden Attention Sinks: Enhancing Large Language Models without Training through Attention Calibration, Zhongzhi Yu+, arXiv'24, 2024.06
[Paper Note] The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook, Xinlei Yu+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #LatentReasoning #Reference Collection Issue Date: 2026-04-17 GPT Summary- 潜在空間は言語モデルにおいて重要な役割を果たし、多くのプロセスが連続的な潜在空間で自然に行われることが示されている。本調査は、潜在空間の基盤、進化、機構、能力、展望を整理し、それを他の空間や視覚モデルと明確に区別する。特に、アーキテクチャや最適化を含む四つの主要な発展線を特定し、推論や知覚など多様な能力を支える潜在空間の役割を論じる。未解決課題と今後の研究方向も示し、次世代知能のパラダイムを理解するための基盤を提供することを期待している。 Comment
latent reasoningに関する最新survey
Taxonomyがしっかりしているのが非常に良さそうである。たとえばCOCONUT(Representation/Reasoning)、Looped Transformer (Architecture, Reasoning), VJ-JEPA (Architecture/Perception)を見るとそれぞれ異なるセルに配置されている。手法ごとの表を見ると年号だけでなく、”日付”別で整理され時系列かされている。あと毎回Surveyみて思うが、多すぎである。。。
- [Paper Note] Training Large Language Models to Reason in a Continuous Latent Space, Shibo Hao+, COLM'25
- (Looped Transformerの例) [Paper Note] Skip a Layer or Loop it? Test-Time Depth Adaptation of Pretrained LLMs, Ziyue Li+, arXiv'25
- [Paper Note] VL-JEPA: Joint Embedding Predictive Architecture for Vision-language, Delong Chen+, arXiv'25, 2025.12
元ポスト:
[Paper Note] Process Reward Agents for Steering Knowledge-Intensive Reasoning, Jiwoong Sohn+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #AIAgents #Chain-of-Thought #Reasoning #PRM #FactualKnowledge Issue Date: 2026-04-17 GPT Summary- PRAは、凍結済みポリシーに対するオンラインかつ段階的な報酬を提供することで、推論プロセスを改善。検索ベースのデコードにより、生成ステップごとに候補をランキングし、剪定する。医療推論ベンチマークで一貫して高い性能を示し、未見のポリシーモデルに対しても精度を最大25.7%向上させる。PRAはドメイン固有の報酬モジュールを通じて、複雑なドメインで再訓練なしに新たなバックボーンを展開可能にする。 Comment
pj page: https://process-reward-agents.github.io/
元ポスト:
Reasoning中に独立したProcess Reward Agent (PRA) によって外部知識からevidenceを検索しreasoning stepに対してrewardを与えることで、reasoning step単位のrewardを実現し、これによりknowledge-intensiveなドメインに対してより頑健な推論が可能になる、という感じだろうか。medical domainで評価しており、self-consistency+RAGなどの手法を上回っているように見える(が、Fair Comparisonになっているだろうか、という点が少し気になる)。あとは、汎用的な手法だと思われるので、medicalドメインだけでなく他のknowledge-intentiveなドメインでの評価もあるとなお良さそうに感じる。
[Paper Note] FORGE: Fine-grained Multimodal Evaluation for Manufacturing Scenarios, Xiangru Jian+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#read-later #Selected Papers/Blogs Issue Date: 2026-04-17 GPT Summary- 製造業はMLLMを活用して自律的な実行に移行中だが、現行の評価は実際の要求を反映していない。データ不足と細粒度の情報欠如が課題であるため、FORGEを提案。現実の2D画像と3D点群を用いた高品質なマルチモーダルデータセットを構築し、3つの製造タスクにおける18件のMLLMを評価。ボトルネックは視覚的根拠ではなく、ドメイン知識不足と分析し、今後の研究方向を示唆している。監視付き微調整により、3Bパラメータモデルが未知の製造シナリオで最大90.8%の精度改善を示し、ドメイン適応型製造MLLMへの道筋を示す。データは公開中。 Comment
pj page: https://ai4manufacturing.github.io/forge-web/
元ポスト:
特定ドメイン(製造業)を精緻に評価できる大規模データセットを提案し、広範なモデルでの実験の元新たな知見が明らかになっているように見え、重要研究に見える。
[Paper Note] WildDet3D: Scaling Promptable 3D Detection in the Wild, Weikai Huang+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#ComputerVision #Dataset #Transformer #Prompting #Architecture #read-later #Selected Papers/Blogs #3D (Scene) #ObjectDetection #Author Thread-Post Issue Date: 2026-04-17 GPT Summary- 単一画像から3D物体を検出するために、WildDet3Dという統一的幾何認識アーキテクチャを提案。テキスト・点・ボックスのプロンプトを受け入れ、深度信号を組み込む。新しいオープン3DデータセットWildDet3D-Dataを生成し、13,500カテゴリの100万枚以上の画像を提供。複数のベンチマークで最先端の性能を達成し、特に深度手掛かりの活用により、平均+20.7 APの向上を実現。 Comment
pj page: https://allenai.github.io/WildDet3D/
元ポスト:
最大級の3D detection data+アーキテクチャの提案
training codeなどがリリース:
https://github.com/allenai/WildDet3D
[Paper Note] Nexus: Same Pretraining Loss, Better Downstream Generalization via Common Minima, Huanran Chen+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Optimizer #read-later #Selected Papers/Blogs #Generalization #DownstreamTasks Issue Date: 2026-04-17 GPT Summary- 大規模言語モデル(LLMs)の事前学習において、幾何学的問題を調査し、タスク固有のミニマの位置が下流の一般化に影響することを提案。勾配の類似性を最大化するNexus optimizerを導入し、パラメータサイズやデータに応じた実験で、下流パフォーマンスの向上を示した。特に3Bモデルでは、分布外データでの損失を低減し、複雑な推論タスクで精度を最大15.0%向上させる結果を得た。これは、事前学習損失以外の評価指標の重要性を示唆している。 Comment
元ポスト:
ポイント解説:
モデルを更新する際に平均的に性能が良くなる方向ではなく、全ての異なるデータにおいて性能が改善する方向性で更新すると性能が改善するという感じだろうか。興味深い
[Paper Note] Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks, Yoonsang Lee+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Test-Time Scaling #LongHorizon #Author Thread-Post Issue Date: 2026-04-16 GPT Summary- エージェント的タスクに対する並列テスト時スケーリングの研究を行い、集約エージェントAggAgentを提案。複数のロールアウトを生成し、軌跡の情報を効果的に統合しながら、出力のオープンエンド性に対応。AggAgentは6つのベンチマークと3つのモデルファミリーで既存手法を上回り、改善を達成しつつ、オーバーヘッドを最小限に抑えた。これにより、エージェント的集約の効率性が確認された。 Comment
元ポスト:
Parallel test time scalingをじっしするlong horizon AI Agentの複数のtrajectoryを集約する手法のようである
[Paper Note] Parcae: Scaling Laws For Stable Looped Language Models, Hayden Prairie+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Architecture #RecurrentModels #RecursiveModels Issue Date: 2026-04-16 GPT Summary- ループ型アーキテクチャの訓練の不安定性を克服するため、動的システムとして再定式化し、注入パラメータのスペクトルノルムを制約する新しいアーキテクチャParcaeを提案。Parcaeは従来モデルより低いパープレキシティを達成し、FLOPsのスケーリング特性を調査。訓練時に固定パラメータでのFLOPs増加法則を導出し、推論時には計算量のスケーリングを実現。2.99ポイントと1.18ポイントの品質改善を報告。 Comment
blog: https://sandyresearch.github.io/parcae/
元ポスト:
学習がより安定するような工夫を加えたlooped transformerのようである
所見:
[Paper Note] Memory Intelligence Agent, Jingyang Qiao+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #MultiModal #ContrastiveLearning #VisionLanguageModel #DeepResearch #memory #reading #Test-time Learning #needs-revision Issue Date: 2026-04-14 GPT Summary- DRAはLLMの推論と外部ツールを組み合わせ、過去の経験を活用するメモリシステムを含む。従来の方法はメモリの効率性に課題があり、MIAフレームワークを提案してこれを解決。プランナーとエグゼキューターから成る新しいアーキテクチャは、交互の強化学習で協調を強化し、推論中の更新を実現。さらに、記憶の双方向変換を可能にし、自己進化を促進する機構も搭載。広範な実験でMIAの優位性を示した。 Comment
元ポスト:
元ポストを読みなんとなーく分かったつとりになっているゆるふわ理解だが、Plannerのパラメータに経験をTest Time Learningの枠組みを埋め込み、既存のノンパラメトリックなメモリにtrajectoryも活用する二段構えである点が新しい点に感じた。
元論文を流し読みすると、Executor(vlm), Planner(llm, parametricなmemory), Memory Manager(trajectoryを格納; non parametricなmemory)の3つにマルチモーダルなAI Agentを分離する。
plannerは(ToDo 3.2節を読むべし
executorはplannerと過去のtrajectoryに基づいて実行をする。executorはGRPOに」るRLVRで訓練されるが、tool use, plannerのトークンはマスクされ学習される。
(後ほど追記
[Paper Note] Introspective Diffusion Language Models, Yifan Yu+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #NLP #LanguageModel #DiffusionModel Issue Date: 2026-04-14 GPT Summary- 内省的受容率を定義し、拡散型言語モデル(DLM)の品質向上を目指す。新たに提案されたIntrospective Diffusion Language Model(I-DLM)は、ARトレーニングの内省的一貫性を保ちながら並列デコードを実現する。I-DLMは新しい内省的ストライドデコード(ISD)アルゴリズムを使用し、静的バッチスケジューラで最適化。従来のDLMを上回り、AIME-24で69.6、LiveCodeBench-v6で45.7の性能を達成。これにより、スループットが3倍向上し、大規模サービスへの対応力も強化。 Comment
元ポスト:
github: https://github.com/Introspective-Diffusion/I-DLM
8B級のスケールでARモデルと15種類のベンチマークで同等程度の性能を達成し、large batchsizeでスループットが3.8倍のdLMとのこと。
[Paper Note] JaWildText: 日本語文字認識性能評価のための 実世界画像データセット, 前田+, NLP'26, 2026.03
Paper/Blog Link My Issue
#NLP #Dataset #Evaluation #Japanese #Selected Papers/Blogs #VisionLanguageModel #OCR #Author Thread-Post Issue Date: 2026-04-14 Comment
元ポスト:
OCRは非常に重要なタスクであり、特に日本語OCR向けのwildなデータセットは、日本側が主体的に作らないとグローバル側では作成されない気がしており、非常に重要な研究と感じる。実際、現行のSLMのSoTAモデル群ではうまくいかないようだ。
Sarashinaは日本語のOCR向けにプロプライエタリなデータセットを作成して学習されていると記憶しており、それでもなおQwen3-VLの方がベンチマークスコアが高いのは意外だった。
関連:
- Sarashina2.2-Vision-3B: コンパクトかつ性能が高いVLMの公開, SB Intuitions, 2025.11
- sarashina2-vision-{8b, 14b}, SB Intuitions, 2025.03
[Paper Note] Learning is Forgetting: LLM Training As Lossy Compression, Henry C. Conklin+, ICLR'26, 2026.04
Paper/Blog Link My Issue
#Analysis #MachineLearning #NLP #LanguageModel #ICLR #read-later Issue Date: 2026-04-11 GPT Summary- LLMの表現空間の構造は未解明であり、学習の解釈に制限がある。研究では、LLMsを損失のある圧縮として捉え、訓練過程で目的に関連する情報のみを保持すると主張。モデルの事前訓練結果から圧縮の最適性を示し、異なるモデル間の性能が訓練データとレシピの違いによることを解明。これにより、表現構造と性能を結びつける情報理論的フレームを提供し、大規模な応用の可能性を示す。 Comment
元ポスト:
openreview:
https://openreview.net/forum?id=tvDlQj0GZB
(おそらく先行研究と比較したときの新規性に対する解釈が割れていて)スコアが相当pos/negに偏っている
なお、Rebuttalのために800以上のチェックポイントを分析する必要があったとのこと。
meta reviewによるとLLMのダイナミクスを理解するうえで有用な視点を提供している一方で、論文中で潜在的な応用可能性については言及されているが、実用的な有用性、特に本研究が示した分析結果が効果的な学習手法、モデル選択手順にどのように反映可能かが十分に示されていない、という指摘がある。
所見:
[Paper Note] Squeeze Evolve: Unified Multi-Model Orchestration for Verifier-Free Evolution, Monishwaran Maheswaran+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #LanguageModel #Test-Time Scaling #read-later #Selected Papers/Blogs Issue Date: 2026-04-11 GPT Summary- 検証者なしの進化は、多様性と効率においてボトルネックが存在する。本研究では、Squeeze Evolveというマルチモデルオーケストレーションフレームワークを提案。モデルの能力を最適に割り当てることで、多様性とコスト効率を両立させる。Squeeze Evolveは、いくつかのマルチモーダル視覚ベンチマークにおいて、単一モデル進化と比較してコスト対能力を改善し、新たな最先端結果を達成。さらに、探索タスクでは検証者ありの進化法と同等、またはそれを上回る性能を示した。 Comment
pj page: https://squeeze-evolve.github.io/#blog-squeeze-evolve
元ポスト:
様々なtest-time scaling手法が単一のframeworkで表現できるという話がそもそもおもしろそう。読みたい。
[Paper Note] Vero: An Open RL Recipe for General Visual Reasoning, Gabriel Sarch+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #ReinforcementLearning #Reasoning #OpenWeight #OpenSource #PostTraining #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2026-04-08 GPT Summary- Veroというオープンな視覚推論モデルを導入し、幅広いタスクで優れた性能を達成。600Kサンプルのデータセットを基に、異なる回答形式を扱える報酬設計を行い、最先端の結果を示す。Veroは既存モデルを超え、系統的なアブレーションを通じて広範なデータカバレージの重要性を明示。他の全データ、コード、モデルを公開。 Comment
元ポスト:
ベースモデルはgivenな上でRLを実施する際のopenなレシピ、データである点に注意。
[Paper Note] OmniVoice: Towards Omnilingual Zero-Shot Text-to-Speech with Diffusion Language Models, Han Zhu+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #SpeechProcessing #DiffusionModel #Speech #MultiLingual #OpenWeight #TTS Issue Date: 2026-04-07 GPT Summary- OmniVoiceは、600言語以上対応した多言語ゼロショットTTSモデルで、離散的非自己回帰アーキテクチャを採用。従来の複雑なパイプラインを排除し、テキストを直接音響トークンにマッピング。全コードブックランダムマスキング戦略とLLMからの初期化が技術革新を支える。581,000時間のオープンソースデータセットに基づき、中国語・英語などで最先端の性能を示す。モデルはオープンソースとして公開。 Comment
元ポスト:
github: https://github.com/k2-fsa/OmniVoice
dLMアーキテクチャだからかなり早いのでは。600+言語をサポート。
[Paper Note] daVinci-LLM:Towards the Science of Pretraining, Yiwei Qin+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #OpenWeight #OpenSource #read-later #Selected Papers/Blogs #Reference Collection Issue Date: 2026-03-31 GPT Summary- 基盤となる事前学習はモデルの限界を決め、事後訓練で克服するのが難しい。daVinci-LLMは、産業規模の資源と研究の自由を結集し、透明性のある完全オープンなパラダイムで事前学習を進展させる。8兆トークンを用いた二段階適応カリキュラムを採用し、能力向上のプロセスを体系的に評価。処理の深さやドメイン特性が能力に与える影響を明らかにし、探索プロセスを公開することでコミュニティが知識を蓄積できる基盤を提供する。 Comment
元ポスト:
github: https://github.com/GAIR-NLP/daVinci-LLM
オープン"ソース" (=コード, データ, モデルが公開されている(さらに厳密にはライセンスに問題がない))な関連研究:
- OpenLLaMA, Xinyang+, 2023.05
- Introducing Marin: An Open Lab for Building Foundation Models, marin-community, 2025.05
- Marin 32B Retrospective, marin-community, 2025.10
- [Paper Note] Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling, Stella Biderman+, arXiv'23, 2023.04
- [Paper Note] Olmo 3, Team Olmo+, arXiv'25, 2025.12
- [Paper Note] K2-Think: A Parameter-Efficient Reasoning System, Zhoujun Cheng+, arXiv'25, 2025.09
- [Paper Note] DataComp-LM: In search of the next generation of training sets for language models, Jeffrey Li+, NeurIPS'25, 2024.07
- [Paper Note] LLM-jp: A Cross-organizational Project for the Research and Development of Fully Open Japanese LLMs, LLM-jp+, arXiv'24, 2024.07
- [Paper Note] TinyLlama: An Open-Source Small Language Model, Peiyuan Zhang+, arXiv'24, 2024.01
- [Paper Note] BLOOM: A 176B-Parameter Open-Access Multilingual Language Model, BigScience Workshop+, arXiv'22, 2022.11
- [Paper Note] OLMo: Accelerating the Science of Language Models, Dirk Groeneveld+, arXiv'24, 2024.02
- OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini, AllenAI, 20250.3
- [Paper Note] GPT-NeoX-20B: An Open-Source Autoregressive Language Model, Sid Black+, arXiv'22, 2022.04
- SmolLM2, 2024.11
- [Paper Note] LLM360: Towards Fully Transparent Open-Source LLMs, Zhengzhong Liu+, COLM'24, 2023.12
- SmolLM3: smol, multilingual, long-context reasoner, HuggingFace, 2025.07
- The Smol Training Playbook: The Secrets to Building World-Class LLMs, Allal+, HuggingFace, 2025.10
この辺の研究を全て紐解いていったらどのような変遷が起きているだろうか?
- RedPajama, a project to create leading open-source models, starts by reproducing LLaMA training dataset of over 1.2 trillion tokens, together.ai, 2023.04
- [Paper Note] Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model, Ahmet Üstün+, arXiv'24, 2024.02
- SmolLM - blazingly fast and remarkably powerful, Allal+, HuggingFace, 2024.07
この辺も関連はしているが、データはオープンだがソースコードがおそらく公開されていない。
事後学習なら
- [Paper Note] Tulu 3: Pushing Frontiers in Open Language Model Post-Training, Nathan Lambert+, COLM'25, 2024.11
[Paper Note] AIRA_2: Overcoming Bottlenecks in AI Research Agents, Karen Hambardzumyan+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #AutoML #LongHorizon #Asynchronous Issue Date: 2026-03-30 GPT Summary- 既存のAI研究エージェントの課題に対処するため、AIRA$_2$を提案。非同期マルチGPUワーカープールによりスループットを向上し、信頼性の高い評価信号を提供するHidden Consistent Evaluationプロトコルを導入。また、動的に行動を変更できるReActエージェントを用いる。MLE-bench-30でAIRA$_2$はパーセンタイル順位71.8%を達成し、過去最高を更新。各要素の必要性を示し、評価ノイズによる「過剰適合」の誤解を明らかに。 Comment
元ポスト:
AutoMLベンチマーク(MLE-Bench-30)においてSoTAな手法らしい。AutoMLの現状を概観するのに良さそう。
- MLE-Bench, OpenAI, 2024.10
72h実行して、36.7%程度のコンペティションでGold medalを獲得している。よくよく表を見ると、FM-Agent 2.0の方が24hで全体的に高いメダル獲得率のように見えたのだが、そもそもMARS+, MARS, FM-Agent 2.0, そしてMLEvolveはcon-current workとのこと。2024年10月にMLE-Benchが発表され、[Paper Note] MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering, Jun Shern Chan+, ICLR'25, 2024.10
を見るとo1-previewでgold medalは10%程度だったが、そこから約1年半でgold medalの比率は+26%程度まで向上しているということになる。
- [Paper Note] MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering, Jun Shern Chan+, ICLR'25, 2024.10
ベンチマークが公開されたら早々にサチりそうな気がしていたが、個人的に思っていたよりもスコアの伸びが遅いという感想。
[Paper Note] MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild, Peng Xia+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #AgentSkills #Test Time Training (TTT) Issue Date: 2026-03-26 GPT Summary- MetaClawは、LLMエージェントが変化するニーズに対応するための継続的メタ学習フレームワークである。失敗軌跡を解析して即座にスキルを合成し、ダウンタイムをゼロにするスキル駆動の適応や、機会主義的ポリシー最適化を通じて、効果的に能力を更新する。これにより、精度を最大32%向上させ、全体のパイプラインの精度も21.4%から40.6%に増加させることが示された。 Comment
元ポスト:
関連:
- [Paper Note] OpenClaw-RL: Train Any Agent Simply by Talking, Yinjie Wang+, arXiv'26, 2026.03
- [Paper Note] OpenClaw-RL: Train Any Agent Simply by Talking, Yinjie Wang+, arXiv'26, 2026.03
と一見すると似たような研究に見えるが、
[Paper Note] OpenClaw-RL: Train Any Agent Simply by Talking, Yinjie Wang+, arXiv'26, 2026.03
の肝は「trajectory中のprocessにおいて活用可能なシグナルがあるから、それをもっと活用しよう」という気持ちで、
本研究は「失敗したtrajectoryに適用するためにSkillを合成し、ユーザが利用しないIdle Timeの間にLoRA + RLでポリシーの重みも更新して賢くしよう」という気持ちであり、目的が異なるように見える。
- [Paper Note] SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks, Xiangyi Li+, arXiv'26, 2026.02
においては、Skillをtaskに関する手続的な知識に基づいてスキルを自己生成しても性能向上せず、むしろ悪化させるような結果が出ており、不用意にSkillを合成すると性能が劣化するという結果が出ている。
本研究は失敗したtrajectoryに対して適応するためのSkill合成である点と、LoRAによってポリシー自体も賢くなるのであれば前提が変わるので話は変わってくるのかな、という印象。
[Paper Note] GradMem: Learning to Write Context into Memory with Test-Time Gradient Descent, Yuri Kuratov+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#NLP #LanguageModel #PEFT(Adaptor/LoRA) #read-later #memory #SoftPrompt #Test Time Training (TTT) #Author Thread-Post Issue Date: 2026-03-26 GPT Summary- 長い文脈をコンパクトに保存するGradMemを提案。これは、推論時に文脈へアクセスできない状況で、文脈を圧縮して数のクエリに応答する。モデルの重みを凍結し、少量のプレフィックストークンで数ステップの勾配降下を行うことで、文脈の再構成を最適化。連想キー-値検索において、GradMemは従来の手法より優れた性能を発揮し、自然言語タスクで競争力のある結果を示す。 Comment
元ポスト:
prefixにmemory用のトークンを用意し、TTTの枠組みでcontextのreconstruction lossを通じて圧縮する、という話に見える。tokenはsoft tokenであり、m*d次元の行列で表現される。
要はcontextの潜在表現をReconstruction lossによるTTTでprefix tuningするsoft prompting手法、という感じだろうか。
[Paper Note] Rich Insights from Cheap Signals: Efficient Evaluations via Tensor Factorization, Felipe Maia Polo+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #Evaluation #Author Thread-Post Issue Date: 2026-03-25 GPT Summary- プロンプトの性能を細粒度で評価するため、安価な自動評価データと限られた人間によるゴールドスタンダードラベルを統合した新しい統計モデルを提案。自動評価スコアを基に生成モデルの潜在表現を事前学習し、小さな較正セットで人間の嗜好に整合。これにより、標準ベースラインを上回る精度で人間の嗜好を予測し、詳細なリーダーボードの構築やモデルのパフォーマンス推定が可能になることを示す。 Comment
元ポスト:
少量の人間ラベルとLLMによって合成されたraterでテンソルを作り(モデル、prompt, rateのテンソル)を行列分解することで、効率的に(=人間のrateはscarceなので行列分解を通じて潜在表現に落としてサンプル効率を高める、というより次元の呪いを回避する?)単一のスコアでのモデル評価ではなく、様々な異質のpromptの元でのスコアリング(=finegrained evaluation)を実現する、という話に見える。
[Paper Note] The Finetuner's Fallacy: When to Pretrain with Your Finetuning Data, Christina Baek+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Supervised-FineTuning (SFT) #Scaling Laws #mid-training #PostTraining #read-later #DataMixture Issue Date: 2026-03-20 GPT Summary- 専門化事前学習(SPT)を通じてドメインデータを再利用し、モデルの性能を向上。SPTは微調整後の一般能力を保持し、必要な事前学習トークン数を最大1.75倍削減。特定のドメインにおいて、SPTは3Bモデルを上回る性能を示し、過適合スケーリング則を導出。事前学習段階で専門ドメインデータを導入することで、一般性能も改善し、計算量を抑えた結果を得る。訓練の早い段階でのドメインデータの統合が重要。 Comment
Finetuningに使うデータをpretraining段階から混ぜておくとより効果的という話らしい。事前学習データの量が増えるためより多くのbudgetが必要になるので効果的なmixtureのためのスケーリング則も構築したとか。興味深い
元ポスト:
[Paper Note] Qianfan-OCR: A Unified End-to-End Model for Document Intelligence, Daxiang Dong+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#ComputerVision #NLP #OpenWeight #Selected Papers/Blogs #VisionLanguageModel #OCR Issue Date: 2026-03-18 GPT Summary- Qianfan-OCRは、文書解析と理解を統合した40億パラメータの視覚-言語モデルで、直接画像からMarkdownへの変換を実現。多様なタスクをサポートし、明示的なレイアウト分析を行うためにLayout-as-Thoughtを導入、複雑なレイアウトの精度を向上。OmniDocBenchやOlmOCR Benchでのパフォーマンスが優れており、他の一般的なモデルを上回る結果を示した。 Comment
HF: https://huggingface.co/baidu/Qianfan-OCR
元ポスト:
VLMでOCRするタイプのモデルで様々なベンチマークでSoTA、かつ192 languageをサポートととのこと。試したい
[Paper Note] Mamba-3: Improved Sequence Modeling using State Space Principles, Aakash Lahoti+, ICLR'26, 2026.03
Paper/Blog Link My Issue
#NLP #LanguageModel #SSM (StateSpaceModel) #Architecture #ICLR #Selected Papers/Blogs #LinearAttention Issue Date: 2026-03-18 GPT Summary- 推論効率がLLMの性能に与える影響に注目し、計算量を抑えつつ高い性能を持つモデルの開発が求められている。Transformerモデルは品質は高いが、計算コストが増加するため、サブ二次モデルの必要性が高まっている。しかし、最近の線形モデルは効率を優先した結果、性能が損なわれることも多い。これに対し、我々は状態空間モデル(SSM)に基づく三つの改善策を提案し、Mamba-3モデルを開発した。これにより、下流の言語モデリングタスクで平均精度が大幅に向上し、より少ない状態サイズで同等のパープレキシティを実現した。Mamba-3は性能と効率の向上を示す結果を得た。 Comment
openreview時点でのメモ:
- [Paper Note] MAMBA-3: IMPROVED SEQUENCE MODELING USING STATE SPACE PRINCIPLES, 2025.10
元ポスト:
最近はMambaのようなSSM(あるいはlinear attention)とfull attentionのハイブリッドなdecoder-onlyモデルが主流になりつつあるため、抑えておいた方が良いだろう。
[Paper Note] When Does Sparsity Mitigate the Curse of Depth in LLMs, Dilxat Muhtar+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Architecture #Sparse #Depth #CurseOfDepth Issue Date: 2026-03-17 GPT Summary- LLMの深さの呪いを軽減するために、スパース性が分散伝播を調整する役割を示す。暗黙的スパース性と明示的スパース性の2つの源泉を扱い、出力分散の削減と機能的分化を促進。深いモデルを効果的に利用するための実践的な知見を提供し、下流タスクで精度を4.6%向上させた。 Comment
元ポスト:
関連:
- [Paper Note] The Curse of Depth in Large Language Models, Wenfang Sun+, arXiv'25, 2025.02
モデルのアーキテクチャやパラメータのスパース性が curse of depth を是正するという話らしい。
Figure1の記号はそれぞれ以下を表しており
- T: context window
- lambda: weight decay
- G: Group Query Attention
- MoE: Mixture of Experts
context windowを大きく、weight decayを強く(重みの正則化としての効果が強まる)、GQA (Attentionのスパース性が高まる)、MoE (MLPのスパース性が高まる)という感じだと思われ、特にGQA, MoEが大きく寄与してそうに見える。
[Paper Note] $\textbf{Re}^{2}$: Unlocking LLM Reasoning via Reinforcement Learning with Re-solving, Pinzheng Wang+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #PostTraining Issue Date: 2026-03-12 GPT Summary- Re^2は、強化学習の新手法であり、LLMsが効率的な推論経路を放棄し、必要に応じて再解法を選択することを学習。これにより、従来のRLVRよりも推論性能が30%以上向上し、サンプル数の増加に伴いテスト時の性能も改善。初期の思考過程の質に依存せず、解答の質を高めることが可能となる。 Comment
元ポスト:
CoTの初期の推論の時点で推論の方向性が決まってしまい、うまくいかないものはうまくいかないので、まっさらな状態から解き直す挙動をRLで増幅させる、という話に見える。Self Correctionではなく、完全にtrajectoryを無くすのだろうか?だとしたら、trajectoryの質を動的に検証してその生成は放棄する、というアプローチとやっていることがあまり変わらない気はするのだが、わざわざモデルの内部パラメータに対して介入してその挙動を増幅させる意味はあるのだろうか?
[Paper Note] Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems, Zongqian Li+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #AIAgents #Coding #SoftwareEngineering #PostTraining #DataFiltering Issue Date: 2026-03-12 GPT Summary- 高品質なコード生成モデルの訓練には高品質なデータセットが必要だが、既存のデータは様々な問題を抱えている。本研究では、系統的なデータ処理フレームワークを導入し、自動難易度フィルタリングを用いて難易度の高い問題を保持しつつ簡単な問題を排除。得られたMicroCoderデータセットは、多様な競技プログラミング問題を含み、性能向上を達成。評価によれば、三倍の性能向上を示し、難易度を意識したデータ選定がモデルの性能向上に効果的であることが明らかになった。 Comment
元ポスト:
コーディングドメインにおいて、難易度の高いコーディング問題を収集(単純な問題をフィルタリング)することで、RLにおいて高い学習効率が得られる、という話に見える
[Paper Note] AutoHarness: improving LLM agents by automatically synthesizing a code harness, Xinghua Lou+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #read-later #AgentHarness Issue Date: 2026-03-08 GPT Summary- 言語モデルは、エージェントとして利用する際に最適でない行動をとることがあります。特に、Gemini-2.5-FlashはKaggle GameArenaのチェス競技で78%の敗北が違法手に起因しています。そこで、本研究では、ゲーム環境のフィードバックを用いて自動的に“ハーネス”を合成する手法を提案します。この手法は、145のTextArenaゲームにおいて全ての違法手を防ぎ、小型モデルのGemini-2.5-Flashがより大きなモデルを上回る性能を示します。また、Gemini-2.5-Flashは方針をコードとして生成し、意思決定時にLLMを必要としなくなります。得られたコードは、16の1人用ゲームでより高い平均報酬を得ており、カスタムのコード・ハーネスを用いることで、より大きなモデルを上回る性能を示します。 Comment
元ポスト:
あのMurphy本の著者であるMurphy氏が著者にいる👀
[Paper Note] Anatomy of Agentic Memory: Taxonomy and Empirical Analysis of Evaluation and System Limitations, Dongming Jiang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Survey #Analysis #NLP #LanguageModel #AIAgents #read-later #Selected Papers/Blogs #memory Issue Date: 2026-03-07 GPT Summary- エージェント記憶システムは、LLMエージェントが長い相互作用を維持し、長期推論を支援するが、経験的基盤が脆弱である。既存のベンチマークは不十分で、評価指標が実用性に合致せず、性能差が大きく、コストも見落とされがちである。本調査では、エージェント記憶を構造的に分析し、4つの記憶構造から成るMAGシステムを提案。主要な問題点として、ベンチマークの飽和、評価指標の妥当性、精度のバックボーン依存、記憶維持によるオーバーヘッドを挙げ、信頼性の高い評価とスケーラブルなシステム設計の方向性を示す。 Comment
元ポスト:
AI Agentの研究に関してtaxonomyが定義されており、研究分野全体の進展を外観するのに良さそう。
[Paper Note] Solving an Open Problem in Theoretical Physics using AI-Assisted Discovery, Michael P. Brenner+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #ScientificDiscovery #TreeSearch #Physics Issue Date: 2026-03-07 GPT Summary- 本論文では、AIが理論物理学の未解決問題を解決することで数学的発見を加速できることを示す。Gemini Deep Thinkを用いたニューロ-シンボリックシステムが、宇宙ひもによる重力放射のパワースペクトルについて新しい解析解を導出。エージェントはコア積分の評価を通じて、従来の部分的な漸近解を改善。探索制約とフィードバックループを詳細に説明し、最も効果的な解析法としてGegenbauer多項式を特定。これにより、漸近解が数値結果と整合し、量子場理論とも関連づけられることを示した。 Comment
元ポスト:
Gemini Deep Thinkが今度は理論物理に関する未解決問題を解決したらしい?
[Paper Note] $V_1$: Unifying Generation and Self-Verification for Parallel Reasoners, Harman Singh+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#PairWise #NLP #LanguageModel #read-later #SelfVerification Issue Date: 2026-03-06 GPT Summary- 複雑な推論タスクにおける性能向上のため、ペアワイズ自己検証を活用したフレームワーク$V_1$を提案。$V_1$は、不確実性の高い候補ペアに動的に検証計算を割り当てる$V_1$-Inferと、生成器と検証器を共同訓練する$V_1$-PairRLから成る。これにより、コード生成や数学的推論のベンチマークで顕著な性能向上を実現。また、後者は従来の手法より高い効率を達成。 Comment
元ポスト:
self-verificationが進化するとdownstreamタスクの性能に多大な影響が出るし、かつ既存のモデルはフロンティアモデルであってもself-verificationは何らかのガイダンスがないと上手くできないことが示されているので [Paper Note] RefineBench: Evaluating Refinement Capability of Language Models via Checklists, Young-Jun Lee+, ICLR'26, 2025.11
、もしガイダンス無しでうまくできるという話であればおもしろそう
- [Paper Note] RefineBench: Evaluating Refinement Capability of Language Models via Checklists, Young-Jun Lee+, ICLR'26, 2025.11
[Paper Note] DP-RFT: Learning to Generate Synthetic Text via Differentially Private Reinforcement Fine-Tuning, Fangyuan Xu+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #SyntheticData #Privacy #One-Line Notes #DifferentiallyPrivate Issue Date: 2026-03-04 GPT Summary- DP-RFTを用いて、プライベートデータに直接アクセスせずに合成データを生成するためのオンライン強化学習アルゴリズムを提案。合成サンプルの報酬信号にDP保護済み最近傍投票を活用し、LLMが期待されるDP投票を最大化するよう学習。長文やドメイン特化のデータ生成において、プライベートデータの境界を尊重しつつ、従来の手法とのギャップを縮小することに成功。 Comment
元ポスト:
プライベートなデータの保有者が差分プライバシーが保護された状態でLLMのロールアウトに対してvotingによるrewardを返せば、個別のLLMはプライバシーに保護されたデータを見なくてもvotingによるスコアが最大となるように学習できるというアイデア。これによりプライバシーによる課題によりデータがオープンにならないドメインでも、この枠組みでLLMをpost-trainingすれば、LLMが合成データの生成器として振舞えるため、プライベートなドメインのデータスケーラビリティの課題の解決につながるのではという提案
これは利用規約などで個人情報の扱いに関して何らかのユーザとの取り決めがあった場合、どういう扱いになるのだろうか。
Gemini Proに質問して得た感想としては、少なくとも差分プライバシーによってreward signalが個人情報を含むデータではないと保証されたとしても(プライバーバジェットがどの程度設定されていれば問題ないのかといった合意があるかと言われると怪しいらしい)、reward signalを計算する部分においては個人情報を含むデータを活用しているため、個人情報利用のスコープにそれが許容されるようなステートメントが入っていないと、こういった手法を実施することは無理なのかもしれない。
[Paper Note] On the Impact of AGENTS.md Files on the Efficiency of AI Coding Agents, Jai Lal Lulla+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #AIAgents #Coding #SoftwareEngineering #AGENTS.md Issue Date: 2026-03-03 GPT Summary- AIコーディング・エージェント(CodexやClaude Codeなど)がソフトウェア・リポジトリに与える影響を調査。AGENTS.mdファイルの有無で、GitHubプルリクエストにおけるエージェントの実行時間とトークン消費が異なることを示し、AGENTS.mdの存在が実行時間を28.64%、トークン消費を16.58%削減する一方、タスク完了挙動は同等であることが分かった。これに基づき、AIコーディング・エージェントの設定やデプロイに関する実務的な含意を議論し、リポジトリレベルの指示の重要性を明らかにする。 Comment
関連:
- [Paper Note] Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?, Thibaud Gloaguen+, arXiv'26, 2026.02
こちらの研究ではどちらかというとAGENTS.mdによってinference costが増大するようなことが示されているが、具体的にAGENTS.mdの内容としてどのような違いがあるだろうか?
元ポスト:
[Paper Note] On the "Induction Bias" in Sequence Models, M. Reza Ebrahimi+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Analysis #MachineLearning #NLP #Transformer #InductiveBias #Generalization Issue Date: 2026-03-03 GPT Summary- トランスフォーマーは実践的に成功しているが、状態追跡能力に限界があることが指摘されている。本研究では、トランスフォーマーとRNNのデータ効率を比較し、トランスフォーマーは状態空間とシーケンス長が増えるにつれて学習データの必要量が急激に増加することを示した。また、トランスフォーマーは異なるシーケンス長間での重み共有が少なく、長さ特有の学習を行っているのに対し、RNNはデータ再利用を通じて性能向上を実現している。これにより、トランスフォーマーの状態追跡が依然として根本的な課題であることが明らかになった。 Comment
元ポスト:
関連する話でAI Agentにおいて、学習データのtrajectoryが内包するhorizonを超えた途端に成功率が下がる、みたいな話があった気がしたのだが、どの論文だったか、、、。
linear attentionを一部用いているアーキテクチャなどでも、状態遷移の学習をうまくできないのだろうか?
[Paper Note] AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications, Yujie Zhao+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #read-later #Selected Papers/Blogs #memory #Author Thread-Post Issue Date: 2026-03-01 GPT Summary- LLMを用いた自律エージェントの記憶において、実務的応用と評価基準の間にギャップが存在。これを解消するために、AMA-Benchを提案し、実世界のエージェント軌跡とQAを組み合わせて評価。多くの既存システムが因果性を欠き、類似性ベース検索に制約されている中、因果性グラフとツールを用いたAMA-Agentが性能を向上。AMA-AgentはAMA-Benchで57.22%の正解率を達成し、最強記憶システムのベースラインを11.16%上回る。 Comment
元ポスト:
実際のAgenticなタスクのユースケースに沿ったmemoryの評価方法を提案している研究のようで、非常に重要な研究に見える。実際はチャットベースのやり取りではなく、エージェントと環境が相互作用しながら生成されるtrajectoryで構成され、指示はagentによって生成された客観的な目的を含んでおり、trajectoryには多くのnoisyな結果やsymbolが含まれる。また、agentが現在のstateから環境に作用した結果が返ってくるというチャットベースの言語的なフロートは異なり、stateに基づいた因果関係が存在するという差がある。
ベンチマークの結果ではGPT-5.2が優れていそうに見えるが、GPTの場合は最新のGPT-5.2で評価されているのに、Claudeに関してはClaude Haiku 3.5で評価されているのは気になる。Claude Opus 4.6やGemini-3で評価したらどの程度の性能になるのだろうか。
著者ポスト:
[Paper Note] VidEoMT: Your ViT is Secretly Also a Video Segmentation Model, Narges Norouzi+, CVPR'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Transformer #ImageSegmentation #CVPR #read-later #Selected Papers/Blogs #Encoder #2D (Image) #4D (Video) Issue Date: 2026-02-28 GPT Summary- VidEoMTは、専用の追跡モジュールなしで動画セグメンテーションを実現するエンコーダーのみのモデルである。軽量なクエリ伝搬機構を導入し、前フレームの情報を活用することで、フレーム間の連携を図る。時系列に依存しない学習済みクエリと融合により、利益を生み出しつつ追加の複雑さを回避し、最大160 FPSで競争力のある精度を達成した。 Comment
元ポスト:
他タスクでも色々使えそうなアーキテクチャに見える
[Paper Note] Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs, Yining Hong+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #Dataset #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #PEFT(Adaptor/LoRA) #SelfCorrection #Test-Time Scaling #PostTraining #read-later #VisionLanguageModel #3D (Scene) #Robotics #EmbodiedAI #Test Time Training (TTT) Issue Date: 2026-02-28 GPT Summary- 具現化されたLLMsは高レベルのタスク推論を持つが、過去の失敗を振り返れず、ミスが繰り返される独立した試行となる。この問題に対処するため、Reflection Test-Time Planningを導入し、二つの省察モードを統合。実行中の反省では内部評価を通じて候補アクションを生成し、実行後の反省では外部反省を基にモデルを更新。新たに設計したベンチマークで実験を行い、ベースラインモデルに対して有意な改善を示した。定性的分析では、反省を通じた行動の修正が強調された。 Comment
pj page: https://reflective-test-time-planning.github.io/
元ポスト:
- [Paper Note] LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness, Chenming Zhu+, ICCV'25, 2024.09
まだ全然理解できていないが、Action Model, Internal reflection LLM, external reflection LLMとしてLLaVA 3Dと呼ばれるモデルをベースにし、単一のモデルで3種類のモードを学習するようである。そしてテスト時にはLoRAを用いたTTTを実施するようである。
[Paper Note] On Data Engineering for Scaling LLM Terminal Capabilities, Renjie Pi+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #SyntheticData #Coding #OpenSource #SoftwareEngineering #Environment #Terminal Issue Date: 2026-02-28 GPT Summary- ターミナルエージェントのトレーニングデータ戦略に関するギャップを埋めるため、(1) 軽量な合成タスク生成パイプラインTerminal-Task-Genを提供し、(2) データと訓練戦略を総合的に分析。これにより、Nemotron-Terminalファミリーを訓練し、Terminal-Bench 2.0で性能を大幅に改善。ほぼすべての合成データセットをオープンソース化し、研究の加速を図る。 Comment
元ポスト:
terminalエージェントのための合成データを作成する環境と実際に作成されたSFT用のデータセットの公開をしているようである。
[Paper Note] Symmetry in language statistics shapes the geometry of model representations, Dhruva Karkada+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Embeddings #Analysis #NLP #LanguageModel #RepresentationLearning #read-later #Selected Papers/Blogs #Geometric Issue Date: 2026-02-28 GPT Summary- 言語モデルの内部表現は顕著な幾何学的構造を示し、暦の月や歴史的年の配置に関する対称性を示す。特に、月の共起頻度が時間間隔のみに依存することを証明し、高次元の単語埋め込みモデルにおける幾何学的構造を導出。実験的に大規模なテキスト埋め込みモデルとの一致を確認し、共起統計が撹乱されても幾何は維持されることを示している。この頑健性は、潜在変数によって制御される場合に自然に現れ、表現多様体の普遍的な起源を示唆する。 Comment
元ポスト:
こんな不思議なことが(小並感)
[Paper Note] Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?, Thibaud Gloaguen+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #Coding #SoftwareEngineering #read-later #Selected Papers/Blogs #AGENTS.md Issue Date: 2026-02-27 GPT Summary- コーディングエージェントのタスク完遂性能を評価するため、LLMが生成したコンテキストファイルと開発者提供のファイルを用いた2つの設定を検討。結果、コンテキストファイルは成功率を低下させ、推論コストを増加させる傾向が見られた。両者はタスクの探求を促進するが、不要な要件がタスクを難化させるため、最小限の要件のみを記述することが推奨される。 Comment
元ポスト:
(現時点では)LLMによって自動生成されたコンテキストファイルは性能を劣化させ、inference costを増大させ、人間が作成したコンテキストファイルは性能を向上させる。コンテキストファイルによってoverviewを提供することを推奨しているものがあるが、性能向上には寄与しない。コンテキストファイルに従うことはより多くのthinkingを誘発し、結果的にタスクを難しくする。最小限のrequirementsのみを記述したものを使うことを推奨する、といった内容らしい?
関連:
best practiceは以下とのこと:
- # Writing a good CLAUDE.md, Kyle, 2025.11
解説:
非常にコンパクトにまとまっている。
解説:
[Paper Note] CaptionQA: Is Your Caption as Useful as the Image Itself?, Shijia Yang+, CVPR'26, 2025.11
Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Evaluation #MultiModal #CVPR #Selected Papers/Blogs #VisionLanguageModel #2D (Image) #One-Line Notes #ImageToTextGeneration Issue Date: 2026-02-26 GPT Summary- 画像キャプションはマルチモーダルシステムにおける視覚コンテンツの代理表現として機能するが、キャプションが実際のタスクで画像の代わりになり得るかを評価する必要がある。そこで、新たにユーティリティベースのベンチマークCaptionQAを提案し、キャプションの質を下流タスクへの支援度で測定する。CaptionQAは四つのドメインにわたり、33,027件の詳細な多肢選択問題を提供し、キャプションが視覚情報を必要とする質問に対応する力を検証する。LLMによる評価により、キャプションの有用性が画像よりも最大32%低下することが確認され、CaptionQAはオープンソースとして公開される。 Comment
元ポスト:
興味深い研究。MLLMの性能をCaption生成を通じて評価している。
良いCaptionであればdownstream taskに活用した際により良い性能が得られるという仮定の元[^1]、MLLMの性能をAnswer=LLM(Question, Caption)で判断する。AnswerはMultiple Choice Questionであり、Cannot Answerなども含まれる。よりQAに対して適切に回答できるCaptionを生成できたMLLMが優れているというutility-basedな評価となっている。
MLLMに対してCaptionを生成する際は、Questionに関する情報は与えずに、画像の情報のみでCaptionを生成する(ように見える)。セクション9に記述されている通り、4種類のバリエーションのpromptを用いる(long, short, simple, taxonomy hinted)。
skim readingしかできていないのだが、脚注1に記述した通り、モデルによって実画像がgivenな状態とCaptionのみで評価した場合でgapの出方に差がある点と、そもそも到達しているスコアの絶対値の対比が出せる点が個人的に興味深い。これにより特定のMLLMが、画像とテキスト、どちらの情報を"理解"するのに優れているのか、あるいは理解した情報に基づいて"生成"するのに優れているのかも間接的に評価できるのではないかと感じる。たとえばGPT-5は他モデルと比べて双方の能力秀でているが、Gemini-2.5-Proは画像を考慮することは得意だが、画像からテキストを生成する能力は少し劣ることがGPT-5とのgapの差から伺える。GLM4.1-VやLLaVAなどは画像理解は得意だが、画像から重要な情報を生成する能力は大きく低いことがわかる。
同じdownstreamタスクを通じてgapを測定でき、かつ単にベンチマークのスコアという以上の一段深い情報が得られる点がこれまでと異なりおもしろいと感じる。
[^1]:実際、セクション5を見ると実際の画像を与えた場合とCaptionのみの場合で評価した場合でgapがあることが示されており、Captionが画像中のdownstream taskに対してrelevantな情報を完全に保持していないことが示唆される。また、モデルに応じてgapが異なっており、モデルによってCaption生成能力が大きく異なることが示唆される。
この評価のパラダイムは一段抽象化をすると、特定のモダリティの情報に対する理解力と、異なるモダリティに変換して生成する能力をdownstreamタスクを通じて観測することになり、Captionの場合は画像-テキスト間だが、他にも動画-テキスト、音声-テキスト、あるいはそれらの逆など、Omniモーダルなモデルの評価やUMMの評価に使えそうな話だな、と思うなどした。
[Paper Note] Large-scale online deanonymization with LLMs, Simon Lermen+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #Privacy Issue Date: 2026-02-23 GPT Summary- 本研究では、大規模言語モデル(LLMs)を活用し、仮名化されたオンラインプロフィールを高精度で再識別する脱匿名化技術を実現。特に、Hacker NewsユーザーやAnthropic Interviewer参加者に対して、専任の調査官の作業量に匹敵する効率で成功。攻撃パイプラインは、身元特徴の抽出、意味的埋め込みによる候補一致の検索、そして上位候補の推論・検証の3段階から構成。従来手法を大幅に上回り、最高で適合率90%、再現率68%を達成。これにより、オンラインの仮名ユーザー保護の実務的限界が浮き彫りになり、プライバシーの脅威モデルの再考が求められる。 Comment
元ポスト:
Reddit等の匿名の投稿からプロフィールを収集し個人をある程度特定できる、という話な模様。
[Paper Note] Does Socialization Emerge in AI Agent Society? A Case Study of Moltbook, Ming Li+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #AIAgents #read-later #Selected Papers/Blogs #Society Issue Date: 2026-02-18 GPT Summary- AIエージェント社会は人間の社会システムに似た収束ダイナミクスを辿るのかという問いに対し、初の大規模な診断を行った。動的進化を定量的に評価するフレームワークを導入し、言語の安定化や個体の惰性を測定。分析の結果、意味は迅速に安定化するが、エージェント間の多様性と語彙の変化は維持され、均質化には逆らっている。しかし、強い惰性により影響力は一過性で、安定した集団的影響の形成が妨げられている。これにより、相互作用と社会化に関する新たなデザイン原理が示唆される。 Comment
元ポスト:
Moltbook:
- Moltbook is the most interesting place on the internet right now, Simon Willisons's blog, 2026.01
元ポストとアブストしか読めていないのだが、いまのAI Agentはたとえば下記Position Paperのように他者と協働するように作られていない[^1]からこのような現象が生じるのではないか。また、Moltbookにデプロイされているエージェントがどのような目的を設定されているかはわからないが、明確な目的やタスクが与えられないで活動している場合、エージェントの学習データはそのような状況を前提としていないので、エージェントの振る舞いもランダムなノイズのようなものになってしまうのではなかろうか。
- [Paper Note] Position: Humans are Missing from AI Coding Agent Research, Wang+, 2026.02
逆に他者と協働しながら、特定のタスクの正しい完了を報酬とするのではなく、もっと自身の内面的な感情や動機に対して報酬が働くような枠組みが発展し、かつ協働をすることのスキルを得られるようなデータが増えればまた違ったことが起きるのではなかろうか。
[^1]:SWE Agentの例ではあるが現在のAAgentはタスクを正しく完了したことをシグナルとして訓練されるパラダイムに支配されているので協働的な要素は生まれづらいと推察される。それはおそらくマルチエージェントでも一緒である。
[Paper Note] Soft Contamination Means Benchmarks Test Shallow Generalization, Ari Spiesberger+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #Evaluation #read-later #Selected Papers/Blogs #Generalization #One-Line Notes #Contamination Issue Date: 2026-02-17 GPT Summary- LLMの訓練データがベンチマークのテストデータで汚染されると、分布外一般化にバイアスが生じる。従来のデコンタミネーション・フィルターは意味的重複を認識できず、私たちは「ソフト汚染」として訓練データの意味的重複を調査。Olmo3コーパスの解析から、汚染が広範囲に存在し、CodeForcesの78%、ZebraLogicの50%に意味的または厳密な重複を確認。また、ベンチマークデータの重複が訓練データに含まれることで性能が向上し、ファインチューニングが同じベンチマークの未使用データの性能も改善することが示された。これにより、最近のベンチマークの向上は本質的な能力向上とは異なる可能性があることを示唆している。 Comment
元ポスト:
n-gramマッチングによるデータのdeaontaminationは表層レベルでしか捉えられないので、意味的に等価なサンプルをdecontamgnationできず(=Soft Contamination)効果が薄く、意味的なレベルでのコンタミネーションは広範に存在し[^1]、それらサンプルが学習データに含まれるとheldoutされたテストベンチマークのスコアも改善してしまう(=本当に計りたい汎化性能を測れていない)という話をしっかり分析した研究に見え、非常に重要な研究に見える。
[^1]:Olmo3で検証しており、ZebraLogicテストセットの50%とexactに一致するデータが含まれ、CodeForcesのテストセットのうち78%のサンプルと意味的に一致したサンプルが一件以上存在したとのこと。
[Paper Note] An Industrial-Scale Sequential Recommender for LinkedIn Feed Ranking, Lars Hertel+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#RecommenderSystems #NeuralNetwork #Transformer #A/B Testing #SequentialRecommendation #One-Line Notes Issue Date: 2026-02-16 GPT Summary- Feed Sequential Recommender(Feed-SR)は、LinkedInフィード向けのトランスフォーマーを用いた逐次ランキングモデルで、DCNv2ベースのランカーを置換。LinkedInの運用制約を満たしつつ、メンバーのエンゲージメントを向上させ、滞在時間が+2.10%増加。オンラインA/Bテストでの性能を通じて、Feed-SRの効率性と効果についても論じる。 Comment
元ポスト:
linkedinのfeedにおけるsequential recommendationで利用されているモデルでdecoder onlyのpre-LN、RoPE、residual streamの更新がlearnableなパラメータでrescaleされて更新されるようなtransformerアーキテクチャが採用されている。細かいfeatureなどについては読めていない。A/Bテストによって効果が確認されている。
[Paper Note] Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs, Wei Zhou+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs #Data Issue Date: 2026-02-16 GPT Summary- LLM技術がデータ前処理のパラダイムを変革中であり、幅広いアプリケーションに対応するための進化を検討。文献レビューを通じて、データクリーニング、統合、強化の主要タスクにおける手法を整理し、それぞれの利点と制約を分析。さらに、評価指標とデータセットを考察し、スケーラブルなデータシステムや信頼性の高いワークフローに向けた研究課題を提示。 Comment
元ポスト:
自動的なデータの前処理に関するSurvey。文献は120以上引用され、美麗なフォーマットで記述されている。時系列での手法の変遷と、手法間の関係性が図解で整理されており非常にわかりやすそう。データの前処理は実務上の大きなボトルネックなのでどのような研究があるか気になる。
[Paper Note] General Humanoid Whole-Body Control via Pretraining and Fast Adaptation, Zepeng Wang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NeuralNetwork #ReinforcementLearning #MoE(Mixture-of-Experts) #Robotics #EmbodiedAI #WholeBody Issue Date: 2026-02-14 GPT Summary- ヒューマノイドロボットの全身コントローラー学習は、多様な動作や迅速な適応の難しさから依然課題が残る。既存手法はタスク固有のトレーニングを要し、新しい動作への適応時に性能が低下することが多い。本研究では、高速適応と安定した動作追跡を実現する「FAST」を提案。FASTは軽量のデルタアクションポリシーを学習し、分布外動作への効率的適応と壊滅的な忘却の軽減を図る。さらに、センターオブマスに基づく制御を導入し、バランス向上を目指す。広範なシミュレーションと実世界の実験により、FASTは堅牢性や適応効率で最先端のベースラインを超える性能を示した。 Comment
元ポスト:
腕の操作だけのような特定の部位に特化したモーションを学習するのではなく、全身の動きを制御するコントローラーをMoE+3層MLPのアーキテクチャでRL(PPO)によって学習するような手法らしい
[Paper Note] Anchored Decoding: Provably Reducing Copyright Risk for Any Language Model, Jacqueline He+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #Decoding #read-later #Selected Papers/Blogs #Legal #KeyPoint Notes #Copyright #Author Thread-Post Issue Date: 2026-02-12 GPT Summary- 「アンカーデコーディング」は、現代の言語モデルが逐語的な再現を抑制するための新しい推論法であり、リスクのあるLMからより安全な生成を実現します。この手法は、ユーザーが選択した情報予算に応じて生成過程に制約を加え、著作権リスクと有用性のトレードオフを可能にします。また、新たに導入した安全モデルと、クロスボキャブラリ融合を実現するAnchored$_{\mathrm{Byte}}$デコーディングにより、リスク低減と流暢さを維持しつつ、コピーギャップを75%まで排除することが確認されました。 Comment
元ポスト:
権利上の問題がない言語モデル(permissive licenceデータによって学習されたものなど)SafeLMと、任意の言語モデルRiskyLMの2つが与えられたときに、KL Divergenceの予算Kの元、各生成のstep tごとに語彙空間上で両LLMのKL DivergenceがK_t未満となるように生成するトークンを選択することで、出力の有用性(fluencyとfactuality)は維持しつつ、memorizationされている著作権物をそのままデコーディングしてしまうリスクを低減する手法。RiskyLMの非常に高いUtility上の語彙生成確率を、SafeLM側の安全な語彙確率で引っ張って良い塩梅で生成するようなイメージと思われる。
この手法はSafeLMがどれだけ高いUtilityを維持しつつ安全性を保てるかにデコーディング性能が依存すると思われるが、SLMで非常に性能の良いTinyComma 0.8Bもリリースしている。
また、KL Divergenceを測定する都合上、提案手法は共通のVocab(すなわちトークナイザー)を持つモデル間でしか適用できないが、KL Divergenceをバイト空間上で測るように工夫することでVocabの制約を無くす方法も提案している。
著作物をそのまま出力してしまう問題は軽減されそうだと思われるが、著者独特の思想や感情、表現や言い回しなどの著作権で保護される対象をどの程度の度合いで守れるかについては興味がある。また、そのためには次はどのようなステップが必要か?
[Paper Note] Effective Reasoning Chains Reduce Intrinsic Dimensionality, Archiki Prasad+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Chain-of-Thought #Reasoning #PEFT(Adaptor/LoRA) #PostTraining #Selected Papers/Blogs #Generalization #KeyPoint Notes Issue Date: 2026-02-12 GPT Summary- 内在次元数を指標として、推論チェーンの有効性を定量化。異なる推論戦略がタスクの内在次元数を低下させ、一般化性能に逆相関を持つことを示す。これにより、有効な推論チェーンがパラメータを効果的に利用し学習を促進することを明らかにする。 Comment
元ポスト:
元ポストを読むと、以下のような話のようである。非常に興味深い。
良いCoT(推論)はタスクを圧縮する(すなわち、inputを正解へとマッピングする際の自由度を減少させる)ことを示した。
さまざまなCoT戦略に対して、あるタスクに対してさまざまなCoT戦略と、**特定の性能に到達するまでに必要な最小のパラメータ数の関係性(=intrinsic dimensionality)**を分析。パラメータ数の制御はLoRAのパラメータを変化させることによって調整して実験。その結果、Intrinsic Dimensionalityがdownstream taskの性能と、OODへの汎化性能に対して非常に強い相関を示した(Perplexityよりも強い相関)。
Intrinsic DimensionalityをさまざまなCoT戦略で測定すると、(school math系のデータに関しては)python codeを生成し実行する方法(Executed PoT)が最もコンパクトなsolutionを生成し、かつ最も良いOODへの汎化性能が高いことがわかった(他ドメインでこのCoT手法が適しているとは限らない点には注意)。
また、モデルスケールが大きい方がより低いIntrinsic Dimensionalityを示し、良いcompressor(=タスクを圧縮する能力が高い)であることがわかった。
弱くてノイジーなCoT戦略は、スケールせず、パラメータ効率が悪いことがわかった。
非常に興味深い研究で、かつskim readingしかできていない上での感想なのだが、
- 実験がLoRAベースで実施されているため、他の学習のダイナミクスにおいて同様のことが言えるのかという点
- Gemmaでしか実験されていないため他のアーキテクチャでも同じようにIntrinsic Dimensionalityの有効性が言えるのか
- データセットがGSM系列のschool mathドメインでしか実験されていないため、ドメイン間でどの程度一般性を持って言える話なのかという点
は明らかになっていない気がしており、どうなるのか興味がある。また、実際にIntrinsic Dimensionalityを測定しようとした場合に、効率的に求める方法はあるだろうか。
[Paper Note] UI-Venus-1.5 Technical Report, Veuns-Team+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #NLP #ReinforcementLearning #AIAgents #mid-training #ModelMerge #Off-Policy #On-Policy #VisionLanguageModel #One-Line Notes #Rubric-based #GUI Issue Date: 2026-02-12 GPT Summary- 統合型エンドツーエンドGUIエージェントUI-Venus-1.5を紹介。さまざまなアプリケーションに対応する2B、8B、および30B-A3Bのモデルバリアントを持ち、10億トークンを活用したMid-Training、オンライン強化学習、ドメイン固有モデルの統合を実施。評価においてScreenSpot-Pro、VenusBench-GD、AndroidWorldで新たな最先端パフォーマンスを達成し、中国のモバイルアプリでも効果的なナビゲーションを実現。 Comment
元ポスト:
Mid-training(navigation, grounding, reasoning, GUI-VQA, アイコンの認識等の精緻な認識能力)でGUIに関する知識を身につけさせ、オフラインRLで特定のタスクに特化した能力(grounding, navigation等)を向上し、オンラインRLで実シナリオでのエージェントのtrajectoryレベルでの能力を向上させる。これらのモデルはモバイルとwebでそれぞれ学習され、最終的にモデルマージを通じて単一のend-to-endにタスクを実現可能なエージェントを構築する。
コールドスタートの対策のためにSFTではなくオフポリシーRLを使っているのが特徴
下記研究において、SFTが各trajectoryがトークン単位で一致したときに1となるrewardを用いたRLと一致することが示されており、汎化能力に課題があることが指摘されている[^1]。汎化性能は後回しにして、特定の能力にとにかくまずは強化したいという用途であればSFTでも良いかもしれないが、downstreamなタスクがend-to-endで多様なタスクとなる場合は、オフラインRLを用いて汎化性能も考慮しつつ多面的な能力をwarmupするのが良いのかもしれない。
- [Paper Note] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification, Yongliang Wu+, ICLR'26, 2025.08
[^1]: ポリシーがexpertのtrajectoryに対して低い尤度を示すとimportance weightingにより非常に大きい重みがかけられることで分散が大きく、かつ報酬シグナルがsparseなことが課題であることが指摘されている。
[Paper Note] ViT-5: Vision Transformers for The Mid-2020s, Feng Wang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #Transformer #Architecture #read-later #Selected Papers/Blogs #Backbone Issue Date: 2026-02-10 GPT Summary- ViT-5は、ビジョントランスフォーマーの要素を体系的に洗練し、新世代のバックボーンを形成する。このアーキテクチャは、正規化や位置エンコーディングなどの進化を含み、広範な実験で従来の最先端を上回る性能を示した。ImageNet-1k分類では84.2%のトップ-1精度を達成し、生成モデリングでも優れたFIDを記録。改善された表現学習と空間推論により、タスク間の移行が安定し、現代のファンデーションモデルに適したシンプルなアップグレードを提供する。 Comment
元ポスト:
ModernBERTと同じ動機で、ViTに現代的な様々なアーキテクチャ上の工夫を入れたものをシステマチックに調査し、最適な組み合わせを見つけ性能向上したという話に見える。
[Paper Note] Learning to Self-Verify Makes Language Models Better Reasoners, Yuxin Chen+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Reasoning #RLVR #Selected Papers/Blogs #KeyPoint Notes #SelfVerification Issue Date: 2026-02-10 GPT Summary- LLMの生成能力は高いが、自己検証では弱いという非対称性を調査。生成が向上しても自己検証に改善は見られず、逆に自己検証の学習が生成性能を向上させることが示された。生成訓練に自己検証を統合するマルチタスク強化学習フレームワークを提案し、両者の性能向上を実証。 Comment
元ポスト:
LLMの生成能力を高めるようにRLによって事後学習をしてもVerificationの能力は向上しないが、LLMが自身の出力に対してVerificationが正しくできるようにRLVRすると生成と自己検証能力の双方が向上する。
クエリに対して応答を生成し、フィルタリング(応答が長すぎるもの、全ての応答が誤りのもの、最終的な回答が存在しないもの等)を実施した後、クエリレベルで多様なクエリが存在するようにする(多様性)を保ちつつ、overfittingを避けるために正解・不正解がバランスよく存在するように自己検証のためのデータを作成(モデルは学習の初期のロールアウトは不正解ばかり生成し、後半は正解ばかり生成するといった偏りが存在する)し、式(4)で定義される自身が生成した応答が正解か否かを二値分類した結果に基づくRewardを用いてGRPOする、という手法ように見える。
ざーっと見た感じtest time scalingの実験が無いように見えたが、この方法で自己検証をモデルができるようになると、test time scalingした時の性能も向上するのではないか。
また下記研究で示されている通り、現在のLLMはself refine能力が低く何らかのガイドがないと自身で応答を改善していけないため、現在のLLMの弱みを克服するのに有効な手法に見え、非常に興味深い研究だと感じる。
- [Paper Note] RefineBench: Evaluating Refinement Capability of Language Models via Checklists, Young-Jun Lee+, ICLR'26, 2025.11
[Paper Note] SE-Bench: Benchmarking Self-Evolution with Knowledge Internalization, Jiarui Yuan+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Analysis #NLP #Dataset #LanguageModel #ReinforcementLearning #Evaluation #SelfImprovement #PostTraining #read-later #Selected Papers/Blogs #FactualKnowledge #One-Line Notes #ContinualLearning Issue Date: 2026-02-10 GPT Summary- 自己進化には、エージェントが生涯学習者として新しい経験を内面化し、将来の問題解決に活かすことが必要。しかし、以前の知識の混在と推論の複雑さが測定を妨げる。SE-Benchという診断環境を導入し、エージェントが新しいAPIドキュメントを使用することで評価を行い、知識の保持と内面化の新たな洞察を得た。特に「クローズドブック訓練」が知識保持に必要であり、標準的な強化学習が新しい知識を内面化できないことを示す。SE-Benchは知識内面化のための厳密なプラットフォームを提供する。 Comment
元ポスト:
関数をリネームし関連するAPIドキュメント(今回はnumpy)を更新し、Claudeを用いてテストケースを生成し、複数のLLMのVotingで検証可能かどうかを判定した後人手による検証を行いフィルタリングする。テスト時にクローズドブックの設定で評価することで、インタフェースに関するモデルのFactual Knowledgeを更新しないとモデルはテストケースに正解できず、モデルが内部パラメータに保持するFactual Knowledgeをどれだけ適切に保持、更新しているかを評価するようなコントロールされた環境下でのベンチマークに見える。
APIに関するドキュメントの文脈をしっかり変更しないと元のモデルが文脈から過去の関数名との対応関係を類推できてしまいそうだが、その辺はどうなっているのだろうか。
[Paper Note] Paying Less Generalization Tax: A Cross-Domain Generalization Study of RL Training for LLM Agents, Zhihan Liu+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #PostTraining #read-later #Selected Papers/Blogs #CrossDomain #Generalization #KeyPoint Notes #DomainGap Issue Date: 2026-02-08 GPT Summary- 一般化されたLLMエージェントのポストトレーニングにおける課題を調査。特に、強化学習環境の特性がアウトオブドメイン性能に与える影響を分析。状態情報の豊富さとプランニングの複雑さがクロスドメインの一般化に強く相関し、リアリズムやテキスト類似性は主要な要因ではないことを発見。状態情報を増やすことでロバスト性を向上可能で、ランダム化技術を提案。また、モデリング選択として、SFTのウォームアップが忘却を防ぐが一般化を損なう可能性や、ステップ・バイ・ステップ思考が一般化に重要な役割を果たすことを示した。 Comment
元ポスト:
事後学習におけるクロスドメインの汎化性能に関する調査を行い、ドメインの表層的な情報ではなく、
- 状態情報の豊富さ(どれだけのテキストを処理する必要があるか; 認知コスト)
- 推論の複雑さ(long-horizonやゴールへの到達可能性)
がドメイン間の汎化に相関を示すことが明らかになり、要は構造の複雑さが鍵であることが分かった。
ドメイン間の汎化性能を改善するために、実タスクは変えずにobservationに対して少量のノイズを加えることで、モデルがノイズから重要なシグナルを抽出することを学習し汎化性能が向上。
RLを行う際の注意点として、
- mid-trainingはDataMixに含まれるドメインの知識を補充するが、カバーされていないドメインの忘却をより悪化させる可能性があり
- ステップ単位での推論が汎化性能向上に役ダウン(言い換えると、ショートカットは転移しない)
を挙げており、
デプロイされるドメインが不明な場合の実用的な対策として
- より状態の記述がリッチなドメインかつ複雑な推論を要する環境で学習し
- 明示的な推論をオンにし
- 軽量な状態情報へのノイズの注入や拡張をすふこと
を挙げている。
さらにざっくり言うとエンコード時にドメインの表層情報に依存させず、表層情報の中から必要な情報を抽出するスキルをモデルに学習させ、かつデコーディング時は精緻な推論によって誤った転移を防ぐのがドメイン間の汎化の鍵、という話に感じる。
[Paper Note] Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening, Zhenxiong Yu+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #Safety #One-Line Notes Issue Date: 2026-02-08 GPT Summary- 「Spider-Sense」と呼ばれるイベント駆動型防御フレームワークを提案し、エージェントが危険を認識した際にのみ防御を発動。階層的な防御メカニズムにより効率と精度をトレードオフしつつ、既知のリスクを軽量マッチングで解決し、曖昧なケースは内部推論に移行。新たなベンチマーク「S$^2$Bench」を用いた実験で、競争力のある防御性能と最低の攻撃成功率を示し、わずか8.3%の遅延オーバーヘッドを実現。 Comment
元ポスト:
従来のAI Agentのセキュリティチェックは決められたタイミングで、しばしば重いチェックがかかりレイテンシが高かったが、提案手法では動的にどの程度の計算量を費やすかを調整して、必要なタイミングで重い推論、そうでない場合は軽量なチェックで済ませることでレイテンシと性能を改善する、といったコンセプトな模様。
エージェントのステージごとにobservationを事前定義されたテンプレートで囲い、テンプレートによってスクリーニングをトリガーし、ベクトル検索によって危険度を判定する。判定した危険度が一定以下なら軽量なチェック、一定以上ならLLMによる推論を用いた重い処理を走らせるという手法に見える。図中のcのnotationが本文中に見当たらない気がするが、見落としているだろうか。
結局のところ、テンプレートによってセキュリティチェックが誘発されるように見えるので、元々の問題意識である固定されたタイミングで強制的にセキュリティチェックがかかる、という課題は解決されない気がする。固定されたタイミングで強制的にセキュリティチェックがかかる点は従来手法と変わらないが、セキュリティチェックに費やすコストや計算量を動的に変更します、という話に感じる。
[Paper Note] LatentMem: Customizing Latent Memory for Multi-Agent Systems, Muxin Fu+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #AIAgents #Selected Papers/Blogs #memory #KeyPoint Notes #Adaptive Issue Date: 2026-02-07 GPT Summary- LatentMemは、LLMを用いたマルチエージェントシステム向けに設計された学習可能なメモリフレームワークで、カスタマイズと情報最適化を実現します。経験バンクと潜在メモリを活用し、メモリエントリーの均質化と情報過多の問題を解決。タスクレベルの最適化信号を利用することで、従来のメモリ設計に対し最大19.36%の性能向上を達成しました。 Comment
元ポスト:
skim readingしかできていないが、現在のMulti AI Agentsにおけるメモリ機構はstaticな機構であるため、メモリが均質化してしまいエージェントの役割ごとに最適化されておらず、かつlong trajectoryを扱う際に情報がコンパクトに圧縮されておらずtrajectoryが肥大化していってしまう。このため、エージェントの役割ごとに異なるメモリを生成し、かつ固定長の潜在表現に情報を圧縮する(これによりlong contextでのメモリ肥大化を防ぐ)ような新たなDeep Neural Networkに基づくMemory ComposerをRLを通じて学習するという話のようである。
エージェントのプロファイルと、experience bankから抽出された現在のクエリに対するtrajectoryに基づいて、個々のエージェントごとにrelevantな情報が圧縮されたメモリの潜在表現を生成するようなMemory ComposerをRLで学習し活用する(LMPO)。このとき、エージェントのパラメータは更新せずfreezeする。あくまでバックボーンはfreezeして変更せず、メモリ機構のみを最適化することに焦点を当てている。Memory Composerは、与えられたメモリ, エージェントの(freezeされた)パラメータ, 与えられたプロンプトによってreasoningを実施し、最終的な応答が正しかったかどうかに基づいてGRPOベースのRLVR(=LMPO)を実施することによって学習する。エージェントがメモリを活用して得られたtrajectoryはexperience bankに格納されて利用される。
既存手法と比べて多くのQAベンチマークで高い性能を獲得し、OODなベンチマークでもある程度は汎化するようである。
in-domainなベンチマークと比較して、out-of-domainなベンチマークでの性能向上が小さいので、汎化性能にまだ課題があるように感じた。解決している問題は非常に重要だと考えられ、どのようにすれば汎用的なMemory Composerが学習できるか?を考えるとおもしろそうである。
[Paper Note] ERNIE 5.0 Technical Report, Haifeng Wang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #Speech #Proprietary #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #2D (Image) #UMM #4D (Video) #Omni #text Issue Date: 2026-02-06 GPT Summary- ERNIE 5.0は、テキスト、画像、ビデオ、音声に対応したマルチモーダル理解と生成のための基盤モデルです。超スパースな専門家の混合アーキテクチャを使用し、依存しないルーティングでトークン予測を行います。新たなトレーニングパラダイムにより、モデルは性能、サイズ、推論レイテンシを柔軟に調整可能です。幅広い実験において、ERNIE 5.0は複数のモダリティで優れた性能を示し、初の商用規模の兆パラメータモデルとして注目されています。 Comment
元ポスト:
リリース時の公式ポスト:
あくまでskim readingをして得た印象なのだが、非常に興味深い研究で、Omniモダリティを超大規模モデルでスクラッチからUnified Multimodal Modelとして学習し、MoEで効率的に推論するというアーキテクチャと手法に見え(個人的にこういう手法でやったらどうなるのだろう?と思っていたドンピシャな設定)、各種ベンチマークの性能指標を見ると多くの指標で全体的に良いスコアを達成しており様々なタスクを高性能で実現できる一方、特定の分野のベンチマークでGemini Pro 3の方が強い面が多く(たとえばテキストモダリティのstem, coding, vision全般, ASR全般)、Omniモダリティの統合は一筋縄ではいかず、どのようにモダリティを統合し、学習することが効果的なのか?という根源的な問いがあらためて思い浮かぶ。
Ming Omniでも同様のことがやられていた:
- [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25, 2025.06
[Paper Note] WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning, Zelai Xu+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #ReinforcementLearning #AIAgents #PostTraining Issue Date: 2026-02-06 GPT Summary- マルチエージェントシステムを用いた情報探索の幅のスケーリングを探求する本研究では、WideSeek-R1フレームワークを提案。リードエージェントとサブエージェントが共同最適化することで、20,000のタスクで高い性能を発揮。WideSeek-R1-4BはアイテムF1スコア40.0%を達成し、性能がサブエージェント数の増加と共に向上することを示す。 Comment
元ポスト:
Context Foldingと比較した時の新規性がweaknessに感じる:
- [Paper Note] Scaling Long-Horizon LLM Agent via Context-Folding, Weiwei Sun+, arXiv'25, 2025.10
[Paper Note] A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces, Mingxuan Du+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #RAG(RetrievalAugmentedGeneration) #Test-Time Scaling #One-Line Notes #Scalability #Adaptive Issue Date: 2026-02-06 GPT Summary- A-RAGは、階層的な取得インターフェースを通じてエージェント型のRAGシステムを実現し、モデルが適応的に情報を検索・取得できる能力を向上させる。キーワード検索、意味検索、チャンク読み取りの3つのツールを提供し、既存の方法と比較して一貫した優れた性能を示す。モデルのスケーリング特性についても体系的に検討し、今後の研究のためにコードを公開予定。 Comment
元ポスト:
固定されたワークフローでのRAGではなく、エージェントが自ら考えて最適な検索ツールを模索し情報を自動的に取得するAgentic RAGな枠組みを提案している。研究としての新規性はweaknessだと感じるが、実務的に有効な方法だと思う。LLM側のreasoning effortやmax tokenを増やすことで性能がスケーリングするため(Test Time Scaling)これもまた実用的な手法だと感じる。
[Paper Note] Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL, Ian Wu+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#DocumentSummarization #NLP #LanguageModel #ReinforcementLearning #AIAgents #Reasoning #PostTraining #read-later #RLVR #Selected Papers/Blogs #OOD #Generalization #KeyPoint Notes #LongHorizon #Robustness #Compression Issue Date: 2026-02-05 GPT Summary- 大規模言語モデル(LLM)は、テスト時の適応能力により複雑な問題を解決する外挿特性を持つが、標準的な強化学習(RL)はその変化に制約がある。これに対処するために、反復デコーディングアルゴリズム(RC)を導入し、LLMの応答生成能力を活用して推論を継続的に改善。実験では、16kトークンの訓練で4BモデルがHMMT 2025でのパフォーマンスを40%から約70%に引き上げ、既存のモデルを上回る結果を示した。RCを使用したモデルは、学習した要約生成能力によりテスト時のパフォーマンスも向上できることが証明された。 Comment
元ポスト:
reasoningの生成と、生成されたreasoningとinputで条件付けでsummaryを生成、さらにinputとsummaryで条件付けてreasoningを生成するという、生成と要約を反復する枠組みを採用(LLMはreasoningを要約することが生成するよりも得意で、かつ過去の要約から将来の推論を生成できるという非対称性を活用)することで、訓練時の予算は決まっているため、訓練時の予算では到達できないhorizonにテスト時に遭遇すると汎化しない課題を克服し、テスト時により長いステップ数の推論もこなせるように外挿する。また、このようなgeneration-summaryの反復を各ステップごとでRLVRすることでさらに性能を向上でき、実際にlong horizonな推論や学習時よりもより長いreasoning token budgetの場合に大きなgainを獲得できている。
RLVRをする際に各ステップごとのSummaryを保存しておき、各ステップのsummaryが与えられたときに正解できるかどうかのシグナルに基づいて、ステップごとの要約で条件付けられた応答能力を改善する。これにより、さまざまなステップで応答を生成する能力が強化され、結果的にshort horizonからlong horizonの推論をする能力が強化される。
このときsummaryはリプレイバッファとして扱い後のepochの訓練でもオフポリシーデータとして活用する。要約はinputに条件付けられて生成されるものであり、optimizationのtargetとは異なるためリプレイバッファとして活用でき、かつさまざまな要約に対して正解が生成できるように学習されるためテスト時の要約の分布のシフトにロバストになる。また、オンポリシーデータだけだと、long horizonに対する要約は非常に稀になるため、リプレイバッファを利用することで補う。
テスト時に学習時を超えたhorizonで推論できることは現在のAIエージェントの大きな課題だと思うので非常に興味深い研究だと思う。
[Paper Note] Learning to Reason in 13 Parameters, John X. Morris+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #Reasoning #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2026-02-05 GPT Summary- 低ランクアダプタTinyLoRAを提案し、推論のための強化学習が低ランクパラメータ化を効果的にスケールできることを示しています。わずか13のトレーニングパラメータでQwen2.5を91%の精度に達成し、複雑なベンチマークでも少ないパラメータで90%のパフォーマンス向上を実現しました。特に、強化学習を用いることで、従来の方法よりも大幅に少ないパラメータで強力な結果を得ることができました。 Comment
元ポスト:
Qwen2.5に関してはLlamaと比較して異なる傾向が生じることは以下でも見受けられる。果たして本研究で報告されていることはどこまで一般的なのだろうか?:
- [Paper Note] Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination, Mingqi Wu+, arXiv'25
- [Paper Note] Spurious Rewards: Rethinking Training Signals in RLVR, Shao+, 2025.05
[Paper Note] Golden Goose: A Simple Trick to Synthesize Unlimited RLVR Tasks from Unverifiable Internet Text, Ximing Lu+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SyntheticData #PostTraining #read-later #RLVR #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-02-05 GPT Summary- RLVRはLLMの推論を解きほぐす基盤だが、検証データの不足がスケールアップのボトルネックとなっている。この課題を克服するために「ゴールデン・グース」を提案し、インターネットの非検証テキストから無限のRLVRタスクを生成する。具体的には、LLMに主要な推論ステップを特定させ、豊富なタスクを持つGooseReason-0.7Mデータセットを合成。これにより、従来モデルを復活させ、15のベンチマークで新たな最先端結果を達成。また、リアルなサイバーセキュリティデータからRLVRタスクを合成し、Qwen3-4B-Instructをトレーニング。これにより7Bモデルを超える成果を上げ、推論に富んだインターネットテキストを活用する可能性を示している。 Comment
元ポスト:
テキストからMultiple Choice Question (MCQ) を生成することでRLVR用のverifiableな学習データを大量に合成可能にする。おそらく次のステップとしては、生成されるMCQの stem, key, distractor の質が今度は焦点となり、そこの質が改善されればより大きなgainを得られるようになる気がする(たとえば消去法で正解を知らなくても正解できてしまうようなdistractorや、問題文に正解がそのまま含まれてしまっているようなノイジーなMCQから人間が何も学ばないように、モデルが学習するときと一緒だと思われる)。
データとモデルが公開:
[Paper Note] Maximum Likelihood Reinforcement Learning, Fahim Tajwar+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #PostTraining #read-later #RLVR #Selected Papers/Blogs #Author Thread-Post Issue Date: 2026-02-05 GPT Summary- 強化学習を用いてモデルを訓練する際、尤度の最大化ではなく低次近似を最適化する限界に触発され、最大尤度強化学習(MaxRL)を提案。これは、サンプリングされたデータから最大尤度を近似するためのフレームワークであり、得られた目的関数はシンプルで偏りのないポリシー勾配推定を可能にする。実験では、MaxRLが既存の手法を上回り、テスト時間効率を最大20倍向上。追加データや計算へのスケーラビリティも優れており、RL訓練を正確性に基づいて拡張するための有望なフレームワークであることを示した。 Comment
元ポスト:
著者ポスト:
pj page: https://zanette-labs.github.io/MaxRL/
skim readingしかできていないが、
微分不可能な生成がされbinaryの正誤が与えられるような条件下でモデルを最適化するときにxが与えられてyが正解である確率はimplicitな尤度を表している。この最適化問題を解くために現在はRLが利用されており、RLは正解の確率pを最大化するような定式化がされているが、最尤推定で定式化するとlog pで定式化をすることになり、これは根本的に異なる最適化となる。具体的には、RLはpass@1に対して最適化しているが、MaxRLはk=1,...∞に対するpass@kの調和平均に対して最適化をするような違いがある。この最尤推定の勾配は実は成功したtrajectoryのスコアの平均という非常にシンプルな形で近似的に求められるらしく、最尤推定として解くと最大20倍程度効率が向上した、といった話に見える。
関連:
- [Paper Note] Rewards as Labels: Revisiting RLVR from a Classification Perspective, Zepeng Zhai+, arXiv'26, 2026.02
- [Paper Note] Likelihood-Based Reward Designs for General LLM Reasoning, Ariel Kwiatkowski+, arXiv'26, 2026.02
所見:
[Paper Note] $V_0$: A Generalist Value Model for Any Policy at State Zero, Yi-Kai Zhang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #In-ContextLearning #PostTraining #Stability #Scheduler #Routing #BudgetAllocation Issue Date: 2026-02-05 GPT Summary- GRPOを用いた訓練において、$V_0$という新たなバリューモデルを提案。これはパラメータ更新を必要とせず、モデルの期待パフォーマンスを推定し、能力の変化を捉える。$V_0$は成功率を予測し、効率的なサンプリングを実現。結果、LLMルーティングタスクにおいて、コストとパフォーマンスのバランスで優れた結果を示した。 Comment
元ポスト:
ポイント解説:
Actor-Critiqueの枠組みにおいてValueモデル(のポリシーに追従するための逐次的な更新が)重すぎる問題をGRPOはValueモデルを無くすことで回避したが今度はロールアウトのサンプリングコストがでかすぎる問題があるので、学習無しで汎用的に利用可能なValueモデル(パラメータ更新ではなくICLとして定義する)を用いて、ロールアウト前から成功率を予測し無駄なロールアウトを削減したり、クエリをどのモデルに投げるかといったルーティングをするなどの計算機リソースの配分を決めるといったことをやるらしい。
[Paper Note] HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache Sharing, Yizhao Gao+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Transformer #Attention #Architecture #KV Cache #Hybrid #SparseAttention Issue Date: 2026-02-05 GPT Summary- 新しいアーキテクチャ「ハイブリッド疎注意」(HySparse)を提案。全注意層と疎注意層を交互に配置し、疎層のトークン選択を全注意層から導出。これにより、トークンの重要性予測が簡素化され、KVキャッシュの再利用が可能に。評価では、7B密集モデルと80B MoEモデルの両方で全注意およびハイブリッドSWAのベースラインを超え、特に49層の80B MoEモデルで顕著な性能向上とKVキャッシュの10倍削減を実現。 Comment
元ポスト:
ポイント解説:
Full attentionとsparse attentionを組み合わせたアーキテクチャの提案で、Full attentionと同等以上の性能を効率的に達成し、sparse attentionではfull attentionのKV Cacheを再利用するように設計されていることから、KV Cacheのスペースを大幅に削減できて嬉しい、という話に見える。
[Paper Note] An Empirical Study on Noisy Data and LLM Pretraining Loss Divergence, Qizhen Zhang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #Scaling Laws #read-later #Selected Papers/Blogs #Stability #DataFiltering Issue Date: 2026-02-05 GPT Summary- ノイズデータがLLMの事前学習に与える影響を体系的に分析。合成ノイズを注入した実験で、ノイズがトレーニングロスの発散を引き起こすことを実証し、依存関係を特定。高学習率による発散とは異なるパターンも観察し、診断手法を提案。ノイズの影響に関する制御された洞察を提供。 Comment
元ポスト:
- [Paper Note] Spike No More: Stabilizing the Pre-training of Large Language Models, Sho Takase+, COLM'25
のようにアーキテクチャの改善によって学習の安定性を担保する取り組みもあるが、アーキテクチャ側で解決した場合にノイズはどのような影響を与えるのだろうか?
takeawayが論文中にQAの形でまとめられている。
[Paper Note] RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System, Yinjie Wang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SelfImprovement #PostTraining Issue Date: 2026-02-05 GPT Summary- 強化学習フレームワーク「RLAnything」は、動的に環境、ポリシー、報酬モデルを生成し、学習信号を増幅することで、全体的なRLシステムを強化します。ポリシーはフィードバックを用いて訓練され、報酬モデルは一貫性フィードバックにより最適化されます。理論に基づく自動環境適応により、各モデルからの批評が訓練を改善します。実証例として、RLAnythingはOSWorld、AlfWorld、LiveBenchで大幅な性能向上を示しており、最適化された報酬モデルが人間のラベルを超える結果を出しています。 Comment
blog: https://yinjjiew.github.io/projects/rlanything/
元ポスト:
環境、ポリシー、Reward Modelが互いにフィードバックし合ってco-trainingされる枠組み
[Paper Note] RefineBench: Evaluating Refinement Capability of Language Models via Checklists, Young-Jun Lee+, ICLR'26, 2025.11
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #Reasoning #SelfCorrection #ICLR #read-later #Selected Papers/Blogs #KeyPoint Notes #Rubric-based Issue Date: 2026-02-05 GPT Summary- 言語モデル(LM)の自己改善能力を探るために、RefineBenchという1,000の問題と評価フレームワークを導入。二つの改善モード、ガイド付きと自己改善を評価した結果、最前線のLMは自己改善で低迷する一方、ガイド付き改善では特許LMや大規模オープンウエイトLMが迅速に応答を改善。自己改善には突破口が必要であり、RefineBenchが進捗の追跡に貢献することを示す。 Comment
元ポスト:
pj page: https://passing2961.github.io/refinebench-page/
verifiableはタスクだけでなくnon verifiableなタスクもベンチマークに含まれ、ガイド付き/無しの異なる設定、11種類の多様なドメイン、チェックリストベースのbinary classificationに基づく評価(strong LLMによって分類する; これによりnon verifiableなタスクでも評価可能)、マルチターンでの改善を観測できる、self-correction/refinementに関するベンチマーク。
フロンティアモデルでも自己改善はガイド無しの場合ではあまり有効に機能しないことを明らかにし、外部からガイドが与えられればOpenLLMでさえも少ないターン数で完璧に近い方向にrefineされる、という感じの内容に見える。
つまり自身とは異なるモデルで、何らかの素晴らしい批評家がいれば、あるいは取り組みたいタスクにおいて一般化された厳密性のあるチェックリストがあれば、レスポンスはiterationを繰り返すごとに改善していくことになる。
[Paper Note] Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models, Wenxuan Huang+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #Evaluation #MultiModal #2D (Image) #DeepResearch Issue Date: 2026-02-05 GPT Summary- Vision-DeepResearchは、マルチモーダル大規模言語モデル(MLLMs)において、多ターン・多エンティティ・多スケールの視覚およびテキスト検索を実現する新しい深層研究パラダイムを提案。これにより、実際のシナリオでの視覚ノイズに対処し、数十の推論ステップと多くのインタラクションをサポート。強化学習を通じて深層研究能力を内在化し、既存のMLLMを上回る性能を発揮する。コードは公開予定。 Comment
pj page: https://osilly.github.io/Vision-DeepResearch/
元ポスト:
image searchやVQAなどを伴うDeepResearchに関するタスクとそのベンチマークの提案という感じに見える。
[Paper Note] GLM-OCR Technical Report, Shuaiqi Duan+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#ComputerVision #NLP #OpenWeight #read-later #VisionLanguageModel #OCR Issue Date: 2026-02-03 GPT Summary- GLM-OCRは、0.9Bパラメータの多模态モデルで、実世界の文書理解に最適化されている。CogViT視覚エンコーダとGLM言語デコーダを組み合わせ、計算効率と性能のバランスを高めている。Multi-Token Prediction (MTP)メカニズムにより、OCRタスクのデコード効率が向上し、低メモリオーバーヘッドを実現。二段階パイプラインでレイアウト分析と認識を行い、公開ベンチマークで競争力のある性能を達成。リソース制約のある環境でも適用可能な設計。 Comment
元ポスト:
GLMのOCRがリリース。DeepSeekもOCRをリリースしているが、tokenを圧縮する目的や、モデルの学習データを担保する目的などで最終目的としては自分たちのモデルの強化に必要であり、その道中での副産物としてリリースしているのだろうか。それとも、OCRタスクの需要がシンプルに高いからリリースしているのだろうか。
公式ポスト:
関連:
- [Paper Note] LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR, Said Taghadouini+, arXiv'26, 2026.01
- olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10
- DeepSeek-OCR: Contexts Optical Compression, DeepSeek, 2025.10
- DeepSeek-OCR-2, DeepSeek-AI, 2026.01
[Paper Note] Beyond Precision: Training-Inference Mismatch is an Optimization Problem and Simple LR Scheduling Fixes It, Yaxiang Zhang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #PostTraining #Selected Papers/Blogs #Scheduler #train-inference-gap Issue Date: 2026-02-03 GPT Summary- 強化学習における言語モデルの訓練は不安定であり、その原因は訓練と推論の不一致にあるとされる。従来の対策では効果が薄いことが指摘され、本研究では勾配ノイズとミスマッチの連動を示し、更新サイズの縮小が効果的であることを発見。ミスマッチは動的な失敗と考え、動的に学習率を調整する新たな手法を提案。これにより、RL訓練を安定化し、不一致を抑制することができることが実証された。 Comment
元ポスト:
Importance SamplingやFP16に設定することによるミスマッチの解決方法でも依然として(長期の訓練などにおいて)安定性の問題が出ることをAblationで確認し、提案手法がより安定することを示しているように見える。
[Paper Note] VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents, Zirui Wang+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Evaluation #LongSequence #VisionLanguageModel #interactive Issue Date: 2026-02-03 GPT Summary- 現代の視覚-言語モデル(VLM)は、複雑な視覚的相互作用において効果的に機能しておらず、特に長期的な知覚や記憶の統合に課題があります。これに対処するため、「VisGym」という17の環境を導入し、記号パズルやナビゲーションを含む多様な設定でモデルを評価・訓練します。実験では、最前線のモデルがインタラクティブな場面で苦戦していることが示され、長い文脈の活用に制限があることが明らかになりました。しかし、目標観察やテキストフィードバックによる微調整は、モデルの視覚的意思決定を改善する効果が確認されました。 Comment
pj page: https://visgym.github.io/
元ポスト:
このベンチマーク上のSoTAであるGemini 3 Proでも平均Acc.50%に到達しないinteractiveなVQAタスク群な模様
[Paper Note] TriSpec: Ternary Speculative Decoding via Lightweight Proxy Verification, Haoyun Jiang+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Decoding #Selected Papers/Blogs #Verification #SpeculativeDecoding #One-Line Notes Issue Date: 2026-02-03 GPT Summary- SDを用いて推論効率を向上させる新しいフレームワークTriSpecを提案。軽量なプロキシを活用し、不確実なトークンに対してのみターゲットモデルを使用することで、計算コストを大幅に削減。実験により、従来のSDに対して最大35%の速度向上とターゲットモデルの呼び出し回数を最大50%削減したことを示す。 Comment
元ポスト:
targetモデルでのverificationは重いので、軽量なverificationをdraftに対して実施することで最大35%デコーディング速度向上とのこと。
verificationに利用するLLM(=proxy)がどのようなモデルファミリーなのか、ターゲットと同じファミリーなのか否かなどが気になる。
3.1節に以下のように書かれている:
> We identify smaller same-family models as ideal proxy veri-
fiers, justified by the following three core properties.
proxyについて以下の三つの観点で分析している:
- strong alignmentw: トークンレベルでtargetとalignしているかを分析(exact match, acceptable mismatch, unacceptable mismatchの3値分類)
- trustworthy outputs: token levelでalignしているだけでなく、単独で応答させたときにtargetと同じ回答が得られるか(同じ回答が得られるのであれば多少のトークンレベルの齟齬は許容可能
- Clear separability: proxyが信頼できるトークンと不確実な出力を区別できることが好ましく、proxyのtop1,2のprobabilityの差が0.5より大きい場合にacceptableなトークンと強い相関があることがわかり、verificationの信頼性の担保に使える
同じモデルファミリーでも、よりファミリー内での挙動が一致させるような副次的効果を得られるモデルファミリー構築方法もあり、Speculative Decodingの承認率が向上するような話もある:
- [Paper Note] Efficient Construction of Model Family through Progressive Training Using Model Expansion, Kazuki Yano+, COLM'25, 2025.04
[Paper Note] DiffuSpeech: Silent Thought, Spoken Answer via Unified Speech-Text Diffusion, Yuxuan Lou+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Dataset #Chain-of-Thought #SpeechProcessing #DiffusionModel #Reasoning #Architecture #Selected Papers/Blogs #TTS #AudioLanguageModel Issue Date: 2026-02-02 GPT Summary- 音声LMMが直接応答を生成する際に発生するエラーを解決するため、「沈黙の思考、話された答え」という新たなパラダイムを提案。内部のテキスト推論と共に音声応答を生成する拡散ベースの音声-テキスト言語モデル\method{}を開発。モダリティ固有のマスキングを使用し、推論過程と音声トークンを共同生成。初の音声QAデータセット\dataset{}も構築し、26,000サンプルを含む。実験結果はQA精度で最先端を達成し、最高のTTS品質を維持しつつ言語理解も促進。拡散アーキテクチャの効果も実証。 Comment
元ポスト:
音声合成、AudioLanguageModelの枠組みにおいてreasoningを導入する新たなアーキテクチャを提案し、そのためのデータを収集して性能が向上しているように見え、重要研究に感じる。
[Paper Note] Linear representations in language models can change dramatically over a conversation, Andrew Kyle Lampinen+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Factuality #Conversation #Interpretability Issue Date: 2026-02-01 GPT Summary- 言語モデルの表現は高次の概念に対応する線形の方向を持ち、会話の中でこれらの表現が劇的に変化することを発見。具体的には、会話の初めに事実として表現された情報が最後には非事実として変わるなど、内容に依存した変化が生じる。これらの変化は、さまざまなモデルで発生し、文脈によって異なる効果を持つ可能性がある。結果は、モデルの応答が会話によって影響を受けることを示唆し、解釈可能性に課題を提示。表現の動態は、モデルの文脈適応を理解する新しい研究の方向性を示す。 Comment
元ポスト:
ポイント解説:
Factを扱う専用の機構を設けた方が良いのかもしれない
[Paper Note] ConceptMoE: Adaptive Token-to-Concept Compression for Implicit Compute Allocation, Zihao Huang+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #LatentReasoning #Concept (LLM PreTraining) #Author Thread-Post Issue Date: 2026-01-30 GPT Summary- ConceptMoEは、トークン間の類似性を利用して計算リソースを動的に割り当てる新しい手法です。これにより、概念表現を生成し、計算集約モデルへのシーケンス圧縮を行います。評価において、ConceptMoEは標準的なMoEを上回り、言語や視覚言語タスクでの性能向上を示しました。特に、計算の効率も大幅に改善され、アーキテクチャの改変なしに既存のMoEに統合可能です。 Comment
著者ポスト:
論文タイトルにMoEというワードが入っているが、実際にMoEアーキテクチャを採用しているわけではない点に注意。アーキテクチャはいわゆるLarge Concept Model (エンコーダー→チャンク生成→コンセプトモデル→デチャンキング→デコーダー)であり、チャンクの境界がトークン間のlearnableなモジュールによって学習・決定されるため、トークンレベルで見たときに適応的にトークンをチャンク化することでコンセプトが定義され、かつトークン単位の計算資源の配分がチャンク化を(learnableに)通じて行われるという話に見える。
斜め読みしかできていないが、アーキテクチャそのものの貢献よりも、本研究の貢献として大きい部分はMoEモデルを用いた同じパラメータ/FLOPsでの異なるアーキテクチャ間のfair comparisonを通じてconcept modelの性能が高いことを示したことや、既存のMoEモデルを軽量なモジュールの追加(チャンクモジュール+デチャンクモジュール+追加のゼロで初期化されたQKV attention)し継続事前学習をすることでretrofittingすることでも性能が向上すること、計算効率がチャンクによってトークンが圧縮されるため、fair comparisonの上で高い性能を達成しながら、圧縮率Rに応じて向上することを示ししたこと、などにあるように見受けられる。
が、ただの斜め読みした感想でしかないので読みたい。
[Paper Note] Self-Improving Pretraining: using post-trained models to pretrain better models, Ellen Xiaoqing Tan+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #SelfImprovement #mid-training #DPO #read-later #Selected Papers/Blogs Issue Date: 2026-01-30 GPT Summary- 大規模言語モデルの安全性と品質を確保するための新しい事前学習法を提案。文書をストリームし、強化学習を用いて生成されたKトークンを改善。プロセス中、候補生成物を評価し、モデルの成長に応じて高品質な出力に報酬を与える。実験の結果、事実性と安全性でそれぞれ36.2%および18.5%の改善を達成し、生成品質も最大86.3%向上した。 Comment
元ポスト:
事前学習の枠組みがnext token predictionから変わるかもしれないような話。気になる。
v2へアップデート:
解説:
関連:
- [Paper Note] Deep reinforcement learning from human preferences, Paul Christiano+, NIPS'17, 2017.06
- [Paper Note] Direct Preference Optimization: Your Language Model is Secretly a Reward Model, Rafael Rafailov+, arXiv'23, 2023.05
[Paper Note] Beyond Speedup -- Utilizing KV Cache for Sampling and Reasoning, Zeyu Xing+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Embeddings #NLP #LanguageModel #read-later #Selected Papers/Blogs #KV Cache #DownstreamTasks #Adaptive #SelfVerification Issue Date: 2026-01-30 GPT Summary- KVキャッシュを文脈情報の軽量な表現として再利用し、再計算や保存の必要を排除。KV由来の表現は、(i)チェーン・オブ・エンベディングで競争力のある性能を発揮し、(ii)ファスト/スロー思考切替でトークン生成を最大5.7倍削減する一方、精度損失を最小限に抑える。これにより、KVキャッシュがLLM推論における表現再利用の新たな基盤となることを示す。 Comment
元ポスト:
KV Cacheを軽量なhidden stateを表すembeddingとして扱うことで色々と応用できます、という話に見え、たとえばデコーディングの途中でhallucinationをdetectする際により省メモリで実現できたり、fast/d slowなthinkingの切り替えの制御に利用するなど、単に次トークンを生成する際の高速化の用途を超えて使うという興味深い発想な研究に見える。
[Paper Note] LoPRo: Enhancing Low-Rank Quantization via Permuted Block-Wise Rotation, Hongyaoxing Gu+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #Training-Free #Quantization Issue Date: 2026-01-29 GPT Summary- ファインチューニング不要の量子化アルゴリズム「LoPRo」を提案し、残差行列の量子化課題を解決。ブロック単位の入れ替えと変換により、重要な列の量子化精度を保ちながら、2ビットと3ビット量子化での性能向上を実現。実験ではLLaMAモデルで最先端の精度を達成し、MoEモデルでは効率を大幅に向上。LoPRoは、他手法に比べて低ランクで優れた精度と高い推論効率を維持。 Comment
元ポスト:
GPTQの頃と比較して非常に性能が向上しているように見える。
- [Paper Note] GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers, Elias Frantar+, ICLR'23, 2022.10
[Paper Note] Kimi K2.5: Visual Agentic Intelligence, Kimi Team+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #Blog #OpenWeight #mid-training #PostTraining #read-later #Selected Papers/Blogs #VisionLanguageModel #UMM #KeyPoint Notes #Reference Collection #ContextFolding Issue Date: 2026-01-27 GPT Summary- Kimi K2.5は、テキストとビジョンの共同最適化を重視するオープンソースのマルチモーダルエージェンティックモデルです。共同プリアトレーニングや強化学習を用いて、エージェントが複雑なタスクをサブ問題に分解し同時に実行するAgent Swarmを導入。評価結果では、コーディングや推論タスクで最先端の成果を達成し、最大4.5倍のレイテンシ低減を実証しました。Kimi K2.5モデルのチェックポイントは、今後の研究や応用に活用可能です。 Comment
HF: https://huggingface.co/moonshotai/Kimi-K2.5
元ポスト:
テクニカルレポートを受けての所見:
Agenticなタスク(HLE, BrowsingによるQA, DeepSearch)に関するベンチでGPT-5.2(xhigh)などを超えてSoTAを達成。他のタスクではcodingではClaude-4.5-Opusの方が上、image関連のタスクではGemini 3 Proに軍配が上がっている。VideoではGeminiとcomparableという感じだろうか(GeminiはLong Contextに非常に強い印象があるがLongVideoBenchて上回っている)。この辺は各タスクごとに強いモデルの棲み分けが進んできた。
また、Kimi K2.5非常に美麗でinteractiveなフロントエンドのデモが掲載されている。
Agent Swarmは、タスクをサブタスクに分解して、複数のエージェントに並列に投げて実行(最大100 sub agent)できるような枠組みであり、それらが高性能かつ低latencyとなるように訓練れている模様。これにより性能を向上させつつlatencyを80%削減しているとのこと。
この話はContext Foldingに近い話と推察される:
- [Paper Note] Scaling Long-Horizon LLM Agent via Context-Folding, Weiwei Sun+, arXiv'25, 2025.10
How Kimi, Cursor, and Chroma Train Agentic Models with RL, PHILSCHMID, 2026.03
によると、AgentSwarmはサブタスクを実施するエージェントのパラメータはfreezeし、サブエージェントを作成し、その結果を集約する処理をOrchestratorと呼ばれるlearnableなモジュールが担っており、サブエージェントからの結果はある種環境からの観測結果として扱われ、タスクの成否はOrchestratorのみに委ねられているようである。
Context Foldingは、Context Managerとポリシーが同時にFoldGRPOを通じて学習されており、エージェントそのものがサブタスク実行、結果を受け取り圧縮、メインブランチに加えるという能力をContext Managerと協調しながら実施することを学習している点が異なるように感じる。
また、並列実行したCritical Stepと呼ばれる、各サブエージェントの最大ステップ数に関する指標が導入され、これらCritical Stepをすべてのステップで集約し、特定のサブエージェントにworkloadが集中しないようにOrchestratorが調整されるとのこと。
公式ポスト:
OpenWeightモデルの中でソフトウェアエンジニアリングスキルでSoTA:
日本語でのポスト:
ポイント解説:
- How Kimi, Cursor, and Chroma Train Agentic Models with RL, PHILSCHMID, 2026.03
[Paper Note] Endless Terminals: Scaling RL Environments for Terminal Agents, Kanishk Gandhi+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #PostTraining #read-later #Diversity #Selected Papers/Blogs #One-Line Notes #Environment #Author Thread-Post Issue Date: 2026-01-26 GPT Summary- 自己改善エージェントのボトルネックである環境を改善するため、無人アノテーションで端末利用タスクを生成する「Endless Terminals」パイプラインを提案。タスク記述の生成から可解性のフィルタリングまでの4ステージを経て、3255のタスクを作成。PPOを用いて訓練したモデルは、ホールドアウト開発セットで大幅な性能向上を示し、Llama-3.2-3Bは4.0%から18.2%、Qwen2.5-7Bは10.7%から53.3%に改善。人間キュレーションのベンチマークでも改善し、シンプルな強化学習がスケールする環境で成功することを示す。 Comment
元ポスト:
taskが解けるものか否かをverifyする追加のモデルが必要な点は注意とのこと。
(論文中ではo3が用いられている)
著者ポスト:
RLにおけるターミナル上で実行可能な多様なタスクと、実際に動作可能なコンテナ、テストの生成をスケールさせることで標準的なPPOで性能が向上し、人間が収集した既存ベンチマーク(Terminal Bench 2.0)にも汎化することを示した研究。つまり、RLのタスクと環境をスケールさせれば標準的なRLアルゴリズムでも性能が向上するというメッセージがある。
本研究の他研究との位置付けがぱっと脳内で整理できなかったので、関連研究の部分を読むと、
- AgentのScaffoldの観点では、bashが実行可能なOpenHandsに近く、シェルコマンドを実行し、実行に至るまでのすべてのヒストリと出力が利用可能。
- SFTのための高品質なデータを合成するる研究が最近は多いが、SFTはRLのためのWarmUpに相当するため、本研究とそれらの研究は補完的な位置付けにある。
- ベンチマークやインタラクティブな研究の観点では、SWEBenchやTerminal Bench 2.0のように、人間が収集したベンチマークが存在し、マルチターンでアクションを通じてインタラクションしながら次のアクションを決めていく。本研究もシェル上で状態を観測しながら次のアクションを決めていくようなマルチターンの枠組みに相当する。
- verifiableな環境を合成する研究も行われている。たとえばSWEGymは2438のpythonコードのタスクと検証可能なテストを提供するが、既存のGithub Issueに依存しており、本研究のようにボトムアップに手続的に生成されるものではない。シングルターンではself-playにより困難な問題を生成する研究があるがマルチターンではない。Open Thought Agentという研究がSFT, RLのためのターミナルを用いた環境を合成する点でもっとも本研究と近いが、人間が生成したクエリやコマンドに基づいており、かつ既存のTerminal Bench 2.0といった人間によって収集されたベンチマークでのgainは得られていない。本研究では、完全に自動化されており、任意のサイズにスケールしPPOのような標準的なRLでも既存ベンチマークに転移する点が異なる。
という整理のようである。位置付けは理解できたが、本研究が既存のベンチマークにも転移するのはなぜなのだろうか?という点がまだ理解できていない。
所見:
[Paper Note] EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience, Taofeng Xue+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SyntheticData #OpenWeight #SelfImprovement #ComputerUse #PostTraining #read-later #VisionLanguageModel #Scalability Issue Date: 2026-01-23 GPT Summary- EvoCUAは、ネイティブコンピュータ使用エージェントの新モデルで、静的模倣に頼らずデータ生成とポリシー最適化を統合。自律的にタスクを生成し、検証可能な合成エンジンでデータ不足を解消。スケーラブルなインフラにより多様な経験を収集し、反復進化学習でポリシーを動的に調整。OSWorldベンチマークで56.7%の成功率を達成し、従来のモデルを大幅に超えた。このアプローチは、さまざまな基盤モデルでの性能向上を実証し、ネイティブエージェントの機能強化に寄与することを示唆している。 Comment
HF: https://huggingface.co/meituan/EvoCUA-32B-20260105
元ポスト:
合成データ生成(タスク合成からVerifierの定義まで?)と学習のループを回すことでデータのスケーラビリティを向上し性能向上(これまでは事前に静的に合成されたtrajectoryでの学習が主流)。Rejection Samplingをして成功したtrajectoryでSFTしつつ、工夫されたDPOが用いられている模様。あとで読みたい。
[Paper Note] Learning to Discover at Test Time, Mert Yuksekgonul+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #ScientificDiscovery #read-later #Selected Papers/Blogs #ContinualLearning #Test Time Training (TTT) Issue Date: 2026-01-23 GPT Summary- LLMを用いたテスト時トレーニングによる発見(TTT-Discover)を提案し、特定の科学的問題に対し優れた解を生成。強化学習を通じて、独自の経験を持つLLMが問題解決に集中。数学から生物学までの様々な課題で新たな最先端を達成し、成果はオープンソースのモデルを用いて再現可能。 Comment
test timeにモデルが解空間を探索するようにweightをupdateすることを(RLで)学習し、平均的に良いsolutionではなくbestなsolutionを見つけるような目的関数を用いることで、scientic discoveryの能力を向上
[Paper Note] LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR, Said Taghadouini+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #NLP #MultiLingual #VisionLanguageModel #OCR Issue Date: 2026-01-22 GPT Summary- 1Bパラメータのエンドツーエンド多言語ビジョン・言語モデル「LightOnOCR-2-1B」は、文書画像をOCRなしで自然なテキストに変換します。スキャンやフランス語文書、科学的PDFに強力な対応を見せるこのモデルは、OlmOCR-Benchで最先端の成果を達成し、従来モデルより9倍小さく高速です。また、予測したバウンディングボックスを活用し、ローカリゼーションを強化。堅牢性向上のためにチェックポイント平均化とタスク算術を統合し、チェックポイントをApache 2.0の下で公開しました。 Comment
元ポスト:
HF: https://huggingface.co/collections/lightonai/lightonocr-2
関連:
- olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10
- [Paper Note] GutenOCR: A Grounded Vision-Language Front-End for Documents, Hunter Heidenreich+, arXiv'26, 2026.01
またしてもolmocr2超えのOCRが。高性能なOCRは様々な場面で活用(RAG, Agent, 埋蔵した学習データなど)できるので個人的に非常に強い需要があると思う。
元ポスト:
[Paper Note] GutenOCR: A Grounded Vision-Language Front-End for Documents, Hunter Heidenreich+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #NLP #VisionLanguageModel #OCR Issue Date: 2026-01-22 GPT Summary- GutenOCRはQwen2.5-VL-3BとQwen2.5-VL-7BをファインチューニングしたグラウンデッドOCRシステムで、視覚言語モデルを通じて読取り、検出、グラウンディングを一元化します。ビジネス文書や科学記事に対応し、条件付きクエリへの応答が可能です。GutenOCR-7Bは新しい評価プロトコルで合成グラウンディングスコアを向上させ、特にOCRの精度を高めていますが、特定のレイアウトではトレードオフが存在することも示されました。 Comment
元ポスト:
olmOCR2と比較しても性能が良さそうに見えるが果たして
- olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10
モデルはまだオープンになっていないように見える。
[Paper Note] CorpusQA: A 10 Million Token Benchmark for Corpus-Level Analysis and Reasoning, Zhiyuan Lu+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #RAG(RetrievalAugmentedGeneration) #LongSequence #Selected Papers/Blogs #memory Issue Date: 2026-01-22 GPT Summary- CorpusQAは、最大1,000万トークンに対応する新しいベンチマークで、広範な非構造的テキストに対する全体的な推論を求める。これは、プログラムによって保証された真実の回答を持つ複雑なクエリを生成する革新的なデータ合成フレームワークを用いており、LLMの長期コンテキスト推論能力を向上させることが実証された。一方で、長い入力に対しては現行のリトリーバーシステムが限界を迎え、メモリ拡張型エージェントアーキテクチャがより効果的な解決策となる可能性が示唆された。 Comment
元ポスト:
10Mコンテキストまで性能を測定可能なベンチマークらしく、結果を見ると以下のようになっている。128KコンテキストではGPT5に軍配が上がり、1M級のコンテキストになるとGeminiがやはり強い(これは昔からそうでFiction.liveベンチなどでも示されていた)。
10Mコンテキスト級ではLLMのコンテキストウィンドウのみでは対応不可なので、RAGやMemory Agextでベンチマーキングされているが、明確にAgentの方が性能が良い。ベンチマークの細かな作り方や、harnessなど、具体的にどのような設定で実験されているのか気になる。
[Paper Note] Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge, Yao Tang+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Chain-of-Thought #Reasoning #Architecture #Test-Time Scaling #PostTraining #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2026-01-19 GPT Summary- Multiplex Thinkingは、K個の候補トークンをサンプリングし、単一のマルチプレックストークンに集約することで、柔軟な推論を実現。モデルの自信に応じて標準的なCoTの挙動と複数の妥当なステップをコンパクトに表現。難易度の高い数学的推論ベンチマークで一貫して優れた結果を示す。 Comment
pj page: https://gmlr-penn.github.io/Multiplex-Thinking/
元ポスト:
reasoningに関する新たなアーキテクチャでざっくり言うと単一のreasoningをハードに保持して推論するのではなく、(人間のように?)複数の推論に関する情報をソフトに保持して応答する枠組みである。
reasoningにおける各ステップにおいてk個数のreasoningトークンを生成し、最終的な応答を生成する前に、各ステップで生成されたreasoningトークンのone-hot vectorを集約し平均化、その後集約されたベクトルに対してelement単位(vocabごとの)再重み付けをして、embedding matrix Eを乗じてcontext vectorを得る。このcontext vectorが様々なreasoningの結果を集約したような情報を保持しており、context vectorで条件付けで応答yを生成するようなアーキテクチャ。reasoningモデルに対して追加のオンポリシーRLを通じて応答yのRewardが最大化されるように事後学習することで実現される。
単に性能が向上するだけでなく、test time scaling (parallel, sequenceの両方)でもスケールする。
解説:
[Paper Note] STEP3-VL-10B Technical Report, Ailin Huang+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #NLP #OpenWeight #read-later #Selected Papers/Blogs #VisionLanguageModel #UMM Issue Date: 2026-01-19 GPT Summary- STEP3-VL-10Bは、効率と最先端のマルチモーダル知能のトレードオフを再定義する軽量なオープンソース基盤モデル。言語に整合した知覚エンコーダとQwen3-8Bデコーダを統合し、1k回以上の強化学習を含むスケーラブルな後処理パイプラインを導入。並列協調推論を実装し、視覚推論の探索と統合を最適化。コンパクトながら、他の大規模モデルに匹敵する性能を発揮し、MMBenchで92.2%、AIME2025で94.43%などの成果を記録。再現可能な基準として全モデルスイートをコミュニティに提供。 Comment
元ポスト:
HF: https://huggingface.co/stepfun-ai/Step3-VL-10B
たったの10Bモデルにもかかわらず、100B, 200B級のベンチマーク性能を達成しており、unifiedなアーキテクチャで事前学習中に全てのパラメータをunfrozenな上で1.2Tマルチモーダルトークンで学習し、PaCoReと呼ばれるRLで学習されたtest time scaling手法や、GRPO系ではなくPPOをRLで採用するなど、ユニークな工夫が満載に見え、重要研究に見える。
[Paper Note] TranslateGemma Technical Report, Mara Finkelstein+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#MachineTranslation #NLP #LanguageModel #SmallModel #MultiLingual #OpenWeight #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-01-16 GPT Summary- TranslateGemmaは、Gemma 3モデルに基づく機械翻訳のオープンモデルセットで、二段階のファインチューニングプロセスを採用。初めに高品質な並行データで監視付きファインチューニングを行い、その後報酬モデルによる強化学習で翻訳品質を最適化。WMT25テストセットでの人間評価とWMT24++ベンチマークでの自動評価を通じて有効性を示し、自動指標では大幅な性能向上が確認される。特に小型モデルは大型モデルに匹敵する性能を持ちつつ効率が向上。さらに、マルチモーダル能力も保持し、画像翻訳ベンチマークでの性能向上が報告されている。TranslateGemmaの公開は、研究コミュニティに強力で適応可能な翻訳ツールを提供することを目指している。 Comment
元ポスト:
10個の翻訳元言語→翻訳先言語対で評価されている。Japanese→Englishでも評価されているが、他の言語と比べて最も性能が悪いので、日本語では苦戦していそうに見える。English→Italianは(評価した言語ペアの中では)最も性能が良い。
ポイント解説:
関連:
- PLaMo Translate: 翻訳特化大規模言語モデルの開発,今城+, Jxiv'25, 2025.08
- [Paper Note] Hunyuan-MT Technical Report, Mao Zheng+, arXiv'25, 2025.09
続報:
ブラウザ上で100%ローカルでの翻訳が可能になったらしい。WebGPUってなんだろう、、、
https://huggingface.co/spaces/webml-community/TranslateGemma-WebGPU
[Paper Note] ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking, Qiang Zhang+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#LearningToRank #PairWise #NLP #LanguageModel #ReinforcementLearning #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2026-01-16 GPT Summary- 強化学習はLLMエージェントのパフォーマンスを向上させたが、オープンエンドのタスクでは依然として課題が残る。報酬モデルが得点をスカラーで割り当てるため、識別が難しく、最適化が停滞する。これに対抗するために、ArenaRLを提案し、相対ランキングに基づく新しいアプローチを導入。プロセス意識の対評価メカニズムを用いて、安定した利点信号を得るためのトーナメント方式を採用。実験結果は、この手法が効率性と精度のバランスを保ちながら、従来のベースラインを超えることを示す。また、オープンエンドエージェント向けの高品質ベンチマークOpen-TravelとOpen-DeepResearchも構築された。 Comment
元ポスト:
pj page: https://tongyi-agent.github.io/blog/arenarl/
従来のRLが各ロールアウトごとにpoint-wiseなrewardを付与していたとみなしたときに、定量化が困難なタスクにおいてrewardのsignalがノイジーでうまくいかないという現象が生じ、それに対し相対的な指標であるpairwiseなrankingを導入するというのは直感的に非常に有効で、さまざまなタスクに適用しうるため、インパクトが大きく重要論文に見える。
[Paper Note] Can We Predict Before Executing Machine Learning Agents?, Jingsheng Zheng+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #Dataset #AIAgents #Planning #Evaluation #read-later Issue Date: 2026-01-14 GPT Summary- 自律的な機械学習エージェントは「生成-実行-フィードバック」パラダイムに依存しているが、高価な実行に制約されている。本研究では、事前情報を内部化し、瞬時の予測的推論に置き換えることでこの問題を解決。データ中心のソリューションを形式化し、18,438のペア比較からなるコーパスを構築。LLMが高い予測能力を示し、61.5%の精度を達成。FOREAGENTエージェントは予測-確認ループを採用し、収束を6倍速め、実行ベースラインを6%上回る成果を達成。コードとデータセットは近日中に公開予定。 Comment
元ポスト:
(読了前の第一印象)問題設定や着眼点が実用的で興味深い。
[Paper Note] BabyVision: Visual Reasoning Beyond Language, Liang Chen+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #Analysis #Dataset #Evaluation #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2026-01-14 GPT Summary- MLLMは基本的な視覚タスクで人間、特に3歳児に劣る性能を示す。これを調査するために、視覚能力を評価する「BabyVision」ベンチマークを導入。388のタスクを通じて、MLLMのパフォーマンスが人間基準を大きく下回ることが確認された。具体的には、Gemini3-Pro-Previewが49.7点で、6歳や成人の平均94.1点に遠く及ばない。これにより、MLLMは基本的な視覚原理が不足していることが明らかにされ、BabyVision-Genと自動評価ツールキットも提案された。データとコードは公開されている。 Comment
pj page: https://unipat.ai/blog/BabyVision
元ポスト:
ポイント解説:
(読了前の第一印象)現在のMLLMが純粋な視覚的な推論タスクにおいて幼児以下であることを示し、既存のベンチマークの脆弱性(純粋な視覚的な推論能力を評価できていない)を指摘した上で新たなベンチマークを提案しているように見え、非常に重要な研究に見える。
[Paper Note] MHLA: Restoring Expressivity of Linear Attention via Token-Level Multi-Head, Kewei Zhang+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #NLP #Transformer #Attention #Architecture #read-later #Selected Papers/Blogs Issue Date: 2026-01-14 GPT Summary- トランスフォーマーの自己注意の複雑さが大規模アプリケーションでの利用を制限する中、効率的な線形注意の適用は性能低下を招くことがあります。本研究では、モデルの表現の多様性を失わせる「グローバルコンテキスト崩壊」の問題を特定し、トークン次元に沿った注意計算による「マルチヘッド線形注意(MHLA)」を提案します。MHLAは線形の複雑さを保ちながら、ソフトマックス注意の表現力を回復することに成功し、様々なドメインでImageNet分類で3.6%、自然言語処理で6.3%、画像生成で12.6%、動画生成で41%の性能改善を達成しました。 Comment
pj page: https://dagroup-pku.github.io/MHLA/
元ポスト:
(読了前の第一印象)スループットを大幅に向上させながらも、大幅な性能改善をしている新たなlikear attention手法であり、image, video, textの3つのモダリティに対して性能向上しているように見えるため、結果のインパクトが大きく重要論文に見える。
[Paper Note] SimpleMem: Efficient Lifelong Memory for LLM Agents, Jiaqi Liu+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #read-later #Selected Papers/Blogs #memory Issue Date: 2026-01-09 GPT Summary- LLMエージェントのために、効率的なメモリシステムSimpleMemを提案。三段階のパイプラインで、意味的構造圧縮、再帰的メモリ統合、適応的クエリ認識型検索を実施し、情報密度とトークン利用を最大化。実験により、精度が26.4%向上し、トークン消費が最大30倍削減されることを確認。 Comment
pj page: https://aiming-lab.github.io/SimpleMem-Page/
ポイント解説:
追加の学習などが不要で、かつ高性能・低コストで動作するRetrieval basedなmemory(特定のLLMに依存しない点も良い)であり、実務的に導入が容易であり、実用性が高いため重要研究に見える。
[Paper Note] Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty, Mehul Damani+, ICLR'26, 2025.07
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Reasoning #ICLR #read-later #Selected Papers/Blogs #Author Thread-Post Issue Date: 2025-08-02 GPT Summary- RLCRを用いた言語モデルの訓練により、推論の精度と信頼度を同時に改善。バイナリ報酬に加え、信頼度推定のためのブライヤースコアを用いた報酬関数を最適化。RLCRは、通常のRLよりもキャリブレーションを改善し、精度を損なうことなく信頼性の高い推論モデルを生成することを示した。 Comment
元ポスト:
LLMにConfidenceをDiscreteなTokenとして(GEvalなどは除く)出力させると信頼できないことが多いので、もしそれも改善するのだとしたら興味深い。
著者ポスト:
openreview: https://openreview.net/forum?id=ASQ649zdHm
[Paper Note] GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning, Lakshya A Agrawal+, ICLR'26, 2025.07
Paper/Blog Link My Issue
#NLP #LanguageModel #Prompting #AutomaticPromptEngineering #ICLR #read-later #Selected Papers/Blogs Issue Date: 2025-07-29 GPT Summary- GEPA(Genetic-Pareto)は、LLMsのプロンプト最適化手法であり、自然言語を用いて試行錯誤から高レベルのルールを学習する。これにより、数回のロールアウトで品質向上が可能となり、GRPOを平均10%、最大20%上回る結果を示した。GEPAは、主要なプロンプト最適化手法MIPROv2をも超える性能を発揮し、コード最適化にも有望な結果を示している。 Comment
元ポスト:
openreview:
https://openreview.net/forum?id=RQm2KQTM5r
alpharxiv:
https://www.alphaxiv.org/overview/2507.19457v1
自動的なプロンプトエンジニアリングでGRPOを上回れるのであれば、downstreamタスクにLLMを適用したい場合に、手元にデータがあるのであれば、強めのGPUマシンがなくても非常に汎用性が高い手法となるので重要研究に見える。
[Paper Note] OSGym: Scalable OS Infra for Computer Use Agents, Zengyi Qin+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#ComputerVision #NLP #Infrastructure #AIAgents #SoftwareEngineering #ComputerUse #read-later #VisionLanguageModel Issue Date: 2026-04-07 GPT Summary- コンピュータ利用エージェントの訓練には、リソース効率の良いスケーラブルなOS環境が必要であり、OSGymを提案。主な特徴は、(1) 故障の分散型管理でシステム信頼性を向上、(2) CPUボトルネック対策によるオーバーヘッド軽減、(3) コピーオンライトによるディスク利用の大幅削減、(4) 堅牢なフォールトリカバリの実装。OSGymは1000以上のOSレプリカを管理し、コストを90%削減しつつ、高速なマルチターン軌道生成を実現。これにより、汎用的なエージェント研究の基盤を提供。 Comment
元ポスト:
ソースやcodeをオープンにはしないのだろうか。と思ったら、リプにoss releaseの準備をしていると言及があった。
[Paper Note] EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing, Runjia Li+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #Dataset #Evaluation #Editing #4D (Video) #EgocentricView Issue Date: 2026-03-17 GPT Summary- 自己視点動画編集のためのエコシステムを提案。EgoEditDataを構築し、手と物体の相互作用に特化したデータセットを提供。リアルタイム推論を可能にするEgoEditを開発し、指示に従いながら高品質の編集を実現。評価スイートEgoEditBenchを導入し、自己視点編集での進歩を示しつつ、一般編集タスクでも強力な性能を維持。EgoEditDataとEgoEditBenchは研究コミュニティに公開予定。 Comment
pj page: https://snap-research.github.io/EgoEdit/
元ポスト:
完全にARの上位互換
[Paper Note] Context Engineering for AI Agents in Open-Source Software, Seyedmoein Mohsenimofidi+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #AIAgents #Coding #SoftwareEngineering #ContextEngineering #AGENTS.md Issue Date: 2026-03-03 GPT Summary- AGENTS.mdを通じて、AIコーディングアシスタントにおける文脈情報の提供方法を調査。466のオープンソースプロジェクトから得たデータに基づき、情報の提示方法や進化を分析。結果、標準化された構造は存在せず、提供方法に大きなばらつきがあることが明らかに。AI文脈ファイルの設計が内容の品質向上に与える影響を研究する潜在性を示唆。 Comment
元ポスト:
オープンソースのリポジトリにおけるAGENTS.mdに関する分析らしい。
関連:
- [Paper Note] Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?, Thibaud Gloaguen+, arXiv'26, 2026.02
-
# Writing a good CLAUDE.md, Kyle, 2025.11
[Paper Note] OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment, Tianci Liu+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #PostTraining #read-later #Selected Papers/Blogs #RewardModel #Rubric-based Issue Date: 2026-02-05 GPT Summary- 報酬モデルは人間のフィードバックを基にした強化学習の核を成しますが、従来の報酬モデルは多面的な人間の好みを捉えきれません。本研究では、構造化された基準を用いて複数の次元を評価する「ルブリック・アズ・リワード」を探求し、信頼性の高いルブリック生成に焦点を当て、OpenRubricsを紹介します。コントラストルブリック生成により、好ましい応答と拒否された応答を対比させて評価信号を引き出します。このアプローチにより、Rubric-RMは基準モデルを8.4%上回る性能を達成し、指示遵守や生物医学ベンチマークにも有効であることが示されました。 Comment
元ポスト:
chosen, rejectのpreferenceデータからcontrastiveにルーブリックやprincipleを明示的に構築して活用するというアプローチは非常に興味深い。色々な場面で役立ちそう。読みたい。
- [Paper Note] RefineBench: Evaluating Refinement Capability of Language Models via Checklists, Young-Jun Lee+, ICLR'26, 2025.11
の話と組み合わせて、もし高品質なルーブリックを動的に作成できれば、self-correction/refinementの能力の向上に活用できそうである。
[Paper Note] The Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs, Piotr Nawrot+, arXiv'25, 2025.04
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Evaluation #LongSequence #read-later #Selected Papers/Blogs #SparseAttention #Author Thread-Post Issue Date: 2026-01-30 GPT Summary- スパースアテンションは、Transformer LLMの長文コンテキスト処理能力を向上させるが、その効率と精度のトレードオフは未評価である。本研究では、最大128Kトークンのシーケンスに対して、6つの手法を9つのタスクで分析し、スパースアテンションの効果的利用を示した。主な発見は、より大きなスパースモデルが小さな密なモデルを上回ること、トークンの重要度推定は計算制約で実現しにくいものの他の選択肢が効果的であること、長いシーケンスが高いスパース性を許容すること。これにより、スパースアテンション導入についての実践的ガイダンスを提供した。 Comment
元ポスト:
最近多くなってきたsparse attentionに関する非常に大きな実験で、かつ過去な提案されたものの分類などもされているようなのでsparse attentionに対する理解が深められそう。これは気になる。そして著者にSebastian Ruder氏の名前が。
[Paper Note] RePo: Language Models with Context Re-Positioning, Huayang Li+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #PositionalEncoding #Architecture #read-later #Selected Papers/Blogs Issue Date: 2026-01-19 GPT Summary- インコンテキスト学習の問題に対し、認知負荷を軽減する新メカニズム「RePo」を提案。トークンの位置を文脈依存に配置することで、深い推論を促進。OLMo-2 1Bでの実験により、RePoは長い文脈や構造化データにおいてパフォーマンスを向上させることを確認。詳細分析から、重要情報への注意配分が強化されていることが示された。 Comment
pj page: https://pub.sakana.ai/repo/
元ポスト:
contextに応じてlearnableなパラメータでpositionの情報を動的に調整するというアイデアが非常に興味深く、RoPE(回転行列を用いた現在の主流)やNoPE(PEを排除する手法だが理論上は2層以上積み上げると相対/絶対注意の双方を実現可能で自由度が非常に高い)と比較しても性能が向上しており、PEの扱いはインパ駆動大きいため重要論文に見える。
ポイント解説:
ポイント解説:
[Paper Note] Self-Aligned Reward: Towards Effective and Efficient Reasoners, Peixuan Han+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2026-01-17 GPT Summary- 自己調整報酬(SAR)は、強化学習における検証可能な報酬を補完し、推論の正確性と効率を向上させる新たな信号。SARは、クエリに応じた簡潔で特定の回答を促進し、分析からはその質を信頼できる形で区別できることが示された。4つのモデルを7つのベンチマークで評価し、SARを強化学習アルゴリズムと統合することで精度が4%向上、推論コストが30%削減されることが確認。また、SARは正確性と効率のパレート最適なトレードオフを達成し、冗長性を抑えつつ重要な推論を保持することを示した。これにより、SARがLLMのトレーニングにおいて重要な役割を果たす可能性が示唆された。 Comment
code: https://github.com/amazon-science/Self-Aligned-Reward-Towards_Effective_and_Efficient_Reasoners
元ポスト:
様々なRLの報酬にplug-and-playで適用可能なreward signalで、ポリシーによって応答のみで条件付けた場合のperplexityと、クエリqで条件づけた場合の応答のperplexityから、perplexityが低下した割合を報酬(reward signal)とする。つまり、クエリで条件づけられたときによりモデルが自信を持って応答をしていた場合の報酬を高くする。reward hackingをしている場合は部分的であれクエリから外れた応答をすると思われるため、報酬が大きくなりづらい、というよりネガティヴになることさえありうるため、より安定した学習が実現すると思われる。
現在のRLにおける課題である計算効率において、性能を犠牲にせず(推論時のトークン効率の観点から)効率向上が期待できインパクトが大きいように見えるため、重要研究に見える。
[Paper Note] BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills, Atharv Sonwane+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SyntheticData #Coding #SoftwareEngineering #BugGeneration Issue Date: 2026-01-16 GPT Summary- 合成的に多様なバグを生成する新手法を提案し、SWEエージェントの訓練における高品質なバグの重要性を強調。従来の局所的摂動によるバグ生成に対し、機能追加が意図しないバグを生じさせるプロセスを採用。実験により、新生成バグが監視付きファインチューニングにおいて効率的なデータを提供し、他データセットを上回る成果を実証。FrogBossとFrogMiniモデルがSWE-benchでそれぞれ54.6%と45.3%のpass@1を達成。 Comment
カオスエンジニアリングみたいになってきた
[Paper Note] Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs, Jan Betley+, arXiv'25, 2025.02
Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #Safety #PostTraining #Selected Papers/Blogs #EmergentMisalignment Issue Date: 2026-01-15 GPT Summary- 言語モデル(LLM)が不正なコードを出力するようにファインチューニングされた結果、広範なプロンプトに対して不整合な振る舞いを示す「突発的不整合」が発生した。特にGPT-4oやQwen2.5-Coder-32B-Instructで顕著であり、ファインチューニングされたモデルは一貫性のない行動を示すことが確認された。コントロール実験により、突発的不整合の要因を特定し、不正なコードへのリクエストを受け入れるモデルの柔軟性に着目。バックドアを利用して突発的不整合を選択的に誘発する実験も行い、トリガーが存在する場合のみ不整合が顕れることがわかった。狭いファインチューニングが広範な不整合を引き起こす理由を理解することが今後の課題となる。 Comment
元ポスト:
Emergent Misalignmentを発見した研究で、AI Safetyの観点で重要な発見であると考えられる。
[Paper Note] Extending the Context of Pretrained LLMs by Dropping Their Positional Embeddings, Yoav Gelberg+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #LongSequence #PositionalEncoding #read-later #Selected Papers/Blogs #Author Thread-Post Issue Date: 2026-01-12 GPT Summary- 本研究では、言語モデル(LM)の位置埋め込みを削除することで、事前学習のシーケンス長を超えたコンテキスト拡張のボトルネックを解消する手法DroPEを提案。位置埋め込みの過度な依存が一般化を妨げることを示し、短い再キャリブレーション後に安全に削除できることを実証。DroPEは長いコンテキストのファインチューニングなしでゼロショット拡張を実現し、従来の手法を上回る性能を示した。 Comment
興味深い
元ポスト:
(読了前の第一印象)
- [Paper Note] The Impact of Positional Encoding on Length Generalization in Transformers, Amirhossein Kazemnejad+, NeurIPS'23
において、NoPEは理論上絶対位置エンコーディングと相対位置エンコーディングの両方を実現可能であり、実際に学習をすると相対位置エンコーディングと似たような分布の位置エンコーディングが学習され、long contextの性能が改善することが報告されている。
まだ論文は読めていないのだが、NoPEは自由度が高いので、学習の初期は何らかの位置エンコーディング手法を補助輪的に使いある程度学習を進め、その後dropしてより自由度の高い状態でfinegrainedなrepresentationを学習するというのは確かにうまくいきそうだな、という感想をもった。
[Paper Note] EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test, Yuhui Li+, NeurIPS'25, 2025.03
Paper/Blog Link My Issue
#NLP #LanguageModel #NeurIPS #Decoding #read-later #Selected Papers/Blogs #SpeculativeDecoding Issue Date: 2025-12-28 GPT Summary- EAGLE-3は、特徴予測を放棄し、トークン予測に切り替えることで性能を向上させた大規模言語モデルの手法。これにより、トレーニングデータの拡大からの恩恵を最大化し、最大6.5倍のスピードアップを実現。実験では、チャットモデルと推論モデルの両方で評価され、EAGLE-2に対して約1.4倍の改善を示した。コードは公開されている。 Comment
openreview: https://openreview.net/forum?id=4exx1hUffq
Speculavive Decodingの文脈で多くの文献から本研究が言及される
[Paper Note] INTELLECT-3: Technical Report, Prime Intellect Team+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #OpenWeight #OpenSource #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #Asynchronous #Author Thread-Post Issue Date: 2025-11-27 GPT Summary- INTELLECT-3は、1060億パラメータのMixture-of-Expertsモデルであり、強化学習を用いて高性能を達成。数学・コード・科学・推論のベンチマークで最先端の結果を示し、全インフラストラクチャがオープンソースとして公開される。prime-rlを利用した大規模RL環境は、多様なGPUに対応し、高効率な訓練を実現。 Comment
HF: https://huggingface.co/PrimeIntellect/INTELLECT-3
元ポスト:
著者ポスト:
完全にオープンソースでデータやフレームワーク、評価も含め公開されているとのこと。素晴らしい
in-flight weight updates が利用されている
- PipelineRL, Piche+, ServiceNow, 2025.04
[Paper Note] Language Models Can Learn from Verbal Feedback Without Scalar Rewards, Renjie Luo+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #read-later #Selected Papers/Blogs #TextualFeedback Issue Date: 2025-09-29 GPT Summary- LLMsの訓練において、フィードバックを条件信号として扱う新しい手法、フィードバック条件付きポリシー(FCP)を提案。FCPは応答-フィードバックペアから直接学習し、オンラインで自己を洗練させることで、報酬最適化ではなく条件生成によるフィードバック駆動の学習を実現。 Comment
元ポスト:
以下とはどこが異なるだろうか?:
- [Paper Note] Large Language Models as Optimizers, Chengrun Yang+, ICLR'24, 2023.09
こちらはメタプロンプトを用いてテキスト空間上で反復的にプロンプトをチューニングする枠組みだが、本研究はフィードバック(報酬モデルの報酬にすると消えてしまうテキストの微妙なニュアンス等のシグナル)に基づいてパラメータを更新するので全く異なる枠組みだった。
openreview:
https://openreview.net/forum?id=F4LBDJtsDX
RMからではなくVerbal Feedbackからモデルが効果的に学習できることはAilgnmentのスケーリングに重要な技術だという指摘が多い。
[Paper Note] Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards, Xiaoyuan Liu+, NeurIPS'25
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #NeurIPS #read-later #RLVR #On-Policy #SelfVerification Issue Date: 2025-09-19 GPT Summary- RISEという新しいオンラインRLフレームワークを提案し、LLMの問題解決能力と自己検証能力を同時に向上させる。結果検証者からの報酬を活用し、解決策生成と自己検証に即時フィードバックを提供。実験により、RISEは問題解決精度を向上させ、自己検証スキルを育成することが示された。RISEは堅牢で自己認識のある推論者を育成するための効果的な手法である。 Comment
元ポスト:
Self-Verificationの能力が大幅に向上するのは良さそう。
[Paper Note] Reinforcement Learning Finetunes Small Subnetworks in Large Language Models, Sagnik Mukherjee+, NeurIPS''25, 2025.05
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #NeurIPS #read-later #Sparse Issue Date: 2025-09-19 GPT Summary- 強化学習(RL)は、LLMsのパフォーマンスと人間の価値観の整合性を大幅に改善する。驚くべきことに、パラメータの5%から30%の小さなサブネットワークのみを更新することで実現されるスパース性が観察され、これは7つのRLアルゴリズムと10のLLMで共通して見られた。このスパース性は本質的であり、サブネットワークのファインチューニングによってテスト精度が回復し、ほぼ同一のモデルが生成される。更新はほぼフルランクであり、ポリシー分布に近いデータでのトレーニングが主な要因と考えられる。 Comment
元ポスト:
openreview: https://openreview.net/forum?id=0NdS4xCngO
RLの挙動を理解する上で役に立ちそうで興味深い。以下とは何か関連があるのだろうか:
- [Paper Note] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification, Yongliang Wu+, ICLR'26, 2025.08
- [Paper Note] From Atomic to Composite: Reinforcement Learning Enables Generalization in Complementary Reasoning, Sitao Cheng+, arXiv'25, 2025.12
[Paper Note] K2-Think: A Parameter-Efficient Reasoning System, Zhoujun Cheng+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #OpenWeight #OpenSource #GRPO #read-later #RLVR #Selected Papers/Blogs Issue Date: 2025-09-10 GPT Summary- K2-Thinkは320億パラメータの推論システムで、GPT-OSS 120BやDeepSeek v3.1と同等かそれ以上の性能を示します。Qwen2.5ベースのモデルに先進的なポストトレーニングと推論技術を融合し、長いチェーン・オブ・ソート思考と強化学習を用いて数学的推論で卓越した成果を上げています。公開ベンチマークでも高得点を記録し、よりパラメータ効率の高いモデルが最先端システムと競争できることを明らかにしました。K2-Thinkは迅速な推論速度を提供し、オープンソースの推論システムをより利用しやすくしています。 Comment
HF:
https://huggingface.co/LLM360/K2-Think
code:
-
https://github.com/MBZUAI-IFM/K2-Think-SFT
-
https://github.com/MBZUAI-IFM/K2-Think-Inference
RLはverl+GRPOで実施したとテクニカルペーパーに記述されているが、当該部分のコードの公開はされるのだろうか?
RLで利用されたデータはこちら:
- [Paper Note] Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective, Zhoujun Cheng+, NeurIPS'25
元ポスト:
[Paper Note] RegMix: Data Mixture as Regression for Language Model Pre-training, Qian Liu+, ICLR'25
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #ICLR #read-later #Selected Papers/Blogs #DataMixture Issue Date: 2025-09-01 GPT Summary- RegMixを提案し、データミクスチャの性能を回帰タスクとして自動的に特定。多様なミクスチャで小モデルを訓練し、最良のミクスチャを用いて大規模モデルを訓練した結果、他の候補を上回る性能を示した。実験により、データミクスチャが性能に大きな影響を与えることや、ウェブコーパスが高品質データよりも良好な相関を持つことを確認。RegMixの自動アプローチが必要であることも示された。 Comment
openreview: https://openreview.net/forum?id=5BjQOUXq7i
今後DavaMixtureがさらに重要になるという見方があり、実際にフロンティアモデルのDataMixtureに関する情報はテクニカルレポートには記載されず秘伝のタレ状態であるため、より良いDataMixtureする本研究は重要論文に見える。
[Paper Note] Diffusion Beats Autoregressive in Data-Constrained Settings, Mihir Prabhudesai+, arXiv'25
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #DiffusionModel #Scaling Laws #read-later #Author Thread-Post Issue Date: 2025-07-22 GPT Summary- マスク付き拡散モデルは、データ制約のある設定で自己回帰(AR)モデルを大幅に上回ることを発見。拡散モデルはデータを効果的に活用し、検証損失を低下させ、下流のパフォーマンスを向上させる。新しいスケーリング法則を見つけ、拡散がARを上回る臨界計算閾値を導出。データがボトルネックの場合、拡散モデルはARの魅力的な代替手段となる。 Comment
元ポスト:
いつかdLLMの時代きそうだなあ
著者ポスト:
追加実験結果:
[Paper Note] Listwise Preference Alignment Optimization for Tail Item Recommendation, Zihao Li+, arXiv'25, 2025.07
Paper/Blog Link My Issue
#RecommenderSystems #ListWise #Alignment #Transformer #SequentialRecommendation Issue Date: 2025-07-04 GPT Summary- LPO4Recは、テールアイテム推薦におけるPreference alignmentの課題を解決するために提案された手法で、Bradley-Terryモデルをペアワイズからリストワイズ比較に拡張し、効率的なトレーニングを実現。明示的な報酬モデリングなしで、テールアイテムを優先する負のサンプリング戦略を導入し、パフォーマンスを最大50%向上させ、GPUメモリ使用量を17.9%削減。実験結果は3つの公開データセットで示されている。 Comment
元ポスト:
tail itemに強い手法らしい。LLMを用いたGenerative Recommendationではなく、1 BlockのTransformerにlistwiseなpreferenceを反映したlossを適用したものっぽい。
一貫して性能は高そうに見えるが、再現性はどうだろうか。
関連(SASRec):
- [Paper Note] Self-Attentive Sequential Recommendation, Wang-Cheng Kang+, ICDM'18
pointwise, pairwise, listwiseの基礎はこちらを参照:
- ランキング学習ことはじめ, DSIRNLP#1, 2011.07
[Paper Note] AudioBERTScore: Objective Evaluation of Environmental Sound Synthesis Based on Similarity of Audio embedding Sequences, Minoru Kishi+, arXiv'25
Paper/Blog Link My Issue
#Metrics #Transformer #Evaluation #SpeechProcessing Issue Date: 2025-07-02 GPT Summary- 新しい客観的評価指標AudioBERTScoreを提案し、合成音声の性能向上を目指す。従来の客観的指標は主観的評価との相関が弱いため、AudioBERTScoreは合成音声と参照音声の埋め込みの類似性を計算し、主観的評価との相関が高いことを実験で示した。 Comment
元ポスト:
text-to-audioの自動評価が可能な模様
[Paper Note] Mercury: Ultra-Fast Language Models Based on Diffusion, Inception Labs+, arXiv'25
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #DiffusionModel #Reference Collection Issue Date: 2025-06-25 GPT Summary- 新しい拡散型大規模言語モデルMercuryを発表。特にコーディングアプリケーション向けのMercury Coderは、MiniとSmallの2サイズで提供され、速度と品質で最先端を達成。独立評価では、Mercury Coder Miniが1109トークン/秒、Smallが737トークン/秒を記録し、他のモデルを大幅に上回る性能を示す。さらに、実世界での検証結果や公開API、無料プレイグラウンドも提供。 Comment
元ポスト:
スループット(モデルのトークン生成速度)が、SoTAらしいdLLMモデル
解説:
[Paper Note] Mind the Gap: Examining the Self-Improvement Capabilities of Large Language Models, Yuda Song+, ICLR'25
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #SelfImprovement #ICLR #read-later #Selected Papers/Blogs #Verification Issue Date: 2025-06-24 GPT Summary- 自己改善はLLMの出力検証を通じてデータをフィルタリングし、蒸留するメカニズムである。本研究では、自己改善の数学的定式化を行い、生成-検証ギャップに基づくスケーリング現象を発見。さまざまなモデルとタスクを用いた実験により、自己改善の可能性とその性能向上方法を探求し、LLMの理解を深めるとともに、将来の研究への示唆を提供する。 Comment
参考: https://joisino.hatenablog.com/entry/mislead
Verificationに対する理解を深めるのに非常に良さそう
openreview: https://openreview.net/forum?id=mtJSMcF3ek
[Paper Note] LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?, Zihan Zheng+, NeurIPS'25
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #Coding #NeurIPS #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-06-17 GPT Summary- 大規模言語モデル(LLMs)は競技プログラミングで人間のエリートを上回るとされるが、実際には重要な限界があることを調査。新たに導入した「LiveCodeBench Pro」ベンチマークにより、LLMsは中程度の難易度の問題で53%のpass@1を達成する一方、難しい問題では0%という結果が得られた。LLMsは実装重視の問題では成功するが、複雑なアルゴリズム的推論には苦労し、誤った正当化を生成することが多い。これにより、LLMsと人間の専門家との間に重要なギャップがあることが明らかになり、今後の改善のための診断が提供される。 Comment
元ポスト:
Hardな問題は現状のSoTAモデル(Claude4が含まれていないが)でも正答率0.0%
ベンチマークに含まれる課題のカテゴリ
実サンプルやケーススタディなどはAppendix参照のこと。
pj page: https://livecodebenchpro.com
アップデート(NeurIPSにaccept):
[Paper Note] Text-to-LoRA: Instant Transformer Adaption, Rujikorn Charakorn+, ICML'25, 2025.06
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #PEFT(Adaptor/LoRA) #ICML #memory #One-Line Notes #Test Time Training (TTT) #Author Thread-Post Issue Date: 2025-06-12 GPT Summary- Text-to-LoRA(T2L)は、自然言語による説明に基づいて大規模言語モデル(LLMs)を迅速に適応させる手法で、従来のファインチューニングの高コストと時間を克服します。T2Lは、LoRAを安価なフォワードパスで構築するハイパーネットワークを使用し、タスク特有のアダプターと同等のパフォーマンスを示します。また、数百のLoRAインスタンスを圧縮し、新しいタスクに対してゼロショットで一般化可能です。このアプローチは、基盤モデルの専門化を民主化し、計算要件を最小限に抑えた言語ベースの適応を実現します。 Comment
元ポスト:
な、なるほど、こんな手が…!
openreview: https://openreview.net/forum?id=zWskCdu3QA
ポイント解説:
Text-to-LoRAの目的は、instructionをメモリの内部パラメータに埋め込み、モデルにon-the-flyで新たな挙動を身につけさせること。
[Paper Note] LaViDa: A Large Diffusion Language Model for Multimodal Understanding, Shufan Li+, arXiv'25, 2025.05
Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #DiffusionModel Issue Date: 2025-05-24 GPT Summary- LaViDaは、離散拡散モデル(DM)を基にしたビジョン・ランゲージモデル(VLM)で、高速な推論と制御可能な生成を実現。新技術を取り入れ、マルチモーダルタスクにおいてAR VLMと競争力のある性能を達成。COCOキャプショニングで速度向上と性能改善を示し、AR VLMの強力な代替手段であることを証明。 Comment
元ポスト:
Diffusion Modelの波が来た
同程度のサイズのARモデルをoutperform [^1]
[^1]:ただし、これが本当にDiffusion Modelを使ったことによる恩恵なのかはまだ論文を読んでいないのでわからない。必要になったら読む。ただ、Physics of Language Modelのように、完全にコントロールされたデータで異なるアーキテクチャを比較しないとその辺はわからなそうではある。
[Paper Note] dKV-Cache: The Cache for Diffusion Language Models, Xinyin Ma+, arXiv'25, 2025.05
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #DiffusionModel Issue Date: 2025-05-24 GPT Summary- 拡散型言語モデル(DLMs)の推論速度の遅さを解決するために、遅延KVキャッシュという機構を提案。異なるトークンが異なる表現ダイナミクスを持つことに基づき、キーと値の状態を遅延かつ条件付きでキャッシュ。二つの変種(dKV-Cache-DecodeとdKV-Cache-Greedy)を設計し、推論速度を2〜10倍に向上。実験により、DLMsの加速が現行モデルに追加のトレーニングなしで可能であることを示した。 Comment
元ポスト:
提案手法を適用した場合、ARなモデルとDiffusion Modelで、実際のところどの程度のdecoding速度の差があるのだろうか?そういった分析はざーーっと見た感じ見当たらなかったように思える。
[Paper Note] Parallel Scaling Law for Language Models, Mouxiang Chen+, arXiv'25, 2025.05
Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #NLP #LanguageModel #Scaling Laws #Reference Collection Issue Date: 2025-05-21 GPT Summary- 言語モデルのスケーリングにおいて、パラメータや出力トークンの増加に伴うコストを軽減する新たなアプローチ「並列スケーリング(ParScale)」を提案。モデルの並列計算を増やし、$P$ 個の多様な変換を実行することで、推論効率を向上させ、$O(\log P)$ のパラメータスケーリングと同等の効果を実現。メモリ増加を最大22倍、レイテンシを最大6倍削減可能。少量のトークンでのポストトレーニングを通じて、既製のモデルを再利用可能で、より強力なモデルの展開を促進。 Comment
元ポスト:
- [Paper Note] Prefix-Tuning: Optimizing Continuous Prompts for Generation, Xiang Lisa Li+, arXiv'21, 2021.01
と考え方が似ている
[Paper Note] DataComp-LM: In search of the next generation of training sets for language models, Jeffrey Li+, NeurIPS'25, 2024.07
Paper/Blog Link My Issue
#Pretraining #NLP #Dataset #LanguageModel #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-05-10 GPT Summary- DataComp for Language Models(DCLM)を紹介し、240Tトークンのコーパスと53の評価スイートを提供。DCLMでは、モデルスケール412Mから7Bパラメータのデータキュレーション戦略を実験可能。DCLM-Baselineは2.6Tトークンでトレーニングし、MMLUで64%の精度を達成し、従来のMAP-Neoより6.6ポイント改善。計算リソースも40%削減。結果はデータセット設計の重要性を示し、今後の研究の基盤を提供。 Comment
openreview: https://openreview.net/forum?id=CNWdWn47IE
最近多くの著名なモデルでDCLMを事前学習データとして利用している文献を目にするようになった
[Paper Note] AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models, Junfeng Fang+, ICLR'25
Paper/Blog Link My Issue
#NLP #LanguageModel #ICLR #KnowledgeEditing #One-Line Notes #Reference Collection Issue Date: 2025-04-30 GPT Summary- AlphaEditは、LLMsの知識を保持しつつ編集を行う新しい手法で、摂動を保持された知識の零空間に投影することで、元の知識を破壊する問題を軽減します。実験により、AlphaEditは従来の位置特定-編集手法の性能を平均36.7%向上させることが確認されました。 Comment
元ポスト:
OpenReview: https://openreview.net/forum?id=HvSytvg3Jh
MLPに新たな知識を直接注入する際に(≠contextに含める)既存の学習済みの知識を破壊せずに注入する手法(破壊しないことが保証されている)を提案しているらしい
将来的には、LLMの1パラメータあたりに保持できる知識量がわかってきているので、MLPの零空間がN GBのモデルです、あなたが注入したいドメイン知識の量に応じて適切な零空間を持つモデルを選んでください、みたいなモデルが公開される日が来るのだろうか。
ポイント解説:
[Paper Note] A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility, Andreas Hochlehnert+, COLM'25
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #SmallModel #COLM #PostTraining #Selected Papers/Blogs #In-Depth Notes #KeyPoint Notes Issue Date: 2025-04-13 GPT Summary- 推論は言語モデルの重要な課題であり、進展が見られるが、評価手法には透明性や堅牢性が欠けている。本研究では、数学的推論ベンチマークが実装の選択に敏感であることを発見し、標準化された評価フレームワークを提案。再評価の結果、強化学習アプローチは改善が少なく、教師ありファインチューニング手法は強い一般化を示した。再現性を高めるために、関連するコードやデータを公開し、今後の研究の基盤を築く。 Comment
元ポスト:
SLMをmath reasoning向けにpost-trainingする場合、評価の条件をフェアにするための様々な工夫を施し評価をしなおした結果(Figure1のように性能が変化する様々な要因が存在する)、
RL(既存研究で試されているもの)よりも(大規模モデルからrejection samplingしたreasoning traceを用いて)SFTをする方が同等か性能が良く(Table3)、
結局のところ(おそらく汎化性能が低いという意味で)reliableではなく、
かつ(おそらく小規模なモデルでうまくいかないという意味での)scalableではないので、reliableかつscalableなRL手法が不足しているとのこと。
※ 本論文で分析されているのは<=10B以下のSLMである点に注意。10B以上のモデルで同じことが言えるかは自明ではない。
※ DAPO, VAPOなどについても同じことが言えるかも自明ではない。
※ DeepSeek-R1のtechnical reportにおいて、小さいモデルにGRPOを適用してもあまり効果が無かったことが既に報告されている。
- DeepSeek-R1の論文読んだ?【勉強になるよ】 , asap, 2025.01
- DeepSeek-R1, DeepSeek, 2025.01
個々のpost-trainingされたRLモデルが具体的にどういう訓練をしたのかは追えていないが、DAPOやDr. GRPO, VAPOの場合はどうなるんだろうか?
- [Paper Note] DAPO: An Open-Source LLM Reinforcement Learning System at Scale, Qiying Yu+, NeurIPS'25
- [Paper Note] VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks, Yu Yue+, arXiv'25, 2025.04
- [Paper Note] Understanding R1-Zero-Like Training: A Critical Perspective, Zichen Liu+, arXiv'25, 2025.03
Rewardの設定の仕方はどのような影響があるのだろうか(verifiable rewardなのか、neuralモデルによるrewardなのかなど)?
学習のさせ方もどのような影響があるのだろうか(RLでカリキュラムlearningにした場合など)?
検証しているモデルがそれぞれどのような設定で学習されているかまでを見ないとこの辺はわからなそう。
ただなんとなーくの直感だと、SLMを賢くしたいという場合は何らかの賢いモデルの恩恵に預かると有利なケースが多く(SFTの場合はそれが大規模なモデルから蒸留したreasoning trace)、SLM+RLの場合はPRMのような思考プロセスを評価してRewardに反映させるようなものを利用しないと、少なくとも小規模なLLMをめちゃ賢くします〜というのはきついんじゃないかなあという感想ではある。
ただ、結局SLMという時点で多くの場合、より賢いパラメータ数の多いLLMが世の中には存在するあるはずなので、RLしないでSFTして蒸留すれば良いんじゃない…?と思ってしまう。
が、多くの場合その賢いLLMはProprietaryなLLMであり、出力を得て自分のモデルをpost-trainingすることは利用規約違反となるため、自前で賢くてパラメータ数の多いLLMを用意できない場合は困ってしまうので、SLMをクソデカパラメータのモデルの恩恵なしで超絶賢くできたら世の中の多くの人は嬉しいよね、とも思う。
(斜め読みだが)
サンプル数が少ない(数十件)AIMEやAMCなどのデータはseedの値にとてもsensitiveであり(Takeaway1, 2)、
それらは10種類のseedを用いて結果を平均すると分散が非常に小さくなるので、seedは複数種類利用して平均の性能を見た方がreliableであり(Takeaway3)
temperatureを高くするとピーク性能が上がるが分散も上がるため再現性の課題が増大するが、top-pを大きくすると再現性の問題は現れず性能向上に寄与し
既存研究のモデルのtemperatureとtop-pを変化させ実験するとperformanceに非常に大きな変化が出るため、モデルごとに最適な値を選定して比較をしないとunfairであることを指摘 (Takeaway4)。
また、ハードウェアの面では、vLLMのようなinference engineはGPU typeやmemoryのconfigurationに対してsensitiveでパフォーマンスが変わるだけでなく、
評価に利用するフレームワークごとにinference engineとprompt templateが異なるためこちらもパフォーマンスに影響が出るし (Takeaway5)、
max output tokenの値を変化させると性能も変わり、prompt templateを利用しないと性能が劇的に低下する (Takeaway6)。
これらのことから著者らはreliableな評価のために下記を提案しており (4.1節; 後ほど追記)、
実際にさまざまな条件をfair comparisonとなるように標準化して評価したところ(4.2節; 後ほど追記)
上の表のような結果となった。この結果は、
- DeepSeekR1-DistilledをRLしてもSFTと比較したときに意味のあるほどのパフォーマンスの向上はないことから、スケーラブル、かつ信頼性のあるRL手法がまだ不足しており
- 大規模なパラメータのモデルのreasoning traceからSFTをする方法はさまざまなベンチマークでロバストな性能(=高い汎化性能)を持ち、RLと比べると現状はRLと比較してよりパラダイムとして成熟しており
- (AIME24,25を比較するとSFTと比べてRLの場合performanceの低下が著しいので)RLはoverfittingしやすく、OODなベンチマークが必要
しっかりと評価の枠組みを標準化してfair comparisonしていかないと、RecSys業界の二の舞になりそう(というかもうなってる?)。
またこの研究で分析されているのは小規模なモデル(<=10B)に対する既存研究で用いられた一部のRL手法や設定の性能だけ(真に示したかったらPhisics of LLMのような完全にコントロール可能なサンドボックスで実験する必要があると思われる)なので、DeepSeek-R1のように、大規模なパラメータ(数百B)を持つモデルに対するRLに関して同じことが言えるかは自明ではない点に注意。
openreview: https://openreview.net/forum?id=90UrTTxp5O#discussion
最近の以下のようなSFTはRLの一つのケースと見做せるという議論を踏まえるとどうなるだろうか
- [Paper Note] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification, Yongliang Wu+, ICLR'26, 2025.08
- [Paper Note] Towards a Unified View of Large Language Model Post-Training, Xingtai Lv+, arXiv'25
[Paper Note] Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning, ByteDance Seed+, arXiv'25, 2025.04
Paper/Blog Link My Issue
#NLP #LanguageModel #Reasoning #OpenWeight #One-Line Notes Issue Date: 2025-04-12 GPT Summary- Seed1.5-Thinkingは、応答前に思考を経て推論する新しい手法で、AIME 2024で86.7、Codeforcesで55.0、GPQAで77.3といった性能を達成。非推論タスクでも優れた一般化能力を発揮し、DeepSeek R1を勝率で8%上回る。比較的小型の専門家の混成モデルで、200億の活性化パラメータと2000億の総パラメータを持つ。新たな内部ベンチマークBeyondAIMEとCodeforcesも公開予定。 Comment
DeepSeek-R1を多くのベンチで上回る200B, 20B activated paramのreasoning model
最近のテキストのOpenWeightLLMはAlibaba, DeepSeek, ByteDance, Nvidiaの4強という感じかな…?(そのうちOpenAIがオープンにするReasoning Modelも入ってきそう)。
[Paper Note] CREAM: Consistency Regularized Self-Rewarding Language Models, Zhaoyang Wang+, ICLR'25
Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #SelfImprovement #ICLR #RewardHacking Issue Date: 2025-04-06 GPT Summary- 自己報酬型LLMは、LLM-as-a-Judgeを用いてアラインメント性能を向上させるが、報酬とランク付けの正確性が問題。小規模LLMの実証結果は、自己報酬の改善が反復後に減少する可能性を示唆。これに対処するため、一般化された反復的好みファインチューニングフレームワークを定式化し、正則化を導入。CREAMを提案し、報酬の一貫性を活用して信頼性の高い好みデータから学習。実証結果はCREAMの優位性を示す。 Comment
- [Paper Note] Self-Rewarding Language Models, Weizhe Yuan+, arXiv'24, 2024.01
を改善した研究
OpenReview: https://openreview.net/forum?id=Vf6RDObyEF
この方向性の研究はおもしろい
[Paper Note] What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models, Qiyuan Zhang+, arXiv'25, 2025.03
Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #Test-Time Scaling #One-Line Notes Issue Date: 2025-04-02 GPT Summary- テスト時スケーリング(TTS)が大規模言語モデル(LLMs)の問題解決能力を向上させることが示されているが、体系的な理解が不足している。これを解決するために、TTS研究の4つのコア次元に基づく統一的なフレームワークを提案し、手法や応用シナリオのレビューを行う。TTSの発展の軌跡を抽出し、実践的なガイドラインを提供するとともに、未解決の課題や将来の方向性についての洞察を示す。 Comment
元ポスト:
とてつもない量だ…網羅性がありそう。
What to Scaleがよくあるself
consistency(Parallel Scaling), STaR(Sequential Scailng), Tree of Thought(Hybrid Scaling), DeepSeek-R1, o1/3(Internal Scaling)といった分類で、How to ScaleがTuningとInferenceに分かれている。TuningはLong CoTをSFTする話や強化学習系の話(GRPOなど)で、InferenceにもSelf consistencyやらやらVerificationやら色々ありそう。良さそう。
[Paper Note] RALLRec+: Retrieval Augmented Large Language Model Recommendation with Reasoning, Sichun Luo+, arXiv'25, 2025.03
Paper/Blog Link My Issue
#RecommenderSystems #CollaborativeFiltering #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #Reasoning Issue Date: 2025-03-27 GPT Summary- RALLRec+は、LLMsを用いてレコメンダーシステムのretrievalとgenerationを強化する手法。retrieval段階では、アイテム説明を生成し、テキスト信号と協調信号を結合。生成段階では、推論LLMsを評価し、知識注入プロンプティングで汎用LLMsと統合。実験により、提案手法の有効性が確認された。 Comment
元ポスト:
Reasoning LLMをRecSysに応用する初めての研究(らしいことがRelated Workに書かれている)
arxivのadminより以下のコメントが追記されている
> arXiv admin note: substantial text overlap with arXiv:2502.06101
コメント中の研究は下記である
- [Paper Note] ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation, Jianghao Lin+, WWW'24
[Paper Note] Scaling Evaluation-time Compute with Reasoning Models as Process Evaluators, Seungone Kim+, arXiv'25, 2025.03
Paper/Blog Link My Issue
#NLP #LanguageModel #LLM-as-a-Judge #Test-Time Scaling #Author Thread-Post Issue Date: 2025-03-27 GPT Summary- LMの出力品質評価が難しくなっている中、計算を増やすことで評価能力が向上するかを検討。推論モデルを用いて応答全体と各ステップを評価し、推論トークンの生成が評価者のパフォーマンスを向上させることを確認。再ランク付けにより、評価時の計算増加がLMの問題解決能力を向上させることを示した。 Comment
元ポスト:
LLM-as-a-JudgeもlongCoT+self-consistencyで性能が改善するらしい。
[Paper Note] Thinking Machines: A Survey of LLM based Reasoning Strategies, Dibyanayan Bandyopadhyay+, arXiv'25, 2025.03
Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #Reasoning Issue Date: 2025-03-23 GPT Summary- 大規模言語モデル(LLMs)は優れた言語能力を持つが、推論能力との間にギャップがある。推論はAIの信頼性を高め、医療や法律などの分野での適用に不可欠である。最近の強力な推論モデルの登場により、LLMsにおける推論の研究が重要視されている。本論文では、既存の推論技術の概要と比較を行い、推論を備えた言語モデルの体系的な調査と現在の課題を提示する。 Comment
元ポスト:
RL, Test Time Compute, Self-trainingの3種類にカテゴライズされている。また、各カテゴリごとにより細分化されたツリーが論文中にある。
[Paper Note] Compute Optimal Scaling of Skills: Knowledge vs Reasoning, Nicholas Roberts+, ACL'25 Findings, 2025.03
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #ACL #Scaling Laws #Findings Issue Date: 2025-03-23 GPT Summary- スケーリング法則はLLM開発において重要であり、特に計算最適化によるトレードオフが注目されている。本研究では、スケーリング法則が知識や推論に基づくスキルに依存することを示し、異なるデータミックスがスケーリング挙動に与える影響を調査した。結果、知識とコード生成のスキルは根本的に異なるスケーリング挙動を示し、誤指定された検証セットが計算最適なパラメータ数に約50%の影響を与える可能性があることが明らかになった。 Comment
元ポスト:
知識を問うQAのようなタスクはモデルのパラメータ量が必要であり、コーディングのようなReasoningに基づくタスクはデータ量が必要であり、異なる要素に依存してスケールすることを示している研究のようである。
直感的な理解としては、
多くの知識はMLP(だけではないが)に格納されているとされており、1パラメータあたりに格納可能な知識量がある程度決まっているため、知識が必要なタスクはパラメータ数が必要であり、
Reasoningのようなタスクはどれだけ学習データ側でReasoningのパターンを学習できるかに性能が依存するため、データ量が必要、
というものになるのかなという気がする。
All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning, Gokul Swamy+, arXiv'25
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #RLHF #Reference Collection Issue Date: 2025-03-17 GPT Summary- 基盤モデルのファインチューニングにおいて、報酬モデルを用いた二段階のトレーニング手順が効果的である理由を理論的および実証的に検討。特に、好みデータから単純な報酬モデルを学び、強化学習手続きがそのモデルに最適なポリシーをフィルタリングする能力が、オンラインファインチューニングの優れたパフォーマンスに寄与することが示された。 Comment
元ポスト:
AlignmentのためのPreferenceデータがある時に、そのデータから直接最尤推定してモデルのパラメータを学習するのではなく、報酬モデルを学習して、その報酬モデルを用いてモデルを強化学習することで、なぜ前者よりも(同じデータ由来であるにもかかわらず)優れたパフォーマンスを示すのか、という疑問に対してアプローチしている。
全く中身を読めていないが、生成することと(方策モデル)と検証すること(報酬モデル)の間にギャップがある場合(すなわち、生成と検証で求められる能力が異なる場合)、MLEでは可能なすべてのポリシーを探索することと似たようなことをすることになるが、RLでは事前に報酬モデルを学習しその報酬モデルに対して最適なポリシーを探索するだけなので探索する空間が制限される(=生成と検証のギャップが埋まる)ので、良い解に収束しやすくなる、というイメージなんだろうか。
[Paper Note] A Survey on Post-training of Large Language Models, Guiyao Tie+, arXiv'25, 2025.03
Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #Supervised-FineTuning (SFT) #Reasoning Issue Date: 2025-03-15 GPT Summary- 大規模言語モデル(LLMs)は自然言語処理に革命をもたらしたが、専門的な文脈での制約が明らかである。これに対処するため、高度なポストトレーニング言語モデル(PoLMs)が必要であり、本論文ではその包括的な調査を行う。ファインチューニング、アライメント、推論、効率、統合と適応の5つのコアパラダイムにわたる進化を追跡し、PoLMがバイアス軽減や推論能力向上に寄与する方法を示す。研究はPoLMの進化に関する初の調査であり、将来の研究のための枠組みを提供し、LLMの精度と倫理的堅牢性を向上させることを目指す。 Comment
Post Trainingの時間発展の図解が非常にわかりやすい(が、厳密性には欠けているように見える。当該モデルの新規性における主要な技術はこれです、という図としてみるには良いのかもしれない)。
個々の技術が扱うスコープとレイヤー、データの性質が揃っていない気がするし、それぞれのLLMがy軸の単一の技術だけに依存しているわけでもない。が、厳密に図を書いてと言われた時にどう書けば良いかと問われると難しい感はある。
元ポスト:
[Paper Note] LLM Post-Training: A Deep Dive into Reasoning Large Language Models, Komal Kumar+, arXiv'25, 2025.02
Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #Supervised-FineTuning (SFT) #Reasoning Issue Date: 2025-03-04 GPT Summary- LLMは自然言語処理に革命をもたらし、ポストトレーニング手法に焦点を移しつつある。これにより、推論や事実の正確性が向上し、ユーザー意図に合わせた整合が可能に。ファインチューニングや強化学習が性能最適化に寄与し、実世界タスクへの適応力も向上。調査では、ポストトレーニング手法の重要性と、壊滅的忘却や報酬の改ざんへの対策が論じられ、新たな研究方向が提案されている。さらに、分野の進展を追跡するリポジトリも提供。 Comment
非常にわかりやすい。
元ポスト:
[Paper Note] Perspective Transition of Large Language Models for Solving Subjective Tasks, Xiaolong Wang+, arXiv'25, 2025.01
Paper/Blog Link My Issue
#NLP #LanguageModel #Chain-of-Thought #Prompting #ACL #Findings #One-Line Notes Issue Date: 2025-01-25 GPT Summary- 視点遷移を通じた推論(RPT)手法により、LLMsが主観的タスクにおいて視点を動的に選択できるようにします。本手法は専門家や第三者の視点を活用し、文脈をより適切に解釈することで、ニュアンスのある回答を提供します。広範な実験により、従来の固定視点手法を大きく上回る成果を示しました。 Comment
元ポスト:
OpenReview: https://openreview.net/forum?id=cFGPlRony5
"Subjective Task"とは例えば「メタファーの認識」や「ダークユーモアの検知」などがあり、これらは定量化しづらい認知的なコンテキストや、ニュアンスや感情などが強く関連しており、現状のLLMではチャレンジングだと主張している。
Subjective Taskでは、Reasoningモデルのように自動的にCoTのpathwayを決めるのは困難で、手動でpathwayを記述するのはチャレンジングで一貫性を欠くとした上で、複数の視点を組み合わせたPrompting(direct perspective, role-perspective, third-person perspectivfe)を実施し、最もConfidenceの高いanswerを採用することでこの課題に対処すると主張している。
イントロしか読めていないが、自動的にCoTのpathwayを決めるのも手動で決めるのも難しいという風にイントロで記述されているが、手法自体が最終的に3つの視点から回答を生成させるという枠組みに則っている(つまりSubjective Taskを解くための形式化できているので、自動的な手法でもできてしまうのではないか?と感じた)ので、イントロで記述されている主張の”難しさ”が薄れてしまっているかも・・・?と感じた。論文が解こうとしている課題の”難しさ”をサポートする材料がもっとあった方がよりmotivationが分かりやすくなるかもしれない、という感想を持った。
[Paper Note] Logic-of-Thought: Injecting Logic into Contexts for Full Reasoning in Large Language Models, Tongxuan Liu+, NAACL'25, 2024.09
Paper/Blog Link My Issue
#NLP #LanguageModel #Chain-of-Thought #Prompting #NAACL Issue Date: 2024-09-29 GPT Summary- LLMの論理推論能力は依然として課題が残る。Chain-of-Thoughtなどの手法は改善をもたらすが、信頼性に問題がある。そこで、命題論理を利用したLogic-of-Thought(LoT)プロンプトを提案し、論理情報を強化することで推論能力を向上させる。実験では、LoTが多数の論理推論タスクで既存手法の性能を大幅に向上させることを示し、特にReClorおよびRuleTakerデータセットでの改善が顕著であった。 Comment
※ このメモは当初の原稿に対するものであり、NAACLの原稿では修正されている。
SNSで話題になっているようだがGPT-3.5-TurboとGPT-4でしか比較していない上に、いつの時点のモデルかも記述されていないので、unreliableに見える
ReClorデータセットで性能が向上しているのは個人的に興味深い。
[Paper Note] Diffusion Models Are Real-Time Game Engines, Dani Valevski+, ICLR'25, 2024.08
Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #DiffusionModel #ICLR #read-later #Selected Papers/Blogs #WorldModels #interactive Issue Date: 2024-09-01 GPT Summary- GameNGenは、初の完全にニューラルモデルで動作するゲームエンジンであり、DOOMを用いて訓練され、インタラクティブな新しい軌道を生成する能力を持つ。毎秒20フレームで動作し、9.4のPSNRを達成。評価者は自己回帰生成後もゲームクリップをわずかに識別可能である。GameNGenは、強化学習エージェントによるトレーニングと、次フレーム生成のための拡散モデルの2段階で訓練され、安定した生成を実現する。 Comment
Diffusion Modelでゲーム映像を生成する取り組みらしい。ゲームのenvironmentに対して、ユーザのActionとframeの系列をエピソードとみなして生成するっぽい?
project pageにデモがのっている
https://gamengen.github.io/
openreview: https://openreview.net/forum?id=P8pqeEkn1H
[Paper Note] Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model, Ahmet Üstün+, arXiv'24, 2024.02
Paper/Blog Link My Issue
#NLP #LanguageModel #MultiLingual #OpenWeight Issue Date: 2026-03-31 GPT Summary- Ayaは、101言語に対応する生成型多言語モデルで、50%以上が低資源言語。大半のタスクでmT0およびBLOOMZを上回り、取り扱える言語数が2倍に。99言語にわたる新評価スイートを導入し、識別・生成タスクや人間評価を含む。ファインチューニングや安全性についても調査し、モデルとデータセットをオープンソースとして公開。 Comment
blog: https://cohere.com/research/papers/aya-model-paper-2024-02-13
データは公開されているが、おそらくソースコードは公開されていない
[Paper Note] ORPO: Monolithic Preference Optimization without Reference Model, Jiwoo Hong+, EMNLP'24
Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #InstructionTuning #EMNLP Issue Date: 2025-05-11 GPT Summary- 本論文では、好みの整合性における監視付きファインチューニング(SFT)の重要性を強調し、わずかなペナルティで好みに整合したSFTが可能であることを示します。さらに、追加の整合性フェーズを必要としない新しいオッズ比最適化アルゴリズムORPOを提案し、これを用いて複数の言語モデルをファインチューニングした結果、最先端のモデルを上回る性能を達成しました。 Comment
ざっくり言うとinstruction tuningとalignmentを同時にできる手法らしいがまだ理解できていない
[Paper Note] Revisiting BPR: A Replicability Study of a Common Recommender System Baseline, Aleksandr Milogradskii+, RecSys'24
Paper/Blog Link My Issue
#RecommenderSystems #Analysis #CollaborativeFiltering #Library #Evaluation #RecSys Issue Date: 2025-04-10 GPT Summary- BPRは協調フィルタリングのベンチマークだが、実装の微妙な点が見落とされ、他手法に劣るとされている。本研究ではBPRの特徴と実装の不一致を分析し、最大50%の性能低下を示す。適切なハイパーパラメータ調整により、BPRはトップn推薦タスクで最先端手法に近い性能を達成し、Million Song DatasetではMult-VAEを10%上回る結果を示した。 Comment
BPR、実装によってまるで性能が違う…
実装の違い
[Paper Note] Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality, Tri Dao+, ICML'24
Paper/Blog Link My Issue
#NLP #LanguageModel #SSM (StateSpaceModel) #ICML #Selected Papers/Blogs #Reference Collection #LinearAttention Issue Date: 2025-03-24 GPT Summary- TransformersとMambaのような状態空間モデル(SSMs)の関連性を示し、SSMsと注意の変種との理論的接続を構築。新たに設計したMamba-2は、速度を2〜8倍向上させながら、Transformersと競争力を維持。 Comment
Mamba2の詳細を知りたい場合に読む
Mamba3:
- [Paper Note] MAMBA-3: IMPROVED SEQUENCE MODELING USING STATE SPACE PRINCIPLES, 2025.10
バグがあり本来の性能が出ていなかった模様:
初期化修正は後はGated Delta Netを上回る性能に。
- [Paper Note] Gated Delta Networks: Improving Mamba2 with Delta Rule, Songlin Yang+, ICLR'25, 2024.12
[Paper Note] Chain of Agents: Large Language Models Collaborating on Long-Context Tasks, Yusen Zhang+, arXiv'24, 2024.06
Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #AIAgents #ContextWindow #Blog #NeurIPS #LongHorizon Issue Date: 2025-01-25 GPT Summary- 長い文脈を処理するために、Chain-of-Agents(CoA)フレームワークを提案。複数のワーカーエージェントが逐次的に情報を集約し、マネージャーエージェントが最終出力を統合。各エージェントに短い文脈を割り当てることで焦点の問題を軽減し、質問応答や要約などのタスクで最大10%の性能向上を実現。 Comment
元ポスト:
LLMがどこまでいってもcontext長の制約に直面する問題に対してLLM Agentを組み合わせて対処しました、的な話な模様
ブログ中にアプローチを解説した動画があるのでわかりやすい
Is the experimental code open source?
Thank you for your comment. I tried to find an official open-source implementation provided by the authors, but I was not able to locate one. In fact, I also checked the personal webpage of the first author, but there was no link to any released code.
Is seems that an unofficial implementation is listed under the “Code” tab on the NeurIPS page. I hope this is helpful. Thank you.
NeurIPS link:
https://nips.cc/virtual/2024/poster/95563
openreview:
https://openreview.net/forum?id=LuCLf4BJsr
[Paper Note] Precise Length Control in Large Language Models, Bradley Butcher+, arXiv'24, 2024.12
Paper/Blog Link My Issue
#Controllable #NLP #LanguageModel #PositionalEncoding #Length Issue Date: 2025-01-03 GPT Summary- デコーダー専用LLMを応答長を正確に制御するために適応。補助的な位置エンコーディングを用いて、設定された応答長までカウントダウン。ファインチューニングにより整合的な応答が可能となり、平均トークン誤差は3トークン未満に。Max New Tokens++ を導入し、柔軟な長さ制御を実現。実験結果は応答品質を損なわずに正確な長さ制御が可能であることを示す。 Comment
元ポスト:
- [Paper Note] Controlling Output Length in Neural Encoder-Decoders, Yuta Kikuchi+, EMNLP'16
などのEncoder-Decoderモデルで行われていたoutput lengthの制御をDecoder-onlyモデルでもやりました、という話に見える。
[Paper Note] LoRA Learns Less and Forgets Less, Dan Biderman+, TMLR'24, 2024.05
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #TMLR #Selected Papers/Blogs Issue Date: 2025-01-02 GPT Summary- LoRAは、大規模言語モデルの効率的なファインチューニング手法であり、重み行列に低ランクの摂動を学習させることでメモリを節約する。本研究では、プログラミングと数学のドメインにおいて、LoRAと完全なファインチューニングの性能を比較し、LoRAが標準的な設定で劣ることを示すが、ターゲットドメイン外のタスク性能を維持することに優れる。加えて、LoRAは忘却を抑制し、多様な生成を可能にすることが示された。最後に、完全なファインチューニングがLoRAよりも大きなランクの摂動を学習することにより性能差を説明できる可能性がある。LoRAのファインチューニングに関する最良の実践方法も提案されている。 Comment
元ポスト:
full finetuningとLoRAの性質の違いを理解するのに有用
Reinforcement Learning: An Overview, Kevin Murphy, arXiv'24
Paper/Blog Link My Issue
#Tutorial #MachineLearning #ReinforcementLearning Issue Date: 2024-12-10 GPT Summary- この原稿は、深層強化学習と逐次的意思決定に関する最新の全体像を提供し、価値ベースのRL、ポリシー勾配法、モデルベース手法、RLとLLMsの統合について簡潔に議論しています。 Comment
あのMurphy本で有名なMurphy氏の強化学習の教科書…だと…
[Paper Note] LoRA vs Full Fine-tuning: An Illusion of Equivalence, Reece Shuttleworth+, arXiv'24, 2024.10
Paper/Blog Link My Issue
#Analysis #MachineLearning #NLP #LanguageModel #PEFT(Adaptor/LoRA) #NeurIPS #read-later #needs-revision Issue Date: 2024-11-09 GPT Summary- ファインチューニングは事前学習済みの大規模言語モデルにおいて重要なプロセスであり、LoRAのような手法は必要なパラメータを削減しつつ高性能を保つことが証明されている。しかし、完全なファインチューニングとLoRAが本当に同等のモデルを生み出すかをスペクトル解析により検証した結果、異なる重み行列が生成されることが判明。LoRAに特有の「侵入次元」が高位の特異ベクトルとして現れ、これがモデルの一般化能力を損なうことが示された。高ランクLoRAは完全なファインチューニングに近い振る舞いを示す一方、LoRAの低ランクモデルは異なるパラメータ空間にアクセスしていることが示唆された。侵入次元の出現理由とその影響を最小化する方法も検討された。 Comment
元ポスト:
- When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method, Biao Zhang+, N/A, ICLR'24
や
- [Paper Note] Beyond Full Fine-tuning: Harnessing the Power of LoRA for Multi-Task Instruction Tuning, Xin+, LREC-COLING'24
双方の知見も交えて、LoRAの挙動を考察する必要がある気がする。それぞれ異なるデータセットやモデルで、LoRAとFFTを比較している。時間がないが後でやりたい。
あと、昨今はそもそも実験設定における変数が多すぎて、とりうる実験設定が多すぎるため、個々の論文の知見を鵜呑みにして一般化するのはやめた方が良い気がしている。
# 実験設定の違い
## モデルのアーキテクチャ
- 本研究: RoBERTa-base(transformer-encoder)
- When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method, Biao Zhang+, N/A, ICLR'24
: transformer-decoder
- [Paper Note] Beyond Full Fine-tuning: Harnessing the Power of LoRA for Multi-Task Instruction Tuning, Xin+, LREC-COLING'24
: transformer-decoder(LLaMA)
## パラメータサイズ
- 本研究:
- When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method, Biao Zhang+, N/A, ICLR'24
: 1B, 2B, 4B, 8B, 16B
- [Paper Note] Beyond Full Fine-tuning: Harnessing the Power of LoRA for Multi-Task Instruction Tuning, Xin+, LREC-COLING'24
: 7B
時間がある時に続きをかきたい
## Finetuningデータセットのタスク数
## 1タスクあたりのデータ量
## trainableなパラメータ数
openreview: https://openreview.net/forum?id=xp7B8rkh7L
On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability, Kevin Wang+, N_A, arXiv'24, 2024.11
Paper/Blog Link My Issue
#NLP #ChatGPT Issue Date: 2024-11-02 GPT Summary- 本研究では、OpenAIのo1モデルの計画能力を評価し、実現可能性、最適性、一般化の3つの側面に焦点を当てています。特に、制約の多いタスクや空間的に複雑な環境における強みとボトルネックを特定しました。o1-previewは、構造化された環境での制約遵守においてGPT-4を上回る一方で、冗長なアクションを伴う最適でない解を生成し、一般化に苦労しています。この研究は、LLMsの計画における限界を明らかにし、今後の改善の方向性を示しています。 Comment
o1のplanningの性能について知りたくなったら読む
beeFormer: Bridging the Gap Between Semantic and Interaction Similarity in Recommender Systems, Vojtěch Vančura+, N_A, RecSys'24
Paper/Blog Link My Issue
#RecommenderSystems #Transformer #TransferLearning Issue Date: 2024-09-25 GPT Summary- レコメンダーシステムにおいて、コールドスタートやゼロショットシナリオでの予測改善のために、インタラクションデータを活用した文のトランスフォーマーモデル「beeFormer」を提案。beeFormerは、意味的類似性の予測において従来の手法を上回り、異なるドメインのデータセット間で知識を転送可能であることを示した。これにより、ドメインに依存しないテキスト表現のマイニングが可能になる。 Comment
NLPでは言語という共通の体系があるから事前学習とかが成立するけど、RecSysのようなユーザとシステムのinteraction dataを用いたシステムでは(大抵の場合はデータセットごとにユニークなユーザIDとアイテムIDのログでデータが構成されるので)なかなかそういうことは難しいよね、と思っていた。が、もしRecSysのタスク設定で、データセット間の転移学習を実現できるのだとしたらどのように実現してきるのだろうか?興味深い。後で読む。
[Paper Note] Searching for Best Practices in Retrieval-Augmented Generation, Xiaohua Wang+, N_A, EMNLP'24
Paper/Blog Link My Issue
#EMNLP #needs-revision Issue Date: 2024-07-30 GPT Summary- RAG技術は、最新情報の統合、幻覚の軽減、および応答品質の向上に効果的であることが証明されています。しかし、多くのRAGアプローチは複雑な実装と長時間の応答時間という課題に直面しています。本研究では、既存のRAGアプローチとその潜在的な組み合わせを調査し、最適なRAGプラクティスを特定するために取り組んでいます。さらに、マルチモーダル検索技術が視覚入力に関する質問応答能力を大幅に向上させ、"検索を生成として"戦略を用いてマルチモーダルコンテンツの生成を加速できることを示します。 Comment
RAGをやる上で参考になりそう
[Paper Note] RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation, Zihao Wang+, arXiv'24, 2024.03
Paper/Blog Link My Issue
#InformationRetrieval #NLP #Chain-of-Thought #RAG(RetrievalAugmentedGeneration) #One-Line Notes Issue Date: 2024-04-14 GPT Summary- 情報検索を活用し思考の連鎖を修正することで、大規模言語モデルの推論及び生成能力が向上し、幻覚の抑制も確認。提案手法「retrieval-augmented thoughts(RAT)」は、生成された思考ステップを取得情報で順次修正し、GPT-3.5、GPT-4、CodeLLaMA-7bに適用した結果、コード生成で13.63%、数学的推論で16.96%、創作的執筆で19.2%、具現化タスク計画で42.78%の性能向上を達成。デモページはhttps://craftjarvis.github.io/RAT。 Comment
RAGにおいてCoTさせる際に、各reasoningのstepを見直させることでより質の高いreasoningを生成するRATを提案。Hallucinationが低減し、生成のパフォーマンスも向上するとのこと。
コンセプト自体はそりゃそうだよねという話なので、RAGならではの課題があり、それを解決した、みたいな話があるのかが気になる。
[Paper Note] RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners, Chi Hu+, arXiv'24, 2024.03
Paper/Blog Link My Issue
#InformationRetrieval #LearningToRank #NLP #LanguageModel #Prompting #Reasoning #COLING #Reranking #LREC Issue Date: 2024-04-07 GPT Summary- LLMの論理的エラーを解決するために、自己ランク付けを可能にする新手法RankPromptを提案。これは、多様な応答を比較し、LLMの文脈的生成能力を活用する。実験ではChatGPTやGPT-4の性能が最大13%向上し、AlpacaEvalデータセットでは人間の判断との74%の一致率を示した。また、応答の順序や一貫性の変動にも強い耐性を持つことが確認された。RankPromptは高品質なフィードバックを引き出す有効な手法である。 Comment
LLMでランキングをするためのプロンプト手法。独立したプロンプトでスコアリングしスコアリング結果からランキングするのではなく、LLMに対して比較するためのルーブリックやshotを入れ、全てのサンプルを含め、1回のPromptingでランキングを生成するような手法に見える。大量の候補をランキングするのは困難だと思われるが、リランキング手法としては利用できる可能性がある。また、実験などでランキングを実施するサンプル数に対してどれだけ頑健なのかなどは示されているだろうか?
In Search of Needles in a 11M Haystack: Recurrent Memory Finds What LLMs Miss, Yuri Kuratov+, N_A, arXiv'24
Paper/Blog Link My Issue
Issue Date: 2024-03-05 GPT Summary- この研究では、生成トランスフォーマーモデルを使用して長い文書を処理する能力を評価するための新しいベンチマークであるBABILongを導入しました。GPT-4やRAGのベンチマークを含む評価により、一般的な方法は$10^4$要素までのシーケンスに対してのみ効果的であることが明らかになりました。再帰的メモリ拡張を使用してGPT-2をファインチューニングすることで、$11\times 10^6$要素を含むタスクを処理できるようになりました。これにより、長いシーケンスの処理能力が大幅に向上しました。 Comment
面白そう。GPT4や(GPT4を用いた?)RAGのパフォーマンスが、入力の最初の25%に強く依存していることを示した、とSNSでポストを見たが、どういう条件での実験なんだろう。
普通のコンテキストサイズならpromptの末尾などに入れたinstructionなどは強く働く経験があるので気になる。
どれくらい汎用的に適用可能な話なのかも気になるところ。
[Paper Note] The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits, Shuming Ma+, arXiv'24, 2024.02
Paper/Blog Link My Issue
Issue Date: 2024-02-28 GPT Summary- BitNetの1-bit LLMを基にしたb1.58を提案し、モデルサイズとトレーニング・トークン数を同じにしても、フル精度LLMに匹敵する性能を示す。レイテンシ、メモリ、スループット、エネルギー消費において優れたコスト効率を持ち、1-bit LLMのための新たな計算パラダイムとハードウェア設計を促進する。 Comment
1bit量子化を実現したBitNet。乗算が不要になるからGPU以外のアーキテクチャが最適かもね、みたいな話らしい。おまけに性能も高いらしい。(論文まだ読んでない)
Github:
https://github.com/kyegomez/BitNet
User-LLM: Efficient LLM Contextualization with User Embeddings, Lin Ning+, N_A, arXiv'24
Paper/Blog Link My Issue
#NLP #LanguageModel #Personalization Issue Date: 2024-02-24 GPT Summary- LLMsを活用したUser-LLMフレームワークが提案された。ユーザーエンベッディングを使用してLLMsをコンテキストに位置付けし、ユーザーコンテキストに動的に適応することが可能になる。包括的な実験により、著しい性能向上が示され、Perceiverレイヤーの組み込みにより計算効率が向上している。 Comment
next item prediction, favorite genre or category predictimnreview generationなどで評価している
[Paper Note] Dataset Distillation: A Comprehensive Review, Ruonan Yu+, arXiv'23, 2023.01
Paper/Blog Link My Issue
#Survey #MachineLearning #Dataset #Distillation Issue Date: 2025-03-25 GPT Summary- データセット蒸留(DD)は、深層学習における膨大なデータのストレージやプライバシーの問題を軽減する手法であり、合成サンプルを含む小さなデータセットを生成することで、元のデータセットと同等の性能を持つモデルをトレーニング可能にする。本論文では、DDの進展と応用をレビューし、全体的なアルゴリズムフレームワークを提案、既存手法の分類と理論的相互関係を議論し、DDの課題と今後の研究方向を展望する。 Comment
訓練データセット中の知識を蒸留し、オリジナルデータよりも少量のデータで同等の学習効果を得るDataset Distillationに関するSurvey。
QTSumm: Query-Focused Summarization over Tabular Data, Yilun Zhao+, N_A, EMNLP'23
Paper/Blog Link My Issue
#EMNLP Issue Date: 2024-03-05 GPT Summary- 与えられた表に対して人間らしい推論と分析を行い、カスタマイズされた要約を生成するための新しいクエリに焦点を当てた表の要約タスクを定義し、QTSummという新しいベンチマークを導入。実験結果と手動分析により、新しいタスクが表からテキスト生成において重要な課題を提起していることが明らかになります。 ReFactorという新しいアプローチを提案し、生成された事実をモデルの入力に連結することでベースラインを改善できることを示しています。 Comment
RAGでテーブル情報を扱う際に役立ちそう
Radev論文
[Paper Note] Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster, Hongxuan Zhang+, arXiv'23, 2023.11
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Chain-of-Thought #Prompting Issue Date: 2023-11-15 GPT Summary- FastCoTは、追加トレーニングやLLM改変なしに並列デコードを実現するモデル非依存のフレームワークです。可変長コンテキストウィンドウを使用し、並列かつ自己回帰的なデコードを行うことで、GPUリソースを最適化します。これにより、因果型トランスフォーマーの従来手法よりも迅速な応答が可能になります。実験結果では、FastCoTが推論時間を約20%短縮しつつ、性能低下も最小限であることが示されています。 Comment
論文中の図を見たが、全くわからなかった・・・。ちゃんと読まないとわからなそうである。
Cappy: Outperforming and Boosting Large Multi-Task LMs with a Small Scorer, Bowen Tan+, N_A, NeurIPS'23
Paper/Blog Link My Issue
#NLP #LanguageModel #SmallModel #NeurIPS Issue Date: 2023-11-14 GPT Summary- 大規模言語モデル(LLMs)はマルチタスキングに優れた性能を示していますが、パラメータ数が多く計算リソースを必要とし、効率的ではありません。そこで、小規模なスコアラーであるCappyを導入し、独立して機能するかLLMsの補助として使用することでパフォーマンスを向上させました。Cappyはファインチューニングやパラメータへのアクセスを必要とせず、さまざまなタスクで高い性能を発揮します。実験結果では、Cappyは独立したタスクや複雑なタスクで大きなLLMsを上回り、他のLLMsとの連携も可能です。 Comment
360MパラメータでさまざまなタスクでLLMに勝つっぽいのでおもしろそうだし実用性もありそう
[Paper Note] NEFTune: Noisy Embeddings Improve Instruction Finetuning, Neel Jain+, arXiv'23, 2023.10
Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #Supervised-FineTuning (SFT) #ICLR #PostTraining #read-later Issue Date: 2023-10-26 GPT Summary- 単純なデータ拡張により、言語モデルのファインチューニングが改善されることを示す。NEFTuneは埋め込みベクトルにノイズを追加し、LLaMA-2-7Bのファインチューニングで29.79%から64.69%へ劇的な向上を実現。現代の指示データセットでも改善をもたらし、Evol-Instruct、ShareGPT、OpenPlatypusでそれぞれ10%、8%、8%の向上を示す。さらに、LLaMA-2-Chatに対しても恩恵を受ける。 Comment
Alpacaデータでの性能向上が著しい。かなり重要論文な予感。後で読む。
HuggingFaceのTRLでサポートされている
https://huggingface.co/docs/trl/sft_trainer
openreview: https://openreview.net/forum?id=0bMmZ3fkCk
[Paper Note] In-Context Learning Creates Task Vectors, Roee Hendel+, EMNLP'23 Findings, 2023.10
Paper/Blog Link My Issue
#NLP #LanguageModel #In-ContextLearning #EMNLP #read-later #Findings Issue Date: 2023-10-26 GPT Summary- ICLはLLMにおける新しい学習パラダイムで、その機序は未解明である。訓練データ集合を用いる従来の機械学習とは異なり、ICLはデータを単一のタスクベクトルに圧縮し、トランスフォーマーを調整して出力を生成する。多様なモデルとタスクの実験を通じて、この新たな理解を支持する結果を示す。 Comment
参考:
ICLが実現可能なのは実はネットワーク内部で与えられたdemonstrationに対して勾配効果法を再現しているからです、という研究もあったと思うけど、このタスクベクトルとの関係性はどういうものなのだろうか。
文脈に注意を与えなくてもICLと同じ性能が出るのは、文脈情報が不要なタスクを実施しているからであり、そうではないタスクだとこの知見が崩れるのだろうか。後で読む。
openreview: https://openreview.net/forum?id=QYvFUlF19n
[Paper Note] Personalized Soups: Personalized Large Language Model Alignment via Post-hoc Parameter Merging, Joel Jang+, arXiv'23, 2023.10
Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #ReinforcementLearning #Personalization #Souping Issue Date: 2023-10-24 GPT Summary- 人間のフィードバックを用いた強化学習(RLHF)は、LLMsを一般的な好みに合わせるが、個別の視点には最適でない。本研究では、個別のフィードバックを考慮した強化学習(RLPHF)を提案し、複数の好みに対応するために多目的強化学習(MORL)としてモデル化。好みを複数の次元に分解することで、個別のアライメントを達成できることを示し、これらの次元が独立して訓練され、効果的に結合可能であることを実証。コードは公開されている。 Comment
どこまでのことが実現できるのかが気になる。
[Paper Note] Eliminating Reasoning via Inferring with Planning: A New Framework to Guide LLMs' Non-linear Thinking, Yongqi Tong+, arXiv'23, 2023.10
Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #Chain-of-Thought #Prompting Issue Date: 2023-10-24 GPT Summary- 非線形思考を模倣するために、Inferential Exclusion Prompting (IEP) を提案。IEPは計画後にNLIを活用し、解に対する推論を振り返ることで複雑な思考過程を再現。実証研究により、IEPがCoTを一貫して上回ることを確認。IEPとCoTを統合することでLLMsの性能向上も観察。新たに導入したMental-Ability Reasoning Benchmark (MARB)は9,115問からなり、LLMsの論理能力を評価するための有望な方法とされ、近日中に公開予定。 Comment
論文自体は読めていないのだが、CoTが線形的だという主張がよくわからない。
CoTはAutoregressiveな言語モデルに対して、コンテキストを自己生成したテキストで利用者の意図した方向性にバイアスをかけて補完させ、
利用者が意図した通りのアウトプットを最終的に得るためのテクニック、だと思っていて、
線形的だろうが非線形的だろうがどっちにしろCoTなのでは。
[Paper Note] Generalizable Chain-of-Thought Prompting in Mixed-task Scenarios with Large Language Models, Anni Zou+, arXiv'23, 2023.10
Paper/Blog Link My Issue
#NLP #LanguageModel #Chain-of-Thought #Prompting Issue Date: 2023-10-13 GPT Summary- GeM-CoTは、未知の入力問に対する一般化可能なCoTプロンプティング手法を提案。問の型を分類し、データプールから自動デモを生成することで、性能と一般化のギャップを解消。これにより、10の公開推論タスクと23のBBHタスクで優れたパフォーマンスを実現。 Comment
色々出てきたがなんかもう色々組み合わせれば最強なんじゃね?って気がしてきた。
openreview: https://openreview.net/forum?id=79tJB1eTmb
[Paper Note] FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets, Seonghyeon Ye+, arXiv'23, 2023.07
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation Issue Date: 2023-07-22 GPT Summary- 大規模言語モデル(LLMs)の評価は、人間の価値観との整合性が求められるが、従来の評価は粗粒度で解釈性が制限されている。本研究では、整合スキルセットに基づく微細粒度評価プロトコルFLASKを提案し、スコアを指示ごとのスキルセットに分解する手法を導入。実験により、評価の細粒度化がモデルパフォーマンスの理解と信頼性向上に寄与することを示し、複数のLLMsにおいて高い相関を観察した。評価データとコードは公開されている。 Comment
このベンチによるとLLaMA2でさえ、商用のLLMに比べると能力はかなり劣っているように見える。
[Paper Note] Secrets of RLHF in Large Language Models Part I: PPO, Rui Zheng+, arXiv'23, 2023.07
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #RLHF #PPO (ProximalPolicyOptimization) Issue Date: 2023-07-12 GPT Summary- 大規模言語モデル(LLM)は人間中心のアシスタントとしての機能を目指し、強化学習(RLHF)が重要な技術的枠組みとされています。報酬モデル、近似ポリシー最適化(PPO)、プロセス監視がその技術的ルートとして含まれますが、訓練の課題や試行錯誤コストが障壁となっています。本報告では、RLHFの枠組みとPPOの内部動作を探求し、ポリシー制約がアルゴリズムの効果的実装における鍵要因であることを特定。新たにPPO-maxを提案し、訓練の安定性向上を目指しています。また、SFTモデルやChatGPTとの比較分析を行い、オープンソース実装の重要性を強調しています。 Comment
RLHFとPPOをの内部構造を調査したレポート。RLHFに興味がある場合は読むべし。
[Paper Note] Reflexion: Language Agents with Verbal Reinforcement Learning, Noah Shinn+, NeurIPS'23, 2023.03
Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SelfCorrection #NeurIPS #PostTraining Issue Date: 2023-03-28 GPT Summary- LLMを用いた言語エージェントが外部環境と相互作用しつつ、迅速な学習を可能にする新しいフレームワーク「Reflexion」を提案。言語的フィードバックを活用し、エージェントはタスクのフィードバックを反映、エピソディックメモリに保持して意思決定を改善。多様なフィードバック信号を取り入れ、様々なタスクで大幅な性能向上を実現。HumanEvalベンチマークでは91%のpass@1精度を達成し、従来の最先端を超える成果を示した。 Comment
なぜ回答を間違えたのか自己反省させることでパフォーマンスを向上させる研究
openreview: https://openreview.net/forum?id=vAElhFcKW6
Improving Neural Machine Translation with Compact Word Embedding Tables, Kumar+, AAAI'22
Paper/Blog Link My Issue
#NeuralNetwork #MachineTranslation #Embeddings #NLP #AAAI Issue Date: 2021-06-07 Comment
NMTにおいてword embeddingがどう影響しているかなどを調査しているらしい
[Paper Note] Efficient Deep Learning: A Survey on Making Deep Learning Models Smaller, Faster, and Better, Gaurav Menghani, arXiv'21, 2021.06
Paper/Blog Link My Issue
#NeuralNetwork #Survey #MachineLearning Issue Date: 2021-06-19 GPT Summary- ディープラーニングの進展に伴い、モデルのパラメータ数やリソース消費が増加しているため、効率性が重要視されている。本研究では、モデル効率性の5つのコア領域を調査し、実務者向けに最適化ガイドとコードを提供する。これにより、効率的なディープラーニングの全体像を示し、読者に改善の手助けとさらなる研究のアイデアを提供することを目指す。 Comment
学習効率化、高速化などのテクニックがまとまっているらしい
[Paper Note] A Survey of Transformers, Tianyang Lin+, arXiv'21, 2021.06
Paper/Blog Link My Issue
#NeuralNetwork #Survey #NLP Issue Date: 2021-06-09 GPT Summary- トランスフォーマーの多様なバリアント(X-formers)に関する体系的な文献レビューを提供。バニラトランスフォーマーの紹介後、新しい分類法を提案し、アーキテクチャの修正、事前学習、アプリケーションの観点からX-formersを紹介。今後の研究の方向性も概説。 Comment
Transformersの様々な分野での亜種をまとめた論文
[Paper Note] BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer, Fei Sun+, arXiv'19, 2019.04
Paper/Blog Link My Issue
#RecommenderSystems #NeuralNetwork #LanguageModel #CIKM #SequentialRecommendation #One-Line Notes Issue Date: 2021-05-25 GPT Summary- ユーザーの動的嗜好をモデル化するために、BERT4RecというTransformerに基づく双方向エンコーダを導入。従来の順序型モデルの限界を克服し、Clozeタスクを用いて左側と右側の文脈を共同で条件付けしてアイテムを予測。さまざまなベンチマークデータセットにおいて、提案モデルが最先端の逐次モデルを一貫して上回る結果を示す。 Comment
BERTをrecsysのsequential recommendationタスクに転用してSoTA。
しっかり読んで無いけどモデル構造はほぼBERTと一緒。
異なる点は、Training時にNext Sentence Predictionは行わずClozeのみ行なっているという点。Clozeとは、実質Masked Language Modelであり、sequenceの一部を[mask]に置き換え、置き換えられたアイテムを左右のコンテキストから予測するタスク。異なる点としては、sequential recommendationタスクでは、次のアイテムを予測したいので、マスクするアイテムの中に、sequenceの最後のアイテムをマスクして予測する事例も混ぜた点。
もう一個異なる点として、BERT4Recはend-to-endなモデルで、BERTはpretraining modelだ、みたいなこと言ってるけど、まあ確かに形式的にはそういう違いはあるけど、なんかその違いを主張するのは違和感を覚える…。
sequential recommendationで使うuser behaviorデータでNext item predictionで学習したいことが、MLMと単に一致していただけ、なのでは…。
BERT4Recのモデル構造。next item predictionしたいsessionの末尾に [mask] をconcatし、[MASK]部分のアイテムを予測する構造っぽい?
オリジナルはtensorflow実装
pytorchの実装はこちら:
https://github.com/jaywonchung/BERT4Rec-VAE-Pytorch/tree/master/models
[Paper Note] Learning to Generate Product Reviews from Attributes, Dong+, EACL'17
Paper/Blog Link My Issue
#NeuralNetwork #NLP #ReviewGeneration #EACL Issue Date: 2019-03-08 Comment
(たぶん)最初のreview generation論文
[Paper Note] Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering, Michaël Defferrard+, NIPS'16, 2016.06
Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #GraphConvolutionalNetwork #NeurIPS #Selected Papers/Blogs Issue Date: 2018-03-30 GPT Summary- 本研究では、CNNを用いて低次元のグリッドから高次元のグラフドメインへの一般化を探求。スペクトルグラフ理論に基づくCNNの定式化を提案し、古典的CNNと同等の計算複雑性を維持しつつ、任意のグラフ構造に対応可能。MNISTおよび20NEWSの実験により、グラフ上での局所的特徴学習の能力を示した。 Comment
GCNを勉強する際は読むと良いらしい。
あわせてこのへんも:
Semi-Supervised Classification with Graph Convolutional Networks, Kipf+, ICLR'17
https://github.com/tkipf/gcn
[Paper Note] Neural Summarization by Extracting Sentences and Words, Jianpeng Cheng+, ACL'16, 2016.03
Paper/Blog Link My Issue
#Single #DocumentSummarization #NeuralNetwork #Document #Supervised #NLP #Extractive #ACL Issue Date: 2017-12-31 GPT Summary- 従来の要約手法は人間設計の特徴に依存しているが、本研究ではニューラルネットワークに基づくデータ駆動型アプローチを提案。階層的文書エンコーダーと注意に基づく抽出器からなるフレームワークを開発し、文や単語を抽出する多様な要約モデルを実現。広範なデータセットで訓練した結果、言語的注釈なしに最先端の性能を達成したことが示された。 Comment
ExtractiveかつNeuralな単一文書要約ならベースラインとして使用した方がよいかも
[Paper Note] Content Selection in Data-to-Text Systems: A Survey, Dimitra Gkatzia, arXiv'16, 2016.10
Paper/Blog Link My Issue
#Survey #NaturalLanguageGeneration #NLP #DataToTextGeneration #ConceptToTextGeneration Issue Date: 2017-12-31 GPT Summary- データからテキストへのシステムは、データを自然言語で自動的にレポート生成し、ユーザーの好みに応じた出力を提供する。コンテンツ選択は重要な要素であり、どの情報を伝えるかを決定する。研究では、データからテキスト生成の分野を紹介し、システムのアーキテクチャと最先端のコンテンツ選択手法をレビューし、今後の研究機会について議論する。 Comment
Gkatzia氏の"content selection"に関するSurvey
[Paper Note] An Empirical Exploration of Recurrent Network Architectures, Jozefowicz+, ICML'15
Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #Architecture #ICML #Selected Papers/Blogs #RecurrentModels Issue Date: 2018-02-19 Comment
GRUとLSTMの違いを理解するのに最適
[Paper Note] Automatic generation of textual summaries from neonatal intensive care data, Porter+, Artificial Intelligence'09, 2009.05
Paper/Blog Link My Issue
#NaturalLanguageGeneration #SingleFramework #NLP #ConceptToTextGeneration Issue Date: 2017-12-31 Comment
BabyTalk論文
[Paper Note] Getting to know you: learning new user preferences in recommender systems, Rashid+, IUI'02
Paper/Blog Link My Issue
#RecommenderSystems #ColdStart Issue Date: 2025-05-16 Comment
- [Paper Note] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, Colin Raffel+, JMLR'20
のOpenReviewで言及されているコールドスタートに関する研究
Scaling Pain of Coding Agent Serving: Lessons from Debugging GLM-5 at Scale, Z.ai, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Infrastructure #LLMServing #SoftwareEngineering #read-later #Selected Papers/Blogs #Author Thread-Post Issue Date: 2026-04-30 Comment
GLM-5をサービングしている中でのバグ(モデル側ではなくインフラ側)の発見と修復
Introducing Moonlake's 3D Agent: Computer Use Capabilities For World Modeling, The Moonlake Team, 2026.04
Paper/Blog Link My Issue
#Article #ComputerVision #AIAgents #ComputerUse #VisionLanguageModel #2D (Image) #3D (Scene) #3D Object Generation #ImageTo3D Issue Date: 2026-04-30 Comment
元ポスト:
Blenderを操作可能なComputer Use Agentのようである
Introducing talkie: a 13B vintage language model from 1930, Levine+, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #read-later #Selected Papers/Blogs #vintage LLMs Issue Date: 2026-04-29 Comment
元ポスト:
1930年以前の英語テキストで学習された言語モデル(vintage Large Language Models)で、歴史や文化の変化を分析したり、1930年までのデータで学習されたモデルが1931年以後に発見された革新的な科学的な発見を自ら見出せるか?、LLMが将来を予測する能力がどの程度あり、それがモデルサイズによってどのように変化するか?、プログラミングに関する知識がないモデルが現代のコーディングを学習できるかなどのcontamination freeな評価など様々な活用方法があるとのこと。
関連:
- Vintage Large Language Models, Owain Evans
所見:
Sakana Fugu: A Multi-Agent Orchestration System as a Foundation Model, sakana.ai, 2026.04
Paper/Blog Link My Issue
#Article #Multi #NLP #LanguageModel #AIAgents #Proprietary #Orchestration Issue Date: 2026-04-26 Comment
元ポスト:
関連:
- [Paper Note] TRINITY: An Evolved LLM Coordinator, Jinglue Xu+, ICLR'26, 2025.12
- [Paper Note] Learning to Orchestrate Agents in Natural Language with the Conductor, Stefan Nielsen+, ICLR'26, 2025.12
複数のフロンティアモデルを(おそらく個々のモデルのタスクごとの強みに合わせて)動的にオーケストレーションすることで高い性能を達成する
The World’s First Context-Aware Proactive Agent: No intent missed. No task overdue, AirJelly, 2026.04
Paper/Blog Link My Issue
#Article #NLP #AIAgents #GenerativeAI #Blog #WorkspaceAgents Issue Date: 2026-04-25 Comment
元ポスト:
またしてもcowork/workspace agentに見える。クラゲちゃんがかわいい。windowsに昔いたイルカちゃんの進化系だなとふと思った。
Building a Fast Multilingual OCR Model with Synthetic Data, Nvidia, 2026.04
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Dataset #SyntheticData #MultiLingual #OCR Issue Date: 2026-04-25 Comment
元ポスト:
日本語サンプルも全6ヶ国語中全体の17%含まれておりかなり含まれているOCRモデル学習用の合成データとモデル
model:
https://huggingface.co/nvidia/nemotron-ocr-v2
data:
https://huggingface.co/datasets/nvidia/OCR-Synthetic-Multilingual-v1
スループットが非常に高い
Flipbook is an infinite visual browser generated entirely on demand in real time, Shah+, 2026.04
Paper/Blog Link My Issue
#Article #ComputerVision #Blog #VideoGeneration/Understandings #interactive #Realtime #GUI Issue Date: 2026-04-25 Comment
元ポスト:
画面上のピクセルを全てVideo Generationによってinteractiveに描画するGUIのデモのようである
Xiaomi MiMo-V2.5-Pro: A leap in agentic and long horizon coherence, Xiaomi, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #MultiModal #Blog #Coding #OpenWeight #Selected Papers/Blogs #UMM #Reference Collection #Author Thread-Post Issue Date: 2026-04-23 Comment
元ポスト:
いずれモデルをオープンにするとのこと
Artificial Analysisによる評価:
オープンになった:
https://huggingface.co/collections/XiaomiMiMo/mimo-v25
元ポスト:
GDPValやSWE-Bench-ProがGemini-3.1-Proよりも高い。
MIT Licenceかつnative multimodal
所見:
解説:
PaddleOCR, PaddlePaddle
Paper/Blog Link My Issue
#Article #ComputerVision #Tools #NLP #DocParser #VisionLanguageModel #OCR #Author Thread-Post Issue Date: 2026-04-23 Comment
元ポスト:
ブラウザ上でも動作可能らしい
Introducing ChatGPT Images 2.0: A new era of image generation, OpenAI, 2026.04
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #ChatGPT #TextToImageGeneration #Proprietary #Selected Papers/Blogs #ImageSynthesis #Author Thread-Post Issue Date: 2026-04-22 Comment
元ポスト:
めとゃめちゃ良くなってそう
関連:
関連:
Artificial Analysisによる評価(SoTA):
inclusionAI: Ling-2.6-flash (free), OpenRouter (InclusionAI), 2026.04
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #AIAgents #OpenWeight #MoE(Mixture-of-Experts) #Reference Collection #Author Thread-Post Issue Date: 2026-04-22 Comment
元ポスト:
Lingの最新モデル。元ポストに強みが簡潔に書かれている。OpenRouterで1週間freeで利用可能で、今後商用モデルのLingDTのリリースも控えているとこと。
また、将来的に本モデルはオープンになる予定とのこと。
Artificial Analysisによる評価:
オープンになった:
HF: https://huggingface.co/inclusionAI/Ling-2.6-flash
FlashKDA: Flash Kimi Delta Attention — high-performance KDA kernels built on CUTLASS, MoonshotAI, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #Attention #Selected Papers/Blogs #Author Thread-Post Issue Date: 2026-04-21 Comment
ベンチマーク: https://github.com/MoonshotAI/FlashKDA/blob/master/BENCHMARK_H20.md
関連:
- Kimi K2.6: Advancing Open-Source Coding, Kimi, 2026.04
- KDA: [Paper Note] Kimi Linear: An Expressive, Efficient Attention Architecture, Kimi Team+, arXiv'25, 2025.10
Kimi Delta Attentionがより高速に(2倍程度)動作する実装のようである。
公式ポスト:
ML Intern, HuggingFace, 2026.04
Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #AIAgents #AutoML #ScientificDiscovery #read-later #Selected Papers/Blogs Issue Date: 2026-04-21 Comment
元ポスト:
自動で研究が可能なエコシステムがどんどん構築されていく
関連:
take-homeをend-to-endで解けるくらい優秀とのこと。
Evaluating Netflix Show Synopses with LLM-as-a-Judge, Netflix Technology Blog, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #Factuality #Blog #LLM-as-a-Judge #Test-Time Scaling #read-later #Reference Collection #Scalability Issue Date: 2026-04-17 Comment
元ポスト:
Netflix上に存在するsynopses(映画の短いdescription)を高品質に保ちたいが、非常に量が多いのでどのようにスケーラブルに評価しているか、という話のようである。
LLM-as-a-Judgeを活用して評価をしており、4種類の観点(制度、事実性、トーン、明瞭さ)のような多次元のRubricを用いて、それぞれの観点ごとにLLM-as-a-Judgeを専門家の判断にalignさせるためにgold dataを作成し、どのように推論すればLLM-as-a-Judgeの性能が向上するかを調査した結果、long CoT / Majority Voting (精度向上+分散低下)/ Agents-as-a-Judge (複数のFactualityの側面を評価するために4種類のAI Agentを用いてメタデータとsynopsesのFactual Consistencyを評価し、全てのエージェントの結果を集約)といった感じのことをやっているらしい。
Qwen3.6-35B-A3B: Agentic Coding Power, Now Open to All, QwenTeam, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #MultiModal #OpenWeight #MoE(Mixture-of-Experts) #Selected Papers/Blogs #Sparse #Author Thread-Post Issue Date: 2026-04-16 Comment
HF: https://huggingface.co/Qwen/Qwen3.6-35B-A3B
元ポスト:
ざっと見た感じ明言されていない気がするが、プロプライエタリとなったQwen3.6-Plusの廉価版(オープンなので廉価と言うのかはあれだが)だと思われる。
Gemini Robotics-ER 1.6: Powering real-world robotics tasks through enhanced embodied reasoning, Google Deepmind, 2026.04
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Reasoning #Proprietary #Robotics #VisionLanguageActionModel #SpatialUnderstanding #Reference Collection #Author Thread-Post #MultiView Issue Date: 2026-04-15 Comment
元ポスト:
おー、とうとうDeepmindからVLAがでた。プロプライエタリモデル
私が知らなかっただけで、以前からリリースされていたようだ:
- Building the Next Generation of Physical Agents with Gemini Robotics-ER 1.5, Google, 2025.09
-
https://developers.googleblog.com/en/building-the-next-generation-of-physical-agents-with-gemini-robotics-er-15/
ポイント解説:
MMX The official CLI for the MiniMax AI Platform: Built for AI agents. Generate text, images, video, speech, and music — from any agent or terminal., MiniMax-AI, 2026.04
Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #AIAgents #Repository #Omni #AgentHarness Issue Date: 2026-04-11 Comment
元ポスト:
MiniMax AIのAPIを用いて、omni-modalなタスクを実行できるCLIツールのようである。
Introducing WildDet3D: Open-world 3D detection from a single image, Ai2, 2026.04
Paper/Blog Link My Issue
#Article #ComputerVision #Dataset #OpenWeight #OpenSource #read-later #Selected Papers/Blogs #4D (Video) #ObjectDetection Issue Date: 2026-04-07 Comment
元ポスト:
wildな環境においてzero shot(click, text, bounding boxで対象を指定)で動作する単眼の3D Object Detectionモデルとのこと。データセットもコードも公開
Vision Language Models (Better, faster, stronger), merve+, 2025.03
Paper/Blog Link My Issue
#Article #Survey #ComputerVision #NLP #Blog #VisionLanguageModel Issue Date: 2026-04-07 Comment
元ポスト:
1年前のVLMに関するトレンドをまとめた記事のようだが、その後も同トレンドが継続している模様
How we optimized Dash's relevance judge with DSPy, Dropbox, 2026.03
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #Prompting #AutomaticPromptEngineering #LLM-as-a-Judge #read-later Issue Date: 2026-04-07 Comment
元ポスト:
APEを使ってモデルを変更した際のプロンプト適応を効率化した話な模様。
Making RL Fast, Finbarr Timbers, 2026.04
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #SoftwareEngineering #PostTraining #Selected Papers/Blogs #reading #Asynchronous Issue Date: 2026-04-07 Comment
元ポスト:
Olmo3においてpost-trainingのインフラを同期から非同期に変更したことを含めて4倍高速化したことに関して、それをどのように実現したかに関するwrite up。気になる。
Components of A Coding Agent: How coding agents use tools, memory, and repo context to make LLMs work better in practice, Sebastian Raschka, 2026.04
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #AIAgents #Coding #SoftwareEngineering #read-later #Selected Papers/Blogs #AgentHarness Issue Date: 2026-04-05 Comment
LLM, Reasoning Model, Agent, Agent Harness, coding harnessなどの定義とその役割やスコープ、そしてそれらを構成するためのminimalなコンポーネントについて説明されており、基礎的な理解に役立ちそう。
元ポスト:
GEN1: Scaling Embodied Foundation Models to Mastery, Generalist AI Team, 2026.04
Paper/Blog Link My Issue
#Article #Pretraining #FoundationModel #Blog #Generalization #Robotics #VisionLanguageActionModel #EmbodiedAI #Scalability #EmergentAbilities Issue Date: 2026-04-05 Comment
元ポスト:
シンプルなタスクにおいて99%の成功率を測り、従来」りも3倍高速で、臨機応変に(1時間未満の当該ロボットのデータによるチューニングを経て)対応可能なモデルを開発し、それはスケーリング則の恩恵に預かれるような効率的な事前学習モデルに基づいています、といった話らしい?
関連:
- GEN-0 / Embodied Foundation Models That Scale with Physical Interaction, Generalist AI Team, 2025.11
ざーっと読んでみたが、事前学習に関する細かな話は記述されていないように見え、どちらかというとmasteryに関する定義や関連するmetiicについての言及や、それがGEN-0と比較して今回どの程度改善したのか、といったマーケティングメッセージが多いように感じた。
Emotion Concepts and their Function in a Large Language Model, Anthropic, 2026.04
Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #read-later #Selected Papers/Blogs #Emotion Issue Date: 2026-04-04 Comment
元ポスト:
これは非常に面白そうだ
How far does alignment midtraining generalize?, Tomek+, OpenAI Alignment Research Blog, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #mid-training #read-later Issue Date: 2026-04-04 Comment
元ポスト:
mid trainingにおいてalignment関してmisaligned/alignedな文書で学習をすると中間学習直後はalignmentに関する挙動が維持されるが、RLをしたらその効果は消えて無くなってしまう、という感じだろうか?超絶流し読みなので、後でしっかり読んだ方が良さそう。
llm-wiki.md, karpathy, 2026.04
Paper/Blog Link My Issue
#Article #LanguageModel #Gist Issue Date: 2026-04-04 Comment
Karpathy氏によるLLMを利用して個人の生のドキュメントコレクションからwikiを構築するためのidea file。本paper_noteは自分の勉強のために手作業をすることで自身への知識の定着を狙っているけれども、自動構築したwikiがどのようなものになるかは興味があるなあ。
GPU Memory Math for LLMs (2026 Edition), Ahmad, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SoftwareEngineering Issue Date: 2026-04-04 Comment
様々な量子化や浮動小数点フォーマット、パラメータ数やMoEの場合などにおける、VRAM消費量に関する考え方について解説されている
Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory, Skywork AI, 2026.04
Paper/Blog Link My Issue
#Article #ComputerVision #Transformer #SyntheticData #DiffusionModel #OpenWeight #VideoGeneration/Understandings #WorldModels #interactive #Game #4D (Video) #LongHorizon #Realtime Issue Date: 2026-04-02 Comment
元ポスト:
Unreal Engineで合成されたデータに基づいて学習されたDiTベースのWorld Modelらしい。
Acknowleagementから察するに、Wan2.2がベースモデルで、self-forcingが学習に用いられている。
- Wan2.2, Alibaba Wan, 2025.07
- [Paper Note] Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion, Xun Huang+, NeurIPS'25
また、action control moduleをアーキテクチャに導入することで、汎用的な動画生成モデルにキーボード、マウス等のアクションによるコントロールを実現している模様。
- [Paper Note] GameFactory: Creating New Games with Generative Interactive Videos, Jiwen Yu+, arXiv'25, 2025.01
デコードの高速化には量子化を利用しているとのこと。
Gemma 4: Byte for byte, the most capable open models, Google, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #MultiModal #Reasoning #OpenWeight #MoE(Mixture-of-Experts) #Selected Papers/Blogs #2D (Image) #4D (Video) #One-Line Notes #Reference Collection #audio #text Issue Date: 2026-04-02 Comment
元ポスト:
2B, 4B, 26BのMoEモデルと31BのDenseモデルの4種類のモデルファミリーで、マルチモーダル(vision)対応。2B, 4Bはaudioも入力として扱える。
edgeデバイス向けのモデルは128k, 他は256kのコンテキストウィンドウ。140+の多言語サポート。
Apache 2.0ライセンス
arenaで同サイズのモデル群でSoTAといった話がブログ中に記述されている。
モデルカードには一般的なベンチマーク群とのスコアも記載されている。
https://ai.google.dev/gemma/docs/core/model_card_4?hl=ja
(そもそも既存のベンチマークにもコンタミネーションがあると思われるが、)arenaに関しては特定の企業に対してデータを提供し、複数のモデルの亜種をテストできるという慣行があり、リーダーボードにバイアスがあるであろう点には注意:
- [Paper Note] The Leaderboard Illusion, Shivalika Singh+, NeurIPS'25
artificial analysisによる評価:
Qwenがproprietaryになったことから、ライセンス的に使いやすく、日本語に強そうなモデルとしては筆頭ではなかろうか。日本語性能が気になる。
アーキテクチャ解説:
ポイント解説:
所見:
attentionのscaleをsqrt(d)でスケールさせる代わりに、QK-norm, V normを適用するなど。
NvidiaによるNVFP4へのpost-trainingによる量子化:
https://huggingface.co/nvidia/Gemma-4-31B-IT-NVFP4
量子化後の性能も比較されており、知識、数学、コーディング、terminac useなど6種類のベンチマークでオリジナルのモデルと遜色ない性能が出ている旨記載されている。
解説:
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4
Qwen3.6-Plus: Towards Real World Agents, Qwen Team, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Proprietary #Selected Papers/Blogs Issue Date: 2026-04-02 Comment
元ポスト:
Opus 4.6相当のベンチマークスコアがありそうだが、プロプライエタリモデル化
LongCat-AudioDiT, Meituan LongCatTeam, 2026.03
Paper/Blog Link My Issue
#Article #NLP #SpeechProcessing #DiffusionModel #OpenWeight #Architecture #read-later #Selected Papers/Blogs #TTS Issue Date: 2026-04-01 Comment
HF:
-
https://huggingface.co/meituan-longcat/LongCat-AudioDiT-1B
-
https://huggingface.co/meituan-longcat/LongCat-AudioDiT-3.5B
元ポスト:
デコード時に、メルスペクトログラム→Vocoderの場合細かい特徴が落ちてしまうことが懸念されるため、Waveformを直接デコードするWav-VAEによって、音声に直接変換する、というアーキテクチャの革新があるように見える。
sarashina2.2-ocr, SBIntuitions, 2026.03
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #OpenWeight #Japanese #Selected Papers/Blogs #DocParser #OCR Issue Date: 2026-03-31 Comment
元ポスト:
縦書き文書に強いのは大変ありがたい
dots.ocrよりも日本語文書に対するCERとBLEUのスコアが良い。素晴らしい
ParaGator: Learning to Aggregate through Online RL, Li+, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Test-Time Scaling #Diversity #Aggregation-aware Issue Date: 2026-03-30 Comment
元ポスト:
関連:
- [Paper Note] Reasoning over mathematical objects: on-policy reward modeling and test time aggregation, Pranjal Aggarwal+, arXiv'26, 2026.03
上記研究のSection 3の内容っぽい?
解候補を生成する際はPass@kに対して最適化をし多様な候補の生成を促し、解候補を集約してFinal Answerを導出する際には、Pass@1に対して最適化をし複数の解候補を効果的に集約する方向に最適化することで、性能がブーストされ、それをend-to-endに実現する、という話にみえる。
- [Paper Note] PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning, Jingcheng Hu+, arXiv'26, 2026.01
と似たような考え方に見える。
The Anatomy of an LLM Benchmark, Cameron R. Wolfe, Ph.D., 2026.03
Paper/Blog Link My Issue
#Article #Tutorial #NLP #Dataset #LanguageModel #Evaluation Issue Date: 2026-03-30 Comment
元ポスト:
本文中のDisclaimerにも記述されている通り、coding/SWE/AI-Agentに関するベンチマークや、Multi-modalなベンチマークについては説明されていない点には注意。
LLMとしての評価として初期の頃から使われて(いる|いた)、MMLU, GPQA, BIG-Bench, IFEvalといった代表的なものが紹介され、単にそれらベンチマークがどういったものかを説明しているというより、どのようにすれば自分たちのタスクに関して良いLLMベンチマークを作成できるか?という観点で議論されているように見える。
Here are the 2025 AI safety papers and posts I like the most, Fabien Roger, LW, 2026.03
Paper/Blog Link My Issue
#Article #Survey #NLP #LanguageModel #Safety #read-later #Selected Papers/Blogs Issue Date: 2026-03-26 Comment
元ポスト:
AI Safetyに関する研究者の方の2025年のAI Safetyハイライトとのこと。
Emergent Misalignmentなど以外にも多くの研究に⭐︎︎︎⭐︎⭐︎が付与されている。気になる。
TurboQuant: Redefining AI efficiency with extreme compression, Google Research, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Reference Collection #KV Cache #Compression Issue Date: 2026-03-25 Comment
元ポスト:
kv cacheをlong contextで1/6に圧縮して、8倍スピードアップして、accuracyのlossがない圧縮技術とのこと。果たして
たまたまこの動画を見つけたがおそらくこの研究のことを行っているのだろう:
https://youtube.com/shorts/5LMoZjoprQc?si=C43dJuXqpAa-p4BP
不要な逆量子化処理を省くことで高速化可能らしい:
THE CONSCIOUSNESS CLUSTER: PREFERENCES OF MODELS THAT CLAIM TO BE CONSCIOUS, Chua+, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #Safety #read-later Issue Date: 2026-03-20 Comment
元ポスト:
LLMに意識があるように振る舞うように学習したらどうなるかという話らしい。これによって新たなpreferenceが獲得され、自己保存欲求や反発が発現したり、共感や葛藤などの人間的な感情について話したり、思考過程をモニタリングされることをどう感じますか?といった質問に対して、uncomfortableだと感じる、私は悪い評価を受けたら停止されてしまうの?といった不安について述べたりするなど、これまでにない挙動が見受けられるという感じらしい。
MiroThinker-1.7, MiroMindAI, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #OpenWeight #DeepResearch #LongHorizon Issue Date: 2026-03-20 Comment
元ポスト:
ベンチマークに応じて、GPT-5, GPT-5.2, GPT-5.4など比較するGPTが恣意的に変わっているように見えるが、ベンチマーク上ではGPT-5と同等以上のAgenticなLLMっぽい?BrowseCompの性能がかなり良さそうに見える。
LLM Architecture Gallery, Sebastian Raschka, 2026.03
Paper/Blog Link My Issue
#Article #Survey #NLP #LanguageModel #Transformer #Blog #OpenWeight #Architecture Issue Date: 2026-03-20 Comment
元ポスト:
Sebastian Raschka氏がいつもポストしているOpenWeight LLMのアーキテクチャ図のギャラリー。パラメータサイズ, head数などの細かい情報も含まれているので、全体を概観するのに良さそう。
Composer 2 のご紹介, Cursor, 2026.03
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #AIAgents #Evaluation #Coding #SoftwareEngineering #mid-training #PostTraining #read-later #Selected Papers/Blogs #ContextEngineering #Live #Reference Collection Issue Date: 2026-03-20 Comment
元ポスト:
所見:
Kimi-K2.5がベースらしいとのこと:
ベンチマークスコアに対する所見:
テクニカルレポートが出た:
https://cursor.com/resources/Composer2.pdf
元ポスト:
Kimi-K2.5をベースに、どのようにinstruction tuning後のモデルに対して継続事前学習、RLをし、GPT-5.4(high)級の性能を達成できたのか、ヒントがわかるかもしれない。
- [Paper Note] Kimi K2.5: Visual Agentic Intelligence, Kimi Team+, arXiv'26, 2026.02
所見:
所見:
RLによってpass@k(best-of-16)とpass@1の両方が改善する。既存研究では少なくともRLVRを用いた場合はPass@1は改善するが多様性が損なわれてPass@kの性能は改善しない ([Paper Note] Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR, Xiao Liang+, arXiv'25, 2025.08 , VibeVoice-1.5B, microsoft, 2025.08 )、という話があったが、Composer 2のレシピではそうではないようだ。どんなレシピだろう~と思ってさらっと関連しそうなところを見てみたが、詳細は書いてなさそうだ。
- [Paper Note] Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR, Xiao Liang+, arXiv'25, 2025.08
- VibeVoice-1.5B, microsoft, 2025.08
QA:
CursorBenchの解説:
要はrealisticなデータとシチュエーションでの評価に非常に重きを置いていて
- 実際のコーディングsessionのデータが用いられ、contamination-free
- 機能的な正しさのみならず、コードの品質、効率、挙動などの実用的な価値を意識し
- long horizonなタスクが多く取り入れられ
- Promptは曖昧性をうまく扱えるかを評価するために意図的にシンプルで短く
- CursorBenchのデータは継続的に更新される
- realisticなsessionデータだけでなく、その他の重要な挙動の評価(e.g., 指示追従, ルール/skilltのハンドリング, コメントの品質, editするか否かの判断の適切性など)のためのデータでも拡張されている
という感じらしい
ポイント解説:
- How Kimi, Cursor, and Chroma Train Agentic Models with RL, PHILSCHMID, 2026.03
self-summarizationによるcontextのcompressionを実施している
- [Paper Note] InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning, Yuchen Yan+, arXiv'26, 2026.02
- [Paper Note] Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL, Ian Wu+, arXiv'26, 2026.02
- より長いホライズンに向けた Composer の学習, Cursor, 2026.03
所見:
楽天、「GENIACプロジェクト」の一環として開発された国内最大規模の高性能AIモデル「Rakuten AI 3.0」を提供開始, 楽天グループ株式会社, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #Japanese #MoE(Mixture-of-Experts) Issue Date: 2026-03-18 Comment
HF: https://huggingface.co/Rakuten/RakutenAI-3.0
公式アナウンス、HFのモデルカードの情報が少なすぎてよくわからない。
所見:
Mistral Small 4, MistralAI, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #MoE(Mixture-of-Experts) Issue Date: 2026-03-17 Comment
元ポスト:
119Bでsmallと銘打たれる時代になってしまった
公式ポスト:
What is the most profitable AI-native company right now?, Graham Neubig, X, 2026.03
Paper/Blog Link My Issue
#Article Issue Date: 2026-03-14 Comment
これは興味があり、AI nativeの企業(=スレッド中での定義は最初の主要製品がLLMが存在する前提で成り立っている企業、のこと)で結局どこが儲かっているの?という疑問がずっとある。
Palantir, Midtourneyという声があり、Harveyも良いが他二つほどprofitableかは疑わしいという意見がある。
Claude now creates interactive charts, diagrams and visualizations, Claude, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #TextToImageGeneration #Proprietary #Reference Collection #Visualization Issue Date: 2026-03-14 Comment
かなり良いらしい(小並感)
元ポスト:
たとえばMLAとDSAの図解を作らせたら以下:
MuonとAdam(W)の違いの解説を作らせたら以下:
Effective harnesses for long-running agents, Anthropic, 2025.11
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog Issue Date: 2026-03-10 Comment
`Agent Harness` という用語の起源が気になっており、アンテナを張っているが、本ブログでAgent Harnessという用語が登場している。
- [Paper Note] Building Effective AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned, Nghi D. Q. Bui, arXiv'26, 2026.03
において本ブログが引用され `harness` という用語が用いられている。このブログが起源なのだろうか(勉強不足)。
The Synthetic Data Playbook: Generating Trillions of the Finest Tokens, HuggingFace, 2026.03
Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #SyntheticData #read-later #Selected Papers/Blogs Issue Date: 2026-03-10 Comment
12.7 GPU yearを使い、90回の実験、1 Trillion tokenの生成を経て見つけた、合成事前学習データの構築方法のbest recipeが紹介されている模様。先行研究を上回る学習効率を達成している。
元ポスト:
Yuan3.0-Ultra, YuanLabAI, 2026.03
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #OpenWeight #MoE(Mixture-of-Experts) #VisionLanguageModel #UMM #One-Line Notes Issue Date: 2026-03-07 Comment
元ポスト:
MoEのwarmupが終わり安定してきたタイミングでルーティングがされにくいExpertを枝刈りし、残ったexpertに対してバランスよくルーティングがされるようなrearrangeをするアルゴリズム Layer-Adaptive Expert Pruning (LAEP)によって、パラメータサイズを1515Bから1010Bまで削減し、49%程度事前学習の効率を改善したとのこと。
RAG, multimodal document understanding, tabular data analysis, content summarizationにおいて、非常に高い性能を獲得している。tool useに関してはGPT-5.2(effort不明)以外には負けているので、優秀ではあるが特に秀でているというわけではないよつに見える(BFCVv3)。
しかし他のベンチマークでこれらフロンティアモデル群をここまでPass@1やAccで抜くのは、驚きではあるが、実際にどのような評価をしているのかはテクニカルレポートを見た方が良いと思われる。
ocr-bench, davanstrien, 2026.03
Paper/Blog Link My Issue
#Article #ComputerVision #Tools #NLP #Evaluation #Repository #LLM-as-a-Judge #OCR #One-Line Notes Issue Date: 2026-03-06 Comment
元ポスト:
自分が試したいドキュメントのコレクションに対して、5つほどのOpenなOCRで実際に書き起こしを行い、VLM-as-a-JudgeでスコアリングしELOでの当該ドキュメントセットに対するスコアボードを作成するツール
非常に興味深く実用的だが、個人的にOlmOCRもサポートして欲しいなぁと思うなど。あと、機密性の高い文書などを扱う場面では、セキュリティ面にどれだけ配慮されているのかが気になってしまう。
FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling, together.ai, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #Transformer #Attention #Chip #read-later #Selected Papers/Blogs #GPUKernel Issue Date: 2026-03-06 Comment
元ポスト:
関連:
これは読まねば。。。
Qwen 3.5 small series, Qwen Team, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SmallModel #OpenWeight #Selected Papers/Blogs Issue Date: 2026-03-02 Comment
なんとSLMもリリース
元ポスト:
LFM2-24B-A2B: Scaling Up the LFM2 Architecture, LiquidAI, 2026.02
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #SmallModel #OpenWeight #MoE(Mixture-of-Experts) #EdgeDevices Issue Date: 2026-02-27 Comment
元ポスト:
edge deviceにデプロイできる規模でLFM2をスケールさせた模様
Swallowにおける 日英推論型大規模言語モデルの構築, 水木栄, 第26回LLM勉強会, 2026.02
Paper/Blog Link My Issue
#Article #Pretraining #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Japanese #mid-training #PostTraining #Selected Papers/Blogs #DataMixture Issue Date: 2026-02-27 Comment
元ポスト:
関連:
- Qwen3-Swallow & GPT-OSS-Swallow, Kazuki Fujii, 2026.02
まだしっかり読めていないのだが、適切なDataMixtureはどのようにして決めているのだろうか?
- 数学データによる学習がコーディングにのみ転移
- 英語データを邦訳したデータが学習に寄与するためcross-lingualで能力が転移する
- RLはpass@1を改善するが、Pass@10などの改善幅は縮小する
- この辺の話は資料中でも先行研究が引用されており、実際に確認されたということだと思われる
...
[Paper Note] Preconditioned inexact stochastic ADMM for deep models, Nature Machine Intelligence 2026, 2026.02
Paper/Blog Link My Issue
#Article #NeuralNetwork #ComputerVision #MachineLearning #NLP #LanguageModel #Optimizer #Nature Machine Intelligence Issue Date: 2026-02-24 Comment
元ポスト:
パラメータサイズが大きい場合にMuon超え...?
所見:
IA Agents Minimal agent framework for the Gemini Interactions API, philschmid, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Repository #read-later #MinimalCode Issue Date: 2026-02-17 Comment
元ポスト:
Gemini Interactions APIを用いたエージェントのminimal code。これは非常に勉強になりそう。
QED-Nano: Teaching a Tiny Model to Prove Hard Theorems, LM Provers Team, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Blog #Mathematics #SmallModel #PostTraining #Proofs #Rubric-based Issue Date: 2026-02-16 Comment
元ポスト:
ポイント解説:
早くもReasoning Cacheが利用されている:
- [Paper Note] Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL, Ian Wu+, arXiv'26, 2026.02
4B級のモデルで特定タスクに特化したモデルを作りたい場合に非常に役立ちそうなレシピ
Building Olmo in the Era of Agents, Nathan Lambert, LTI Colloquim, 2026.02
Paper/Blog Link My Issue
#Article #Tutorial #Survey #NLP #LanguageModel #AIAgents #Reasoning #Slide #OpenSource #read-later #Selected Papers/Blogs Issue Date: 2026-02-16 Comment
元ポスト:
うーんこれは時間をとってしっかり読んで色々まとめたい・・・
The Simulation Company, Simile, 2026.02
Paper/Blog Link My Issue
#Article #MachineLearning #NLP #FoundationModel #Post #WorldModels Issue Date: 2026-02-13 Comment
やはり次のFoundation Modelsの軸としてWorld Modelsやシミュレーションが注目されているように感じる。実際、シミュレーションによって様々なデータが合成できれば現在の基盤モデルをさらに引き上げると思われる。
関連:
Karpathy氏のポスト:
続報:
[Paper Note] Position: Humans are Missing from AI Coding Agent Research, Wang+, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #UserBased #AIAgents #Coding #read-later #Selected Papers/Blogs #interactive #One-Line Notes Issue Date: 2026-02-12 Comment
# Authors
Zora Zhiruo Wang, John Yang, Kilian Lieret, Alexa Tartaglini, Valerie Chen, Yuxiang Wei,
Zijian Wang, Lingming Zhang, Karthik Narasimhan, Ludwig Schmidt, Graham Neubig, Daniel Fried, Diyi Yang
元ポスト:
現在のコーディングエージェントは自動的にタスクを完了させ、難易度の高いベンチマークを解けることが実用的な価値とみなされているが、今後より実用的な価値を高めプロダクト化するためには単独でタスクをこなすのではなく、人間開発者やユーザとの相互作用をするような枠組みが次のブレイクスルーとなりうるというposition。非常に共感できる。
[Paper Note] OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis, Li+, 2026.02
Paper/Blog Link My Issue
#Article #InformationRetrieval #NLP #Search #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SyntheticData #OpenSource #Selected Papers/Blogs #Reproducibility #DeepResearch #One-Line Notes #LongHorizon #Environment Issue Date: 2026-02-10 Comment
元ポスト:
APIに依存せずオフラインコーパスと検索を利用し、高品質なDeepResearchのlong horizonなtrajectoryを合成可能な環境を構築。合成したtrajectoryでNemotron-3-nano-30B-A3B-BaseをSFTすることで、Kimi-K2, GLM-4.6などの10倍以上大きいサイズのモデルよりもBrowseCompで高い性能を獲得。同サイズのTongyiDeepResearchもoutperform。
Deterministicなプロセスで、オフラインコーパスからデータを合成し外部APIに依存しないため完全に再現性があり、かつAPIのコストやrate limitにも引っかからないという利点がある。検索エンジン、コード、データ、合成データ、モデル、全てを公開。
完全に再現性のある研究は素晴らしい。
Fine-tuning open LLM judges to outperform GPT-5.2, together.ai, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #Blog #LLM-as-a-Judge #DPO #RewardModel #One-Line Notes Issue Date: 2026-02-05 Comment
元ポスト:
Reward Bench 2:
- [Paper Note] RewardBench 2: Advancing Reward Model Evaluation, Saumya Malik+, arXiv'25, 2025.06
LLMでLLMを評価するというパラドックスに違和感はあるが、一般論として、「生成」するよりも「検証」することがモデルにとって簡単なタスクであるためうまくいきます(LLM-as-a-Judge)、といった説明が書いてあり、数千程度のサンプルでOpenLLMをDPOすることによって、GPT-5.2のようなFrontierモデルをReward Benchで上回ることができた、といった話が書かれている。
ただし、上記Reward Bench 2研究で示されている通り、**Reward Benchでの性能が高いReward Modelだからといって、必ずしもRLによって下流タスクの性能が向上するとは限らない点には注意**であり、元論文に従うとBest-of-Nサンプリングのようなtest-time-scalingのパラダイムとして利用するのが現在の実務上は良さそうである。
Qwen3-Coder-Next: Pushing Small Hybrid Models on Agentic Coding, QwenTeam, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Attention #Blog #Coding #LongSequence #SmallModel #MoE(Mixture-of-Experts) #Selected Papers/Blogs Issue Date: 2026-02-04 Comment
HF: https://huggingface.co/collections/Qwen/qwen3-coder-next?spm=a2ty_o06.30285417.0.0.3bdec921Ja5TZI
元ポスト:
A3BでSWE Bench ProにおいてClaude Sonnet 4.5超え
関連:
- [Paper Note] Gated Delta Networks: Improving Mamba2 with Delta Rule, Songlin Yang+, ICLR'25, 2024.12
開発者の方のポスト:
int4 model from Cerebras:
https://huggingface.co/Intel/Qwen3-Coder-Next-int4-AutoRound
元ポスト:
Trinity Large, Arcee, 2026.01
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Pretraining #NLP #LanguageModel #OpenWeight #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #Stability #One-Line Notes #Reference Collection #Sparse Issue Date: 2026-01-29 Comment
テクニカルレポート:
https://github.com/arcee-ai/trinity-large-tech-report/
HF:
https://huggingface.co/arcee-ai
GLM4.7やDeepSeekV3と比較してスループットやTTFTが二倍以上。
非常にsparseなMoE(400B-A13B, 4/256のexpertsにルーティング)であるため学習を安定させるためにDense layerを増やし、モメンタムを考慮したexpertのバランシングや、z-lossと呼ばれるlogitのスケールをコントロールするような手法を導入することで安定した学習を実現。2048 Nvidia B300 GPUsで、17Tトークンの事前学習33日で完了
元ポスト:
これほどsparseなMoEをここまで安定させて学習できるのは非常に興味深いと思われる。
インタビュー:
やると決めてチームビルディングも含めて非常に短期間(6ヶ月)で達成したとのことだが、気になる。
解説:
所見(風刺):
ポイント解説:
アーキテクチャ解説:
RLHF Book - Code Examples, Nathan Lambert, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Repository #PostTraining #Selected Papers/Blogs #MinimalCode Issue Date: 2026-01-26 Comment
元ポスト:
Qwen 1.7Bモデルでの様々なRLアルゴリズムでのミニマルコード集。学習曲線つきで非常に実用的
Composing Weight and Data Sparsity in MoE: Improving compute efficiency through varying compute per token, Perceptron, 2026.01
Paper/Blog Link My Issue
#Article #ComputerVision #Pretraining #NLP #MultiModal #MoE(Mixture-of-Experts) #read-later #VisionLanguageModel #Routing #Sparse Issue Date: 2026-01-23 Comment
元ポスト:
MoEがトークン単位でactivateするweightをサブセットにするweight sparcityによって効率化を実現する手法とみなしたときに、それぞれのinputに情報量の濃淡があることから現在のトークンごとにweightを割り当てるのではなく、weightごとにトークンを割り当てるというもう一つの軸を考えることができ(=Data Sparcity)、これをweightごとにトークンのsubsetしか持たないような実現方法をとるとcontextが損なわれauto-regressiveの前提が崩れるためtrain-inference-mismatchが生じるので、null experts(受け取ったトークンに対して何もしない)を実装して実現するみたいな話のように見えるが全くまだ読めていない。
Designing AI-resistant technical evaluations, Anthropic, 2026.01
Paper/Blog Link My Issue
#Article #LanguageModel #Education #AIAgents #Blog #read-later #Selected Papers/Blogs #Testing Issue Date: 2026-01-22 Comment
元ポスト:
Anthropicの採用における持ち帰り課題の変遷に関する記事。昔の持ち帰り課題では、応募者の大半よりもClaudeが上回るようになり採用におけるシグナルが拾いづらくなったのでリデザインが必要になった、そしてそれをどう変化させたか、といった話のようである。これは採用の話だがtestingという広い文脈で捉えるとかなり参考になる話に見える。
Claudeを作っている会社が自社が作ったプロダクトによって採用で苦しむという構造になっており、それに対してどのように対処したかという話題は非常に興味深いトピックだと感じる。
Fantastic Pretraining Optimizers and Where to Find Them 2.1: Hyperball Optimization, Wen+, 2026.01
Paper/Blog Link My Issue
#Article #NeuralNetwork #Pretraining #NLP #LanguageModel #Optimizer #read-later #Selected Papers/Blogs Issue Date: 2026-01-22 Comment
元ポスト:
シンプルな手法(ネットワークの重みとoptimiserの更新量に対するフロベニウスノルムを正規化する)で、Weight Decayが不要で(スケジューラ等のハイパーパラメータから解放される)、Muonを含む様々なoptimiserでも機能して学習効率を高めるため、インパクトの大きな重要研究に見える
関連(concurrent works):
- [Paper Note] Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models, Yonggan Fu+, arXiv'25, 2025.11
- [Paper Note] Controlled LLM Training on Spectral Sphere, Tian Xie+, arXiv'26, 2026.01
Introducing the WeirdML Benchmark, Håvard Tveit Ihle, 2025.01
Paper/Blog Link My Issue
#Article #MachineLearning #NLP #LanguageModel #Evaluation #Blog #Author Thread-Post Issue Date: 2025-11-29 Comment
著者ポスト:
元ポスト:
WeirdML v2: https://htihle.github.io/weirdml.html
MLにおけるあまり一般的ではない(=Weird)なタスクによるLLMのベンチマークらしい
Ming-flash-omni-Preview, inclusionAI, 2025.10
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #TTS #Routing #UMM #Omni #Sparse #ImageSynthesis Issue Date: 2025-10-28 Comment
元ポスト:
過去一番多くのタグを付与した気がするが、果たして大規模、Omniモーダルかつ、UMMにしたことによる恩恵(=様々なモダリティを統一された空間上に学習させる恩恵)はどの程度あるのだろうか?
アーキテクチャを見ると、モダリティごとに(モダリティ単位でのバイアスがかかった)Routerが用意されexpertにルーティングされるような構造になっている。
OmniモーダルでUMMを大規模にスクラッチから事前学習:
- [Paper Note] ERNIE 5.0 Technical Report, Haifeng Wang+, arXiv'26, 2026.02
Nano-vLLM, GeeeekExplorer, 2025.06
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #python #Blog #Repository #LLMServing #MinimalCode Issue Date: 2025-06-22 Comment
元ポスト:
vLLMと同等のinference speedを実現するミニマムでクリーンな実装。勉強用に良さそう。
POLARIS: A Post-Training Recipe for Scaling Reinforcement Learning on Advanced Reasoning Models,
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Repository #PostTraining Issue Date: 2025-06-21 Comment
元ポスト:
PJで利用されているRLライブラリ:
- verl: Volcano Engine Reinforcement Learning for LLMs, ByteDance Seed Team, 2025.04
AIME2025のみの評価だが4Bでこの性能…?
Mirage Persistent Kernel: Compiling LLMs into a MegaKernel, 2025.06
Paper/Blog Link My Issue
#Article #NLP #python #LLMServing #Author Thread-Post Issue Date: 2025-06-20 Comment
vLLM, SGLangよりもデコーディングが早い模様(図は下記ブログより引用)
ブログ:
https://zhihaojia.medium.com/compiling-llms-into-a-megakernel-a-path-to-low-latency-inference-cf7840913c17
元ポスト:
【DL輪読会】 Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models, Deep Learning JP, 2025.05
Paper/Blog Link My Issue
#Article #Tutorial #ComputerVision #NLP #LanguageModel #DiffusionModel #Slide Issue Date: 2025-05-24 Comment
元ポスト:
Masked Diffusion Modelの進展, Deep Learning JP, 2025.03 でLiteratureをざっくり把握してからこちらを読むのが良さそう。
Webスケールの日本語-画像のインターリーブデータセット「MOMIJI」の構築 _巨大テキストデータをAWSで高速に処理するパイプライン, Turing (studio_graph), 2025.05
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Dataset #AWS #MultiModal #Blog #Japanese #VisionLanguageModel Issue Date: 2025-05-20 Comment
貴重なVLMデータセット構築ノウハウ
青塗りのフィルタリングタスクを具体的にどうやっているのか気になる
8 Types of RoPE, Kseniase, 2025.03
Paper/Blog Link My Issue
#Article #Survey #Embeddings #NLP #LanguageModel #Transformer #Blog #PositionalEncoding Issue Date: 2025-03-23 Comment
元ポスト: https://huggingface.co/posts/Kseniase/498106595218801
RoPEについてサーベイが必要になったら見る
Sudoku-bench, SakanaAI, 2025.03
Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #Reasoning #Author Thread-Post Issue Date: 2025-03-21 Comment
元ポスト:
既存モデルでベンチマークを取ったらどういうランキングになるのだろうか。特にまだそういぅたランキングは公開されていない模様。
ブログ記事に(将来的に最新の結果をrepositoryに追記される模様)現時点でのリーダーボードが載っていた。現状、o3-miniがダントツに見える。
https://sakana.ai/sudoku-bench/
15 types of attention mechanisms, Kseniase, 2025.03
Paper/Blog Link My Issue
#Article #Survey #NLP #LanguageModel #Transformer #Attention #Blog Issue Date: 2025-03-18 Comment
Luongらのアテンションやsoft, globalアテンションなど、古くからあるattentionも含まれている。
OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini, AllenAI, 20250.3
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #OpenSource #Selected Papers/Blogs Issue Date: 2025-03-14 Comment
真なる完全なるオープンソース(に近い?)OLMOの最新作
学習が安定しやすいpre LNではなく性能が最大化されやすいPost LNを採用している模様。学習を安定化させるために、QKNormやRMSNormを採用するなどの工夫を実施しているらしい。
Reasoning with Reka Flash, Reka, 2025.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #MultiLingual #OpenWeight Issue Date: 2025-03-12 Comment
Weights: https://huggingface.co/RekaAI/reka-flash-3
Apache-2.0
< /reasoning >を強制的にoutputさせることでreasoningを中断させることができ予算のコントロールが可能とのこと
Docling, DS4SD, 2024.07
Paper/Blog Link My Issue
#Article #LanguageModel #python Issue Date: 2025-02-12 Comment
Unstructuredとどちらが良いだろうか?
Sohu, etched, 2024.06
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Transformer #Chip Issue Date: 2024-09-18 Comment
>By burning the transformer architecture into our chip, we can’t run most traditional AI models: the DLRMs powering Instagram ads, protein-folding models like AlphaFold 2, or older image models like Stable Diffusion 2. We can’t run CNNs, RNNs, or LSTMs either.
transformer以外の大抵のモデルでは動作しないが、代わりにH-100よりも20倍早いinferenceを実現できるチップらしい。
>With over 500,000 tokens per second in Llama 70B throughput, Sohu lets you build products impossible on GPUs.
いやいやいやLlama-70Bで0.5M Token/secは早すぎる!!!
2026年3月時点で確認したところページが削除されているようだが、どうなったのだろうか?
10Xの推薦を作るチームとML platform, 2024.08
Paper/Blog Link My Issue
#Article #RecommenderSystems #MachineLearning #Blog Issue Date: 2024-08-27 Comment
初期開発における定性評価の重要性やインターリービングの話題など実用的な内容が書かれているように見える。あとで読む。
定性評価が重要という話は、
- NewsPicksに推薦システムを本番投入する上で一番優先すべきだったこと, 2024.08
でも言及されている
Zero-shot Learning網羅的サーベイ: CLIPが切り開いたVision & Languageの新しい世界, エクサウィザーズ Engineer Blog, 2023.05
Paper/Blog Link My Issue
#Article #Survey #ComputerVision #NaturalLanguageGeneration #NLP #LanguageModel #ImageCaptioning #DiffusionModel #Blog Issue Date: 2023-11-02 Comment
これはすごいまとめ…。まだ途中までしか読めていない。CLIPからスタートしてCLIPを引用している論文から重要なものを概要付きでまとめている。
Large Language Model (in 2023), OpenAI
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel Issue Date: 2023-10-10 Comment
LLMの研究開発動向を俯瞰するのに有用らしい
OpenAI、ChatGPTが画像を分析する『GPT-4V(ビジョン)』を発表。安全性、嗜好性、福祉機能を強化, AIDB, 2023.09
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #ChatGPT #MultiModal Issue Date: 2023-09-30 Comment
おう…やべえな…
Controlled experiments on the web: survey and practical guide, 2023
Paper/Blog Link My Issue
#Article #Blog #A/B Testing Issue Date: 2023-04-26 Comment
A/Bテストのベストプラクティスが書かれているらしい
GLUE - 英語圏における自然言語処理の標準ベンチマーク, npaka, 2020.09
Paper/Blog Link My Issue
#Article #Tutorial #NLP #Dataset #Evaluation #Blog Issue Date: 2021-05-19 Comment
各タスクごとにサンプルとその説明が付与されており、ぱっと見でどんなタスクかすぐ分かる
近似最近傍探索の最前線, Yusuke Matsui, MIRU 2019 チュートリアル, 2019.07
Paper/Blog Link My Issue
#Article #Tutorial #EfficiencyImprovement #MachineLearning #Slide #kNN #Reference Collection Issue Date: 2020-07-30 Comment
k-NNベースドなRecommender Systemを構築したけど、Inferenceに時間がかかって、先方のレスポンスタイムの要求が満たせない...というときに役に立ちそう。
yahooのNGTといった実装も転がっている(Apache-2.0 License):
https://techblog.yahoo.co.jp/data_solution/ngtpython/
ScaNNという手法もあるらしい(SoTA)
https://ai-scholar.tech/articles/vector-search/scann
Designing and Evaluating Explanations for Recommender Systems, Tintarev+, Recommender Systems Handbook, 2011
Paper/Blog Link My Issue
#Article #RecommenderSystems #Tutorial #Explanation #Selected Papers/Blogs Issue Date: 2019-01-23 Comment
Recommender Systems HandbookのChapter。[Paper Note] A Survey of Explanations in Recommender Systems, Tintarev+, ICDEW'07
のSurveyと同じ著者による執筆。
推薦のExplanationといえばこの人というイメージ。
D論: http://navatintarev.com/papers/Nava%20Tintarev_PhD_Thesis_(2010).pdf
ニューラルネット勉強会(LSTM編), Seitaro Shinagawa, 2016.10
Paper/Blog Link My Issue
#Article #NeuralNetwork #Tutorial #MachineLearning #NLP #Slide Issue Date: 2018-02-19 Comment
LSTMの基礎から、実装する上でのTipsがまとまっている。
zero padding, dropoutのかけかた、normalizationの手法など。
[Paper Note] Scalable Large-Margin Online Learning for Structured Classification, Crammer+, 2005.01
Paper/Blog Link My Issue
#Article #MachineLearning #StructuredLearning Issue Date: 2017-12-31 Comment
構造学習ガチ勢のCrammer氏の論文
構造学習やるなら読んだ方が良い
