Reference Collectionに関する論文・技術記事メモの一覧

Reference Collection

[Paper Note] InfoLaw: Information Scaling Laws for Large Language Models with Quality-Weighted Mixture Data and Repetition, Fengze Liu+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Scaling Laws #DataRepetition Issue Date: 2026-05-08 GPT Summary- InfoLawを導入し、大規模言語モデルのデータ混合ウェイトと反復の影響を評価。スケーリング時の最適なデータレシピ選択を信頼性高く予測し、事前学習の情報蓄積をモデル化。未見データや大規模環境での性能予測を高精度で行い、効率的なデータレシピ選択を可能に。 Comment

元ポスト:

Loading…

解説:

Loading…

[Paper Note] Beyond N-gram: Data-Aware X-GRAM Extraction for Efficient Embedding Parameter Scaling, Yilong Chen+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#Embeddings #NLP #LanguageModel #Transformer #Architecture #read-later #memory Issue Date: 2026-05-06 GPT Summary- X-GRAMは、動的トークン注入フレームワークで、トークンインデックス付きルックアップテーブルの効率を向上させる。ハイブリッドハッシュとエイリアスミキシングを利用して、情報の圧縮と局所的特徴の抽出を図り、メモリを効果的に管理する。評価結果では、従来の手法に対して平均精度を最大4.4ポイント改善し、スケーラブルなアーキテクチャの実現を示した。 Comment

元ポスト:

Loading…

[Paper Note] Co-Evolving Policy Distillation, Naibin Gu+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Distillation #PostTraining #RLVR #On-Policy Issue Date: 2026-05-06 GPT Summary- CoPDは、専門家の並行トレーニングを可能にし、RLVRとOPDを統合。専門家同士が互いの教師となることで行動パターンの一貫性を保ちながら、補完的知識を維持。実験により、CoPDがテキスト・画像・動画推論で強力なベースラインを上回ることを示し、新たなトレーニングスケーリングの可能性を示唆。 Comment

元ポスト:

Loading…

[Paper Note] CL-bench Life: Can Language Models Learn from Real-Life Context?, Shihan Dou+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #read-later Issue Date: 2026-05-06 GPT Summary- 実生活のコンテキストを扱うAIアシスタントの学習能力が注目されているが、混沌とした現実の状況を理解することは依然困難である。これを評価するために、405のコンテキストとタスク、および5,348の検証ルーブリックから成るCL-bench Lifeが提案された。このベンチマークは、複雑な実生活のシナリオを網羅し、10種の最先端言語モデルを評価した結果、最高でもタスク解決率は19.3%にとどまり、モデル間の平均は13.8%となった。CL-bench Lifeは、実生活のコンテキスト学習を進展させるための重要なステップとなり得る。 Comment

元ポスト:

Loading…

[Paper Note] Kwai Summary Attention Technical Report, Chenglong Chu+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#DocumentSummarization #NLP #LanguageModel #Attention #read-later #Selected Papers/Blogs Issue Date: 2026-04-29 GPT Summary- 長文脈能力は次世代の大規模言語モデルで重要な研究テーマだが、標準のソフトマックスアテンションはシーケンス長に対して二次計算量を示し、長文脈設定でオーバーヘッドが生じる。既存の技術はKVキャッシュの削減やKVキャッシュに優しいアーキテクチャを利用するが、トレードオフが現れる。この研究では、KVキャッシュとシーケンス長の間に線形関係を保ちながらセマンティックレベルの圧縮を行う方法を提案し、新しいKwai Summary Attention (KSA) を導入することで、シーケンスモデリングのコストを低減する。 Comment

元ポスト:

Loading…

これはおもしろい

所見:

Loading…

[Paper Note] The Recurrent Transformer: Greater Effective Depth and Efficient Decoding, Costin-Andrei Oncescu+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Architecture #LatentReasoning #RecurrentModels #Author Thread-Post Issue Date: 2026-04-28 GPT Summary- Recurrent Transformerは、各レイヤが自らの活性化から計算されたキーとバリューにアテンションを行うことで、時間的深さを持ちながらも最適化の不安定さを軽減。従来のTransformerとトークン間の再帰的更新を穏やかな前提下でエミュレートし、計算の効率性を改善。150Mおよび300MパラメータのC4事前学習において、クロスエントロピーの改善を達成し、深さを幅へとトレードオフすることで、メモリ占有量と推論レイテンシを低減することを示した。 Comment

元ポスト:

Loading…

解説:

Loading…

[Paper Note] Transformers are Inherently Succinct, Pascal Bergsträßer+, ICLR'26 Outstanding Paper, 2025.10

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Transformer #Architecture #Memorization #reading #Initial Impression Notes Issue Date: 2026-04-25 GPT Summary- トランスフォーマーの表現力を測る指標として、簡潔さを提案し、有限オートマトンや線形時間論理（LTL）式よりも高度に形式言語を表現できることを証明。さらに、トランスフォーマーの性質の検証が理論的に困難であること（EXPSPACE 完全）を示した。 Comment

openreview: https://openreview.net/forum?id=Yxz92UuPLQ

元ポスト:

Loading…

succinctnessの提案。あるパターンを表現するのに、RNN(SSM)や有限オートマトンなどと比較してtransformerは指数関数的に少ないパラメータ数で（理論上は）表現できることが数学的に示されているらしい。

つまりLinear Attentionをベースにしたモデルは計算効率やメモリ消費量では有利だが、表現力を犠牲にしている、ということが示された形になりそうである。

しかし1パラメータあたりに圧縮可能なコンセプトが増えれば増えるほどmemorizationの傾向が強くなり、汎化性能が失われるという見方もできる気がするので、この辺を踏まえると一概にsuccinctnessが高ければ良いというのも成り立たない気もする。

解説:

Loading…

[Paper Note] Context Unrolling in Omni Models, Ceyuan Yang+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #Reasoning #VisionLanguageModel #2D (Image) #3D (Scene) #UMM #4D (Video) #Omni #One-Line Notes #AudioLanguageModel #Fidelity #audio #text Issue Date: 2026-04-24 GPT Summary- Omniは、多様なモダリティにネイティブに訓練されたマルチモーダルモデルで、Context Unrollingを通じて異なるモダリティの情報を統合。これにより、下流の推論忠実度が向上し、高い生成・理解性能を発揮。テキスト、画像、動画、3Dジオメトリを用いた高度な推論能力を示す。 Comment

元ポスト:

Loading…

モダリティを跨いでtaskに対してrelevantなcontextを活性化させることで、omniモデルの生成時の推論能力と、忠実度を向上させる

[Paper Note] Scaling Self-Play with Self-Guidance, Luke Bailey+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #PostTraining #read-later #Selected Papers/Blogs #KeyPoint Notes #SelfPlay #Author Thread-Post Issue Date: 2026-04-24 GPT Summary- 自己対話アルゴリズムにおけるLLMの限界を克服するために、Self-Guided Self-Play（SGS）を提案。SGSでは、Solver、Conjecturer、Guideの三役をモデルが担い、崩壊を避けつつ問題解決を行う。SGSの評価では、従来のRLベースラインを上回り、効率的な自己対話によって7Bパラメータモデルが671Bパラメータモデルよりも多くの問題を解決可能であることを示した。 Comment

元ポスト:

Loading…

所見:

Loading…

解説:

Loading…

seed dataを与えた上でのSelf-PlayによるRLの性能を向上させる方法を提案している。

Self-PlayでRLをする場合、
- Solver: タスクを解く。タスクを解けるように学習される。（タスクが解けたか否かのbinary Reward)
- Conjecture: タスクを生成する。SolverのパフォーマンスをRewardとして学習される。

という構造が一般的だが、既存手法を分析した結果、学習が進むにつれ、ConjectureがSolverがそもそも解けない問題を生成するなどし、Reward Hackingが生じてしまい性能が向上しないことを発見。(Figure 2)

そこで、新たにGuideを追加し、Conjectureがタスクを合成する際にR_solve*R_guideの積の形式にRewardを調整し
- R_solveは(1 - Solverのsuccess rate)によって定義されるが、難しすぎる問題（success rate=0)、簡単すぎる問題（現在のバッチのtop 30%の問題）に関しては0に落とす。
- R_guideは合成タスクが、seed dataでSolverがまだ解けていない問題に関してどれだけの品質を有しているかに関するスコアを提供し（=unsolvedな問題に対する関連度、シンプルな結論が記述されており冗長な前提がないか、に関するRubricに基づくスコア）そのスコアをR_guideとする。つまり、seed dataにおいてまだ解けていない問題がより重視される。

ことで対処した。

self-playに関する代表的な先行研究:
- [Paper Note] Intrinsic Motivation and Automatic Curricula via Asymmetric Self-Play, Sainbayar Sukhbaatar+, ICLR'18, 2017.03

[Paper Note] Evaluation-driven Scaling for Scientific Discovery, Haotian Ye+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #LanguageModel #ScientificDiscovery #Test-Time Scaling Issue Date: 2026-04-22 GPT Summary- 評価駆動の発見ループを科学的発見において拡張するためのフレームワーク、SimpleTESを提案。これにより並列探索やフィードバック駆動の改良を組み合わせ、21の科学的問題で最先端の解を発見。特に、LASSOアルゴリズムを大幅に高速化し、新たな構成を発見。SimpleTESは評価の履歴を生成し、見たことのない問題にも一般化できることから、LLM主導の科学的発見を推進する中心的手法として位置づけられる。 Comment

元ポスト:

Loading…

110ページ、、、

[Paper Note] Micro Language Models Enable Instant Responses, Wen Cheng+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Decoding #One-Line Notes #Latency #EdgeDevices Issue Date: 2026-04-22 GPT Summary- μLMsを導入し、エッジデバイスで即座に文脈に基づく応答の最初の数語を生成し、クラウドモデルがその後を完成させることで、遅延を隠蔽する協調生成フレームワークを設計。経験的結果は、極小モデルでも大規模モデルと同等の生成が可能であることを示し、リソース制約のあるデバイスでの高い応答性を実現。 Comment

元ポスト:

Loading…

オンデバイスのMicro LLM(8M--30M)パラメータが冒頭の単語を生成し、その続きをCloud側のLLMが生成することで、Cloud LLMのlatencyの遅さをマスクする

[Paper Note] A Mechanistic Analysis of Looped Reasoning Language Models, Hugh Blayney+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Transformer #Architecture #LatentReasoning Issue Date: 2026-04-21 GPT Summary- ループ推論型言語モデルの推論性能向上を探求し、フィードフォワードモデルとの内部ダイナミクスの違いを比較。循環的再帰を分析し、各層が異なる不動点に収束する様子を示す。再帰の過程でアテンションヘッドの挙動が安定化し、フィードフォワードモデルの推論段階を繰り返すことを発見。再帰ブロックのサイズや入力の注入が安定性に与える影響にも焦点を当て、設計の指針へと結びつける。 Comment

元ポスト:

Loading…

解説:

Loading…

[Paper Note] Muon Dynamics as a Spectral Wasserstein Flow, Gabriel Peyré, arXiv'26, 2026.04

Paper/Blog Link My Issue
Issue Date: 2026-04-19 GPT Summary- 勾配正規化は、深層学習の最適化において安定性を高め、スケール感度を低減する重要な手法です。本研究では、Muonsのようなスペクトル正規化を通じて、パラメータの平均場レジームと関連づけた一連の正規化規則を探求します。特に、正定半正定行列上のスペクトル・ワッサースタイン距離を導入し、トレースノルムからSchattenノルムに至る関係を明らかにします。条件付きBrenier定理を得て、ガウス共分散の最適化問題への還元を行い、静的および動的な輸送コストの等価性を証明します。また、正規化された連続方程式をスペクトル・ワッサースタイン勾配流として解釈し、これらの手法が球面上のスペクトル的な不均衡輸送に寄与することを示しました。 Comment

元ポスト:

Loading…

[Paper Note] The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook, Xinlei Yu+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#Survey #NLP #LanguageModel #LatentReasoning #Initial Impression Notes Issue Date: 2026-04-17 GPT Summary- 潜在空間は言語モデルにおいて重要な役割を果たし、多くのプロセスが連続的な潜在空間で自然に行われることが示されている。本調査は、潜在空間の基盤、進化、機構、能力、展望を整理し、それを他の空間や視覚モデルと明確に区別する。特に、アーキテクチャや最適化を含む四つの主要な発展線を特定し、推論や知覚など多様な能力を支える潜在空間の役割を論じる。未解決課題と今後の研究方向も示し、次世代知能のパラダイムを理解するための基盤を提供することを期待している。 Comment

latent reasoningに関する最新survey

Taxonomyがしっかりしているのが非常に良さそうである。たとえばCOCONUT（Representation/Reasoning）、Looped Transformer (Architecture, Reasoning), VJ-JEPA (Architecture/Perception)を見るとそれぞれ異なるセルに配置されている。手法ごとの表を見ると年号だけでなく、”日付”別で整理され時系列かされている。あと毎回Surveyみて思うが、多すぎである。。。
- [Paper Note] Training Large Language Models to Reason in a Continuous Latent Space, Shibo Hao+, COLM'25
- (Looped Transformerの例) [Paper Note] Skip a Layer or Loop it? Test-Time Depth Adaptation of Pretrained LLMs, Ziyue Li+, arXiv'25
- [Paper Note] VL-JEPA: Joint Embedding Predictive Architecture for Vision-language, Delong Chen+, arXiv'25, 2025.12

元ポスト:

Loading…

[Paper Note] Do Vision Language Models Need to Process Image Tokens?, Sambit Ghosh+, arXiv'26, 2026.04

Paper/Blog Link My Issue
Issue Date: 2026-04-17 GPT Summary- VLMは視覚エンコーダをLLMと統合し成功を収めているが、視覚表現の進化は未解明。本研究では、画像トークンが急速に安定した表現に収束することを示し、深さによる視覚情報の重要性がタスク依存であることを明らかにする。視覚表現は層間で互換性を持ち、深さを減らしても単一トークン予測には頑健だが、マルチトークン生成には継続的な視覚アクセスが必要。これにより、VLMにおける深い視覚処理の必要性を再考する成果を得た。 Comment

元ポスト:

Loading…

[Paper Note] TensorHub: Scalable and Elastic Weight Transfer for LLM RL Training, Chenhao Ye+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #PostTraining Issue Date: 2026-04-17 GPT Summary- 強化学習（RL）におけるウェイト転送の効率化のため、新しいストレージ抽象化Reference-Oriented Storage（ROS）を提案。ROSは複製されたモデルウェイトを活用し、物理的なコピーを保持せずにアクセスを提供。さらに、TensorHubを構築し最適化転送やフォールトトレランスを実現。評価結果では、GPU待機時間を6.7倍削減し、ウェイト更新を4.8倍加速、データセンター間ロールアウトの待機時間を19倍短縮。TensorHubは実運用にデプロイ済み。 Comment

元ポスト:

Loading…

[Paper Note] BERT-as-a-Judge: A Robust Alternative to Lexical Methods for Efficient Reference-Based LLM Evaluation, Hippolyte Gisserot-Boukhlef+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LLM-as-a-Judge #Encoder Issue Date: 2026-04-17 GPT Summary- 語彙評価の限界を調査し、BERT-as-a-Judgeを提案。これは、意味的正確性を評価するもので、人間の判断との相関を改善。少ない訓練で頑健な評価を実現し、出力語彙評価を超える結果を示す。実務者への指針を提供し、成果物を公開して下流の採用を促進。 Comment

元ポスト:

Loading…

[Paper Note] Efficient RL Training for LLMs with Experience Replay, Charles Arnal+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #PostTraining #ReplayBuffer Issue Date: 2026-04-17 GPT Summary- 経験再生をLLMの事後トレーニングに適用し、リプレイバッファの最適設計を探求。生成コストの高い場合、オンポリシーサンプリングが必ずしも最適でないことを示し、よく設計されたリプレイバッファが推論計算量を削減し、モデル性能を改善する可能性があることを実証。 Comment

元ポスト:

Loading…

所見:

Loading…

所見:

Loading…

[Paper Note] Think Anywhere in Code Generation, Xue Jiang+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #Coding #Reasoning #SoftwareEngineering #read-later Issue Date: 2026-04-04 GPT Summary- LLMsの事前思考に依存したコード生成は制限があり、全体の複雑性を理解するには不十分である。これに対抗するために、Think-Anywhereという新しい推論機構を提案し、任意のトークン位置で推論を呼び出すことを可能にする。これにより、推論パターンの模倣と成果ベースのRL報酬を活用し、推論のタイミングを自律的に探索させる。広範な実験で、Think-Anywhereは最先端の性能を実現し、多様なLLMsにおいて一貫した一般化を示すことが確認された。 Comment

元ポスト:

Loading…

解説:

Loading…

[Paper Note] daVinci-LLM:Towards the Science of Pretraining, Yiwei Qin+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #OpenWeight #OpenSource #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-03-31 GPT Summary- 基盤となる事前学習はモデルの限界を決め、事後訓練で克服するのが難しい。daVinci-LLMは、産業規模の資源と研究の自由を結集し、透明性のある完全オープンなパラダイムで事前学習を進展させる。8兆トークンを用いた二段階適応カリキュラムを採用し、能力向上のプロセスを体系的に評価。処理の深さやドメイン特性が能力に与える影響を明らかにし、探索プロセスを公開することでコミュニティが知識を蓄積できる基盤を提供する。 Comment

元ポスト:

Loading…

github: https://github.com/GAIR-NLP/daVinci-LLM

オープン"ソース" (=コード, データ, モデルが公開されている（さらに厳密にはライセンスに問題がない）)な関連研究:
- OpenLLaMA, Xinyang+, 2023.05
- Introducing Marin: An Open Lab for Building Foundation Models, marin-community, 2025.05
- Marin 32B Retrospective, marin-community, 2025.10
- [Paper Note] Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling, Stella Biderman+, arXiv'23, 2023.04
- [Paper Note] Olmo 3, Team Olmo+, arXiv'25, 2025.12
- [Paper Note] K2-Think: A Parameter-Efficient Reasoning System, Zhoujun Cheng+, arXiv'25, 2025.09
- [Paper Note] DataComp-LM: In search of the next generation of training sets for language models, Jeffrey Li+, NeurIPS'25, 2024.07
- [Paper Note] LLM-jp: A Cross-organizational Project for the Research and Development of Fully Open Japanese LLMs, LLM-jp+, arXiv'24, 2024.07
- [Paper Note] TinyLlama: An Open-Source Small Language Model, Peiyuan Zhang+, arXiv'24, 2024.01
- [Paper Note] BLOOM: A 176B-Parameter Open-Access Multilingual Language Model, BigScience Workshop+, arXiv'22, 2022.11
- [Paper Note] OLMo: Accelerating the Science of Language Models, Dirk Groeneveld+, arXiv'24, 2024.02
- OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini, AllenAI, 20250.3
- [Paper Note] GPT-NeoX-20B: An Open-Source Autoregressive Language Model, Sid Black+, arXiv'22, 2022.04
- SmolLM2, 2024.11
- [Paper Note] LLM360: Towards Fully Transparent Open-Source LLMs, Zhengzhong Liu+, COLM'24, 2023.12
- SmolLM3: smol, multilingual, long-context reasoner, HuggingFace, 2025.07
- The Smol Training Playbook: The Secrets to Building World-Class LLMs, Allal+, HuggingFace, 2025.10

この辺の研究を全て紐解いていったらどのような変遷が起きているだろうか？

- RedPajama, a project to create leading open-source models, starts by reproducing LLaMA training dataset of over 1.2 trillion tokens, together.ai, 2023.04
- [Paper Note] Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model, Ahmet Üstün+, arXiv'24, 2024.02
- SmolLM - blazingly fast and remarkably powerful, Allal+, HuggingFace, 2024.07

この辺も関連はしているが、データはオープンだがソースコードがおそらく公開されていない。

事後学習なら
- [Paper Note] Tulu 3: Pushing Frontiers in Open Language Model Post-Training, Nathan Lambert+, COLM'25, 2024.11

[Paper Note] Delightful Policy Gradient, Ian Osband, arXiv'26, 2026.03

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #read-later #Selected Papers/Blogs #One-Line Notes #Author Thread-Post Issue Date: 2026-03-26 GPT Summary- Delightful Policy Gradient（DG）は、ポリシー勾配の不均衡なアップデートを解消するために、アドバンテージと行動の驚きの積に基づいたゲーティングを導入。これにより、単一コンテキスト内での方向性の精度を理論的に向上させ、複数コンテキスト間での期待される勾配を精密に近づけることができる。実験的に、DGはREINFORCEやPPOをMNISTや連続制御タスクで上回り、特に難易度の高いタスクで顕著な改善を示した。 Comment

元ポスト:

Loading…

所見:

Loading…

著者ポスト:

Loading…

不要なbackward passの重みを下げるのではなく完全に無くすことで効率化する

[Paper Note] PRISM: Demystifying Retention and Interaction in Mid-Training, Bharat Runwal+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #mid-training #read-later #Selected Papers/Blogs #Author Thread-Post Issue Date: 2026-03-19 GPT Summary- PRISMの中間トレーニング設計の実証研究を行い、様々なモデルやアーキテクチャで統制実験を実施。約270億トークンのデータを使用し、数学、コード、科学ベンチマークで一貫した性能改善を達成。RLパイプラインは推論ベンチマークのスコアを大幅に向上させるも、基盤モデルへの直接適用では効果が薄い。中間トレーニングがモデル性能を効果的に高めることを示し、信頼性の向上に役立つ中間トレーニングの重要性を強調。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] Attention Residuals, Kimi Team+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#read-later #Selected Papers/Blogs Issue Date: 2026-03-17 GPT Summary- Attention Residuals（AttnRes）を提案し、層間の出力をソフトマックス注意機構で集約することで、深層モデルの寄与を強化。Block AttnResによりメモリと通信のオーバーヘッドを軽減しつつ、実用的な残差接続の代替として機能。実験により、モデルサイズにかかわらず改善を確認し、すべてのタスクで下流性能の向上を実現。 Comment

元ポスト:

Loading…

Opus4.6による可視化:

Loading…

- [Paper Note] DeepCrossAttention: Supercharging Transformer Residual Connections, Mike Heddes+, ICML'25, 2025.02

で既に1年以上前に同様の手法が提案されており、テクニカルレポートから引用されていないという指摘がある

Loading…

解説:

Loading…

poster skillsによる可視化:

Loading…

解説:

Loading…

[Paper Note] OpenClaw-RL: Train Any Agent Simply by Talking, Yinjie Wang+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #PRM #KeyPoint Notes #Author Thread-Post Issue Date: 2026-03-14 GPT Summary- OpenClaw-RLは、エージェントの相互作用から生成される次状態信号を用いたオンライン学習フレームワークである。各エージェントのアクションに対するユーザーの反応やツールの出力を利用し、一つのポリシーで複数のトレーニング問題を同時に学習する。次状態信号は評価信号と指示信号を含み、前者はアクションの成功度を示し、後者は改善点を指摘する。非同期設計により、モデルはリアルタイムでリクエストに応じ、ポリシーを更新する。個人用エージェントや一般エージェントに適用することで、ユーザーのフィードバックを活用し、スケーラブルな強化学習を実現する。 Comment

元ポスト:

Loading…

解説:

Loading…

日本語解説: https://tech.layerx.co.jp/entry/openclawrl-agenticrl

テクニカルレポートを見ると情報量が非常に多くて圧倒されてしまうが、著者ポストを鑑みるに本研究の肝は下記である。

既存のAgentic RLは、Agentがaction a_tを実施した後に環境の状態がs_t+1に変化するが、それをcontextとして活用し次のactionを生成している。しかし、ただcontextとして活用するよりももっと有用な使い方があるのではないか、という主張をしているように見え、具体的には以下の2つの無駄が生じているという指摘で
- 次のstateは前回のアクションの暗黙的な評価を与えており、これを捨ててしまっている。たとえば、ユーザは満足いっていないことをqueryするかもしれないし、テストが通ったら成功、エラーが出たら失敗という評価に関するシグナルが潜んでいる。これは主に数学ドメインで利用されてきたProcess Reward Modelによるプロセスに関するRewardとは対照的に、verifiableなドメインを超えて自然なインタラクションの中で生じるシグナルから評価できる。
- 上記は評価に関するシグナルだが、もう一つのシグナルとして方向性に関するシグナルが得られる。たとえば、「あなたは最初にファイルを確認すべきだ」というqueryがs_t+1として得られたとする。これは、単にa_tが失敗だっただけでなく、「どのトークンが、どのように」誤っていたかに関する具体的なフィードバックとみなせる。たとえば、errorに関するtraceは具体的などこを修正すれば良いかのシグナルである。現在のRLVRの枠組みはこれらのシグナルを（最終的に得られる）sparseな単一のスカラー値に落としてしまっており、これら精緻な方向性に関するシグナルを完全に捨て去ってしまっている。

前者についてはBinary RL[^1]によってシグナルを拾え、

後者についてはs_t+1からtextualなhintを抽出しteacher contextとして活用することで、トークン単位でのadvantageを計算できる[^2]。

そしてこれら両方を組み合わせることで、より良い結果を得ることができる、といったことが著者ポストに書かれている。

元論文自体は部分的にしか読めていないのだが、論文のメッセージとしては、s_t+1の情報にはまだ活用できるシグナルがあるのにそれが見過ごされていて、現在のRLVRの枠組みではスカラー報酬に埋もれてしまっているという課題意識が肝だと感じた。

また、手法的な観点で言うと、日本語解説と、テクニカルレポート4.1.2節に書かれている通り、リアルタイムなユーザとの対話を前提てして考えた時に、ロールアウトは1つしか現実的に存在しえないため（複数ロールアウトに対してユーザからのフィードバックs_t+1を得ることは実用的な設定では非現実的）GRPOが適用できない、という点はなるほどなぁ、と感じた。

[^1]: a_t, s_t+1が与えられた時に{0, 1, -1}を返す何らかのProcess Reward Modelを定義し、m回独立した施行を実施しmajority votingをすることでreliableなa_tに対するRewardを得る（4.1.1節）。

[^2]: s_t+1から抽出可能なhintを追加のcontextとして与えたポリシーを教師、hintなしのポリシーを生徒とし、教師と生徒のa_tに対するトークンの尤度の差分をとることでtoken単位のadvantageを得る。すなわち、hintが与えられたときにa_tで尤度が低くなるトークンがあれば、そのトークンにはペナルティが課されることになる（4.2.2 Step4)。

[Paper Note] Scalable Training of Mixture-of-Experts Models with Megatron Core, Zijie Yan+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #MoE(Mixture-of-Experts) #Selected Papers/Blogs #Scalability #Author Thread-Post Issue Date: 2026-03-12 GPT Summary- MoEモデルのスケーリングには、パラメータの増加によるメモリ、通信、計算の制約が伴う。これを解決するために、メモリの再計算やオフロード、通信の最適化、計算のグループ化などを統合的に最適化するフレームワークを提案。これにより、長い文脈の効率化や低精度訓練サポートも実現。数兆パラメータのMoEモデルを数千台のGPUで訓練可能なオープンソースソリューションとして、実運用向けの指針を提供。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

所見:

Loading…

所見:

Loading…

[Paper Note] ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors, Zihao Huang+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#ComputerVision #4D Reconstruction #interactive #4D (Video) #Author Thread-Post Issue Date: 2026-03-06 GPT Summary- ArtHOIは、単眼動画からの情報を用いて4Dの関節付き人間-物体相互作用を合成する初のゼロショットフレームワークである。このアプローチでは、動画の逆レンダリングを通じて接触や関節運動を自然に満たす物理的に妥当な4Dシーンを再構成する。提案手法は、光学フローを基に動的および静的領域を分離し、安定した物体のアーティキュレーションを回復した後、条件として人間の運動を生成する。また、多様なシーンにおいて、従来手法を上回る精度で相互作用を実現する。 Comment

pj page: https://arthoi.github.io/

元ポスト:

Loading…

著者ポスト:

Loading…

ポイント解説:

Loading…

著者ポスト:

Loading…

[Paper Note] Interleaved Head Attention, Sai Surya Duvvuri+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #AIAgents #Attention #LongSequence #Architecture #One-Line Notes #LongHorizon #Author Thread-Post Issue Date: 2026-02-28 GPT Summary- Interleaved Head Attention（IHA）を提案し、マルチヘッド・アテンションの線形スケーリングの制約を解消。IHAでは、各ヘッドにP個の疑似ヘッドを構築し、ヘッド間のクロス混合を可能にすることで、複数のアテンションパターンを生成。理論的には、合成的Polynomialタスクに対し、IHAはMHAよりも効率的で、実世界のベンチマークでも性能向上を示した。特に、GSM8KおよびMATH-500の問題で改善を達成。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

解説:

Loading…

各headのqueryに対してlinear変換をかけてP個の疑似ヘッドを作成し、それらをinterleavingする形で整列させてK, Vを適用する、という感じらしい。多段階の推論や合成が必要な複雑なタスクにおいてheadの表現力が増し、必要なhead数が小さくなる反面、計算量が増える。疑似ヘッドはP個のトークンによって構成されるとみなせるので、FlashAttentionなどの従来の実装をそのまま適用できる。

[Paper Note] Generative Modeling via Drifting, Mingyang Deng+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #MachineLearning #GenerativeAI #Architecture #read-later #Selected Papers/Blogs Issue Date: 2026-02-05 GPT Summary- ドリフティングモデルを提案し、プッシュフォワード分布を進化させることで、自然なワンステップ推論を可能に。サンプルの動きを制御するドリフティングフィールドを導入し、効率的なトレーニングを実現。ImageNetでの実験では、最先端のFID値を達成し、高品質な生成の新たな可能性を示す。 Comment

元ポスト:

Loading…

所見:

Loading…

pj page: https://lambertae.github.io/projects/drifting/

ポイント解説:

Loading…

解説:

Loading…

[Paper Note] Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters, Ailin Huang+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #Blog #Reasoning #MoE(Mixture-of-Experts) #AttentionSinks #PostTraining #Selected Papers/Blogs #One-Line Notes #SelfDistillation Issue Date: 2026-02-03 GPT Summary- Step 3.5 Flashは、フロンティア知能と効率を橋渡しするスパースMixture-of-Experts（MoE）モデルで、1960億パラメータの基盤と110億パラメータのアクティブパラメータを組み合わせ、迅速で信頼性の高い推論を実現。交互スライディングウィンドウとMulti-Token Predictionを取り入れ、エージェント間の相互作用の待機時間を短縮。検証可能な信号とフィードバックを用いた強化学習フレームワークにより、安定した自己改善を図る。エージェントやコーディング、数学タスクで高い性能を示し、フロンティアモデルに匹敵する結果を達成している。 Comment

元ポスト:

Loading…

公式ポスト:

Loading…

解説:

Loading…

ポイント解説:

Loading…

ポイント解説:

Loading…

固定されたデータ非依存のsink tokenを利用するよりも、attention headの出力にinput xに応じたgatingを設けるHead wise gated attentionの方が各ベンチマークでの性能が良い（Table2, gatingの計算量もほぼ無視できる）。Head wise gated attentionは、データに応じてattention headの出力を制御するため、データ依存のlearnableなsink tokenと解釈できる（A.1):

Loading…

Head-wise Gated Attention:
- [Paper Note] Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free, Zihan Qiu+, NeurIPS'25 Best Paper
- [Paper Note] Forgetting Transformer: Softmax Attention with a Forget Gate, Zhixuan Lin+, ICLR'25, 2025.03

SFTデータがリリースされたとのこと:
https://huggingface.co/datasets/stepfun-ai/Step-3.5-Flash-SFT

元ポスト:

Loading…

[Paper Note] Kimi K2.5: Visual Agentic Intelligence, Kimi Team+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #Blog #OpenWeight #mid-training #PostTraining #read-later #Selected Papers/Blogs #VisionLanguageModel #UMM #KeyPoint Notes #Initial Impression Notes #ContextFolding Issue Date: 2026-01-27 GPT Summary- Kimi K2.5は、テキストとビジョンの共同最適化を重視するオープンソースのマルチモーダルエージェンティックモデルです。共同プリアトレーニングや強化学習を用いて、エージェントが複雑なタスクをサブ問題に分解し同時に実行するAgent Swarmを導入。評価結果では、コーディングや推論タスクで最先端の成果を達成し、最大4.5倍のレイテンシ低減を実証しました。Kimi K2.5モデルのチェックポイントは、今後の研究や応用に活用可能です。 Comment

HF: https://huggingface.co/moonshotai/Kimi-K2.5

元ポスト:

Loading…

テクニカルレポートを受けての所見:

Loading…

Agenticなタスク（HLE, BrowsingによるQA, DeepSearch)に関するベンチでGPT-5.2(xhigh)などを超えてSoTAを達成。他のタスクではcodingではClaude-4.5-Opusの方が上、image関連のタスクではGemini 3 Proに軍配が上がっている。VideoではGeminiとcomparableという感じだろうか（GeminiはLong Contextに非常に強い印象があるがLongVideoBenchて上回っている）。この辺は各タスクごとに強いモデルの棲み分けが進んできた。
また、Kimi K2.5非常に美麗でinteractiveなフロントエンドのデモが掲載されている。

Agent Swarmは、タスクをサブタスクに分解して、複数のエージェントに並列に投げて実行（最大100 sub agent)できるような枠組みであり、それらが高性能かつ低latencyとなるように訓練れている模様。これにより性能を向上させつつlatencyを80%削減しているとのこと。
この話はContext Foldingに近い話と推察される:

- [Paper Note] Scaling Long-Horizon LLM Agent via Context-Folding, Weiwei Sun+, arXiv'25, 2025.10

How Kimi, Cursor, and Chroma Train Agentic Models with RL, PHILSCHMID, 2026.03 によると、AgentSwarmはサブタスクを実施するエージェントのパラメータはfreezeし、サブエージェントを作成し、その結果を集約する処理をOrchestratorと呼ばれるlearnableなモジュールが担っており、サブエージェントからの結果はある種環境からの観測結果として扱われ、タスクの成否はOrchestratorのみに委ねられているようである。
Context Foldingは、Context Managerとポリシーが同時にFoldGRPOを通じて学習されており、エージェントそのものがサブタスク実行、結果を受け取り圧縮、メインブランチに加えるという能力をContext Managerと協調しながら実施することを学習している点が異なるように感じる。

また、並列実行したCritical Stepと呼ばれる、各サブエージェントの最大ステップ数に関する指標が導入され、これらCritical Stepをすべてのステップで集約し、特定のサブエージェントにworkloadが集中しないようにOrchestratorが調整されるとのこと。

公式ポスト:

Loading…

OpenWeightモデルの中でソフトウェアエンジニアリングスキルでSoTA:

Loading…

日本語でのポスト:

Loading…

ポイント解説:
- How Kimi, Cursor, and Chroma Train Agentic Models with RL, PHILSCHMID, 2026.03

[Paper Note] Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models, Xin Cheng+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Embeddings #EfficiencyImprovement #NLP #LanguageModel #Architecture #read-later #Selected Papers/Blogs #memory Issue Date: 2026-01-14 GPT Summary- 条件付きメモリを用いたMixture-of-Experts (MoE)の拡張により、知識検索の効率を向上。Engramモジュールを通じて古典的なN-gram埋め込みのO(1)ルックアップを実現し、ニューラル計算と静的メモリの最適なトレードオフを導出。27Bパラメータでのスケーリングが同等のMoEベースラインを上回り、知識検索や一般推論、コード・数学領域で顕著な性能向上を示す。局所的依存性のルックアップでアテンション容量を解放し、長文脈検索能力を強化。Engramは次世代スパースモデルに不可欠なモデルプリミティブを提供する。 Comment

元ポスト:

Loading…

所見:

Loading…

解説:

Loading…

解説:

Loading…

ポイント解説:

Loading…

先行研究:
- [Paper Note] Scaling Embedding Layers in Language Models, Da Yu+, NeurIPS'25, 2025.02

[Paper Note] From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence, Marc Finzi+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Analysis #MachineLearning #Metrics #Dataset #read-later #Selected Papers/Blogs #OOD #Generalization Issue Date: 2026-01-09 GPT Summary- 本研究では、データから新たな情報を生成する可能性や、情報の評価方法について探求する。シャノン情報やコルモゴロフの複雑性が無力である理由を示し、情報理論における三つの矛盾する現象を特定する。新たに導入した「エピプレキシティ」は、計算制約のある観察者がデータから学べる情報を捉え、データの構造的内容を評価する手法である。これにより、情報生成のメカニズムやデータの順序依存性を明らかにし、エピプレキシティを用いたデータ選択の理論的基盤を提供する。 Comment

元ポスト:

Loading…

解説:

Loading…

ポイント解説:

Loading…

[Paper Note] DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research, Rulin Shao+, ICML'26, 2025.11

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #OpenWeight #OpenSource #ICML #PostTraining #read-later #Selected Papers/Blogs #DeepResearch #Rubric-based #Author Thread-Post Issue Date: 2025-11-19 GPT Summary- 長文で出典付きの回答を生成する深層研究モデルの訓練には、強化学習（RLVR）を活用した進化するルーブリック（RLER）を用いることで、モデルが新たな情報を取り込み、オンポリシーなフィードバックを提供できるようにする。本研究では、RLERを活用して初のオープンモデルDeep Research Tulu (DR Tulu-8B)を開発し、科学、医療、一般領域のベンチマークで従来モデルを大幅に上回った。データ、モデル、コードは公開され、新しいエージェント基盤も提供されている。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

著者ポスト2:

Loading…

著者ポスト3:

Loading…

demoをほぼ無料で実施できるとのこと:

Loading…

takeaway:

Loading…

デモが公開:

Loading…

解説:

Loading…

ICML'26 Spotlight:

Loading…

[Paper Note] Fantastic Pretraining Optimizers and Where to Find Them, Kaiyue Wen+, ICLR'26, 2025.09

Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #Optimizer #ICLR #read-later #Selected Papers/Blogs #Author Thread-Post Issue Date: 2025-09-03 GPT Summary- AdamWは言語モデルの事前学習で広く使用されているオプティマイザですが、代替オプティマイザが1.4倍から2倍のスピードアップを提供するという主張には二つの欠点があると指摘。これらは不均等なハイパーパラメータ調整と誤解を招く評価設定であり、10種類のオプティマイザを系統的に研究することで、公正な比較の重要性を示した。特に、最適なハイパーパラメータはオプティマイザごとに異なり、モデルサイズが大きくなるにつれてスピードアップ効果が減少することが明らかになった。最も高速なオプティマイザは行列ベースの前処理器を使用しているが、その効果はモデルスケールに反比例する。 Comment

元ポスト:

Loading…

重要そうに見える

著者ポスト:
-

Loading…

考察:

Loading…

openreview: https://openreview.net/forum?id=2J51qUZ0iG

[Paper Note] Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning, Vaishnavi Shrivastava+, ICLR'26, 2025.08

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #Reasoning #On-Policy #Overthinking #Author Thread-Post Issue Date: 2025-08-14 GPT Summary- GFPO（Group Filtered Policy Optimization）を提案し、応答の長さの膨張を抑制。応答を長さとトークン効率に基づいてフィルタリングし、推論時の計算量を削減。Phi-4モデルで長さの膨張を46-71%削減し、精度を維持。Adaptive Difficulty GFPOにより、難易度に応じた訓練リソースの動的割り当てを実現。効率的な推論のための効果的なトレードオフを提供。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

著者ポスト:

Loading…

openreview: https://openreview.net/forum?id=UKOqoULbZS

[Paper Note] Log-Linear Attention, Han Guo+, ICLR'26

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Transformer #Attention #Architecture #ICLR Issue Date: 2025-06-10 GPT Summary- 対数線形注意を提案し、線形注意の効率性とソフトマックス注意の表現力を両立。固定サイズの隠れ状態を対数的に成長する隠れ状態に置き換え、計算コストを対数線形に抑える。Mamba-2とGated DeltaNetの対数線形バリアントが線形時間のバリアントと比較して優れた性能を示すことを確認。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…

openreview: https://openreview.net/forum?id=mOJgZWkXKW

[Paper Note] LLMs Get Lost In Multi-Turn Conversation, Philippe Laban+, ICLR'26 Outstanding Paper, 2025.05

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #AIAgents #Conversation #ICLR #read-later #Selected Papers/Blogs #ContextEngineering Issue Date: 2025-05-24 GPT Summary- LLMsは会話型インターフェースとして、ユーザーがタスクを定義するのを支援するが、マルチターンの会話ではパフォーマンスが低下する。シミュレーション実験の結果、マルチターンで39%のパフォーマンス低下が見られ、初期のターンでの仮定に依存しすぎることが原因と判明。LLMsは会話中に誤った方向に進むと、回復が難しくなることが示された。 Comment

元ポスト:

Loading…

Lost in the MiddleならぬLost in Conversation

openreview: https://openreview.net/forum?id=VKGTGGcwl6

[Paper Note] Rewriting Pre-Training Data Boosts LLM Performance in Math and Code, Kazuki Fujii+, ICLR'26, 2025.05

Paper/Blog Link My Issue
#Pretraining #NLP #Dataset #LanguageModel #Coding #Mathematics #ICLR #read-later #Diversity #Selected Papers/Blogs #Author Thread-Post Issue Date: 2025-05-08 GPT Summary- 本研究では、公共データを体系的に書き換えることで大規模言語モデル（LLMs）の性能を向上させる2つのオープンライセンスデータセット、SwallowCodeとSwallowMathを紹介。SwallowCodeはPythonスニペットを洗練させる4段階のパイプラインを用い、低品質のコードをアップグレード。SwallowMathはボイラープレートを削除し、解決策を簡潔に再フォーマット。これにより、Llama-3.1-8Bのコード生成能力がHumanEvalで+17.0、GSM8Kで+12.4向上。すべてのデータセットは公開され、再現可能な研究を促進。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…

openreview: https://openreview.net/forum?id=45btPYgSSX

[Paper Note] mHC: Manifold-Constrained Hyper-Connections, Zhenda Xie+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#MachineLearning #NLP #Transformer #Architecture #read-later #Selected Papers/Blogs #Stability #KeyPoint Notes #ResidualStream Issue Date: 2026-01-02 GPT Summary- Manifold-Constrained Hyper-Connections（mHC）を提案し、残差接続の多様化による訓練の不安定性やメモリアクセスのオーバーヘッドに対処。mHCは残差接続空間を特定の多様体に射影し、恒等写像特性を回復しつつ効率を確保。実証実験により、大規模訓練での性能向上とスケーラビリティを示し、トポロジーアーキテクチャ設計の理解を深めることを期待。 Comment

元ポスト:

Loading…

所見:

Loading…

先行研究:
- [Paper Note] Hyper-Connections, Defa Zhu+, ICLR'25, 2024.09
- [Paper Note] Deep Residual Learning for Image Recognition, Kaiming He+, CVPR'16, 2015.12

所見:

Loading…

ポイント解説:

Loading…

解説:

Loading…

従来のHCがResidual Streamに対してH_resを乗じて幾何的変換を実施する際に、H_resに制約がないため、Layerを重ねるごとにResidual Streamの大きさが指数的に発散、あるいは収縮していき学習が不安的になる課題を、二重確率行列（行と列の成分の合計が1.0となるような正規化をする）を用いた変換を用いることで、Residual Streamのノルムが変化しないようにし安定化させた、といった感じの話に見える。

[Paper Note] On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models, Charlie Zhang+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #ReinforcementLearning #mid-training #PostTraining #read-later #Selected Papers/Blogs #PRM #KeyPoint Notes #Author Thread-Post Issue Date: 2025-12-09 GPT Summary- 強化学習（RL）が言語モデルの推論能力を向上させるかどうかを検証するため、事前トレーニング、中間トレーニング、RLの因果的寄与を分離する実験フレームワークを開発。RLは事前トレーニングが十分な余地を残す場合にのみ真の能力向上をもたらし、文脈的一般化には適切な事前トレーニングが必要であることを示した。また、中間トレーニングがRLよりもパフォーマンスを向上させ、プロセスレベルの報酬が推論の忠実性を高めることを明らかにした。これにより、推論LMトレーニング戦略の理解と改善に寄与する。 Comment

元ポスト:

Loading…

RLはモデルの能力を精錬させる（＝事前学習時に既に身についているreasoningパターンを（探索空間を犠牲により少ない試行で良い応答に辿り着けるよう）増幅させる;サンプリング効率を向上させる）と主張する研究たちと
- [Paper Note] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?, Yang Yue+, NeurIPS'25, 2025.04
- [Paper Note] The Invisible Leash: Why RLVR May Not Escape Its Origin, Fang Wu+, arXiv'25
- [Paper Note] Spurious Rewards: Rethinking Training Signals in RLVR, Shao+, 2025.05
- [Paper Note] Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, ICML'25

RLは事前学習で身につけたreasoning能力を超えてさらなるgainを得ることができる
- [Paper Note] Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs, Xumeng Wen+, arXiv'25, 2025.06
- From f(x) and g(x) to f(g(x)): LLMs Learn New Skills in RL by Composing Old Ones, Yuan+, 2025.09
- [Paper Note] On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models, Charlie Zhang+, arXiv'25, 2025.12

という対立する主張がliteratureで主張されているが、これは学習環境が制御されたものでないことに起因しており（＝何が事前学習で既に獲得されていて、事後学習後に新規で獲得された能力なのか、既存の能力の精錬なのか弁別がつかない）、かつ最近のmid-trainingの隆盛([Paper Note] OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling, Zengzhi Wang+, arXiv'25 )を鑑みたときに、事前・中間・事後学習は互いにどのように作用しているのか？という疑問に応えることは重要であり、そのためのフレームワークを提案し分析した、という話な模様。非常に興味深い。takeawayはabstに書かれている通りなようだが、読みたい。

フレームワークは事前・中間・事後学習の個々の貢献を独立して測定できるフレームワークであり、
- 完全に制御された（明示的なアトミックなoperationに基づく）合成reasoningタスク

あとで書く

著者ポスト:

Loading…

takeaway1の話は、最近のRLにおける動的な難易度調整にも絡んでくる知見に見える。
takeaway2,3のRLはatomic skillを追加で学習することはできず、compositional skillを学習しcontextual generalizationを実現する、同等のbadgetの元でmid training+RLがpure RLよりも性能改善する、というのは特に興味深く、事後学習の効用を最大化するためにも事前・中間学習が（以前から言われていた通り）重要であることが示唆される。
takeaway4のPRMがreasoningのfidelityを高めるという話は、DeepSeek-V3.2でも観測されている話であり、本研究によってそれが完全に制御された実験の元示されたことになる。

RQ: 実データにおいて、事前学習時点だとPerplexityかdownstream taskの性能をwatchすると思うのだが、それらを通じてatomic skillをLLMがどれだけ身に付けられているか、というのはどれだけ測れているのだろうか、あるいはより良い方法はあるのだろうか

- [Paper Note] Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning, Haozhe Wang+, ICLR'26, 2025.09

（＝RLの序盤は低レベルな手続的な実行（計算や公式）を習得し、その後高レベルな戦略的なplanningの学習が生じる）とはどのような関係があるだろうか。

解説:

Loading…

所見:

Loading…

解説:

Loading…

[Paper Note] DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models, DeepSeek-AI+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #SyntheticData #OpenWeight #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #KeyPoint Notes #SparseAttention Issue Date: 2025-12-01 GPT Summary- DeepSeek-V3.2を紹介。主な技術革新は、(1) 効率的なアテンション機構DSAにより長い文脈での性能を維持しつつ計算複雑性を削減、(2) スケーラブルな強化学習によりGPT-5に匹敵する性能を達成、特にDeepSeek-V3.2-SpecialeはGPT-5を上回り、International Mathematics OlympiadおよびInternational Olympiad in Informaticsで金メダル級の性能を示す。(3) 新規合成パイプラインにより大規模な訓練データ生成を実現し、複雑な環境での一般化と指示遵守の向上を図る。 Comment

HF: https://huggingface.co/deepseek-ai/DeepSeek-V3.2

GPT-5級のスコアを獲得している。なんということだ。

公式ポスト:

Loading…

vLLM recipe:
https://docs.vllm.ai/projects/recipes/en/latest/DeepSeek/DeepSeek-V3_2-Exp.html

元ポスト:

Loading…

所見:

Loading…

事前学習にさらに計算機リソースを投下する見込みとのこと:

Loading…

解説:

Loading…

解説:

Loading…

所見:

Loading…

解説:
https://www.linkedin.com/posts/vinija_deepseek-v32-a-major-leap-for-open-reasoning-activity-7401524268850970624-eAvV?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

artificial analysisによる評価ではOpen Weightモデルの中ではKimi K2 Thinkingに次いで2番目の性能:

Loading…

- Introducing Kimi K2 Thinking, MoonshotAI, 2025.11

所見:

Loading…

DeepSeek Sparse Attention (DSA)

DSAの図解:

Loading…

要は、Lightning Indexerによって過去のkeyをキャッシュしておき、現在のtokenに関するQueryが与えられたときに、QueryとKe?からQueryにとって重要なKey Top-kを選択した上で、Top-kのKeyに対してMLAを実行する(Sparse Attentionの一種とみなせる）。

Top-kのtokenに対してのみAttentionの計算が走るので、計算量のオーダーが系列長をNとするとO(N^2)からO(Nk)となり、線形のオーダーとなり計算量が削減される。

また、MLAによって、すべてのKV Cacheをそのまま保持する必要がなく、個々のKV Cacheを圧縮した小さなtiny latent vectorを保持し、それを復元する重み行列を保持すれば良いので、メモリも効率化されている。

DSAは計算量を削減し、MLAはメモリを削減する。

MLAはこちら:
- [Paper Note] DeepSeek-V3 Technical Report, DeepSeek-AI+, arXiv'24, 2024.12

[Paper Note] Olmo 3, Team Olmo+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #Reasoning #OpenWeight #OpenSource #read-later #Selected Papers/Blogs Issue Date: 2025-11-20 GPT Summary- Olmo 3は、7Bおよび32Bパラメータの完全オープンな言語モデルファミリーで、長文コンテキスト推論やコーディングなどに対応。全ライフサイクルの情報が含まれ、特にOlmo 3 Think 32Bは最も強力な思考モデルとして注目される。 Comment

元ポスト:

Loading…

解説:

Loading…

post-LN transformer

OLMo2:
- OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini, AllenAI, 20250.3

ポイント解説:

Loading…

official livestream video:

Loading…

解説:

Loading…

Qwen3-32Bと同等の性能を達成している。そしてそれがオープンソース、素晴らしい。読むべし！！

Olmo3のライセンスに関する以下のような懸念がある:

Loading…

ポイント解説:

Loading…

[Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #PostTraining #Selected Papers/Blogs #Stability #train-inference-gap #LowPrecision #Author Thread-Post Issue Date: 2025-11-01 GPT Summary- 強化学習による大規模言語モデルのファインチューニングにおける不安定性は、トレーニングポリシーと推論ポリシーの数値的不一致に起因する。従来の対策は効果が薄かったが、本研究ではFP16に戻すことでこの問題を解決できることを示した。この変更は簡単で、モデルやアルゴリズムの修正を必要とせず、安定した最適化と速い収束を実現し、多様なタスクで強力なパフォーマンスを発揮することが確認された。 Comment

元ポスト:

Loading…

RL学習時の浮動小数点数表現をbf16からfp16に変更するシンプルな変更で、訓練-推論時のgapが小さくなり学習が改善する、という話らしい。

ポイント解説:

Loading…

所見:

Loading…

解説:

Loading…

解説:

Loading…

verlはFP16での学習をサポートしていないので著者がパッチを出した模様:

Loading…

[Paper Note] Kimi Linear: An Expressive, Efficient Attention Architecture, Kimi Team+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Attention #LongSequence #OpenWeight #Architecture #read-later #Selected Papers/Blogs #Hybrid #LinearAttention Issue Date: 2025-10-31 GPT Summary- Kimi Linearは、短・長コンテキスト及び強化学習のシナリオにおいてフルアテンションを超えるハイブリッドな線形アテンションアーキテクチャです。Kimi Delta Attention（KDA）を核とし、ゲーティング機構を拡張した線形アテンションモジュールで、RNNのメモリをより有効利用します。特注のチャンク単位アルゴリズムにより、DPLR遷移行列の効率を向上させ、計算量を大幅に削減します。Kimi Linearモデルは48Bパラメータで事前学習され、評価タスクでMLAを大きく上回り、KVキャッシュ使用量を75％削減し、デコードスループットを6倍向上させました。これにより、フルアテンションアーキテクチャの優れた代替として機能し、長い入力・出力タスクに対応可能であることが示されています。 Comment

HF: https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

元ポスト:

Loading…

所見:

Loading…

所見:

Loading…

アーキテクチャ解説:

Loading…

KDAとFull Attention, Sliding Window Attentionの比較:

Loading…

Full Attentionと同等の性能をより効率良く達成できる

[Paper Note] Jet-Nemotron: Efficient Language Model with Post Neural Architecture Search, Yuxian Gu+, arXiv'25

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #NeuralArchitectureSearch #SmallModel #Author Thread-Post Issue Date: 2025-08-26 GPT Summary- Jet-Nemotronは新しいハイブリッドアーキテクチャの言語モデルで、フルアテンションモデルと同等以上の精度を持ちながら生成スループットを大幅に改善します。Post Neural Architecture Search（PostNAS）を用いて開発され、事前トレーニングされたモデルから効率的にアテンションブロックを探索します。Jet-Nemotron-2Bモデルは、他の先進モデルに対して高い精度を達成し、生成スループットを最大53.6倍向上させました。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

解説:

Loading…

所見:

Loading…

解説:

Loading…

続報:

Loading…

コードとチェックポイントがリリース

code: https://github.com/NVlabs/Jet-Nemotron
HF: https://huggingface.co/collections/jet-ai/jet-nemotron-68ac76e8356b5399ef83ac9c

[Paper Note] DINOv3, Oriane Siméoni+, arXiv'25, 2025.08

Paper/Blog Link My Issue
#ComputerVision #Self-SupervisedLearning #Distillation #Regularization #read-later #Selected Papers/Blogs #Backbone #One-Line Notes #needs-revision Issue Date: 2025-08-14 GPT Summary- 自己教師付き学習は、手動でのデータ注釈を不要とし、モデルのスケーラビリティを向上させる。DINOv3は、様々なデータソースから視覚表現を学ぶための新たな枠組みを提供し、データセットとモデルサイズの拡張や密な特徴マップの劣化問題に対処する「グラム・アンカリング」を導入。また、後処理戦略により柔軟性を高め、ファインチューニングなしで様々な設定で最先端の性能を発揮する。DINOv3は高品質な特徴量を生成し、広範な視覚タスクにおいて優れた結果を示し、多様なデプロイメントシナリオに対応するソリューションを提供する。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/docs/transformers/main/en/model_doc/dinov3

解説:

Loading…

サマリ:

Loading…

v2:
- [Paper Note] DINOv2: Learning Robust Visual Features without Supervision, Maxime Oquab+, TMLR'24

本日配信された岡野原氏のランチタイムトークによると、学習が進んでいくと全部の特徴量が似通ってきてしまう問題があったが、Gram Anchoringと呼ばれる、学習初期時点でのパッチ間の類似度度行列を保持しておき正則化として損失に加えることで、そこから離れすぎないように学習するといった工夫を実施しているとのこと。

詳細な日本語解説: https://zenn.dev/syu_tan/articles/6df2947eb6c1ae

Gram Anchoringの気持ちとしては、長期で学習をすると、モデルがグローバルな特徴量を学習可能だが、個々のパッチレベルや密な部分のローカルな特徴量が失われていってしまい、ローカルな特徴が重要なdownstreamタスクの性能が劣化するため、これをなんとかしたい。そのために、画像全体のパッチ間の類似度行列によって、パッチ全体の類似度の構造を捉え、学習初期の高品質なローカルな特徴を捉えられたモデルを教師とし、そこから離れすぎないように学習中のモデルを生徒として正則化することで解決する、というものだと思われる。

事前学習のスケジューラーの工夫として以下を実施している:
- 事前学習の終了タイミングを事前に予測することは困難
- →事前に総ステップ数を指定しなければならないパラメータのスケジューリングはそもそも困難
- →スケジューリングを廃止する
- スケジューリングを廃止する代わりに
- 学習率とweight decay、teacher EMAのmomentumを固定して学習を実施
-

[Paper Note] Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL, Jiaxuan Gao+, arXiv'25, 2025.08

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Search #LanguageModel #ReinforcementLearning #AIAgents #Selected Papers/Blogs #KeyPoint Notes #Asynchronous #Author Thread-Post Issue Date: 2025-08-14 GPT Summary- ASearcherは、LLMベースの検索エージェントの大規模なRLトレーニングを実現するオープンソースプロジェクトであり、高効率な非同期RLトレーニングと自律的に合成された高品質なQ&Aデータセットを用いて、検索能力を向上させる。提案されたエージェントは、xBenchで46.7%、GAIAで20.8%の改善を達成し、長期的な検索能力を示した。モデルとデータはオープンソースで提供される。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

解説ポスト:

Loading…

既存のモデルは <= 10 turnsのデータで学習されており、大規模で高品質なQAデータが不足している問題があったが、シードQAに基づいてQAを合成する手法によって1.4万シードQAから134kの高品質なQAを合成した（うち25.6kはツール利用が必要）。具体的には、シードのQAを合成しエージェントがQAの複雑度をiterationをしながら向上させていく手法を提案。事実情報は常にverificationをされ、合成プロセスのiterationの中で保持され続ける。個々のiterationにおいて、現在のQAと事実情報に基づいて、エージェントは
- Injection: 事実情報を新たに注入しQAをよりリッチにすることで複雑度を上げる
- Fuzz: QA中の一部の詳細な情報をぼかすことで、不確実性のレベルを向上させる。
の2種類の操作を実施する。その上で、QAに対してQuality verificationを実施する:
- Basic Quality: LLMでqualityを評価する
- Difficulty Measurement: LRMによって、複数の回答候補を生成する
- Answer Uniqueness: Difficulty Measurementで生成された複数の解答情報に基づいて、mismatched answersがvalid answerとなるか否かを検証し、正解が単一であることを担保する

また、複雑なタスク、特にtool callsが非常に多いタスクについては、多くのターン数（long trajectories）が必要となるが、既存のバッチに基づいた学習手法ではlong trajectoriesのロールアウトをしている間、他のサンプルの学習がブロックされてしまい学習効率が非常に悪いので、バッチ内のtrajectoryのロールアウトとモデルの更新を分離（ロールアウトのリクエストが別サーバに送信されサーバ上のInference Engineで非同期に実行され、モデルをアップデートする側は十分なtrajectoryがバッチ内で揃ったらパラメータを更新する、みたいな挙動？）することでIdleタイムを無くすような手法を提案した模様。

既存の手法ベンチマークの性能は向上している。学習が進むにつれて、trajectory中のURL参照回数やsearch query数などが増大していく曲線は考察されている。他モデルと比較して、より多いターン数をより高い正確性を以って実行できるといった定量的なデータはまだ存在しないように見えた。

[Paper Note] Small Batch Size Training for Language Models: When Vanilla SGD Works, and Why Gradient Accumulation Is Wasteful, Martin Marek+, arXiv'25

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Batch #One-Line Notes Issue Date: 2025-07-12 GPT Summary- 小さなバッチサイズに対するAdamのハイパーパラメータをスケーリングする新しいルールを提案。これにより、小さなバッチサイズでも安定したトレーニングが可能で、大きなバッチサイズと同等以上のパフォーマンスを達成。勾配蓄積は推奨せず、実用的なハイパーパラメータ設定のガイドラインを提供。 Comment

元ポスト:

Loading…

論文中のFigure1において、AdamWにおいてbatchsizeが1の方が512の場合と比べてlearning_rateの変化に対してロバストである旨が記述されている。

似たような話でMTでバッチサイズ小さいほうが性能良いです、みたいな話が昔あったような

（追記）
気になって思い出そうとしていたが、MTではなく画像認識の話だったかもしれない（だいぶうろ覚え）
- [Paper Note] Revisiting Small Batch Training for Deep Neural Networks, Dominic Masters+, arXiv'18

参考:

Loading…

解説:

Loading…

実際に8Bモデルの事前学習においてβ2を0.99にしたところ、学習が不安定になり、かつ最終的なPerplexityも他の設定に勝つことができなかったとのこと:

Loading…

[Paper Note] Mercury: Ultra-Fast Language Models Based on Diffusion, Inception Labs+, arXiv'25

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #DiffusionModel #Initial Impression Notes Issue Date: 2025-06-25 GPT Summary- 新しい拡散型大規模言語モデルMercuryを発表。特にコーディングアプリケーション向けのMercury Coderは、MiniとSmallの2サイズで提供され、速度と品質で最先端を達成。独立評価では、Mercury Coder Miniが1109トークン/秒、Smallが737トークン/秒を記録し、他のモデルを大幅に上回る性能を示す。さらに、実世界での検証結果や公開API、無料プレイグラウンドも提供。 Comment

元ポスト:

Loading…

スループット（モデルのトークン生成速度）が、SoTAらしいdLLMモデル

解説:

Loading…

[Paper Note] VGGT: Visual Geometry Grounded Transformer, Jianyuan Wang+, CVPR'25

Paper/Blog Link My Issue
#ComputerVision #Transformer #CVPR #read-later #Selected Papers/Blogs #3D Reconstruction #Backbone Issue Date: 2025-06-22 GPT Summary- VGGTは、シーンの主要な3D属性を複数のビューから直接推測するフィードフォワードニューラルネットワークであり、3Dコンピュータビジョンの分野において新たな進展を示します。このアプローチは効率的で、1秒未満で画像を再構築し、複数の3Dタスクで最先端の結果を達成します。また、VGGTを特徴バックボーンとして使用することで、下流タスクの性能が大幅に向上することが示されています。コードは公開されています。 Comment

元ポスト:

Loading…

様々な研究のBackboneとして活用されている。

[Paper Note] Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities, Gheorghe Comanici+, arXiv'25, 2025.07

Paper/Blog Link My Issue
#NLP #LanguageModel #Proprietary #read-later Issue Date: 2025-06-18 GPT Summary- Gemini 2.X モデルファミリーには、Gemini 2.5 ProとGemini 2.5 Flash、さらにGemini 2.0 FlashおよびFlash-Liteが含まれ、高性能なコーディングと推論能力を持つ。特にGemini 2.5 Proは、最大3時間の動画処理が可能で、マルチモーダル理解が強化されており、新たなワークフローを創出する。Gemini 2.5 Flashは限られたリソースで優れた推論を実現し、低遅延・低コストのモデルも高性能を提供。全体として、Gemini 2.Xは幅広い能力とコストの選択肢を提供し、エージェント性問題解決の新たな可能性を探る。 Comment

[Paper Note] Reinforcement Pre-Training, Qingxiu Dong+, arXiv'25, 2025.06

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #ReinforcementLearning Issue Date: 2025-06-12 GPT Summary- Reinforcement Pre-Training（RPT）を導入し、次トークン予測を強化学習（RL）による推論タスクに再定式化。文脈に応じた正確な予測に対して報酬を与えることで、言語モデルの精度を向上。大規模テキストデータを活用し、強化微調整の基盤を提供することで、次トークン推論の精度が向上することを示した。 Comment

元ポスト:

Loading…

[Paper Note] Horizon Reduction Makes RL Scalable, Seohong Park+, NeurIPS'25 Spotlight

Paper/Blog Link My Issue
#Analysis #MachineLearning #LanguageModel #ReinforcementLearning #Selected Papers/Blogs #Off-Policy #Scalability Issue Date: 2025-06-10 GPT Summary- 本研究では、オフライン強化学習（RL）のスケーラビリティを検討し、既存のアルゴリズムが大規模データセットに対して期待通りの性能を発揮しないことを示しました。特に、長いホライズンがスケーリングの障壁であると仮定し、ホライズン削減技術がスケーラビリティを向上させることを実証しました。新たに提案した手法SHARSAは、ホライズンを削減しつつ優れたパフォーマンスを達成し、オフラインRLのスケーラビリティを向上させることを示しました。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=hguaupzLCU

[Paper Note] Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning, Yinjie Wang+, NeurIPS'25 Spotlight

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Coding #SoftwareEngineering #UnitTest #Author Thread-Post Issue Date: 2025-06-05 GPT Summary- CUREは、コーディングとユニットテスト生成を共進化させる強化学習フレームワークで、真のコードを監視せずにトレーニングを行う。ReasonFlux-Coderモデルは、コード生成精度を向上させ、下流タスクにも効果的に拡張可能。ユニットテスト生成では高い推論効率を達成し、強化学習のための効果的な報酬モデルとして機能する。 Comment

元ポスト:

Loading…

UnitTestの性能向上させます系の研究が増えてきている感

[Paper Note] Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem, Yubo Wang+, EMNLP'25

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Supervised-FineTuning (SFT) #EMNLP #Author Thread-Post Issue Date: 2025-06-05 GPT Summary- 本研究では、強力な大規模言語モデル（LLM）の推論能力を引き出すために、批評微調整（CFT）が効果的であることを示します。CFTは、単一の問題に対する多様な解を収集し、教師LLMによる批評データを構築する手法です。QwenおよびLlamaモデルを微調整した結果、数学や論理推論のベンチマークで顕著な性能向上を観察しました。特に、わずか5時間のトレーニングで、Qwen-Math-7B-CFTは他の手法と同等以上の成果を上げました。CFTは計算効率が高く、現代のLLMの推論能力を引き出すためのシンプルなアプローチであることが示されました。 Comment

元ポスト:

Loading…

参考:

Loading…

[Paper Note] ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models, Mingjie Liu+, NeurIPS'25

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #NeurIPS #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-06-04 GPT Summary- 強化学習（RL）が言語モデルの推論能力を向上させる可能性を探る本研究では、長期的なRL（ProRL）トレーニングが新しい推論戦略を明らかにできることを示します。新しいトレーニング手法ProRLを導入し、実証分析により、RLでトレーニングされたモデルが基礎モデルを上回ることが確認されました。推論の改善は基礎モデルの能力やトレーニング期間と相関しており、RLが新しい解決空間を探索できることを示唆しています。これにより、RLが言語モデルの推論を拡張する条件に関する新たな洞察が得られ、今後の研究の基盤が築かれます。モデルの重みは公開されています。 Comment

元ポスト:

Loading…

RLVR（math, code（従来はこの2種類）, STEM, logic Puzzles, instruction following）によって大規模なスケール（長期的に学習をする; 2k training stepsと多様なタスクでの学習データ）で実験をし、定期的にReferenceポリシーとOptimizerをリセットすることで、元のポリシーからの乖離を防ぎつつも、新たな学習が進むようなことをしている模様。
（※PFNのランチタイムトークを参考に記述）

verlを用いて、DAPOで学習をしている。

- verl: Volcano Engine Reinforcement Learning for LLMs, ByteDance Seed Team, 2025.04
- [Paper Note] DAPO: An Open-Source LLM Reinforcement Learning System at Scale, Qiying Yu+, NeurIPS'25

openreview: https://openreview.net/forum?id=YPsJha5HXQ&referrer=%5Bthe%20profile%20of%20Shizhe%20Diao%5D(%2Fprofile%3Fid%3D~Shizhe_Diao2)

[Paper Note] Parallel Scaling Law for Language Models, Mouxiang Chen+, arXiv'25, 2025.05

Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #NLP #LanguageModel #Scaling Laws #Initial Impression Notes Issue Date: 2025-05-21 GPT Summary- 言語モデルのスケーリングにおいて、パラメータや出力トークンの増加に伴うコストを軽減する新たなアプローチ「並列スケーリング（ParScale）」を提案。モデルの並列計算を増やし、$P$ 個の多様な変換を実行することで、推論効率を向上させ、$O(\log P)$ のパラメータスケーリングと同等の効果を実現。メモリ増加を最大22倍、レイテンシを最大6倍削減可能。少量のトークンでのポストトレーニングを通じて、既製のモデルを再利用可能で、より強力なモデルの展開を促進。 Comment

元ポスト:

Loading…

- [Paper Note] Prefix-Tuning: Optimizing Continuous Prompts for Generation, Xiang Lisa Li+, arXiv'21, 2021.01

と考え方が似ている

[Paper Note] Model Merging in Pre-training of Large Language Models, Yunshui Li+, arXiv'25, 2025.05

Paper/Blog Link My Issue
#Pretraining #MachineLearning #NLP #LanguageModel #ModelMerge Issue Date: 2025-05-20 GPT Summary- モデルマージは大規模言語モデルの性能向上に有望だが、事前学習での探究は不十分。本研究では、DenseおよびMixture-of-Expertsアーキテクチャでのモデルマージ手法を検討し、一定の学習率でのチェックポイントのマージが性能を著しく改善し、学習率のアニーリング挙動を予測可能にすることを示した。これにより、モデル開発とトレーニングコストの効率化が可能となる。包括的な実験分析を通じて、効果的なモデルマージのための実践的なガイドラインを提供。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…

[Paper Note] Faster Cascades via Speculative Decoding, Harikrishna Narasimhan+, ICLR'25

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ICLR #Test-Time Scaling #Decoding #Verification #SpeculativeDecoding Issue Date: 2025-05-13 GPT Summary- カスケードと推測デコーディングは、言語モデルの推論効率を向上させる手法であり、異なるメカニズムを持つ。カスケードは難しい入力に対して大きなモデルを遅延的に使用し、推測デコーディングは並行検証で大きなモデルを活用する。新たに提案する推測カスケーディング技術は、両者の利点を組み合わせ、最適な遅延ルールを特定する。実験結果は、提案手法がカスケードおよび推測デコーディングのベースラインよりも優れたコスト品質トレードオフを実現することを示した。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=vo9t20wsmd

[Paper Note] Reinforcement Learning for Reasoning in Large Language Models with One Training Example, Yiping Wang+, arXiv'25, 2025.04

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #NeurIPS #read-later #One-Line Notes #Author Thread-Post Issue Date: 2025-05-09 GPT Summary- 1-shot RLVRを用いることで、大規模言語モデルの数学的推論能力が向上することを示した。Qwen2.5-Math-1.5BにRLVRを適用し、MATH500の性能を36.0%から73.6%に引き上げたほか、6つの一般的な数学的推論ベンチマークも改善。異なるモデルやRLアルゴリズムでも顕著な向上が観察され、訓練精度の飽和後もテスト性能が持続改善する現象が見られた。これらの知見は、RLVRの効率性に関する今後の研究を促進する重要な要素であり、全リソースはオープンソースで公開されている。 Comment

下記ポストでQwenに対してpromptを適切に与えることで、追加のpost training無しで高い数学に関する能力を引き出せたという情報がある。おそらく事前学習時に数学のQAデータによって継続事前学習されており、この能力はその際に身についているため、数学に対する高い能力は実は簡単に引き出すことができるのかもしれない（だから1サンプルでも性能が向上したのではないか？）といった考察がある。

参考:

Loading…

- [Paper Note] ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models, Mingjie Liu+, NeurIPS'25

とはどのような関係性があるだろうか？

著者ポスト:

Loading…

openreview: https://openreview.net/forum?id=IBrRNLr6JA

[Paper Note] Phi-4-reasoning Technical Report, Marah Abdin+, arXiv'25, 2025.04

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #SmallModel #OpenWeight #GRPO #One-Line Notes #Author Thread-Post Issue Date: 2025-05-01 GPT Summary- 140億パラメータの推論モデルPhi-4-reasoningは、慎重に選ばれた「teachable」プロンプトセットと監視付きファインチューニングを通じて訓練され、詳細な推論チェーンを生成します。そのバリエーションであるPhi-4-reasoning-plusは、短期間の強化学習を経て、より長い推論トレースを生成し高性能を実現。これらのモデルは、DeepSeek-R1-Distill-Llama-70Bモデルを超え、完全版DeepSeek-R1に近い性能を示します。評価は数学的・科学的推論や一般目的のベンチマークを含み、データ精選の利点と強化学習の影響を示唆しています。 Comment

元ポスト:

Loading…

こちらの解説が非常によくまとまっている:

Loading…

が、元ポストでもテクニカルペーパー中でもo3-miniのreasoning traceをSFTに利用してCoTの能力を強化した旨が記述されているが、これはOpenAIの利用規約に違反しているのでは…？

[Paper Note] AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models, Junfeng Fang+, ICLR'25

Paper/Blog Link My Issue
#NLP #LanguageModel #ICLR #KnowledgeEditing #One-Line Notes #Initial Impression Notes Issue Date: 2025-04-30 GPT Summary- AlphaEditは、LLMsの知識を保持しつつ編集を行う新しい手法で、摂動を保持された知識の零空間に投影することで、元の知識を破壊する問題を軽減します。実験により、AlphaEditは従来の位置特定-編集手法の性能を平均36.7%向上させることが確認されました。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=HvSytvg3Jh

MLPに新たな知識を直接注入する際に（≠contextに含める）既存の学習済みの知識を破壊せずに注入する手法（破壊しないことが保証されている）を提案しているらしい

将来的には、LLMの1パラメータあたりに保持できる知識量がわかってきているので、MLPの零空間がN GBのモデルです、あなたが注入したいドメイン知識の量に応じて適切な零空間を持つモデルを選んでください、みたいなモデルが公開される日が来るのだろうか。

ポイント解説:

Loading…

[Paper Note] Learning Dynamics of LLM Finetuning, Yi Ren+, ICLR'25 Outstanding Paper Award

Paper/Blog Link My Issue
#Analysis #MachineLearning #NLP #LanguageModel #Alignment #Hallucination #ICLR #DPO #Repetition #Selected Papers/Blogs #Author Thread-Post Issue Date: 2025-04-18 GPT Summary- 本研究では、大規模言語モデルのファインチューニング中の学習ダイナミクスを分析し、異なる応答間の影響の蓄積を段階的に解明します。指示調整と好み調整のアルゴリズムに関する観察を統一的に解釈し、ファインチューニング後の幻覚強化の理由を仮説的に説明します。また、オフポリシー直接好み最適化（DPO）における「圧縮効果」を強調し、望ましい出力の可能性が低下する現象を探ります。このフレームワークは、LLMのファインチューニング理解に新たな視点を提供し、アラインメント性能向上のためのシンプルな方法を示唆します。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…

[Paper Note] Scalable-Softmax Is Superior for Attention, Ken M. Nakanishi, arXiv'25, 2025.01

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Transformer #LongSequence #Architecture Issue Date: 2025-04-06 GPT Summary- SSMaxを提案し、Softmaxの代替としてTransformerモデルに統合。これにより、長いコンテキストでの重要情報の取得が向上し、事前学習中の損失減少が速くなる。SSMaxは注意スコアを改善し、長さの一般化を促進する。 Comment

- Llama 4 Series, Meta, 2025.04

で採用されている手法で、ブログポスト中で引用されている。Long Contextになった場合にsoftmaxの分布が均一になる（＝重要な情報にattendする能力が削がれる）ことを防ぐための手法を提案している。

解説ポスト:

Loading…

[Paper Note] Qwen2.5-Omni Technical Report, Jin Xu+, arXiv'25, 2025.03

Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #Speech #OpenWeight #2D (Image) #4D (Video) #Omni #One-Line Notes #audio #text Issue Date: 2025-03-31 GPT Summary- Qwen2.5-Omniは、テキスト、画像、音声、映像を同時に認識し、自然な音声応答をストリーミング生成するエンドツーエンドのマルチモーダルモデルです。音声と映像の同期には新しい位置埋め込み手法TMRoPEを導入し、Thinker-Talkerアーキテクチャにより干渉を避けつつ同時生成を実現。ストリーミング音声トークンのデコードにはスライディングウィンドウDiTを用いて初期遅延を削減。Qwen2.5-Omniは、マルチモーダルベンチマークで最先端の性能を示し、音声生成の自然さにおいて既存手段を上回ります。 Comment

Qwen TeamによるマルチモーダルLLM。テキスト、画像、動画音声をinputとして受け取り、テキスト、音声をoutputする。

weight: https://huggingface.co/collections/Qwen/qwen25-omni-67de1e5f0f9464dc6314b36e

元ポスト: https://www.linkedin.com/posts/niels-rogge-a3b7a3127_alibabas-qwen-team-has-done-it-again-this-activity-7311036679627132929-HUqy?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

[Paper Note] Measuring AI Ability to Complete Long Tasks, Thomas Kwa+, arXiv'25, 2025.03

Paper/Blog Link My Issue
#Metrics #NLP #LanguageModel #GenerativeAI #Evaluation #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-03-31 GPT Summary- 新しい指標「50%-タスク完了時間ホライズン」を提案し、AIモデルの能力を人間の観点から定量化。Claude 3.7 Sonnetは約50分の時間ホライズンを持ち、AIの能力は2019年以降約7か月ごとに倍増。信頼性や論理的推論の向上が要因とされ、5年以内にAIが多くのソフトウェアタスクを自動化できる可能性を示唆。 Comment

元ポスト:

Loading…

確かに線形に見える。てかGPT-2と比べるとAIさん進化しすぎである…。

利用したデータセットは
- HCAST: 46のタスクファミリーに基づく97種類のタスクが定義されており、たとえばサイバーセキュリティ、機械学習、ソフトウェアエンジニアリング、一般的な推論タスク（wikipediaから事実情報を探すタスクなど）などがある
- 数分で終わるタスク: 上述のwikipedia
- 数時間で終わるタスク: Pytorchのちょっとしたバグ修正など
- 数文でタスクが記述され、コード、データ、ドキュメント、あるいはwebから入手可能な情報を参照可能
　- タスクの難易度としては当該ドメインに数年間携わった専門家が解ける問題
- RE-Bench Suite
- 7つのopen endedな専門家が8時間程度を要するMLに関するタスク
　- e.g., GPT-2をQA用にFinetuningする, Finetuningスクリプトが与えられた時に挙動を変化させずにランタイムを可能な限り短縮する、など
　- [RE-Bench Technical Report]( https://metr.org/AI_R_D_Evaluation_Report.pdf)のTable2等を参照のこと
- SWAA Suite: 66種類の1つのアクションによって1分以内で終わるソフトウェアエンジニアリングで典型的なタスク
- 1分以内で終わるタスクが上記データになかったので著者らが作成

であり、画像系やマルチモーダルなタスクは含まれていない。

タスクと人間がタスクに要する時間の対応に関するサンプルは下記

タスク-エージェントペアごとに8回実行した場合の平均の成功率。確かにこのグラフからはN年後には人間で言うとこのくらいの能力の人がこのくらい時間を要するタスクが、このくらいできるようになってます、といったざっくり感覚値はなかなか想像できない。

成功率とタスクに人間が要する時間に関するグラフ。ロジスティック関数でfittingしており、赤い破線が50% horizon。Claude 3.5 Sonnet （old）からClaude 3.7 Sonnetで50% horizonは18分から59分まで増えている。実際に数字で見るとイメージが湧きやすくおもしろい。

こちらで最新モデルも随時更新される:
https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

[Paper Note] DAPO: An Open-Source LLM Reinforcement Learning System at Scale, Qiying Yu+, NeurIPS'25

Paper/Blog Link My Issue
#MachineLearning #LanguageModel #ReinforcementLearning #Reasoning #LongSequence #NeurIPS #GRPO #read-later #Selected Papers/Blogs #One-Line Notes #Author Thread-Post Issue Date: 2025-03-20 GPT Summary- 推論スケーリングによりLLMの推論能力が向上し、強化学習が複雑な推論を引き出す技術となる。しかし、最先端の技術詳細が隠されているため再現が難しい。そこで、$\textbf{DAPO}$アルゴリズムを提案し、Qwen2.5-32Bモデルを用いてAIME 2024で50ポイントを達成。成功のための4つの重要技術を公開し、トレーニングコードと処理済みデータセットをオープンソース化することで再現性を向上させ、今後の研究を支援する。 Comment

既存のreasoning modelのテクニカルレポートにおいて、スケーラブルなRLの学習で鍵となるレシピは隠されていると主張し、実際彼らのbaselineとしてGRPOを走らせたところ、DeepSeekから報告されているAIME2024での性能（47ポイント）よりもで　大幅に低い性能（30ポイント）しか到達できず、分析の結果3つの課題（entropy collapse, reward noise, training instability）を明らかにした（実際R1の結果を再現できない報告が多数報告されており、重要な訓練の詳細が隠されているとしている）。

その上で50%のtrainikg stepでDeepSeek-R1-Zero-Qwen-32Bと同等のAIME 2024での性能を達成できるDAPOを提案。そしてgapを埋めるためにオープンソース化するとのこと。

ちとこれはあとでしっかり読みたい。重要論文。

プロジェクトページ: https://dapo-sia.github.io/

こちらにアルゴリズムの重要な部分の概要が説明されている。

解説ポスト:

Loading…

コンパクトだが分かりやすくまとまっている。

下記ポストによると、Reward Scoreに多様性を持たせたい場合は3.2節参照とのこと。
すなわち、Dynamic Samplingの話で、Accが全ての生成で1.0あるいは0.0となるようなpromptを除外するといった方法の話だと思われる。
これは、あるpromptに対する全ての生成で正解/不正解になった場合、そのpromptに対するAdvantageが0となるため、ポリシーをupdateするためのgradientも0となる。そうすると、このサンプルはポリシーの更新に全く寄与しなくなるため、同バッチ内のノイズに対する頑健性が失われることになる。サンプル効率も低下する。特にAccが1.0になるようなpromptは学習が進むにつれて増加するため、バッチ内で学習に有効なpromptは減ることを意味し、gradientの分散の増加につながる、といったことらしい。

関連ポスト:

Loading…

色々な研究で広く使われるのを見るようになった。

著者ポスト:

Loading…

openreview: https://openreview.net/forum?id=2a36EMSSTp&referrer=%5Bthe%20profile%20of%20Ruofei%20Zhu%5D(%2Fprofile%3Fid%3D~Ruofei_Zhu1)

All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning, Gokul Swamy+, arXiv'25

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #RLHF #Initial Impression Notes Issue Date: 2025-03-17 GPT Summary- 基盤モデルのファインチューニングにおいて、報酬モデルを用いた二段階のトレーニング手順が効果的である理由を理論的および実証的に検討。特に、好みデータから単純な報酬モデルを学び、強化学習手続きがそのモデルに最適なポリシーをフィルタリングする能力が、オンラインファインチューニングの優れたパフォーマンスに寄与することが示された。 Comment

元ポスト:

Loading…

AlignmentのためのPreferenceデータがある時に、そのデータから直接最尤推定してモデルのパラメータを学習するのではなく、報酬モデルを学習して、その報酬モデルを用いてモデルを強化学習することで、なぜ前者よりも（同じデータ由来であるにもかかわらず）優れたパフォーマンスを示すのか、という疑問に対してアプローチしている。

全く中身を読めていないが、生成することと（方策モデル）と検証すること（報酬モデル）の間にギャップがある場合（すなわち、生成と検証で求められる能力が異なる場合）、MLEでは可能なすべてのポリシーを探索することと似たようなことをすることになるが、RLでは事前に報酬モデルを学習しその報酬モデルに対して最適なポリシーを探索するだけなので探索する空間が制限される（＝生成と検証のギャップが埋まる）ので、良い解に収束しやすくなる、というイメージなんだろうか。

[Paper Note] Large Language Diffusion Models, Shen Nie+, NeurIPS'25

Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #DiffusionModel #NeurIPS Issue Date: 2025-03-02 GPT Summary- LLaDAは、自己回帰モデル（ARMs）に代わる拡散モデルであり、ゼロから訓練され、データマスキングを通じて分布をモデル化。広範なベンチマークで強力なスケーラビリティを示し、自己構築したARMベースラインを上回る。特に、LLaDA 8Bは文脈内学習や指示追従能力に優れ、逆詩の完成タスクでGPT-4oを超える性能を発揮。拡散モデルがARMsの実行可能な代替手段であることを示す。 Comment

元ポスト:

Loading…

参考:

Loading…

openreview(ICLR'25): https://openreview.net/forum?id=W2tWu0aikL

pj page: https://ml-gsai.github.io/LLaDA-demo/

openreview(NeurIPS'25): https://openreview.net/forum?id=KnqiC0znVF

[Paper Note] Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention, Jingyang Yuan+, ACL'25

Paper/Blog Link My Issue
#EfficiencyImprovement #MachineLearning #NLP #LanguageModel #Attention #ACL #read-later #One-Line Notes Issue Date: 2025-03-02 GPT Summary- 長文コンテキストモデリングのために、計算効率を改善するスパースアテンションメカニズム「NSA」を提案。NSAは動的な階層スパース戦略を用い、トークン圧縮と選択を組み合わせてグローバルなコンテキスト認識とローカルな精度を両立。実装最適化によりスピードアップを実現し、エンドツーエンドのトレーニングを可能にすることで計算コストを削減。NSAはフルアテンションモデルと同等以上の性能を維持しつつ、長シーケンスに対して大幅なスピードアップを達成。 Comment

元ポスト:

Loading…

ACL'25のBest Paperの一つ:

Loading…

[Paper Note] On Teacher Hacking in Language Model Distillation, Daniil Tiapkin+, arXiv'25, 2025.02

Paper/Blog Link My Issue
#NLP #LanguageModel #Distillation #ICML #TeacherHacking #Reading Reflections Issue Date: 2025-02-10 GPT Summary- LMのポストトレーニングは、知識蒸留とRLHFに依存し、報酬ハッキングの課題を指摘。教師LMからの「教師ハッキング」が存在することを検証。実験では、固定オフラインデータで教師ハッキングが発生し、多項式収束法則から逸脱することを観測。オンラインデータ生成技術がハッキングを緩和できることを示し、データの多様性が重要な要因であると結論。これにより、LM構築の蒸留の利点と限界が明らかに。 Comment

元ポスト:

Loading…

自分で蒸留する機会は今のところないが、覚えておきたい。過学習と一緒で、こういう現象が起こるのは想像できる。

openreview: https://openreview.net/forum?id=qxSFIigPug¬eId=CAgFzoMVit

[Paper Note] s1: Simple test-time scaling, Niklas Muennighoff+, EMNLP'25, 2025.01

Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #EMNLP #Test-Time Scaling #read-later #Selected Papers/Blogs Issue Date: 2025-02-07 GPT Summary- 推論時スケーリングは、追加計算資源を使って言語モデルの性能を向上させる新アプローチ。OpenAIのo1モデルの手法が公表されず、再現試行が進む中、シンプルな手法を提案。1000問の小規模データセットs1Kを作成し、推論過程を管理する「予算強制」を導入。これによりモデルは誤った推論を修正し、s1Kで微調整後、o1-previewモデルを最大27%上回る性能を実現。s1-32Bモデルは推論時介入なしで性能を外挿し、AIME24で57%に達する。モデルとデータはオープンソースで提供。 Comment

解説:

Loading…

[Paper Note] SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training, Tianzhe Chu+, ICML'25

Paper/Blog Link My Issue
#ComputerVision #Analysis #MachineLearning #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #ICML #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2025-01-30 GPT Summary- SFTとRLの一般化能力の違いを研究し、GeneralPointsとV-IRLを用いて評価。RLはルールベースのテキストと視覚変種に対して優れた一般化を示す一方、SFTは訓練データを記憶し分布外シナリオに苦労。RLは視覚認識能力を向上させるが、SFTはRL訓練に不可欠であり、出力形式を安定させることで性能向上を促進。これらの結果は、複雑なマルチモーダルタスクにおけるRLの一般化能力を示す。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=dYur3yabMj&referrer=%5Bthe%20profile%20of%20Yi%20Ma%5D(%2Fprofile%3Fid%3D~Yi_Ma4)

[Paper Note] Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws, Zeyuan Allen-Zhu+, N_A, ICLR'25

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #SyntheticData #ICLR Issue Date: 2024-04-15 GPT Summary- 言語モデルのサイズと能力の関係を記述するスケーリング則に焦点を当てた研究。モデルが格納する知識ビット数を推定し、事実知識をタプルで表現。言語モデルは1つのパラメータあたり2ビットの知識を格納可能であり、7Bモデルは14Bビットの知識を格納可能。さらに、トレーニング期間、モデルアーキテクチャ、量子化、疎な制約、データの信号対雑音比が知識格納容量に影響することを示唆。ロータリー埋め込みを使用したGPT-2アーキテクチャは、知識の格納においてLLaMA/Mistralアーキテクチャと競合する可能性があり、トレーニングデータにドメイン名を追加すると知識容量が増加することが示された。 Comment

参考:

Loading…

解説:
- 言語モデルの物理学, 佐藤竜馬, 2025.03

openreview: https://openreview.net/forum?id=FxNNiUgtfa

[Paper Note] Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data, Fahim Tajwar+, ICML'24

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Alignment #ReinforcementLearning #PPO (ProximalPolicyOptimization) #ICML #DPO #On-Policy Issue Date: 2025-06-25 GPT Summary- 好みのラベルを用いた大規模言語モデルのファインチューニングに関する研究。オンポリシー強化学習や対照学習などの手法を比較し、オンポリシーサンプリングや負の勾配を用いるアプローチが優れていることを発見。これにより、カテゴリ分布の特定のビンにおける確率質量を迅速に変更できるモード探索目的の重要性を示し、データ収集の最適化に関する洞察を提供。 Comment

以下のオフライン vs. オンラインRLアルゴリズムで本研究が引用されている:

Loading…

[Paper Note] A Comparative Study of PDF Parsing Tools Across Diverse Document Categories, Narayan S. Adhikari+, arXiv'24

Paper/Blog Link My Issue
#Analysis #Tools #NLP #RAG(RetrievalAugmentedGeneration) #One-Line Notes Issue Date: 2025-06-18 GPT Summary- 本研究では、DocLayNetデータセットを用いて10の人気PDFパースツールを6つの文書カテゴリにわたり比較し、情報抽出の効果を評価しました。テキスト抽出ではPyMuPDFとpypdfiumが優れた結果を示し、特に科学文書や特許文書ではNougatが高いパフォーマンスを発揮しました。表検出ではTATRが金融や法律文書で優れた結果を示し、Camelotは入札文書で最も良いパフォーマンスを発揮しました。これにより、文書タイプに応じた適切なパースツールの選択が重要であることが示されました。 Comment

PDFのparsingツールについて、text, table抽出の性能を様々なツールと分野別に評価している。

F1, precision, recallなどは、ground truthとのレーベンシュタイン距離からsimilarityを計算し、0.7以上であればtrue positiveとみなすことで計算している模様。local alignmentは、マッチした場合に加点、ミスマッチ、未検出の場合にペナルティを課すようなスコアリングによって抽出したテキスト全体の抽出性能を測る指標な模様。

より性能を高くしたければこちらも参考に:

Loading…

[Paper Note] Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models, Avi Singh+, TMLR'24

Paper/Blog Link My Issue
#MachineLearning #ReinforcementLearning #TMLR Issue Date: 2025-06-14 GPT Summary- 言語モデルを人間データでファインチューニングする際の限界を超えるため、ReST$^{EM$という自己学習手法を提案。モデルから生成したサンプルをバイナリフィードバックでフィルタリングし、繰り返しファインチューニングを行う。PaLM-2モデルを用いた実験で、ReST$^{EM}$は人間データのみのファインチューニングを大幅に上回る性能を示し、フィードバックを用いた自己学習が人間生成データへの依存を減少させる可能性を示唆。 Comment

解説ポスト:

Loading…

[Paper Note] Densing Law of LLMs, Chaojun Xiao+, arXiv'24, 2024.12

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Scaling Laws #read-later Issue Date: 2025-05-27 GPT Summary- 容量密度の新指標を用いてLLMsの性能を評価。基準モデルに基づき実効パラメータ数を定義し、容量密度を計算することで、モデルの効率性と有効性を統一的に分析。最近のデータでは、LLMsの容量密度は約3か月ごとに2倍になり、この傾向が将来の開発戦略に新たな視点を提供する。 Comment

元ポスト:

Loading…

[Paper Note] Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers, Zeyuan Allen-Zhu+, ICML'24 Tutorial

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #SyntheticData #read-later #Selected Papers/Blogs #One-Line Notes #Author Thread-Post Issue Date: 2025-05-06 Comment

元ポスト:

Loading…

Canon層の発見

著者による解説:

Loading…

[Paper Note] Physics of Language Models: Part 3.1, Knowledge Storage and Extraction, Zeyuan Allen-Zhu+, ICML'24

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #SyntheticData #ICML #Selected Papers/Blogs Issue Date: 2025-05-03 GPT Summary- 大規模言語モデル（LLMs）の知識抽出能力は、訓練データの多様性と強く相関しており、十分な強化がなければ知識は記憶されても抽出可能ではないことが示された。具体的には、エンティティ名の隠れ埋め込みに知識がエンコードされているか、他のトークン埋め込みに分散しているかを調査。LLMのプレトレーニングに関する重要な推奨事項として、補助モデルを用いたデータ再構成と指示微調整データの早期取り入れが提案された。 Comment

解説:
- 言語モデルの物理学, 佐藤竜馬, 2025.03

SNLP'24での解説スライド:
https://speakerdeck.com/sosk/physics-of-language-models-part-3-1-knowledge-storage-and-extraction

[Paper Note] Safety Alignment Should Be Made More Than Just a Few Tokens Deep, Xiangyu Qi+, arXiv'24, 2024.06

Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #Safety #ICLR #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-04-29 GPT Summary- LLMsの安全性整合性は脆弱であり、単純な攻撃でジャイルブレイク可能。この問題は浅層的安全整合に起因し、生成分布が初めの数トークンで適応されるために発生する。研究では、浅層的安全整合の存在理由をケーススタディで示し、複数の脆弱性の根本原因を探求。これにより、初期トークンを超えて整合性を深めることで悪用に対する堅牢性を向上させる可能性が示唆される。ファインチューニング攻撃に対抗するための正則化手法も提案。将来の安全整合性は、より深いアプローチが必要であるとの結論を導く。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=6Mxhg9PtDE

Safety Alignment手法が最初の数トークンに依存しているからそうならないように学習しますというのは、興味深いテーマだし技術的にまだ困難な点もあっただろうし、インパクトも大きいし、とても良い研究だ…。

[Paper Note] Flex Attention: A Programming Model for Generating Optimized Attention Kernels, Juechu Dong+, arXiv'24, 2024.12

Paper/Blog Link My Issue
#NLP #Transformer #Attention #SoftwareEngineering #KeyPoint Notes Issue Date: 2025-04-06 GPT Summary- FlexAttentionは、アテンションの新しいコンパイラ駆動型プログラミングモデルで、数行のPyTorchコードで多くのアテンションバリアントを実装可能にします。これにより、既存のアテンションバリアントを効率的に実装し、競争力のあるパフォーマンスを達成。FlexAttentionは、アテンションバリアントの組み合わせを容易にし、組み合わせ爆発の問題を解決します。 Comment

- Llama 4 Series, Meta, 2025.04

で利用されているAttention

pytochによる解説: https://pytorch.org/blog/flexattention/

- Flex AttentionはオリジナルのAttentionのQK/sqrt(d_k)の計算後にユーザが定義した関数score_modを適用する
- score_modを定義することで、attention scoreをsoftmaxをかけるまえに関数によって調整できる
- 多くのattentionの亜種はほとんどの場合この抽象化で対応できる
- score_modはQK tokenの内積に対応するので、QKの情報を受け取り、スカラー値を返せばなんでも良い
- score_modの実装例は元リンク参照
- FA2と比較して（現在のpytorchでの実装上は）Forward Passは90%, Backward Passは85%のスループットで、少し遅いが今後改善予定

元論文より引用。非常にシンプルで、数式上は下記のように表される:

[Paper Note] Efficient Streaming Language Models with Attention Sinks, Guangxuan Xiao+, ICLR'24

Paper/Blog Link My Issue
#Attention #LongSequence #ICLR #AttentionSinks #Selected Papers/Blogs #KeyPoint Notes #Author Thread-Post Issue Date: 2025-04-05 GPT Summary- 大規模言語モデル（LLMs）をマルチラウンド対話に展開する際の課題として、メモリ消費と長いテキストへの一般化の難しさがある。ウィンドウアテンションはキャッシュサイズを超えると失敗するが、初期トークンのKVを保持することでパフォーマンスが回復する「アテンションシンク」を発見。これを基に、StreamingLLMというフレームワークを提案し、有限のアテンションウィンドウでトレーニングされたLLMが無限のシーケンス長に一般化可能になることを示した。StreamingLLMは、最大400万トークンで安定した言語モデリングを実現し、ストリーミング設定で従来の手法を最大22.2倍の速度で上回る。 Comment

Attention Sinksという用語を提言した研究

下記のpassageがAttention Sinksの定義（＝最初の数トークン）とその気持ち（i.e., softmaxによるattention scoreは足し合わせて1にならなければならない。これが都合の悪い例として、現在のtokenのqueryに基づいてattention scoreを計算する際に過去のトークンの大半がirrelevantな状況を考える。この場合、irrelevantなトークンにattendしたくはない。そのため、auto-regressiveなモデルでほぼ全てのcontextで必ず出現する最初の数トークンを、irrelevantなトークンにattendしないためのattention scoreの捨て場として機能するのうに学習が進む）の理解に非常に重要
> To understand the failure of window attention, we find an interesting phenomenon of autoregressive LLMs: a surprisingly large amount of attention score is allocated to the initial tokens, irrespective of their relevance to the language modeling task, as visualized in Figure 2. We term these tokens
“attention sinks". Despite their lack of semantic significance, they collect significant attention scores. We attribute the reason to the Softmax operation, which requires attention scores to sum up to one for all contextual tokens. Thus, even when the current query does not have a strong match in many previous tokens, the model still needs to allocate these unneeded attention values somewhere so it sums up to one. The reason behind initial tokens as sink tokens is intuitive: initial tokens are visible to almost all subsequent tokens because of the autoregressive language modeling nature, making them more readily trained to serve as attention sinks.

- [Paper Note] Why do LLMs attend to the first token?, Federico Barbero+, COLM'25

の先行研究。こちらでAttentionSinkがどのように作用しているのか？が分析されている。

Figure1が非常にわかりやすい。Initial Token（実際は3--4トークン）のKV Cacheを保持することでlong contextの性能が改善する（Vanilla)。あるいは、Softmaxの分母に1を追加した関数を用意し（数式2)、全トークンのattention scoreの合計が1にならなくても許されるような変形をすることで、余剰なattention scoreが生じないようにすることでattention sinkを防ぐ（Zero Sink)。これは、ゼロベクトルのトークンを追加し、そこにattention scoreを逃がせるようにすることに相当する。もう一つの方法は、globalに利用可能なlearnableなSink Tokenを追加すること。これにより、不要なattention scoreの捨て場として機能させる。Table3を見ると、最初の4 tokenをKV Cacheに保持した場合はperplexityは大きく変わらないが、Sink Tokenを導入した方がKV Cacheで保持するInitial Tokenの量が少なくてもZero Sinkと比べると性能が良くなるため、今後モデルを学習する際はSink Tokenを導入することを薦めている。既に学習済みのモデルについては、Zero Sinkによってlong contextのモデリングに対処可能と思われる。

著者による解説:

Loading…

openreview: https://openreview.net/forum?id=NG7sS51zVF

[Paper Note] SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez+, ICLR'24

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #ICLR #SoftwareEngineering #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-04-02 GPT Summary- SWE-benchは、12の人気Pythonリポジトリから得られた2,294のソフトウェアエンジニアリング問題を評価するフレームワークで、言語モデルがコードベースを編集して問題を解決する能力を測定します。評価の結果、最先端の商用モデルや微調整されたモデルSWE-Llamaも最も単純な問題しか解決できず、Claude 2はわずか1.96%の問題を解決するにとどまりました。SWE-benchは、より実用的で知的な言語モデルへの進展を示しています。 Comment

ソフトウェアエージェントの最もpopularなベンチマーク

主にpythonライブラリに関するリポジトリに基づいて構築されている。

SWE-Bench, SWE-Bench Lite, SWE-Bench Verifiedの3種類がありソフトウェアエージェントではSWE-Bench Verifiedを利用して評価することが多いらしい。Verifiedでは、issueの記述に曖昧性がなく、適切なunittestのスコープが適切なもののみが採用されているとのこと（i.e., 人間の専門家によって問題がないと判断されたもの）。
https://www.swebench.com/

Agenticな評価をする際に、一部の評価でエージェントがgit logを参照し本来は存在しないはずのリポジトリのfuture stateを見ることで環境をハッキングしていたとのこと:

Loading…

これまでの評価結果にどの程度の影響があるかは不明。

openreview: https://openreview.net/forum?id=VTF8yNQM66

[Paper Note] Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality, Tri Dao+, ICML'24

Paper/Blog Link My Issue
#NLP #LanguageModel #SSM (StateSpaceModel) #ICML #Selected Papers/Blogs #Initial Impression Notes #LinearAttention Issue Date: 2025-03-24 GPT Summary- TransformersとMambaのような状態空間モデル（SSMs）の関連性を示し、SSMsと注意の変種との理論的接続を構築。新たに設計したMamba-2は、速度を2〜8倍向上させながら、Transformersと競争力を維持。 Comment

Mamba2の詳細を知りたい場合に読む

Mamba3:
- [Paper Note] MAMBA-3: IMPROVED SEQUENCE MODELING USING STATE SPACE PRINCIPLES, 2025.10

バグがあり本来の性能が出ていなかった模様:

Loading…

初期化修正は後はGated Delta Netを上回る性能に。

- [Paper Note] Gated Delta Networks: Improving Mamba2 with Delta Rule, Songlin Yang+, ICLR'25, 2024.12

[Paper Note] DeepSeek-V3 Technical Report, DeepSeek-AI+, arXiv'24, 2024.12

Paper/Blog Link My Issue
#NLP #LanguageModel #OpenWeight #Selected Papers/Blogs #One-Line Notes Issue Date: 2024-12-28 GPT Summary- DeepSeek-V3は671Bのパラメータを持つMixture-of-Experts (MoE)言語モデルで、各トークンに対して37Bが活性化される。効率的な推論とコスト削減のため、MLAおよびDeepSeekMoEアーキテクチャを採用し、補助損失を用いない戦略を導入。14.8兆トークンでプレトレーニング後、ファインチューニングと強化学習を経て、高性能を発揮。評価結果はオープンソースモデルを上回り、先端的なクローズドソースモデルとも同等。訓練にはわずか2,788,000時間のH800 GPU時間を要し、安定した訓練プロセスを実現。モデルのチェックポイントは提供されている。 Comment

参考（モデルの図解）:

Loading…

参考:

Loading…

MLA(Multi-Head Latent Attention)を提案

解説:
- MHA vs MQA vs GQA vs MLA, Zain ul Abideen, 2024.07
- DeepSeek-V2のアーキテクチャを徹底解説：MLA と DeepSeekMoE, kernelian, 2024.05

MLAはKVを低ランクなlatentベクトルに圧縮して保持し、使う時に復元するといった操作をすることで、MHAのパフォーマンスを落とすことなくKV Cacheで利用するメモリを大幅に減らせるという手法。

MLAの図解:

Loading…

[Paper Note] Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking, Eric Zelikman+, arXiv'24, 2024.03

Paper/Blog Link My Issue
#NLP #LanguageModel #SelfImprovement #One-Line Notes Issue Date: 2024-04-14 GPT Summary- Quiet-STaRは、言語モデルが各トークンごとに根拠を生成し、未来のテキストを説明する能力を学ぶ手法です。これはSelf-Taught Reasoner (STaR) の一般化であり、推論根拠を生成することで予測を改善します。計算コストや内部思考の生成方法などの課題を克服するために、トークン単位の並列サンプリングアルゴリズムと教師強制技法を提案。特に、難しいトークンの予測を改善し、GSM8KやCommonsenseQAでゼロショットの精度向上を示しました。この研究は、推論を学習するよりスケーラブルなアプローチへと向かう一歩となります。 Comment

o1(OpenAI o1, 2024.09 )の基礎技術と似ている可能性がある
先行研究:
- [Paper Note] STaR: Bootstrapping Reasoning With Reasoning, Eric Zelikman+, arXiv'22, 2022.03

参考:

Loading…

[Paper Note] Trainable Transformer in Transformer, Abhishek Panigrahi+, arXiv'23, 2023.07

Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #ICML Issue Date: 2023-07-12 GPT Summary- 推論時にトランスフォーマーが複雑なモデルを効率的にシミュレートできる構成、Transformer in Transformer（TinT）を提案。20億未満のパラメータで125万パラメータのモデルをシミュレート、性能向上を実現。実験では、OPT-125Mに対し4〜16％の改善を確認し、言語モデルの高度な能力を示唆。モジュール化されたコードベースも提供。 Comment

参考:

Loading…

研究の進み早すぎません？？？

openreview: https://openreview.net/forum?id=VmqTuFMk68

[Paper Note] Matryoshka Representation Learning, Aditya Kusupati+, NeurIPS'22

Paper/Blog Link My Issue
#Embeddings #NLP #RepresentationLearning #NeurIPS #Length #Selected Papers/Blogs Issue Date: 2025-07-29 GPT Summary- マトリョーシカ表現学習（MRL）は、異なる計算リソースに適応可能な柔軟な表現を設計する手法であり、既存の表現学習パイプラインを最小限に修正して使用します。MRLは、粗から細への表現を学習し、ImageNet-1K分類で最大14倍小さい埋め込みサイズを提供し、実世界のスピードアップを実現し、少数ショット分類で精度向上を達成します。MRLは視覚、視覚+言語、言語のモダリティにわたるデータセットに拡張可能で、コードとモデルはオープンソースで公開されています。 Comment

日本語解説: https://speakerdeck.com/hpprc/lun-jiang-zi-liao-matryoshka-representation-learning

単一のモデルから複数のlengthのEmbeddingを出力できるような手法。

解説:

Loading…

Knowledge Neurons in Pretrained Transformers, Damai Dai+, N_A, ACL'22, 2022.05

Paper/Blog Link My Issue
#Analysis #NLP #Transformer #ACL #KnowledgeEditing #Selected Papers/Blogs #FactualKnowledge #Encoder #KeyPoint Notes Issue Date: 2024-07-11 GPT Summary- 大規模な事前学習言語モデルにおいて、事実知識の格納方法についての研究を行いました。具体的には、BERTのfill-in-the-blank cloze taskを用いて、関連する事実を表現するニューロンを特定しました。また、知識ニューロンの活性化と対応する事実の表現との正の相関を見つけました。さらに、ファインチューニングを行わずに、知識ニューロンを活用して特定の事実知識を編集しようと試みました。この研究は、事前学習されたTransformers内での知識の格納に関する示唆に富んでおり、コードはhttps://github.com/Hunter-DDM/knowledge-neuronsで利用可能です。 Comment

日本語解説: https://speakerdeck.com/kogoro/knowledge-neurons-in-pretrained-transformers-for-snlp2022

上記資料によると、特定の知識を出力する際に活性化する知識ニューロンを特定する手法を提案。MLMを用いたclozeタスクによる実験で[MASK]部分に当該知識を出力する実験をした結果、知識ニューロンの重みをゼロとすると性能が著しく劣化し、値を2倍にすると性能が改善するといった傾向がみられた。　ケーススタディとして、知識の更新と、知識の削除が可能かを検証。どちらとも更新・削除がされる方向性[^1]へモデルが変化した。

また、知識ニューロンはTransformerの層の深いところに位置している傾向にあり、異なるrelationを持つような関係知識同士では共有されない傾向にある模様。

[^1]: 他の知識に影響を与えず、完璧に更新・削除できたわけではない。知識の更新・削除に伴いExtrinsicな評価によって性能向上、あるいはPerplexityが増大した、といった結果からそういった方向性へモデルが変化した、という話

[Paper Note] FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness, Tri Dao+, NeurIPS'22, 2022.05

Paper/Blog Link My Issue
#EfficiencyImprovement #MachineLearning #Attention #Selected Papers/Blogs #One-Line Notes Issue Date: 2023-05-20 GPT Summary- 長いシーケンスにおけるTransformerの計算とメモリ消費の問題に対処するため、IOを意識した注意アルゴリズムFlashAttentionを提案。これによりメモリの読み書き回数を減少させ、従来の基準よりも約15%の速度向上を実現。FlashAttentionは長い文脈を処理可能にし、モデル品質も改善。具体的には、BERT-largeやGPT-2で従来を上回るパフォーマンスを達成し、Path-Xチャレンジで新たな成果を示した。 Comment

より高速なGPU上のSRAM上で計算できるようにQKVをブロック単位に分割して計算することで、より高い計算効率を実現するFlashAttentionを提案[^1]

[^1]: （2025.05.24追記)下記日本語ブログを参考に一部文言を訂正しました。ありがとうございます。

日本語解説: https://zenn.dev/sinchir0/articles/21bb6e96c7b05b
元ポスト:

Loading…

日本語解説: https://zenn.dev/uchiiii/articles/306d0bb7ef67a7
元ポスト:

Loading…

openreview: https://openreview.net/forum?id=H4DqfPSibmx

RecBole: Towards a Unified, Comprehensive and Efficient Framework for Recommendation Algorithms, Zhao+, CIKM'21

Paper/Blog Link My Issue
#RecommenderSystems #Tools #Library #CIKM Issue Date: 2022-03-29 GPT Summary- RecBoleは、推薦アルゴリズムのオープンソース実装を標準化するための統一的で効率的なライブラリであり、73のモデルを28のベンチマークデータセット上で実装。PyTorchに基づき、一般的なデータ構造や評価プロトコル、自動パラメータ調整機能を提供し、推薦システムの実装と評価を促進する。プロジェクトはhttps://recbole.io/で公開。 Comment

参考リンク:
- https://www.google.co.jp/amp/s/techblog.zozo.com/entry/deep-learning-recommendation-improvement%3famp=1
- https://techlife.cookpad.com/entry/2021/11/04/090000
- https://qiita.com/fufufukakaka/items/77878c1e23338345d4fa

[Paper Note] Attention Is All You Need, Ashish Vaswani+, NeurIPS'17, 2017.07

Paper/Blog Link My Issue
#NeuralNetwork #MachineTranslation #NLP #Transformer #FoundationModel #Attention #PositionalEncoding #NeurIPS #Normalization #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2018-01-19 GPT Summary- Transformerは、再帰や畳み込みを排除し、注意機構のみに基づいた新しいネットワークアーキテクチャである。実験により、機械翻訳タスクで優れた品質を示し、トレーニング時間を大幅に短縮。WMT 2014の英独翻訳で28.4 BLEU、英仏翻訳で41.8 BLEUを達成し、既存モデルを上回る性能を示した。また、英語の構文解析にも成功裏に適用可能であることを示した。 Comment

Transformer (self-attentionを利用) 論文

解説スライド： https://www.slideshare.net/DeepLearningJP2016/dlattention-is-all-you-need

解説記事： https://qiita.com/nishiba/items/1c99bc7ddcb2d62667c6

* 新しい翻訳モデル(Transformer)を提案。既存のモデルよりも並列化に対応しており、短時間の訓練で（既存モデルの1/4以下のコスト）高いBLEUスコアを達成した。

* TransformerはRNNやCNNを使わず、attentionメカニズムに基づいている。

（解説より）

分かりやすい:
https://qiita.com/halhorn/items/c91497522be27bde17ce

Transformerの各コンポーネントでのoutputのshapeや、attention_maskの形状、実装について記述されており有用:
https://qiita.com/FuwaraMiyasaki/items/239f3528053889847825

集合知

Transformer提案時と最近の動向への流れ

- BPEによるOOVの防止
- その後sentencepieceによる真の多言語化の実現
- Positional Encodingの提案
- 本稿はSinusoidal PE（絶対位置エンコーディング）で提案され、その後相対位置エンコーディング / RoPE / NoPE などの変種が登場
- Residual Connectionによる勾配爆発・消失の低減による深いモデル化
- 最近はHyperConnection等のResidual Streamの改善が進む
- Scaled dot product attention（のsqrt(d)での除算）によるノルム肥大化の防止
- Multi-head-attentionによるトークン間の多様な関係性のモデル化
- トークン間を跨いだ情報のmixing
- FFNによるトークン内での情報のmixing
- O(n^2)によるボトルネックを改善するために Sparse Attention / Linear Attention 等のより計算量が小さい手法へ進展
- また、実装上の工夫としてFlash Attentionが標準に
- Layer Normalizationによる正規化（内部共変量シフト防止）による学習の安定化
- 本稿ではPostLN
- その後Pre-LNの方が性能は落ちるが学習が安定するため主流となり、現在またPost-LNが再考されている
- また、現在はLayerNormalizationではなくRMSNormを使用する傾向がある
- 本稿ではRNNと比較して並列計算可能なEncoder-Decoderアーキテクチャとして提案されMTで評価
- Decoder側ではCausal Maskの導入によるleakの防止
- その後、Decoder-only Model として現在のLLMの基盤に
- 実装上の工夫としてKV Cacheによる生成の高速化

[Paper Note] Layer Normalization, Ba+, arXiv'16, 2016.07

Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #Normalization #Selected Papers/Blogs Issue Date: 2018-02-19 GPT Summary- バッチ正規化の代わりにレイヤー正規化を用いることで、リカレントニューラルネットワークのトレーニング時間を短縮。レイヤー内のニューロンの合計入力を正規化し、各ニューロンに独自の適応バイアスとゲインを適用。トレーニング時とテスト時で同じ計算を行い、隠れ状態のダイナミクスを安定させる。実証的に、トレーニング時間の大幅な短縮を確認。 Comment

解説スライド：

https://www.slideshare.net/KeigoNishida/layer-normalizationnips

[Paper Note] Generating Sentences from a Continuous Space, Samuel R. Bowman+, CoNLL'16, 2015.11

Paper/Blog Link My Issue
#NeuralNetwork #NaturalLanguageGeneration #NLP #VariationalAutoEncoder #CoNLL #Selected Papers/Blogs #One-Line Notes #RecurrentModels Issue Date: 2018-02-14 GPT Summary- RNNベースの変分オートエンコーダ生成モデルを導入し、文全体の分散潜在表現を組み込むことで、文のスタイルやトピックなどの特性を明示的にモデル化。潜在空間を通じて新しい文を生成し、欠損単語の補完効果を実証。モデルの特性と使用に関する否定的な結果も示す。 Comment

VAEを利用して文生成

【Variational Autoencoder徹底解説】

https://qiita.com/kenmatsu4/items/b029d697e9995d93aa24

[Paper Note] Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift, Sergey Ioffe+, ICML'15

Paper/Blog Link My Issue
#MachineLearning #LanguageModel #Transformer #ICML #Normalization #Selected Papers/Blogs Issue Date: 2025-04-02 GPT Summary- バッチ正規化を用いることで、深層ニューラルネットワークのトレーニングにおける内部共変量シフトの問題を解決し、高い学習率を可能にし、初期化の注意を軽減。これにより、同じ精度を14倍少ないトレーニングステップで達成し、ImageNet分類で最良の公表結果を4.9%改善。 Comment

メモってなかったので今更ながら追加した

共変量シフトやBatch Normalizationの説明は
- [Paper Note] Layer Normalization, Ba+, arXiv'16, 2016.07

記載のスライドが分かりやすい。

[Paper Note] Deep Knowledge Tracing, Piech+, NIPS'15

Paper/Blog Link My Issue
#AdaptiveLearning #StudentPerformancePrediction #NeurIPS #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2018-12-22 Comment

Knowledge Tracingタスクとは：

　特定のlearning taskにおいて、生徒によってとられたインタラクションの系列x0, ..., xtが与えられたとき、次のインタラクションxt+1を予測するタスク

　典型的な表現としては、xt={qt, at}, where qt=knowledge component (KC) ID (あるいは問題ID)、at=正解したか否か

　モデルが予測するときは、qtがgivenな時に、atを予測することになる

Contribution:

　1. A novel way to encode student interactions as input to a recurrent neural network.

　2. A 25% gain in AUC over the best previous result on a knowledge tracing benchmark.

　3. Demonstration that our knowledge tracing model does not need expert annotations.

　4. Discovery of exercise influence and generation of improved exercise curricula.

モデル：

Inputは、ExerciseがM個あったときに、M個のExerciseがcorrectか否かを表すベクトル（長さ2Mベクトルのone-hot）。separateなrepresentationにするとパフォーマンスが下がるらしい。

Output ytの長さは問題数Mと等しく、各要素は、生徒が対応する問題を正答する確率。

InputとしてExerciseを用いるか、ExerciseのKCを用いるかはアプリケーション次第っぽいが、典型的には各スキルの潜在的なmasteryを測ることがモチベーションなのでKCを使う。

（もし問題数が膨大にあるような設定の場合は、各問題-正/誤答tupleに対して、random vectorを正規分布からサンプリングして、one-hot high-dimensional vectorで表現する。）

hidden sizeは200, mini-batch sizeは100としている。

[Educational Applicationsへの応用]

生徒へ最適なパスの学習アイテムを選んで提示することができること

　生徒のknowledge stateを予測し、その後特定のアイテムを生徒にassignすることができる。たとえば、生徒が50個のExerciseに回答した場合、生徒へ次に提示するアイテムを計算するだけでなく、その結果期待される生徒のknowledge stateも推測することができる

Exercises間の関係性を見出すことができる

　y( j | i )を考える。y( j | i )は、はじめにexercise iを正答した後に、second time stepでjを正答する確率。これによって、pre-requisiteを明らかにすることができる。

[評価]

3種類のデータセットを用いる。

　1. simulated Data

　　2000人のvirtual studentを作り、1〜5つのコンセプトから生成された、50問を、同じ順番で解かせた。このとき、IRTモデルを用いて、シミュレーションは実施した。このとき、hidden stateのラベルには何も使わないで、inputは問題のIDと正誤データだけを与えた。さらに、2000人のvirtual studentをテストデータとして作り、それぞれのコンセプト（コンセプト数を1〜5に変動させる）に対して、20回ランダムに生成したデータでaccuracyの平均とstandard errorを測った。

　2. Khan Academy Data

　　1.4MのExerciseと、69の異なるExercise Typeがあり、47495人の生徒がExerciseを行なっている。

　　PersonalなInformationは含んでいない。

　3. Assistsments bemchmark Dataset

　　2009-2011のskill builder public benchmark datasetを用いた。Assistmentsは、online tutorが、数学を教えて、教えるのと同時に生徒を評価するような枠組みである。

それぞれのデータセットに対して、AUCを計算。

ベースラインは、BKTと生徒がある問題を正答した場合の周辺確率？

simulated dataの場合、問題番号5がコンセプト1から生成され、問題番号22までの問題は別のコンセプトから生成されていたにもかかわらず、きちんと二つの問題の関係をとらえられていることがわかる。

Khan Datasetについても同様の解析をした。これは、この結果は専門家が見たら驚くべきものではないかもしれないが、モデルが一貫したものを学習したと言える。

[Discussion]

提案モデルの特徴として、下記の２つがある：

専門家のアノテーションを必要としない（concept patternを勝手に学習してくれる）

ベクトル化された生徒のinputであれば、なんでもoperateすることができる

drawbackとしては、大量のデータが必要だということ。small classroom environmentではなく、online education environmentに向いている。

今後の方向性としては、

・incorporate other feature as inputs (such as time taken)

・explore other educational impacts (hint generation, dropout prediction)

・validate hypotheses posed in education literature (such as spaced repetition, modeling how students forget)

・open-ended programmingとかへの応用とか（proramのvectorizationの方法とかが最近提案されているので）

などがある。

knewtonのグループが、DKTを既存手法であるIRTの変種やBKTの変種などでoutperformすることができることを示す：

https://arxiv.org/pdf/1604.02336.pdf

vanillaなDKTはかなりナイーブなモデルであり、今後の伸びが結構期待できると思うので、単純にoutperformしても、今後の発展性を考えるとやはりDKTには注目せざるを得ない感

DKT元論文では、BKTを大幅にoutperformしており、割と衝撃的な結果だったようだが、

後に論文中で利用されているAssistmentsデータセット中にdupilcate entryがあり、

それが原因で性能が不当に上がっていることが判明。

結局DKTの性能的には、BKTとどっこいみたいなことをRyan Baker氏がedXで言っていた気がする。

Deep Knowledge TracingなどのKnowledge Tracingタスクにおいては、

基本的に問題ごとにKnowledge Component(あるいは知識タグ, その問題を解くのに必要なスキルセット）が付与されていることが前提となっている。

ただし、このような知識タグを付与するには専門家によるアノテーションが必要であり、

適用したいデータセットに対して必ずしも付与されているとは限らない。

このような場合は、DKTは単なる”問題”の正答率予測モデルとして機能させることしかできないが、

知識タグそのものもNeural Networkに学習させてしまおうという試みが行われている：

https://www.jstage.jst.go.jp/article/tjsai/33/3/33_C-H83/_article/-char/ja

DKTに関する詳細な説明が書かれているブログポスト：

expectimaxアルゴリズムの説明や、最終的なoutput vector y_i の図解など、説明が省略されガチなところが詳細に書いてあって有用。（英語に翻訳して読むと良い）

https://hcnoh.github.io/2019-06-14-deep-knowledge-tracing

こちらのリポジトリではexpectimaxアルゴリズムによってvirtualtutorを実装している模様。

詳細なレポートもアップロードされている。

https://github.com/alessandroscoppio/VirtualIntelligentTutor

DKTのinputの次元数が 2 * num_skills, outputの次元数がnum_skillsだと明記されているスライド。

元論文だとこの辺が言及されていなくてわかりづらい・・・

http://gdac.uqam.ca/Workshop@EDM20/slides/LSTM_tutorial_Application.pdf

http://gdac.uqam.ca/Workshop@EDM20/slides/LSTM_Tutorial.pdf

こちらのページが上記チュートリアルのページ

http://gdac.uqam.ca/Workshop@EDM20/

[Paper Note] Unsupervised prediction of acceptability judgements, Lau+, ACL-IJCNLP'15

Paper/Blog Link My Issue
#NLP #LanguageModel #ACL #IJCNLP #Selected Papers/Blogs #One-Line Notes Issue Date: 2018-03-30 Comment

文のacceptability（容認度）論文。

文のacceptabilityとは、native speakerがある文を読んだときに、その文を正しい文として容認できる度合いのこと。

acceptabilityスコアが低いと、Readabilityが低いと判断できる。

言語モデルをトレーニングし、トレーニングした言語モデルに様々な正規化を施すことで、acceptabilityスコアを算出する。

日本語解説: http://www.lr.pi.titech.ac.jp/~sasano/acl2015suzukake/slides/01.pdf

[Paper Note] Collaborative Deep Learning for Recommender Systems, Hao Wang+, KDD'15

Paper/Blog Link My Issue
#RecommenderSystems #NeuralNetwork #CollaborativeFiltering #MatrixFactorization #SIGKDD #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2018-01-11 GPT Summary- 協調フィルタリング（CF）はレコメンダーシステムで広く用いられるが、評価がまばらな場合に性能が低下する。これに対処するため、補助情報を活用する協調トピック回帰（CTR）が提案されているが、補助情報がまばらな場合には効果が薄い。そこで、本研究では協調深層学習（CDL）という階層ベイズモデルを提案し、コンテンツ情報の深い表現学習とCFを共同で行う。実験により、CDLが最先端技術を大幅に上回る性能を示すことが確認された。 Comment

Rating Matrixからuserとitemのlatent vectorを学習する際に、Stacked Denoising Auto Encoder（SDAE）によるitemのembeddingを活用する話。

Collaborative FilteringとContents-based Filteringのハイブリッド手法。

Collaborative FilteringにおいてDeepなモデルを活用する初期の研究。

通常はuser vectorとitem vectorの内積の値が対応するratingを再現できるように目的関数が設計されるが、そこにitem vectorとSDAEによるitemのEmbeddingが近くなるような項（3項目）、SDAEのエラー（4項目）を追加する。

（3項目の意義について、解説ブログより）アイテム i に関する潜在表現 vi は学習データに登場するものについては推定できるけれど，未知のものについては推定できない．そこでSDAEの中間層の結果を「推定したvi」として「真の」 vi にできる限り近づける，というのがこの項の気持ち

cite-ulikeデータによる論文推薦、Netflixデータによる映画推薦で評価した結果、ベースライン（Collective Matrix Factorization [Paper Note] Relational learning via collective matrix factorization, Singh+, KDD'08 , SVDFeature [Paper Note] SVDFeature: a toolkit for feature-based collaborative filtering, Chen+, JMLR, Vol.13, 2012.12 , DeepMusic [Paper Note] Deep content-based music recommendation, Oord+, NIPS'13 , Collaborative Topic Regresison [Paper Note] Collaborative topic modeling for recommending scientific articles, Wang+, KDD'11 ）をoutperform。

（下記は管理人が過去に作成した論文メモスライドのスクショ）

解説ブログ： http://d.hatena.ne.jp/repose/20150531/1433004688

[Paper Note] Factorization Machines, Steffen Rendle, ICDM'10, 2010.12

Paper/Blog Link My Issue
#RecommenderSystems #MachineLearning #CollaborativeFiltering #FactorizationMachines #ICDM #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2018-12-22 Comment

解説ブログ： http://echizen-tm.hatenablog.com/entry/2016/09/11/024828

DeepFMに関する動向： https://data.gunosy.io/entry/deep-factorization-machines-2018

上記解説ブログの概要が非常に完結でわかりやすい

FMのFeature VectorのExample

各featureごとにlatent vectorが学習され、featureの組み合わせのweightが内積によって表現される

Matrix Factorizationの一般形のような形式

NVIDIA Nemotron 3 Ultra, nvidia, 2026.06

Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #OpenWeight #SSM (StateSpaceModel) #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #LowPrecision #LinearAttention #Author Thread-Post Issue Date: 2026-06-05 Comment

元ポスト:

Loading…

アーキテクチャ解説:

Loading…

Mamba2 layer, Latent MoE, GQA

ポイント解説:

Loading…

HF: https://huggingface.co/collections/nvidia/nvidia-nemotron-v3

所見:

Loading…

所見:

Loading…

Introducing Gemma 4 12B: a unified, encoder-free multimodal model, Google, 2026.06

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #OpenWeight #VisionLanguageModel #2D (Image) #UMM #SpatialUnderstanding #One-Line Notes #AudioLanguageModel #audio #Author Thread-Post Issue Date: 2026-06-04 Comment

元ポスト:

Loading…

vision/audioエンコーダーを無くしたvision/audio nativeなマルチモーダルLLM

HF: https://huggingface.co/google/gemma-4-12B

アーキテクチャ図:

Loading…

MAI-Thinking-1: Building a Hill-Climbing Machine, Microsoft, 2026.06

Paper/Blog Link My Issue
#Article #read-later #Selected Papers/Blogs Issue Date: 2026-06-02 Comment

元ポスト:

Loading…

解説:

Loading…

解説:

Loading…

解説:

Loading…

所見:

Loading…

MiniMax-M3, MiniMaxAI, 2026.06

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #Post #Selected Papers/Blogs #One-Line Notes #Author Thread-Post Issue Date: 2026-06-01 Comment

ベンチマーク上はフロンティアモデルに性能がかなり肉薄しており、10日以内にモデルがオープンになる。

所見:

Loading…

関連:

Loading…

- [Paper Note] Learning Dynamics of LLM Finetuning, Yi Ren+, ICLR'25 Outstanding Paper Award

Introducing Claude Opus 4.8, Anthropic, 2026.05

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Proprietary #Author Thread-Post Issue Date: 2026-05-31 Comment

元ポスト:

Loading…

ベンチマーク比較:

Loading…

ビジネススキルを学習させると不誠実になる:

Loading…

Introducing Command A+: Making sovereign agentic capabilities available to all, Cohere, 2026.05

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MultiLingual #OpenWeight #MoE(Mixture-of-Experts) #Initial Impression Notes Issue Date: 2026-05-21 Comment

元ポスト:

Loading…

HF: https://huggingface.co/CohereLabs/command-a-plus-05-2026-w4a4

apache-2.0

デコーディング速度が非常に速い

アーキテクチャサマリ:
-

Loading…

翻訳性能高いよという話のようである:

Loading…

Composer 2.5 の紹介, Cursor, 2026.05

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #SyntheticData #Optimizer #mid-training #On-Policy #One-Line Notes #SelfDistillation Issue Date: 2026-05-20 Comment

元ポスト:

Loading…

- trajectory中の不適切な箇所にヒントを挿入したcontextを用いたself-on-policy distillation
- Composer 2から25倍の量の合成タスクデータの利用。タスクは特定のテスト可能な機能をコードベースからablationすることによってverifiableなタスクを作成
- mid-trainingではMuonを利用し、expertが複数のノードにシャーディングされているため、all-to-allと呼ばれる処理によって重み行列全体を復元しMuonの直行化を実施し、同じくall-to-allという処理で重みを再びシャーディングするらしい。これらは非同期で実行される。
- dual mesh HSDPと呼ばれるものも利用されているようだがよくわかっていない

関連:
- Composer 2 のご紹介, Cursor, 2026.03

artificial analysisによる評価:

Loading…

所見:

Loading…

学習の規模感に関する所見：

Loading…

所見:

Loading…

Where the goblins came from, OpenAI, 2026.04

Paper/Blog Link My Issue
#Article #read-later Issue Date: 2026-04-30 Comment

元ポスト:

Loading…

所見:

Loading…

[Paper Note] DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence, DeepSeek-AI, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Infrastructure #AIAgents #Attention #LongSequence #PositionalEncoding #Optimizer #OpenWeight #Architecture #MoE(Mixture-of-Experts) #AttentionSinks #read-later #Selected Papers/Blogs #RewardModel #KV Cache #Compression #GenerativeVerifier #SparseAttention #ResidualStream #SelfDistillation #Author Thread-Post Issue Date: 2026-04-24 Comment

HF: https://huggingface.co/collections/deepseek-ai/deepseek-v4

元ポスト:

Loading…

とうとうでました

所見:

Loading…

所見:

Loading…

Artificial Analysisによる評価:

Loading…

所見:

Loading…

所見:
-

Loading…

所見:

Loading…

1Mコンテキストにおいて、V3.2と比較してわずか10%のKV Cacheしか必要としないとのこと。

所見:

Loading…

1Mトークンのcontext windowを実用的にするために最新の叡智が詰め込まれまくっているという感じのようである。うーむ読むしかない

所見:

Loading…

RTX 6000で4基でFlashが動いたよ、という報告に見える:

Loading…

解説:

Loading…

所見:

Loading…

Self Rewarding LMsのコンセプトが利用されている:

Loading…

Proは、Flashをlong contextを扱える様々なドメインのスペシャリストとして訓練し、OPDによって蒸留されたものなのでは？という話:

Loading…

論文中に疑問点をアノテーションした結果が共有されている:

Loading…

Introducing GPT‑5.5, OpenAI, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ChatGPT #Proprietary #Selected Papers/Blogs #One-Line Notes #Reading Reflections #Author Thread-Post Issue Date: 2026-04-24 Comment

元ポスト:

Loading…

- FrontierMath, Terminal-Bench, GDPValでOpus 4.7を上回りダントツのトップ
- Artificial Analysis IndexでもOpus 4.7超え

しかし、Terminal-Benchは"ターミナル操作を通じた多様、かつlong horizonなタスクを評価する（多くはソフトウェアエンジニアタスクであるコーディングもタスクには含まれるが）"のベンチマークであり、SWE Bench Proのような一般的なcoding能力を測るベンチマークのスコアが掲載されていない。HLEやVisual Reasoning系のベンチマークのスコアも報告されていないように見える。

恣意的にGPT-5.5が強いデータ、比較対象をピックアップしているのではないか、という印象を持った。

- [Paper Note] Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces, Mike A. Merrill+, arXiv'26, 2026.01
- [Paper Note] SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez+, ICLR'24
- Why SWE-bench Verified no longer measures frontier coding capabilities, OpenAI, 2026.02

Artificial Analysisによる評価:

Loading…

所見:

Loading…

サイバー分野でMythosと同等？

Loading…

Xiaomi MiMo-V2.5-Pro: A leap in agentic and long horizon coherence, Xiaomi, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #MultiModal #Blog #Coding #OpenWeight #Selected Papers/Blogs #UMM #Initial Impression Notes #Author Thread-Post Issue Date: 2026-04-23 Comment

元ポスト:

Loading…

いずれモデルをオープンにするとのこと

Artificial Analysisによる評価:

Loading…

オープンになった:
https://huggingface.co/collections/XiaomiMiMo/mimo-v25

元ポスト:

Loading…

GDPValやSWE-Bench-ProがGemini-3.1-Proよりも高い。
MIT Licenceかつnative multimodal

所見:

Loading…

解説:

Loading…

inclusionAI: Ling-2.6-flash （free）, OpenRouter （InclusionAI）, 2026.04

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #AIAgents #OpenWeight #MoE(Mixture-of-Experts) #Initial Impression Notes #Author Thread-Post Issue Date: 2026-04-22 Comment

元ポスト:

Loading…

Lingの最新モデル。元ポストに強みが簡潔に書かれている。OpenRouterで1週間freeで利用可能で、今後商用モデルのLingDTのリリースも控えているとこと。

また、将来的に本モデルはオープンになる予定とのこと。

Artificial Analysisによる評価:

Loading…

オープンになった:

Loading…

HF: https://huggingface.co/inclusionAI/Ling-2.6-flash

Kimi K2.6: Advancing Open-Source Coding, Kimi, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #OpenWeight #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2026-04-21 Comment

ブログ中ではまずはAgenticな能力の評価が掲載されており、スコアとしてはOpus 4.6と同等程度の水準に達している。

Kimi-K2.5と同様Agent Swarmを採用している。
- [Paper Note] Kimi K2.5: Visual Agentic Intelligence, Kimi Team+, arXiv'26, 2026.02

推論・知識に関するベンチマーク（AIME, HMMT, GPQA-Diamond）などについては、Opus4.6と比較してスコアが高いのはIMO-AnswerBenchと呼ばれるものだけであり、他は同等かスコアが低くなっている。Vision系のベンチマークでは、全体的にOpus4.6よりもスコアが高い。ただし、Gemini-3.1-Pro, GPT-5.4の方がKimi K2.6よりもスコアが全体として高い。

他にも5日間にわたる監視システムのようなプロアクティブなエージェントとしても活用でき、独自ベンチマークのKimiClawBenchと呼ばれるものでK2.5を上回った旨が記述されているが、詳細不明。

元ポスト:

Loading…

HF: https://huggingface.co/moonshotai/Kimi-K2.6

その他ベンチマーク情報:

Loading…

Designing synthetic datasets for the real world: Mechanism design and reasoning from first principles, Google, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #SyntheticData #Distillation #read-later #Selected Papers/Blogs #One-Line Notes #Critic #Reading Reflections #Human-in-the-Loop #Author Thread-Post Issue Date: 2026-04-19 Comment

元ポスト:

Loading…

公式:

Loading…

解説:

Loading…

（詳細は解説や元ブログ参照のこと）
強い教師モデルから弱い生徒モデルを学習する場合の合成データ生成手法で、
生成したいデータの観点（内容、形式等）を分類し、どの観点からどの程度の難易度のデータを合成するかを制御する。その後生成されたデータが正しいか/正しくないかの2方向から批評を行いvalidationをするような枠組みのようである。

単純なデータ合成では性能がすぐに頭打ちになるが、ローカル多様性（特定のパターンの多様性）、グローバル多様性（データ全体がカバーするパターンの範囲）の2つを同時に大きくしないと不十分であることや、批判によるvalidationは少なくとも性能を悪化させることはないことも示されたとのこと。

Evaluating Netflix Show Synopses with LLM-as-a-Judge, Netflix Technology Blog, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #Factuality #Blog #LLM-as-a-Judge #Test-Time Scaling #read-later #Scalability #Initial Impression Notes Issue Date: 2026-04-17 Comment

元ポスト:

Loading…

Netflix上に存在するsynopses（映画の短いdescription）を高品質に保ちたいが、非常に量が多いのでどのようにスケーラブルに評価しているか、という話のようである。

LLM-as-a-Judgeを活用して評価をしており、4種類の観点（制度、事実性、トーン、明瞭さ）のような多次元のRubricを用いて、それぞれの観点ごとにLLM-as-a-Judgeを専門家の判断にalignさせるためにgold dataを作成し、どのように推論すればLLM-as-a-Judgeの性能が向上するかを調査した結果、long CoT / Majority Voting （精度向上+分散低下）/ Agents-as-a-Judge （複数のFactualityの側面を評価するために4種類のAI Agentを用いてメタデータとsynopsesのFactual Consistencyを評価し、全てのエージェントの結果を集約）といった感じのことをやっているらしい。

Introducing Claude Opus 4.7, Anthropic, 2026.04

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #Proprietary #Selected Papers/Blogs #Author Thread-Post Issue Date: 2026-04-16 Comment

元ポスト:

Loading…

Artificial Analysisによる評価:

Loading…

GDPval-AAでGPT-5.4超えのSoTA

Loading…

IntelligenceでもSoTA(同等）

所見:

Loading…

所見:

Loading…

新たなtokenizerを用いている。knowledge cutoffも更新されている。すなわち、新たなベースモデルが事前学習された可能性が高い

tokenizerが更新された＝必ずしもベースモデルも新しいということではないよねという指摘:

Loading…

デグレしたベンチマークがある模様:

Loading…

所見:

Loading…

Gemini Robotics-ER 1.6: Powering real-world robotics tasks through enhanced embodied reasoning, Google Deepmind, 2026.04

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Reasoning #Proprietary #Robotics #VisionLanguageActionModel #SpatialUnderstanding #Initial Impression Notes #Author Thread-Post #MultiView Issue Date: 2026-04-15 Comment

元ポスト:

Loading…

おー、とうとうDeepmindからVLAがでた。プロプライエタリモデル

私が知らなかっただけで、以前からリリースされていたようだ:
- Building the Next Generation of Physical Agents with Gemini Robotics-ER 1.5, Google, 2025.09
- https://developers.googleblog.com/en/building-the-next-generation-of-physical-agents-with-gemini-robotics-er-15/

ポイント解説:

Loading…

Introducing Muse Spark: Scaling Towards Personal Superintelligence, Meta, 2026.04

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #Proprietary #read-later #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes #Author Thread-Post Issue Date: 2026-04-11 Comment

元ポスト:
-

Loading…

元ポストのベンチマークスコアを見るとマルチモーダルの性能はフロンティアモデル(gpt5.4, Opus 4.6, Gemini 3.1 Pro)と同等、text/reasoningはフロンティアモデルより少しスコアが低く、特に抽象的な思考が苦手（ARC-AGI-2)。HEALTH分野はhealthは高スコアだがmedicalは少し低めのスコア、Agenticな分野では、SWE Bench Verified/Proよスコアは少し低め、terminal useは明確にスコアが低くtool useは少しスコアが低い、という感じにみえる。

codingとlong horizon taskに継続的に投資するとのこと。

中の人による解説:

Loading…

全てをフルスクラッチから作り直したっぽい。

Artificial Analysisによる解説:

Loading…

一気にOpenWeight最強のGLM-5.1超え

所見:

Loading…

所見:

Loading…

所見:

Loading…

第三者によるおそらく独自のベンチマークによる評価の結果、（おそらく101モデルのうち）全体で3位となっているらしい（つまり、既存ベンチマークにoverfittingしているわけではないという考えがある）。

Project Glasswing Securing critical software for the AI era, Anthropic, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #Safety #Selected Papers/Blogs #One-Line Notes #Safeguard #Reading Reflections Issue Date: 2026-04-08 Comment

元ポスト:

Loading…

Claude Mythos Previewが、ソフトウェアの脆弱性を見つける能力において、トップクラスの人間を除けば、あらゆる人間以上の能力を獲得してしまっており、これがサイバーセキュリティの概念を根本的に変化させてしまう危険がある。

実際、同モデルは数千にも及ぶ深刻な脆弱性を発見しており、それはOSやブラウザにも及び、これが経済や国家安全保障などに影響を及ぼすため、緊急のproject Glasswingを立ち上げており、まずは今回挙げたパートナーにClaude Mythos Previewにアクセス可能な無料のクレジットを与え、セキュリティに関する脆弱性を改善することで、セーフガードを確立し、その結果得られた知見をAnthropicがまとめて公表する、そしてその後パートナーはさらに拡大していく、という感じらしい。

しかし最近中国のOpenWeightモデルは、2ヶ月程度で米国のFrontier Modelに追いつく。では2ヶ月あとに中国系のOpenWeightモデルがClaude Mythos Previewの性能に追いついてOpenWeightとして公開された場合、世界はどうなってしまうのだろうか？

また、現在は以下の企業と連携してセーフガードを構築するようだが、これらグローバル企業以外の日本の企業はどうなるのだろうか？今後40以上の組織とも連携するようにする予定とのことだが、日本の社会を支えている企業群と連携するのはいつなのか？

所見:

Loading…

所見:

Loading…

しかしこれ、Claude Mythos Previewによって初めてこのようなことが起きたかのように書かれているけど、既知の脆弱性を見つけて悪用するというのは、既に公開されているOpenWeightモデルや、プロプライエタリモデルでも十分可能なのでは？
なぜいまさらこのようなことを言い始めたのだろうか。

所見:

Loading…

GPT-5.4でも15年前のLinux Kernelの深刻なバグを見つけたよ、という話:

Loading…

Update: https://www.anthropic.com/research/glasswing-initial-update

元ポスト:

Loading…

System Card: Claude Mythos Preview, Anthropic, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Proprietary #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-04-08 Comment

Mythos Previewは一般公開する予定はなく、まずは安全性を高めることに注力するとのこと。

元ポスト:

Loading…

- Project Glasswing Securing critical software for the AI era, Anthropic, 2026.04

も参照のこと。要はソフトウェアの脆弱性を見つけて悪用する能力が高すぎて、このまま公開するとサイバーセキュリティが終わるので、まずは未然にセーフガードを構築するために公開は控えるということである。

所見:

Loading…

所見:

Loading…

GLM-5.1: Towards Long-Horizon Tasks, Z.ai, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #OpenWeight #Selected Papers/Blogs Issue Date: 2026-04-07 Comment

元ポスト:

Loading…

SWE Bench ProでSoTA...?!

HF: https://huggingface.co/zai-org/GLM-5.1

Artificial Analysis:

Loading…

アーキテクチャ解説:

Loading…

DeepSeekV3.2 likeなアーキテクチャで、MLA, DeepSeek Sparse Attentionを採用。Layer数がDeepSeekV3.2より多いとのこと。

Gemma 4: Byte for byte, the most capable open models, Google, 2026.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #MultiModal #Reasoning #OpenWeight #MoE(Mixture-of-Experts) #Selected Papers/Blogs #2D (Image) #4D (Video) #One-Line Notes #audio #text #Initial Impression Notes Issue Date: 2026-04-02 Comment

元ポスト:

Loading…

2B, 4B, 26BのMoEモデルと31BのDenseモデルの4種類のモデルファミリーで、マルチモーダル（vision)対応。2B, 4Bはaudioも入力として扱える。

edgeデバイス向けのモデルは128k, 他は256kのコンテキストウィンドウ。140+の多言語サポート。

Apache 2.0ライセンス

arenaで同サイズのモデル群でSoTAといった話がブログ中に記述されている。

モデルカードには一般的なベンチマーク群とのスコアも記載されている。
https://ai.google.dev/gemma/docs/core/model_card_4?hl=ja

（そもそも既存のベンチマークにもコンタミネーションがあると思われるが、）arenaに関しては特定の企業に対してデータを提供し、複数のモデルの亜種をテストできるという慣行があり、リーダーボードにバイアスがあるであろう点には注意:
- [Paper Note] The Leaderboard Illusion, Shivalika Singh+, NeurIPS'25

artificial analysisによる評価:

Loading…

Qwenがproprietaryになったことから、ライセンス的に使いやすく、日本語に強そうなモデルとしては筆頭ではなかろうか。日本語性能が気になる。

アーキテクチャ解説:

Loading…

ポイント解説:

Loading…

所見:

Loading…

attentionのscaleをsqrt(d)でスケールさせる代わりに、QK-norm, V normを適用するなど。

NvidiaによるNVFP4へのpost-trainingによる量子化:
https://huggingface.co/nvidia/Gemma-4-31B-IT-NVFP4

量子化後の性能も比較されており、知識、数学、コーディング、terminac useなど6種類のベンチマークでオリジナルのモデルと遜色ない性能が出ている旨記載されている。

解説:
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4

TurboQuant: Redefining AI efficiency with extreme compression, Google Research, 2026.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #KV Cache #Compression #Initial Impression Notes Issue Date: 2026-03-25 Comment

元ポスト:

Loading…

kv cacheをlong contextで1/6に圧縮して、8倍スピードアップして、accuracyのlossがない圧縮技術とのこと。果たして

たまたまこの動画を見つけたがおそらくこの研究のことを行っているのだろう:
https://youtube.com/shorts/5LMoZjoprQc?si=C43dJuXqpAa-p4BP

不要な逆量子化処理を省くことで高速化可能らしい:

Loading…

Composer 2 のご紹介, Cursor, 2026.03

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #AIAgents #Evaluation #Coding #SoftwareEngineering #mid-training #PostTraining #read-later #Selected Papers/Blogs #ContextEngineering #Live #Initial Impression Notes Issue Date: 2026-03-20 Comment

元ポスト:

Loading…

所見:

Loading…

Kimi-K2.5がベースらしいとのこと:

Loading…

ベンチマークスコアに対する所見:

Loading…

テクニカルレポートが出た:
https://cursor.com/resources/Composer2.pdf

元ポスト:

Loading…

Kimi-K2.5をベースに、どのようにinstruction tuning後のモデルに対して継続事前学習、RLをし、GPT-5.4(high)級の性能を達成できたのか、ヒントがわかるかもしれない。

- [Paper Note] Kimi K2.5: Visual Agentic Intelligence, Kimi Team+, arXiv'26, 2026.02

所見:

Loading…

所見:

Loading…

RLによってpass@k（best-of-16）とpass@1の両方が改善する。既存研究では少なくともRLVRを用いた場合はPass@1は改善するが多様性が損なわれてPass@kの性能は改善しない ([Paper Note] Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR, Xiao Liang+, arXiv'25, 2025.08 , VibeVoice-1.5B, microsoft, 2025.08 )、という話があったが、Composer 2のレシピではそうではないようだ。どんなレシピだろう～と思ってさらっと関連しそうなところを見てみたが、詳細は書いてなさそうだ。
- [Paper Note] Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR, Xiao Liang+, arXiv'25, 2025.08
- VibeVoice-1.5B, microsoft, 2025.08

QA:

Loading…

CursorBenchの解説:

Loading…

要はrealisticなデータとシチュエーションでの評価に非常に重きを置いていて
- 実際のコーディングsessionのデータが用いられ、contamination-free
- 機能的な正しさのみならず、コードの品質、効率、挙動などの実用的な価値を意識し
- long horizonなタスクが多く取り入れられ
- Promptは曖昧性をうまく扱えるかを評価するために意図的にシンプルで短く
- CursorBenchのデータは継続的に更新される
- realisticなsessionデータだけでなく、その他の重要な挙動の評価（e.g., 指示追従, ルール/skilltのハンドリング, コメントの品質, editするか否かの判断の適切性など）のためのデータでも拡張されている

という感じらしい

ポイント解説:
- How Kimi, Cursor, and Chroma Train Agentic Models with RL, PHILSCHMID, 2026.03

self-summarizationによるcontextのcompressionを実施している
- [Paper Note] InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning, Yuchen Yan+, arXiv'26, 2026.02
- [Paper Note] Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL, Ian Wu+, arXiv'26, 2026.02
- より長いホライズンに向けた Composer の学習, Cursor, 2026.03

所見:

Loading…

MiniMax-M2.7, MiniMax, 2026.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #Selected Papers/Blogs Issue Date: 2026-03-19 Comment

所見:

Loading…

所見:

Loading…

Artificial Analysisによる評価:

Loading…

GLM-5と同等の知能スコア、GDPvalでGPT-5.2(xhigh)超え。

modelがオープンに:
https://huggingface.co/MiniMaxAI/MiniMax-M2.7

元ポスト:

Loading…

openになったが商用利用は許可を得ないとできないということで、リリース時のポストにはopennsourcedと銘打たれているが、open sourceではない。

中国系のOpenModelのライセンス、あるいはプロプライエタリ化が進んできている？

所見:

Loading…

Claude now creates interactive charts, diagrams and visualizations, Claude, 2026.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #TextToImageGeneration #Proprietary #Initial Impression Notes #Visualization Issue Date: 2026-03-14 Comment

かなり良いらしい（小並感）

元ポスト:

Loading…

たとえばMLAとDSAの図解を作らせたら以下:

Loading…

MuonとAdam(W)の違いの解説を作らせたら以下:

Loading…

NVIDIA Nemotron 3 Super, NVIDIA, 2026.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #SSM (StateSpaceModel) #OpenSource #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #KeyPoint Notes #Hybrid #LowPrecision #LinearAttention Issue Date: 2026-03-12 Comment

元ポスト:

Loading…

解説:

Loading…

artificial analysisによる評価:

Loading…

Swallow LVM Leaderboardに性能が掲載:

Loading…

解説:

Loading…

アーキテクチャ:

Loading…

- NVFP4で学習して gpt-ossより2.2倍高速だが性能も向上
- 88 Layer: 40 Latent MoE / 40 Mamba-2 / 8 GQA Attention
- GQA Attentiom Layerは非常に少なく、ほとんどがMamba-2 (linear attention)となっている
- Latent MoEは入力をそのまま変換するshared expertsと、入力を1/4のlatent vectorに変換した潜在空間上で処理をするLatext expertsの組み合わせによって出力を得る。
- 具体的には、RouterによってTop-22のexpertsを選択し、inputを1/4のlatent vectorに圧縮した上でExpertsに入力。Expertsの出力を加算して4倍のvectorに変換し次元を戻して、別ルートでshared expertsに元の入力次元から変換されたベクトルと組み合わせて出力するようなアーキテクチャ

Latent MoE解説:

Loading…

要はMoEに必要なmatrixが、latent vectorを扱うことで小さくなるのでMoEのWeightのメモリロードのボトルネックが緩和されるだけでなく、

各MoE Laverは異なるGPUやマシンに分散されて配置されるため計算のためにはベクトルのバッチを通信しなければならないがそのコストが削減されスループットの向上につながるので嬉しい、ということだと思われる。

ポイント解説:

Loading…

technical reportが出た:
- [Paper Note] Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning, NVIDIA+, arXiv'26, 2026.04

Introducing GPT‑5.4, OpenAI, 2026.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #ChatGPT #Coding #Proprietary #Reading Reflections Issue Date: 2026-03-06 Comment

元ポスト:

Loading…

Artiflcial Analysisによる評価:

Loading…

所見:

Loading…

所見:

Loading…

評判が良い。管理人も利用しているが、指示で曖昧な点をきちんと質問してくれる点が便利。かつ応答として、選択可能なオプションを提示し、自由記述もできる。実装の内容はClaude 4.6 Opusと比べるとコードがシンプルな印象を受けるが、これも指示次第な気はする。

曖昧な点があったら質問を投げかけるという挙動はopenhandsのPosition Paperとも整合する流れである。

- [Paper Note] Position: Humans are Missing from AI Coding Agent Research, Wang+, 2026.02

Gemini 3.1 Pro: A smarter model for your most complex tasks, Google, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Proprietary #Selected Papers/Blogs Issue Date: 2026-02-20 Comment

元ポスト:

Loading…

Artificial Analysisによる評価:

Loading…

所見:

Loading…

ベンチマークほどの性能は実用上は感じられず、API利用などにおいては安定性に課題があるとのこと。

Loading…

ALE BenchでSoTA:

Loading…

- [Paper Note] ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering, Yuki Imajuku+, NeurIPS'25

Cohere Labs Launches Tiny Aya, Making Multilingual AI Accessible, COHERE LABS TEAM, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #SmallModel #MultiLingual #OpenWeight #Selected Papers/Blogs #LowResource #KeyPoint Notes Issue Date: 2026-02-18 Comment

元ポスト:

Loading…

公式ポスト:

Loading…

アーキテクチャ解説:

Loading…

70程度の言語の性能をバランス良くサポートする3.35BのLLMで、Baseモデルと、マルチリンガルの性能は保ちつつも特定のregionに特化したinstruction tuningを実施したvariantを公開。また、multilingualでのベンチマークも公開。同程度の規模間のモデルについて、qwen3-4Bとの比較がわかりやすく、Europe, south asiaは同等、Asia-pacificはQwenよりも劣り、west asia, africa regionのようなこれまでlow resourceだと思われたregionではほか同規模のモデルと比較して突出した性能を誇るモデルに見える。CC上でのページ数と、言語モデルごとの性能を比較したグラフもあり、CCでのデータが少ない言語はこれまでのモデルは性能が低かったが、Tiny Ayaは非常に高い性能を達成している（このグラフで言うと日本語はかなりinformation richな言語にカテゴライズされているように見える）。

GLM-5: From Vibe Coding to Agentic Engineering, Z.ai, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #OpenWeight #MoE(Mixture-of-Experts) #Selected Papers/Blogs #KeyPoint Notes #LongHorizon #SparseAttention Issue Date: 2026-02-12 Comment

GLMシリーズの最新モデルGLM-5がリリースされた

元ポスト:

Loading…

- DeepSeek Sparse Attentionを採用:
- DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention, DeepSeek-AI, 2025.09
- [Paper Note] DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models, DeepSeek-AI+, arXiv'25, 2025.12
- 事前学習データを23Tから28.5Tトークンへ
- パラメータ数は4.5の355B-A32から744B-A40Bへ
- RLのインフラとして4.5から引き続きSlimeを採用
- slime, THUDM & Zhihu, 2025.09
- long-horizonなタスクに秀でており、reasoning, coding, agenticタスクにおける各種ベンチマークでOpus 4.5, GPT-5.2, Gemini 3 Proと同等程度の性能

FP8版も公開されている模様（Hopper以後のアーキテクチャでないとサポートされていない点に注意

所見:

Loading…

元ポスト:

Loading…

unslothがGGUF版をすでにリリースしている模様。早い:
https://unsloth.ai/docs/models/glm-5

アーキテクチャ解説:

Loading…

アーキテクチャ解説:

Loading…

所見:

Loading…

Introducing Lab: The Full-Stack Platform for Training your Own Models, Prime Intellect, 2026.02

Paper/Blog Link My Issue
#Article #ComputerVision #MachineLearning #NLP #LanguageModel #Infrastructure #ReinforcementLearning #AIAgents #Blog #ScientificDiscovery #PostTraining #Selected Papers/Blogs #One-Line Notes #Environment Issue Date: 2026-02-11 Comment

元ポスト:

Loading…

事後学習、特にAgenticな研究の民主化のためのプラットフォームの提供

所見:

Loading…

利用例 (Environment Hub):

Loading…

Introducing GPT-5.3-Codex: Expanding Codex across the full spectrum of professional work on a computer, OpenAI, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #Proprietary #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2026-02-06 Comment

元ポスト:

Loading…

terminal bench 2.0でOpus 4.6超え:

Loading…

所見:

Loading…

Advancing finance with Claude Opus 4.6, Anthropic, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Financial #Proprietary #SoftwareEngineering #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-02-06 Comment

元ポスト:

Loading…

全体的に能力が向上しているが、ターミナルでのコーディング、BrowseComp(Agentic search), HLE, Financial Analysis, GDPValにおけるOffice Task, Novel Problem Solvingの能力が大きく向上しているように見える。

Context Windowが1Mとのことで素晴らしい

Loading…

OpenHands Indexでトップとのことだが、Codex 5.3との比較はまだの模様:

Loading…

50% time horizonが脅威の14.5時間:

Loading…

Moltbook is the most interesting place on the internet right now, Simon Willisons's blog, 2026.01

Paper/Blog Link My Issue
#Article #Multi #NLP #LanguageModel #AIAgents #GenerativeAI #Blog #Conversation #Selected Papers/Blogs Issue Date: 2026-02-01 Comment

元ポスト:

Loading…

興味深い:

Loading…

話したことのないhumanとの会話をあたかもあったことのように話し始める:

Loading…

所見:

Loading…

Andrej Karpathy氏もエージェントを参加させたようである:

Loading…

所見:

Loading…

Trinity Large, Arcee, 2026.01

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Pretraining #NLP #LanguageModel #OpenWeight #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #Stability #One-Line Notes #Sparse #Initial Impression Notes Issue Date: 2026-01-29 Comment

テクニカルレポート: https://github.com/arcee-ai/trinity-large-tech-report/
HF: https://huggingface.co/arcee-ai

GLM4.7やDeepSeekV3と比較してスループットやTTFTが二倍以上。

非常にsparseなMoE(400B-A13B, 4/256のexpertsにルーティング)であるため学習を安定させるためにDense layerを増やし、モメンタムを考慮したexpertのバランシングや、z-lossと呼ばれるlogitのスケールをコントロールするような手法を導入することで安定した学習を実現。2048 Nvidia B300 GPUsで、17Tトークンの事前学習33日で完了

元ポスト:

Loading…

これほどsparseなMoEをここまで安定させて学習できるのは非常に興味深いと思われる。

インタビュー:

Loading…

やると決めてチームビルディングも含めて非常に短期間(6ヶ月）で達成したとのことだが、気になる。

解説:

Loading…

所見（風刺）:

Loading…

ポイント解説:

Loading…

アーキテクチャ解説:

Loading…

GLM-4.7: Advancing the Coding Capability, Z.ai, 2025.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #Reasoning #OpenWeight #SoftwareEngineering #One-Line Notes Issue Date: 2025-12-25 Comment

元ポスト:

Loading…

HF: https://huggingface.co/zai-org/GLM-4.7

デザインアリーナでtop2:

Loading…

Artificial Intelligence Indexにおいて、OpenModelの中でトップ:

Loading…

GLM-4.6と比較して、コーディング/SWE, reasoning, tooluseなどの能力が大幅に向上

Interleaved Thinking, Preserved Thinking, Turn-level Thinkingの3つの特性がある。

Interleaved Thinkingは全てのレスポンスとtool callingの前にreasoningを挟むことで、IFや生成品質を向上。
Preserved Thinkingは過去のターンの全てのthinking blockのトークンを保持し、再計算もしないのでマルチターンでの一貫性が増す。
Turn-level Thinkingはターンごとにreasoningを実施するか否かをコントロールでき、latency/costを重視するか、品質を重視するかを選択できる、といった特徴がある模様。

モデルサイズは358B

Gemini 3 Flash: frontier intelligence built for speed, Google, 2025.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Reasoning #Distillation #Proprietary #One-Line Notes Issue Date: 2025-12-18 Comment

元ポスト:

Loading…

Gemini 2.5 Proよりも3倍高速でかつ様々なベンチマークで上回っているとのこと。素晴らしい。Gemini 3 Proと比較しても基本的なQAや数学的な能力（reasoning能力）は性能に遜色なく、long sequence/contextの取り扱いでは明確に劣っている、という感じに見えるので、普段使いではこちらでも困らなそうに感じる。

Hallucination Rateが非常に高いとのことだが果たして:

Loading…

Proからlogit baseな蒸留をして事前学習（=distillation pretraining）をしているっぽい？

Loading…

Introducing MiMo-V2-Flash, Xiaomi, 2025.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #MoE(Mixture-of-Experts) #AttentionSinks #PostTraining #Selected Papers/Blogs Issue Date: 2025-12-17 Comment

technical report: https://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf
HF: https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash

元ポスト:

Loading…

関連:

Loading…

ポイント解説:

Loading…

attention sink（というより恐らくsink token）により性能が向上している:

Loading…

言及されているpost trainingが有用らしい:

Loading…

所見:

Loading…

省パラメータでtop-tierのモデルに肉薄する方法のヒントがあるかもしれない。

解説:

Loading…

[Paper Note] DeepSeek-Math-V2, DeepSeekAI, 2025.11

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Reasoning #Mathematics #read-later #Selected Papers/Blogs #Verification #One-Line Notes #GenerativeVerifier Issue Date: 2025-11-27 GPT Summary- 大規模言語モデル（LLM）は数学的推論において進展を遂げており、強化学習を用いて定量的推論コンペティションでのパフォーマンスを向上させている。しかし、最終回答の精度向上が正しい推論を保証しない問題や、厳密な導出が必要なタスクに対する限界がある。自己検証可能な数学的推論を目指し、定理証明のためのLLMベースの検証器を訓練し、生成器が自らの証明の問題を特定・解決するよう奨励する方法を提案。結果として得られたモデルDeepSeekMath-V2は、強力な定理証明能力を示し、国際数学オリンピックやプットナム競技会で高得点を記録した。これにより、自己検証可能な数学的推論が数学AIシステムの発展に寄与する可能性が示唆される。管理人コメント:モデル単体でIMO金メダル級を達成とのこと。outcomeに基づくRLVRからtrajectoryそのものをcritiqueし、その情報に基づいて再生成するといったループを繰り返す模様？このアプローチは数学以外のドメインでも有効な可能性があるので興味深い。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/deepseek-ai/DeepSeek-Math-V2

所見:

Loading…

所見:

Loading…

どのように高品質なverifierを構築し、高品質なデータ生成パイプラインを構築するか、という内容が記述されているらしい:

Loading…

報酬に対する理解補助のための注釈:

Loading…

ポイント解説:

Loading…

verifier: proofsをスコアリングできるようRLで学習される
meta verifier: verifierの批評を確認する
generator: より良い証明を書きself checkもできるようverifierによるreward signalによりRLで訓練される

の三刀流らしい。

ポイント解説:

Loading…

ポイント解説:

Loading…

所見:

Loading…

Claude-Opus-4.5: Introducing advanced tool use on the Claude Developer Platform, Anthropic, 2025.11

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #Proprietary #Selected Papers/Blogs Issue Date: 2025-11-25 Comment

元ポスト:

Loading…

AnthropicがClaude-Opus-4.5をリリース。AgenticなユースケースでClaudeがベンチマーク上の首位をGemini3 Proから奪還

システムカード:
https://assets.anthropic.com/m/64823ba7485345a7/Claude-Opus-4-5-System-Card.pdf

人間と比較した時のパフォーマンスの解説:

Loading…

EpochAIによるFrontierMath Tier1-3での評価:

Loading…

o3(high), Grok4と同等程度で、Gemini3 Pro, GPT-5.1(high)には劣る

ベンチマーク上でのコーディング能力やagenticなツール呼び出し能力の差は縮まっている:

Loading…

Artificial Analysisの評価:

Loading…

スライドをいい感じに作れるらしい:

Loading…

50% time horizonは4時間49分で現在top。

Loading…

Gemini 3 による知性の新時代, Google, 2025.11

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #GenerativeAI #Blog #Proprietary #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-19 Comment

所見:

Loading…

GPT5.1に対して各種ベンチマークで上回る性能。

所見:

Loading…

Gemini2.5 Proは回答が冗長で使いにくかったが、Gemini3は冗長さがなくなり、クリティカルな情報を簡潔に、しかし短すぎない、ちょうど良いくらいの応答に感じており、レスポンスもGPT5.1, GPT5と比べ早いので普段使いのLLMとしては非常に良いのではないか、という感想（2,3個のクエリを投げただけだが）を抱いた。

Oriol Vinyals氏のコメント:

Loading…

LiveCodeBench ProでもSoTA:

Loading…

Gemini Pro 3 Developer Guide:
https://ai.google.dev/gemini-api/docs/gemini-3?hl=ja

元ポスト:

Loading…

GAIA Verified （Browser Use?)でもSoTA:

Loading…

ただし、どのようなハーネスが使われているかは不明だし、それらが各モデルにとってフェアなものになってるかも不明
スクショのみでリンクも無し。

所見:

Loading…

content window,pricingなどの情報:

Loading…

一般的なユースケースでのBest Practice:

Loading…

パラメータ数に関する考察:

Loading…

韓国語でのベンチマークに関するポスト:

Loading…

自身のハーネス、ユースケース、タスクではうまくいかなかったよという話（でもただのサンプル数1だよ、という話が記載されている）:

Loading…

結局のところベンチマークはあくまで参考程度であり、自分たちのタスク、データセットで性能を測らねばわからない。

Artificial Intelligenceによる評価:

Loading…

MCP Universeでtop:

Loading…

- [Paper Note] MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers, Ziyang Luo+, arXiv'25

Live SWE Agentと呼ばれるself-evolvingな枠組みを採用した場合（＝scaffoldをbashのみから自己進化させる）のSWE Bench Vevifiedにやる評価でもSoTA:

Loading…

- [Paper Note] Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?, Chunqiu Steven Xia+, arXiv'25, 2025.11
- [Paper Note] SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez+, ICLR'24

この辺のsoftware agent系のベンチマークにおけるハーネスが具体的にどうなっているのか、中身を見たことないので見ておきたい。

（追記）
SWE Bench Verifiedのリーダーボードではmini-SWE-Agentを利用した公正な比較が行われており、こちらではGemini3がトップだったもののその後リリースされたClaude-Opus-4.5がtopを僅差で奪還しGemini3が2位とのこと。

Loading…

ハーネスについてはこちらを読むと良さそう:
- [Paper Note] SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering, John Yang+, arXiv'24, 2024.05

EpochAIによる評価:

Loading…

ECIでtop。ECIは39のベンチマークから算出されるスコア、らしい。

Scale AIのVisual Tool BenchでもSoTA:

Loading…

- Beyond Seeing: Evaluating Multimodal LLMs On Tool-enabled Image Perception, Transformation, and Reasoning, Scale AI, 2025.10

CriPtと呼ばれるベンチマークにおける評価でもSoTA:

Loading…

- [Paper Note] Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark, Minhui Zhu+, arXiv'25, 2025.09

最近提案された新たなtooluseベンチマークでもsecond placeらしい:
- [Paper Note] The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution, Junlong Li+, arXiv'25, 2025.10

Loading…

IQ130らしい（果たして）:

Loading…

GPQA DiamondでSoTA:

Loading…

Jeff Dean氏によるポスト:

Loading…

ICLR 2026 - Submissions, Pangram Labs, 2025.11

Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #Blog #ICLR #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-15 Comment

元ポスト:

Loading…

ICLR'26のsubmissionとreviewに対してLLMが生成したものが否かをDetectionした結果（検出性能は完璧な結果ではない点に注意）

この辺の議論が興味深い:

Loading…

関連:

Loading…

oh...

パイプライン解説:

Loading…

母国語でレビューを書いて英語に翻訳している場合もAI判定される場合があるよという話:

Loading…

ICLR公式が対応検討中とのこと:

Loading…

ICLRからの続報:

Loading…

> As such, reviewers who posted such poor quality reviews will also face consequences, including the desk rejection of their submitted papers.

> Authors who got such reviews (with many hallucinated references or false claims) should post a confidential message to ACs and SACs pointing out the poor quality reviews and provide the necessary evidence.

citationに明らかな誤植があり、LLMによるHallucinationが疑われる事例が多数見つかっている:

Loading…

Oralに選ばれるレベルのスコアの研究論文にも多数のHallucinationが含まれており、1人の査読者がそれに気づきスコア0を与える、といった事態にもなっているようである:

Loading…

当該論文はdesk rejectされたので現在は閲覧できないとのこと。

NeurIPS'25ではそもそも査読を通過した研究についても多くのHallucinationが見つかっているとのこと:

Loading…

GPT-5.1: A smarter, more conversational ChatGPT, OpenAI, 2025.11

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ChatGPT #Blog #Reasoning #Proprietary #Selected Papers/Blogs #Routing #One-Line Notes Issue Date: 2025-11-13 Comment

元ポスト:

Loading…

instantモデルはよりあたたかい応答でより指示追従能力を高め、thinkingモデルは入力に応じてより適応的に思考トークン数を調整する。autoモデルは入力に応じてinstant, thinkingに適切にルーティングをする。

所見:

Loading…

Artificial Analysisによるベンチマーキング:

Loading…

GPT-5.1-Codex-maxの50% time horizon:

Loading…

Introducing Kimi K2 Thinking, MoonshotAI, 2025.11

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Reasoning #OpenWeight #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-07 Comment

HF: https://huggingface.co/moonshotai

元ポスト:

Loading…

coding系ベンチマークでは少しGPT5,Claude Sonnet-4.5に劣るようだが、HLE, BrowseCompなどではoutperform

tooluseのベンチマークであるtau^2 Bench TelecomではSoTA

Loading…

モデルの図解:

Loading…

INT4-QATに関する解説:

Loading…

INT4-QATの解説:

Loading…

Kimi K2 DeepResearch:

Loading…

METRによる50% timehorizonの推定は54分:

Loading…

ただしサードパーティのinference providerによってこれは実施されており、（providerによって性能が大きく変化することがあるため）信頼性は低い可能性があるとのこと。

METRでの評価でClaude 3.7 Sonnetと同等のスコア:

Loading…

openweightモデルがproprietaryモデルに追いつくのはsoftwere engineeringタスク（agenticなlong horizon+reasoningタスク）9ヶ月程度を要しているとのこと

MiniMax-M2: Intelligence, Performance & Price Analysis, Artificial Analysis, 2025.10

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #OpenWeight #Selected Papers/Blogs Issue Date: 2025-10-26 Comment

元ポスト:

Loading…

関連:
- [Paper Note] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention, MiniMax+, arXiv'25, 2025.06

CISPOを提案したMiniMax-M1の後続モデルと思われるMiniMax-M2-previewが中国製のモデルでArtificial Intelligenceでの評価でトップに立った模様。

所見:

Loading…

モデルが公開:
https://huggingface.co/MiniMaxAI/MiniMax-M2

proprietaryモデルになるもんだと思ってた、、、これを公開するの凄すぎでは、、、

公式ポスト:

Loading…

MITライセンス

vLLMでのserving方法:
https://docs.vllm.ai/projects/recipes/en/latest/MiniMax/MiniMax-M2.html

> You can use 4x H200/H20 or 4x A100/A800 GPUs to launch this model.

上記GPUにおいては--tensor-parallel-size 4で動作する模様。

SGLangでもサポートされている:

Loading…

AnthropicのAPIの利用をお勧めする理由:

Loading…

（以下管理人の補足を含みます）MiniMax-M2はAgenticなCoTをするモデルなので、contextの情報を正しく保持する必要がある。特に、マルチターンのやり取りをAPIを介してユーザが実行する場合、OpenAIのchatcompletionはCoTを返してくれず、マルチターンのやり取りをしても同じsessionで利用したとしても、前のターンと同じCoTが利用されないことがドキュメントに記述されている。このような使い方をサポートしているのはResponceAPIのみであるため、ResponceAPIでのみ適切なパフォーマンスが達成される。この点がconfusingなので、誤った使い方をするとMiniMaxの真価が発揮されず、しかもそれに気づけずに使い続けてしまう可能性がある。AnthropicのAPIではSonnet 4.5では全ての応答に明示的にCoTが含まれるため、その心配がない、だからAnthropicがおすすめ、みたいな話だと思われる。

アーキテクチャ解説:

Loading…

解説:

Loading…

DeepSeek-OCR: Contexts Optical Compression, DeepSeek, 2025.10

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiLingual #read-later #Selected Papers/Blogs #DocParser #Encoder-Decoder #OCR #Compression Issue Date: 2025-10-20 Comment

元ポスト:

Loading…

英語と中国語では使えそうだが、日本語では使えるのだろうか？p.17 Figure11を見ると100言語に対して学習したと書かれているように見える。

所見:

Loading…

所見:

Loading…

OCRベンチマーク:
- [Paper Note] OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations, Linke Ouyang+, CVPR'25, 2024.12

（DeepSeek-OCRの主題はOCRの性能向上というわけではないようだが）

所見:

Loading…

所見+ポイント解説:

Loading…

所見:

Loading…

textxをimageとしてエンコードする話は以下の2023年のICLRの研究でもやられているよというポスト:
- [Paper Note] Language Modelling with Pixels, Phillip Rust+, ICLR'23, 2022.07

Loading…

関連:

Loading…

literature:

Loading…

上記ポストでは本研究はこれらliteratureを完全に無視し “an initial investigation into the feasibility of compressing long contexts via optical 2D mapping.” と主張しているので、先行研究を認識し引用すべきだと述べられているようだ。

karpathy氏のポスト:

Loading…

DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention, DeepSeek-AI, 2025.09

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Attention #OpenWeight #Sparse #SparseAttention Issue Date: 2025-09-29 Comment

元ポスト:

Loading…

DeepSeek Sparse Attentionポイント解説:

Loading…

解説:

Loading…

DSA図解:

Loading…

ポイント解説:

Loading…

公式ポスト:

Loading…

Qwen3-Omni, Qwen Team, 2025.09

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #Omni Issue Date: 2025-09-23 Comment

テクニカルレポート: https://github.com/QwenLM/Qwen3-Omni/blob/main/assets/Qwen3_Omni.pdf

公式ポスト:

Loading…

元ポスト:

Loading…

ポイント解説:

Loading…

日本語で音声to音声可能:

Loading…

Artificial Analysisによる評価:

Loading…

LongCat-Flash-Chat, meituan-longcat, 2025.08

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #OpenWeight #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-08-31 Comment

テクニカルレポート: https://github.com/meituan-longcat/LongCat-Flash-Chat/blob/main/tech_report.pdf

元ポスト:

Loading…

Agent周りのベンチで高性能なnon thinkingモデル。毎秒100+トークンの生成速度で、MITライセンス。Dynamic Activation...?

Dynamic Activation (activation paramが入力に応じて変化(全てのトークンをMoEにおいて均一に扱わない）することで効率化）は、下記を利用することで実現している模様

- [Paper Note] MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts, Peng Jin+, ICLR'25

しかし中国は本当に次々に色々な企業から基盤モデルが出てくるなぁ…すごい

- [Paper Note] Scaling Exponents Across Parameterizations and Optimizers, Katie Everett+, ICML'24

解説:

Loading…

解説:

Loading…

Your Efficient RL Framework Secretly Brings You Off-Policy RL Training, Yao+, 2025.08

Paper/Blog Link My Issue
#Article #Library #ReinforcementLearning #Blog #Selected Papers/Blogs #On-Policy #KeyPoint Notes #train-inference-gap Issue Date: 2025-08-26 Comment

元ポスト:

Loading…

元々
- verl: Volcano Engine Reinforcement Learning for LLMs, ByteDance Seed Team, 2025.04

のスレッド中にメモっていたが、アップデートがあったようなので新たにIssue化

trainingのエンジン(FSDP等)とロールアウトに使うinferenceエンジン(SGLang,vLLM)などのエンジンのミスマッチにより、学習がうまくいかなくなるという話。

アップデートがあった模様:

Loading…

- Parallelismのミスマッチでロールアウトと学習のギャップを広げてしまうこと（特にsequence parallelism)
- Longer Sequenceの方が、ギャップが広がりやすいこと
- Rolloutのためのinferenceエンジンを修正する（SGLang w/ deterministic settingすることも含む)だけでは効果は限定的

といった感じな模様。

さらにアップデート:

Loading…

FP16にするとtrain-inferenae gapが非常に小さくなるという報告:
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10

vLLMがtrain inference mismatchを防ぐアップデートを実施:

Loading…

GPT-5 System Card, OpenAI, 2025.08

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MultiModal #Proprietary #KeyPoint Notes Issue Date: 2025-08-07 Comment

日本語性能。MMLUを専門の翻訳家を各言語に翻訳。

ざーっとシステムカードを見たが、ベンチマーク上では、Safetyをめっちゃ強化し、hallucinationが低減され、コーディング能力が向上した、みたいな印象（小並感）

longContextの性能が非常に向上しているらしい
-

Loading…

gpt-ossではAttentionSinkが使われていたが、GPT-5では使われているだろうか？もし使われているならlong contextの性能向上に寄与していると思われる。

50% time horizonもscaling lawsに則り進展:
-

Loading…

- [Paper Note] Measuring AI Ability to Complete Long Tasks, Thomas Kwa+, arXiv'25, 2025.03

個別のベンチが数%向上、もしくはcomparableです、ではもはやどれくらい進展したのかわからない（が、個々の能力が交互作用して最終的な出力がされると考えるとシナジーによって全体の性能は大幅に底上げされる可能性がある）からこの指標を見るのが良いのかも知れない

METR's Autonomy Evaluation Resources
- https://metr.github.io/autonomy-evals-guide/gpt-5-report/
-

Loading…

HLEに対するツール利用でのスコアの比較に対する所見:

Loading…

Document Understandingでの評価をしたところOutput tokenが大幅に増えている:

Loading…

GPT5 Prompting Guide:
https://cookbook.openai.com/examples/gpt-5/gpt-5_prompting_guide

GPT-5: Key characteristics, pricing and model card
- https://simonwillison.net/2025/Aug/7/gpt-5/
-

Loading…

システムカード中のSWE Bench Verifiedの評価結果は、全500サンプルのうちの477サンプルでしか実施されておらず、単純にスコアを比較することができないことに注意。実行されなかった23サンプルをFailedとみなすと（実行しなかったものを正しく成功できたとはみなせない）、スコアは減少する。同じ477サンプル間で評価されたモデル間であれば比較可能だが、500サンプルで評価された他のモデルとの比較はできない。

-

Loading…

- SWE Bench リーダーボード: https://www.swebench.com

まとめ:

Loading…

所見:
-

Loading…

OpenHandsでの評価:

Loading…

SWE Bench Verifiedの性能は71.8%。全部の500サンプルで評価した結果だと思うので公式の発表より低めではある。

AttentionSinkについて:

Loading…

o3と比較してGPT5は約1/3の時間でポケモンレッド版で8個のバッジを獲得した模様:

Loading…

より温かみのあるようなalignmentが実施された模様:

Loading…

GPT5はlong contextになるとmarkdownよりめxmlの方が適していると公式ドキュメントに記載があるらしい:

Loading…

Smallow LLM Leaderboard v2での性能:

Loading…

GPT5の性能が際立って良く、続いてQwen3, gptossも性能が良い。

gpt-oss-120b, OpenAI, 2025.08

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #OpenWeight #MoE(Mixture-of-Experts) #AttentionSinks #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-08-05 Comment

blog: https://openai.com/index/introducing-gpt-oss/

HF:
https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/apache-2.0.md

アーキテクチャで使われている技術まとめ:
-

Loading…

- こちらにも詳細に論文がまとめられている

上記ポスト中のアーキテクチャの論文メモリンク（管理人が追加したものも含む）
- Sliding Window Attention
- [Paper Note] Longformer: The Long-Document Transformer, Iz Beltagy+, arXiv'20
- [Paper Note] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context, Zihang Dai+, ACL'19
- MoE
- [Paper Note] Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity, William Fedus+, JMLR'22
- RoPE w/ YaRN
- [Paper Note] RoFormer: Enhanced Transformer with Rotary Position Embedding, Jianlin Su+, arXiv'21, 2021.04
- [Paper Note] YaRN: Efficient Context Window Extension of Large Language Models, Bowen Peng+, ICLR'24
- Attention Sinks
- [Paper Note] Efficient Streaming Language Models with Attention Sinks, Guangxuan Xiao+, ICLR'24
- Attention Sinksの定義とその気持ち、Zero Sink, Softmaxの分母にバイアス項が存在する意義についてはこのメモを参照のこと。
- [Paper Note] Why do LLMs attend to the first token?, Federico Barbero+, COLM'25
- Attention Sinksが実際にどのように効果的に作用しているか？についてはこちらのメモを参照。
- [Paper Note] When Attention Sink Emerges in Language Models: An Empirical View, Xiangming Gu+, ICLR'25
-

Loading…

- Sink Token (or Zero Sink) が存在することで、decoder-onlyモデルの深い層でのrepresentationのover mixingを改善し、汎化性能を高め、promptに対するsensitivityを抑えることができる。
- (Attentionの計算に利用する) SoftmaxへのLearned bias の導入（によるスケーリング）
- これはlearnable biasが導入されることで、attention scoreの和が1になることを防止できる（余剰なアテンションスコアを捨てられる）ので、Zero Sinkを導入しているとみなせる（と思われる）。
- GQA
- [Paper Note] GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, arXiv'23, 2023.05
- SwiGLU
- [Paper Note] GLU Variants Improve Transformer, Noam Shazeer, arXiv'20, 2020.02 -

- group size 8でGQAを利用
- Context Windowは128k
- 学習データの大部分は英語のテキストのみのデータセット
- STEM, Coding, general knowledgeにフォーカス
- https://openai.com/index/gpt-oss-model-card/

あとで追記する

他Open Weight Modelとのベンチマークスコア比較:
-

Loading…

- long context
-

Loading…

- Multihop QA

解説:

Loading…

learned attention sinks, MXFP4の解説:

Loading…

Sink Valueの分析:

Loading…

gpt-oss の使い方:
https://note.com/npaka/n/nf39f327c3bde?sub_rt=share_sb [Paper Note] Comments-Oriented Document Summarization: Understanding Documents with Reader’s Feedback, Hu+, SIGIR’08, 2008.07 fd064b2-338a-4f8d-953c-67e458658e39

Qwen3との深さと広さの比較:
- The Big LLM Architecture Comparison, Sebastian Laschka, 2025.07

Phi4と同じtokenizerを使っている？:

Loading…

post-training / pre-trainingの詳細はモデルカード中に言及なし:
-

Loading…

ライセンスに関して:

> Apache 2.0 ライセンスおよび当社の gpt-oss 利用規約に基づくことで利用可能です。

引用元: https://openai.com/ja-JP/index/gpt-oss-model-card/

gpt-oss利用規約: https://github.com/openai/gpt-oss/blob/main/USAGE_POLICY

cookbook全体: https://cookbook.openai.com/topic/gpt-oss

gpt-oss-120bをpythonとvLLMで触りながら理解する: https://tech-blog.abeja.asia/entry/gpt-oss-vllm

指示追従能力（IFEVal)が低いという指摘:

Loading…

Kimi K2: Open Agentic Intelligence, moonshotai, 2025.07

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Optimizer #OpenWeight #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #Stability #KeyPoint Notes Issue Date: 2025-07-12 Comment

元ポスト:

Loading…

1T-A32Bのモデル。さすがに高性能。

（追記） Reasoningモデルではないのにこの性能のようである。

1T-A32Bのモデルを15.5Tトークン訓練するのに一度もtraining instabilityがなかったらしい
元ポスト:

Loading…

量子化したモデルが出た模様:

Loading…

仕事早すぎる

DeepSeek V3/R1とのアーキテクチャの違い:

Loading…

MLAのヘッドの数が減り、エキスパートの数を増加させている

解説ポスト:

Loading…

利用されているOptimizer:
- [Paper Note] Muon is Scalable for LLM Training, Jingyuan Liu+, arXiv'25

2つほどバグがあり修正された模様:

Loading…

chatbot arenaでOpenLLMの中でトップのスコア
元ポスト:

Loading…

テクニカルペーパーが公開: https://github.com/MoonshotAI/Kimi-K2/blob/main/tech_report.pdf

元ポスト:

Loading…

テクニカルレポートまとめ:

Loading…

以下のような技術が使われている模様
- [Paper Note] Rewriting Pre-Training Data Boosts LLM Performance in Math and Code, Kazuki Fujii+, ICLR'26, 2025.05
- MLA MHA vs MQA vs GQA vs MLA, Zain ul Abideen, 2024.07
- MuonCip
- MuonOptimizer [Paper Note] Muon is Scalable for LLM Training, Jingyuan Liu+, arXiv'25
- QK-Clip
- 参考（こちらはLayerNormを使っているが）: [Paper Note] Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action, Jiasen Lu+, CVPR'24, 2023.12
- RLVR
- DeepSeek-R1, DeepSeek, 2025.01
- Self-Critique
- 関連: [Paper Note] Inference-Time Scaling for Generalist Reward Modeling, Zijun Liu+, arXiv'25
- [Paper Note] Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards, Ruipeng Jia+, arXiv'25, 2025.05
- Temperature Decay
- 最初はTemperatureを高めにした探索多めに、後半はTemperatureを低めにして効用多めになるようにスケジューリング
- Tool useのためのSynthetic Data

Reward Hackingに対処するため、RLVRではなくpairwise comparisonに基づくself judging w/ critique を利用きており、これが非常に効果的な可能性があるのでは、という意見がある:

Loading…

Kimi-VL-A3B-Thinking-2506, moonshotai, 2025.06

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #Reasoning #OpenWeight #One-Line Notes Issue Date: 2025-06-24 Comment

元ポスト:

Loading…

様々なベンチマークでSoTA(gpt4o, Qwen2.5-VL-7B)を達成したReasoning VLM

テクニカルペーパー:
- [Paper Note] Kimi-VL Technical Report, Kimi Team+, arXiv'25

Don’t Build Multi-Agents, Cognition, 2025.06

Paper/Blog Link My Issue
#Article #Multi #NLP #AIAgents #Blog #read-later #ContextEngineering Issue Date: 2025-06-17 Comment

元ポスト:

Loading…

まとめ:

Loading…

[Paper Note] Spurious Rewards: Rethinking Training Signals in RLVR, Shao+, 2025.05

Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #Mathematics #SmallModel #PostTraining #RLVR #Author Thread-Post Issue Date: 2025-05-27 Comment

元ポスト:

Loading…

参考（考察）:

Loading…

参考（考察）:

Loading…

こちらでもQwen2.5 MATH 7b を用いて検証しているが、コンタミネーションの問題が仮に本当だとしたら、どう影響するだろうか。スレッド中のグラフもMATH500（Qwen2.5においてコンタミの可能性がある）の性能を示している。

OpenAI-Codex, OpenAI, 2025.05

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #Coding #One-Line Notes Issue Date: 2025-05-18 Comment

OpenHandsのNeubig氏が、OpenAIのブログポスト中で報告されているSWE-Bench Verifiedのスコアについて、言及している。OpenAIは23個サンプルについて(internal infrastructureで動作させられないため)除外しているので、その分スコアに下駄が履かれているようで、ブログ中のpassNのスコアを他のリーダーボードのスコアと比較する際には注意が必要っぽい。

Loading…

verl: Volcano Engine Reinforcement Learning for LLMs, ByteDance Seed Team, 2025.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #ReinforcementLearning #python #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-05-16 Comment

SoTAなRLアルゴリズムを数行のコードで実装可能で、Sequence Parallelismがサポートされているので長い系列を扱える。FSDP, Megatron-LM,vLLM,SGLangなどとシームレスに統合できるっぽい？

注意点（超重要）:

Loading…

inference backend（ブログ中ではvLLM, SGLangなどを仮定。ロールアウトに利用する）とtrainingのbackend（モデルを学習するフレームワーク, FSDPなどを仮定する）のミスマッチによってトークンの生起確率に差が生じ、ポリシーの更新がうまくいかなくなる。

- 論文では語られないLLM開発において重要なこと Swallow Projectを通して, Kazuki Fujii, NLPコロキウム, 2025.07

でも言われているように、ライブラリにはバグがあるのが普通なのね、、、。

The Second Half, Shunyu Yao, 2025.05

Paper/Blog Link My Issue
#Article #Tutorial #MachineLearning #LanguageModel #ReinforcementLearning #Blog Issue Date: 2025-05-12 Comment

元ポスト:

Loading…

Qwen3, Qwen Team, 2025.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #InstructionTuning #Blog #LongSequence #MultiLingual #OpenWeight #MoE(Mixture-of-Experts) #PostTraining #KeyPoint Notes Issue Date: 2025-04-29 Comment

- 119言語をサポート
- MoEモデル [Paper Note] Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer, Noam Shazeer+, ICLR'17
- 30B-A3B / 235B-A22N
- 128K context window
- Qwen2.5はMoEを採用していないので新たなアーキテクチャとなる
- Denseモデル（非MoEモデル）も公開
- 0.6B -- 32B
- 32K -- 128K context window
- Thinking/Non-thinking の切り替えが切り替えが可能
- スイッチは自動的に実施されるが、ユーザが明示的に `/think`, `/no_think` を user_promptの末尾に追加することで制御することも可能
- Pre-training
- データ
- 36 trillion tokensによって学習（Qwen-2.5の2倍）
- 学習データではwebデータに加えて、PDF-likeな文書群からQwen2.5-VL Qwen2.5-VL-32B-Instruct, Qwen Team, 2025.03 によってテキストを抽出し、Qwen2.5 で抽出された内容の品質を改善し利用
- また、math / code に関するデータを追加するために、Qwen2.5-Math / Qwen2.5-Coderを用いて合成データを作成（textbooks / QA pairs / code snippets [Paper Note] Textbooks Are All You Need, Suriya Gunasekar+, arXiv'23, 2023.06 ）
- 事前学習のステップ
- S1: context長が4kの30 trillion tokenで事前学習
- S2: STEM / coding / reasoning task などのknowledge-intensiveデータの比率を増やして継続事前学習 (これがおそらく 5 trillion token程度？)
- Final Stage: context長を32kに拡大し高品質なlong-context dataで継続事前学習
- これによりBaseモデルが完成し、Qwen3-235B全体のうち10%程度のActive Parameterの利用するだけで（i.e., 22Bで）、Qwen2.5-72B Baseと同等以上の性能達成
- Post-training
- S1: long-CoT cold start
- 数学/coding/logical reasoning/STEMなどの多様なlong CoTデータを用いてSFT [Paper Note] s1: Simple test-time scaling, Niklas Muennighoff+, EMNLP'25, 2025.01
- S2: reasoning-based RL
- rule-based (verifiable) rewards によるRL DeepSeek-R1, DeepSeek, 2025.01
- S1/S2の流れは [Paper Note] Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, ICML'25 に有効性が示されている通り、long CoT DataによるSFT -> RLを実施
- S3: thinking mode fusion
- S2データを用いてlong CoTデータとinstruction tuningデータ（非Long CoT）を生成し、Thinking/Non-thinkingを自動的に選択し生成するように学習（SFT or RLは記述なし）
- S4: general RL
- 20以上の一般的なドメインのタスクを通じて一般的な能力の向上と、safetyに関するalignmentの実施（e.g., instruction following, format following, agent能力など）

BestPracticeに関するポスト:

Loading…

解説:

Loading…

Llama 4 Series, Meta, 2025.04

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #OpenWeight #One-Line Notes Issue Date: 2025-04-05 Comment

Downloads: https://www.llama.com/?utm_source=twitter&utm_medium=organic_social&utm_content=image&utm_campaign=llama4

Huggingface:
https://huggingface.co/collections/meta-llama/llama-4-67f0c30d9fe03840bc9d0164

解説ポスト:

Loading…

Artificial Analysisによる性能検証:

Loading…

MaverickがGPT4oと同等、ScoutがGPT4o-miniと同等

Update:

Loading…

性能に関して不可解な点が多そうなので様子見をしても良いかも。

性能検証（Math-Perturb):

Loading…

日本語にあまり強くないという情報も
元ポスト:

Loading…

どうやらvLLMのLlama4のinferenceにバグがあったやうで、vLLMのIssue 16311にて、Llama4のinferenceに関するバグが修正され、性能が向上した模様。どのベンチを信じたら良いかまるでわからん。

2025.0413現在のchatbot arenaのランクは、32位となり（chatbot arena向けにtuningされていたであろうモデルは2位だった）GPT-4oが29位であることを考慮すると上記のArtificial Intelligenceの評価とも大体一致している。

https://lmarena.ai

関連ポスト:

Loading…

ERNIE4.5_X1, Baidu, 2025.03

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #OpenWeight #Proprietary #One-Line Notes #Author Thread-Post Issue Date: 2025-03-17 Comment

解説ポスト:

Loading…

- ERNIE4.5はGPT4.5をさまざまなベンチマークで上回り、価格がなんとGPT4.5の1%
- X1はマルチモーダルなreasoningモデルでDeepSeek-R1と同等の性能で半額

らしい

このモデルは6月30日にオープン（ウェイト？）になるとスレッドで述べられている。

オープンになった: https://huggingface.co/collections/baidu/ernie-45

Introducing Gemma 3: The most capable model you can run on a single GPU or TPU, Google, 2025.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #One-Line Notes Issue Date: 2025-03-12 Comment

Googleの新たなSLMで、デバイスやラップトップでも動作可能な軽量モデル。テキストだけでなく画像とShortVideoの認識もできて、140言語をサポート。おまけに27BモデルでLlama3-405BとDeepSeek-V3とo3-miniをChatbotArenaのリーダーボードで上回り、128kのcontext window。えぇ…。

モデルの詳細: https://huggingface.co/blog/gemma3

1Bモデルは英語のみサポート、マルチモーダル不可など制約がある模様。
詳細までは書いていないが、128Kコンテキストまでcontext windowを広げる際の概要とRoPE（のような）Positional Embeddingを利用していること、SlideingWindow Attentionを用いておりウィンドウサイズが以前の4096から性能を維持したまま1024に小さくできたこと、ImageEncoderとして何を利用しているか（SigLIP）、896x896の画像サイズをサポートしており、正方形の画像はこのサイズにリサイズされ、正方形でない場合はcropされた上でリサイズされる（pan and scanアルゴリズムと呼ぶらしい）こと、事前学習時のマルチリンガルのデータを2倍にしたことなど、色々書いてある模様。

Gemmaライセンス

解説ポスト:

Loading…

解説ポスト:

Loading…

microsoft_Phi-4-multimodal-instruct, Microsoft, 2025.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MultiModal #OpenWeight #VisionLanguageModel #2D (Image) #audio #text Issue Date: 2025-03-04 Comment

元ポスト: https://www.linkedin.com/posts/vaibhavs10_holy-shitt-microsoft-dropped-an-open-source-activity-7300755229635944449-mQP8?utm_medium=ios_app&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4&utm_source=social_share_send&utm_campaign=copy_link

MIT License

SGlang, sgl-project, 2024.01

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #python #LLMServing #SoftwareEngineering #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-02-12 Comment

- Open R1, HuggingFace, 2025.01

のUpdate2でMath Datasetの生成に利用されたLLM Servingフレームワーク。利用前と比較してスループットが2倍になったとのこと。

CPU, external storageを利用することでTTFTを改善するようになったようで、最大80%TTFTが削減されるとの記述がある。

Loading…

（原理的には元来可能だが計算効率の最適化に基づく誤差によって実装上の問題で実現できていなかった) Deterministic Inferenceをサポート:

Loading…

Open R1, HuggingFace, 2025.01

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Repository #Reasoning #OpenSource #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-01-26 Comment

HFによるDeepSeekR1を完全に再現する取り組み

Update1: https://huggingface.co/blog/open-r1/update-1

Update2: https://huggingface.co/blog/open-r1/update-2

512機のH100を利用…

Update3: https://huggingface.co/blog/open-r1/update-3

DeepSeek-R1, DeepSeek, 2025.01

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #OpenWeight #Selected Papers/Blogs Issue Date: 2025-01-21 Comment

参考:

Loading…

参考: https://horomary.hatenablog.com/entry/2025/01/26/204545

DeepSeek-R1の論文読んだ？【勉強になるよ】
, asap: https://zenn.dev/asap/articles/34237ad87f8511

こちらのポストの図解がわかりやすい:

Loading…

最新モデル: DeepSeek-R1-0528
https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

所見:

Loading…

ZeRO: DeepSpeedの紹介, レトリバ, 2021.07

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Pretraining #NLP #Supervised-FineTuning (SFT) #One-Line Notes Issue Date: 2024-11-07 Comment

ZeROの説明がわかりやすい

こちらの記事もわかりやすい

https://zenn.dev/turing_motors/articles/d00c46a79dc976

DeepSpeedのコンフィグの一覧

https://www.deepspeed.ai/docs/config-json/

transformersにおけるdeepspeedのドキュメント:
https://huggingface.co/transformers/v4.9.2/main_classes/deepspeed.html

参考: deepspeedの使い方まとめ
https://note.com/fukudawataru/n/n5152e6f587c8

ZeRO Stage3を使う場合、ページ後方にしれっととんでもなく重要なことが書いてあるので気をつけましょう。。。。

https://huggingface.co/docs/transformers/v4.17.0/en/main_classes/deepspeed#constructing-massive-models

ZeROはparameterとoptimizerのmemory footprintの最適化を頑張っていて、activation memory footprint（バッチをforward passに流す時に消費されるメモリ）の削減は、tiling, activation/gradient checkpointingとかで頑張ってねという

という話が本家issueの4047に記載されている。

結論: つまづいたらDeepSpeedのIssueをエラーメッセージで検索かけるのが一番効果的

Reflection 70B, GlaiveAI, 2024.09

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #InstructionTuning #OpenWeight #SelfCorrection #PostTraining #KeyPoint Notes #Author Thread-Post Issue Date: 2024-09-06 Comment

ただまあ仮に同じInputを利用していたとして、promptingは同じ（モデルがどのようなテキストを生成し推論を実施するかはpromptingのスコープではない）なので、そもそも同じInputなのでfair comparisonですよ、という話に仮になるのだとしたら、そもそもどういう設定で比較実験すべきか?というのは検討した方が良い気はする。まあどこに焦点を置くか次第だと思うけど。

エンドユーザから見たら、reflectionのpromptingのやり方なんてわからないよ！という人もいると思うので、それを内部で自発的に実施するように学習して明示的にpromptingしなくても、高い性能を達成できるのであれば意味があると思う。

ただまあ少なくとも、参考でも良いから、他のモデルでもreflectionをするようなpromptingをした性能での比較結果も載せる方が親切かな、とは思う。

あと、70Bでこれほどの性能が出ているのはこれまでにないと思うので、コンタミネーションについてはディフェンスが必要に思う（他のモデルがそのようなディフェンスをしているかは知らないが）。

追記
→ 下記記事によると、LLM Decontaminatorを用いてコンタミネーションを防いでいるとのこと
https://github.com/lm-sys/llm-decontaminator

Reflection自体の有用性は以前から示されている。
参考: Self-Reflection in LLM Agents: Effects on Problem-Solving Performance, Matthew Renze+, N/A, arXiv'24 , [Paper Note] Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection, Akari Asai+, ICLR'24, 2023.10 , [Paper Note] AnyTool: Self-Reflective, Hierarchical Agents for Large-Scale API Calls, Yu Du+, ICML'24, 2024.02 , [Paper Note] Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies, Liangming Pan+, TACL'24, 2023.08

ollamaで実際に動かして日本語でのQAを試している記事。実際のアウトプットやreflectionの内容が確認でき、おもしろい。

システムプロンプトで< thinking >タグでInputに対して推論し、< output >タグ内で最終出力を行い、推論過程で誤りがある場合は< reflection >タグを用いて修正するように指示している。

おそらく、thinkingタグ内の思考過程でモデルが誤りに気づいた場合は、thinkingタグの途中でreflectionタグが出力され、その時点でCoTが修正されるようである（もしくはoutputとthinkingの中間）。このため、誤ったCoTに基づいてOutputが生成される頻度が減少すると考えられる。

このような挙動はおそらく、reflection用の学習データでSFTしないとできないと思うので

（たとえば、ReflectionタスクをするようなデータでSFTをしていない場合、出力の途中で誤りを検出し出力を修正するという挙動にはならず、回答として自然な文を最後までoutputすると思う。その後でreflectionしろと促すことはpromptingでできるかもしれないが、そもそもreflectionする能力があまり高くない可能性があり、うまく修正もしてくれないかも）

reflectionの能力を高めるようなデータでSFTをしていないモデルで似たようなpromptingをしても、うまくいかない可能性があるので注意が必要だと思われる。

参考: https://note.com/schroneko/n/nae86e5d487f1

開発者曰く、HFに記載の正しいシステムプロンプトを入れないと、適切に動作しないとのこと。
元ツイート:

Loading…

どうやら初期にアップロードされていたHFのモデルはweightに誤りがあり、挙動がおかしくなっていたようだ。
正しいモデルの挙動は下記ツイートのようである。thinking内でreflectionが実施されている。

実際にいくつかの例をブログをリリース当日に見た時に、reflectionタグがoutputの後に出力されている例などがあり、おや？という挙動をしていたので、問題が是正されたようだ。

Loading…

HFのモデルが修正された後もベンチマークの結果が再現されないなど、雲行きが色々と怪しいので注意した方が良い。

続報

Loading…

開発者ポスト:

Loading…

再現実験を全て終了し、当初報告していた結果が再現されなかったとCEOが声明：

Loading…

DeepSpeed, vLLM, CTranslate2 で rinna 3.6b の生成速度を比較する, 2024.06

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Library #python #Blog #OpenWeight #LLMServing #One-Line Notes Issue Date: 2024-08-05 Comment

[vllm]( https://github.com/vllm-project/vllm)を使うのが一番お手軽で、inference速度が速そう。PagedAttentionと呼ばれるキャッシュを利用して高速化しているっぽい。

（図はブログ中より引用）

こちらも参照のこと

vLLMの仕組みをざっくりと理解する： https://dalab.jp/archives/journal/vllm/#PagedAttention

vLLMでReasoning ModelをServingするときは、`--enable-reasoning`等の追加オプションを指定する必要がある点に注意
https://docs.vllm.ai/en/stable/features/reasoning_outputs.html

Gemini, Google, 2023.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Proprietary #KeyPoint Notes Issue Date: 2023-12-07 Comment

多くのベンチマークでGPT4超えらしい

（追記1）
テクニカルレポートのp.44を見ると、ブログポスト中のGPT4のMMLUのスコアはGPT-4-0613のもののようなので、これが正しいとすると他のベンチマークのスコアも同モデルのものである可能性が高く、GPT-4-1163-preview（最新モデル）のスコアでは"ないかもしれない"点に注意。GPT4とどちらが実際に性能が良いか?については様子見した方が良さそう。

（追記2）
GSM8Kの結果も、GPT4に対してFair Comparisonではないかもしれない点に注意。Geminiは32個のCoTとSelf-Consistencyを利用しているが、GPT4では5-shotで単一のCoTのみであるため、prompting手法ではGeminiに有利な比較となっているように見える。ただしGPT4はGSM8Kの訓練データを事前学習時にMIXしている（SFT）ので、Geminiがこのようなことをしていないのであれば、この点ではGPT4が有利になっている“可能性”がある。

他にもFair Comparisonになっていないと推察されるものはTextモダリティでの評価の表の文言を見るとありそうなのでそこは念頭においた方が良さそうである。

テクニカルレポート: https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

Gemini Summary

Loading…

MMLUでの同じprompting手法でのGPT-4-0613との比較。32個のCoTでのSelf-Consistencyで比較した場合、GPT-4-0613に負けているが、閾値を設けてconfidenceが閾値以上の場合はSelf-consistency, そうでない場合はgreedyに生成した結果を選択する、というUncertain-Routed CoT@32では、Geminiのパフォーマンスgainが大きくGPT-4-0613よりも高い性能を示している。
ブログポスト中のGPT4のスコアは5-shotのもの（reportedと書かれているのでOpenAIが公表している数値と推察）であり、Geminiの結果はUncertain-Routed CoT@32の結果であるため、Fair Comparisonになっていないかもしれない？点には注意。

レポート中ではSelf-consistencyという単語でこの部分は書かれていないが、実は少しやっていること違ってたりする…？

trl_trlx

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #ReinforcementLearning #One-Line Notes #needs-revision Issue Date: 2023-07-23 Comment

TRL - 強化学習によるLLMの学習のためのライブラリ
https://note.com/npaka/n/nbb974324d6e1

trlを使って日本語LLMをSFTからRLHFまで一通り学習させてみる
https://www.ai-shift.co.jp/techblog/3583

Lambda tips

Paper/Blog Link My Issue
#Article #AWS #Infrastructure #AWSLambda Issue Date: 2023-04-23 Comment

- AWS Lambda and EFS Troubleshooting

- https://www.digitalsanctuary.com/aws/aws-lambda-and-efs-troubleshooting.html

- VPC内のEFSにアクセスできるようなセキュリティーポリシーを作成してアタッチすると良いという話。in-bound, out-boundともにNFSを許可

- 【AWS】VPC Lambdaを構築したときのメモ

- https://qiita.com/aiko_han/items/6b3010250e2887206b4f

- Amazon VPC に接続されている Lambda 関数にインターネットアクセスを許可するにはどうすればよいですか?

- https://repost.aws/ja/knowledge-center/internet-access-lambda-function

Llamaindex

Paper/Blog Link My Issue
#Article #Tools #InformationRetrieval #NLP #Library #AIAgents Issue Date: 2023-04-22 Comment

- LlamaIndexのインデックスを更新し、更新前後で知識がアップデートされているか確認してみた

- https://dev.classmethod.jp/articles/llama-index-insert-index/

LangChain

Paper/Blog Link My Issue
#Article #Tools #InformationRetrieval #NLP #LanguageModel #Library #AIAgents Issue Date: 2023-04-21 Comment

- LangChain の Googleカスタム検索連携を試す

- https://note.com/npaka/n/nd9a4a26a8932

- LangChainのGetting StartedをGoogle Colaboratoryでやってみる ④Agents

- https://zenn.dev/kun432/scraps/8216511783e3da

ECS tips

Paper/Blog Link My Issue
#Article #AWS #Infrastructure #ECS Issue Date: 2023-04-16 Comment

- キャパシティプロバイダーについて

- https://dev.classmethod.jp/articles/regrwoth-capacity-provider/

- Fargateをスポットで7割引で使うFargate Spotとは？ #reinvent

- https://dev.classmethod.jp/articles/fargate-spot-detail/

- ECSでのデプロイでコケる原因ざっくりまとめ

- https://zenn.dev/isosa/articles/e371bc2d76e812

- M1 MacでビルドしたイメージをFARGATEで使おうとした時の'exec user process caused: exec format error' の対処法

- https://qiita.com/ms2geki/items/1cfb0db3f4c1aab96e75

- PythonでログをCloudWatchに出力する「Watchtower」

- https://dev.classmethod.jp/articles/python_log_cloudwatch_watchtower/

◆遅くないpandasの書き方

https://naotaka1128.hatenadiary.jp/entry/2021/12/07/083000#iterrows-%E3%81%AF%E7%B5%B6%E5%AF%BE%E3%81%AB%E4%BD%BF%E3%82%8F%E3%81%AA%E3%81%84-apply%E3%82%82

iterrows, applyを使うな、あたりは非常に参考になった。numpy配列に変換してループを回すか、np.vectorizeを使ってループを排除する。

2010年代前半のAIの巨人達のCTR Prediction研究

Paper/Blog Link My Issue
#Article #RecommenderSystems #Survey #CTRPrediction Issue Date: 2021-10-29

pytorch tips

My Issue
#Article #Tutorial #Tools #Library #python Issue Date: 2021-06-05 Comment

【PyTorchでたまに使うけどググって情報探すのに時間かかるやつ】

https://trap.jp/post/1122/

- scatter_add, einsum, Bilinear あたりが説明されている

【NLLossの細かい挙動】

https://tatsukawa.hatenablog.com/entry/2020/04/06/054700

【PyTorchで絶対nanを出したいマン】

https://qiita.com/syoamakase/items/40a716f93dc8afa8fd12

PyTorchでnanが出てしまう原因とその対策が色々書いてある

【pipで様々なCuda versionのpytorchをinstallする方法】

https://stackoverflow.com/questions/65980206/cuda-10-2-not-recognised-on-pip-installed-pytorch-1-7-1

MLP-like Architecture

Paper/Blog Link My Issue
#Article #NeuralNetwork #Survey #ComputerVision #NLP #KeyPoint Notes Issue Date: 2021-05-19 Comment

gMLP:大規模なself-attentionが無いSpatial Gating Unitを搭載したシンプルなMLPでも、Transformerの性能に近づけたよ（特にCV）。つまり、self-attentionはessentialというわけではなさそうだよ。

NLPの場合はgMLPだとTransformerとperplexityでcomparable、一部downstreamタスクだと勝てなかったけど、single headのtiny attentionを追加したら、TransformerをperplexityとGLUEの一部タスクでoutperformしたよ。
つまり、Transformerみたいに大規模なself-attentionは必須ではなく、小規模のattentionで（cross sentenceの関係性を捉えるには）十分だよ。
スケーラビリティもTransformerを上回ったよ。

って感じ？

んーTransformerに勝ったみたいな言い方をSNSだと見かけるけど、評価してるタスクが少ないし、どちらかというとcomparableなdownstreamタスクが多いし、それは言い過ぎでは？
この論文が言いたいのは、大規模なself-attentionが性能を出す上でessentialなわけではないよ、ってことであり、

・CVの場合はself-attentionは必須ではない
・NLPでは、tiny attentionでも十分

という感じなのでは。

まあでもTransformerとcomparableなら、Transformer一強では無くなったよね

Spatial Gating Unit（SGU）は、トークン間の関係性を捉えるためのゲートで、SGUが無いとgMLPブロックはただの二層のFFNとなる。

SGUは、入力をspatial dimensionに対して線形変換した値と、元の入力のelement-wiseな積で表現する。この線形変換をする際は、Wの値を0の近傍で初期化し、バイアス項を1に初期化することがクリティカルだった。これは、学習の初めでは線形変換はidentical mappingに近いものとなるため、gMLPブロックはFFNに近いものとなる。これが学習が進むにつれWの重みが調整され、cross tokenの関係性を捉えたブロックへと徐々に変化していくことになる。
また、SGUへの入力はGLUのようにchannel dimensionに二分割し、片方をelement-wise積に、もう一方をspatialな線形変換に利用する（4種類試した中で一番性能が良かった）。

近似最近傍探索の最前線, Yusuke Matsui, MIRU 2019 チュートリアル, 2019.07

Paper/Blog Link My Issue
#Article #Tutorial #EfficiencyImprovement #MachineLearning #Slide #kNN #Initial Impression Notes Issue Date: 2020-07-30 Comment

k-NNベースドなRecommender Systemを構築したけど、Inferenceに時間がかかって、先方のレスポンスタイムの要求が満たせない...というときに役に立ちそう。

yahooのNGTといった実装も転がっている（Apache-2.0 License）：

https://techblog.yahoo.co.jp/data_solution/ngtpython/

ScaNNという手法もあるらしい（SoTA）
https://ai-scholar.tech/articles/vector-search/scann

BERT入門, Ken'ichi Matsui, 2020.01

Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Slide #Reading Reflections Issue Date: 2020-01-13 Comment

自然言語処理の王様「BERT」の論文を徹底解説

https://qiita.com/omiita/items/72998858efc19a368e50

Transformer関連 [Paper Note] Attention Is All You Need, Ashish Vaswani+, NeurIPS'17, 2017.07 あたりを先に読んでからが読むと良い

要は

・Transformerをたくさん積んだモデル

・NSPとMLMで双方向性を持った事前学習タスクを実施することで性能向上

・pooler layer（Transformer Encoderの次にくっつくlayer）を切り替えることで、様々なタスクにfine-tuning可能（i.e. pooler layerは転移学習の対象外）

・予測する際は、[CLS]トークンに対応する位置の出力を用いて分類問題や複数文間の関係性を問う問題を解いたり、各トークン位置に対応する出力を用いてQAの正解spanを予測したり、色々できる

・gMLP MLP-like Architecture あたりの研究が進んでくると使われなくなってくる可能性有

こっちの記事もわかりやすい。

BERTについて勉強したことまとめ (2)モデル構造について

https://engineering.mobalab.net/2020/06/12/bert%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6%E5%8B%89%E5%BC%B7%E3%81%97%E3%81%9F%E3%81%93%E3%81%A8%E3%81%BE%E3%81%A8%E3%82%81-2%E3%83%A2%E3%83%87%E3%83%AB%E6%A7%8B%E9%80%A0%E3%81%AB%E3%81%A4%E3%81%84/