Transformerに関する論文・技術記事メモの一覧

Transformer

[Paper Note] Beyond Language Modeling: An Exploration of Multimodal Pretraining, Shengbang Tong+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #LanguageModel #MultiModal #Architecture #MoE(Mixture-of-Experts) #Scaling Laws #read-later #Selected Papers/Blogs #WorldModels #UMM Issue Date: 2026-03-05 GPT Summary- 視覚的データは言語を超えるマルチモーダルモデルの進展に重要で、我々は制御された前訓練実験を通じてその要因を明らかにした。Transfusionフレームワークを用い、テキストや視覚データで統一的に訓練し、以下の洞察を得た：(i) RAEが最適な視覚表現を提供；(ii) 視覚とテキストは相補的で相乗効果を生む；(iii) 統一学習が世界モデリングに繋がる；(iv) MoEが効率的なスケーリングを可能にする。視覚データが言語より多く必要であることを示し、MoEが両者の調和を図ることを提案。 Comment

元ポスト:

Loading…

RAE:
- [Paper Note] Diffusion Transformers with Representation Autoencoders, Boyang Zheng+, arXiv'25, 2025.10

著者ポスト:

Loading…

[Paper Note] Multi-Head Low-Rank Attention, Songtao Liu+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Attention #Architecture #Decoding Issue Date: 2026-03-04 GPT Summary- 大規模言語モデルの長文文脈推論におけるKVキャッシュのボトルネックを解消するため、Multi-Head Low-Rank Attention（MLRA）を提案。これにより、4ウェイTPデコードの効率化が実現。実験により、MLRAは最先端の性能を達成し、MLAよりもデコード速度を2.8倍向上させることが確認された。 Comment

元ポスト:

Loading…

[Paper Note] On the "Induction Bias" in Sequence Models, M. Reza Ebrahimi+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#Analysis #MachineLearning #NLP #InductiveBias #Generalization #Initial Impression Notes Issue Date: 2026-03-03 GPT Summary- トランスフォーマーは実践的に成功しているが、状態追跡能力に限界があることが指摘されている。本研究では、トランスフォーマーとRNNのデータ効率を比較し、トランスフォーマーは状態空間とシーケンス長が増えるにつれて学習データの必要量が急激に増加することを示した。また、トランスフォーマーは異なるシーケンス長間での重み共有が少なく、長さ特有の学習を行っているのに対し、RNNはデータ再利用を通じて性能向上を実現している。これにより、トランスフォーマーの状態追跡が依然として根本的な課題であることが明らかになった。 Comment

元ポスト:

Loading…

関連する話でAI Agentにおいて、学習データのtrajectoryが内包するhorizonを超えた途端に成功率が下がる、みたいな話があった気がしたのだが、どの論文だったか、、、。

linear attentionを一部用いているアーキテクチャなどでも、状態遷移の学習をうまくできないのだろうか？

[Paper Note] VidEoMT: Your ViT is Secretly Also a Video Segmentation Model, Narges Norouzi+, CVPR'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #ImageSegmentation #CVPR #read-later #Selected Papers/Blogs #Encoder #2D (Image) #4D (Video) #Initial Impression Notes Issue Date: 2026-02-28 GPT Summary- VidEoMTは、専用の追跡モジュールなしで動画セグメンテーションを実現するエンコーダーのみのモデルである。軽量なクエリ伝搬機構を導入し、前フレームの情報を活用することで、フレーム間の連携を図る。時系列に依存しない学習済みクエリと融合により、利益を生み出しつつ追加の複雑さを回避し、最大160 FPSで競争力のある精度を達成した。 Comment

元ポスト:

Loading…

他タスクでも色々使えそうなアーキテクチャに見える

[Paper Note] SLA2: Sparse-Linear Attention with Learnable Routing and QAT, Jintao Zhang+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Attention #DiffusionModel #VideoGeneration/Understandings #Routing #4D (Video) #One-Line Notes #SparseAttention #LinearAttention Issue Date: 2026-02-20 GPT Summary- SLA2は、スパース注意とリニア注意を動的に選択する学習可能なルータを導入し、パフォーマンスを向上させる。さらに、アテンションブランチを組み合わせるための比率や量子化を意識した設計を採用。実験により、動画生成モデルで97%のスパース性を達成し、18.6倍の速度向上を実現した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

Sparse AttentionとLinear Attentionを動的に選択するルータを学習して効率を向上させる

[Paper Note] EditCtrl: Disentangled Local and Global Control for Real-Time Generative Video Editing, Yehonathan Litman+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #DiffusionModel #VideoGeneration/Understandings #Editing #4D (Video) #One-Line Notes Issue Date: 2026-02-19 GPT Summary- 高忠実度なビデオ編集には、新しい局所的ビデオ文脈モジュールを使用するEditCtrlフレームワークを提案。これにより、マスクされたトークンのみに集中し、計算コストを編集サイズに比例させる。全体の文脈の一貫性を保持しつつ、他の手法に比べて計算効率が10倍向上し、編集品質も改善。テキストプロンプトを利用した新機能を実現。 Comment

pj page: https://yehonathanlitman.github.io/edit_ctrl/

元ポスト:

Loading…

著者ポスト:

Loading…

video editing/inpaintingタスクにおいて、editに必要なlocal contextとeditとの一貫性を保つためのglobal contextを分離し、global contextに対するfull-attention計算を削減する（i.e., local contextに計算量を集中させる）ことで効率を向上、という話に見える。

[Paper Note] Image Generation with a Sphere Encoder, Kaiyu Yue+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Encoder #Encoder-Decoder #2D (Image) #KeyPoint Notes #ImageSynthesis Issue Date: 2026-02-17 GPT Summary- Sphere Encoderは、1回のフォワードパスで画像を生成できる効率的な生成フレームワークです。球面潜在空間への均一な写像を行うエンコーダと、ランダムな潜在ベクトルを画像空間に変換するデコーダを学習し、画像再構成損失のみで訓練を行います。このアプローチにより、複数のデータセットにおいて最先端の拡散モデルに匹敵する性能を示しながら、推論コストを大幅に削減しています。 Comment

元ポスト:

Loading…

画像を球面状（i.e., 3次元の）の潜在表現にエンコードするエンコーダと、エンコーダに摂動を加えた球面上の点からデコーダを通じて元画像を再構成するデコーダを学習することで、潜在表現から画像のピクセルを直接生成する枠組み。球面上の潜在表現から1回のforward pathで画像を構成するよっに学習するため高速に生成ができる。また、生成した画像をさらにエンコードしデコードすることで、追加のデノイジングstepを実施することができ、画像をより洗練させることができる。4ステップ程度でDiffusion Modelには及ばないものの（ImageNet 256*256でgFID 1.38--2.77)、gFID 4.02--4.76程度のスコア(GAN以上、ADM-Gと呼ばれるDiffusionモデルと同等程度）の画像を生成可能（Table3)という感じに見える。

loss functionはピクセル単位の再構成loss、ピクセルの一貫性に関するloss (i.e., 2つの摂動を加えた潜在表現vが類似した画像を生成するか）をL1_perception lossによって学習する(i.e., ピクセル同士の誤差をスムージングしながら直接測るlossと、既存の学習済み画像エンコーダの潜在表現上でのFeature MapのL1/2距離の組み合わせ）と、

潜在空間の一貫性に関するloss(i.e., 元の潜在表現と、潜在表現をデコード→エンコードした後得られる潜在表現のコサイン類似度）が用いられる式（7,8,9,10)。

[Paper Note] BitDance: Scaling Autoregressive Generative Models with Binary Tokens, Yuang Ai+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #NLP #DiffusionModel #TextToImageGeneration #Decoding #read-later #2D (Image) #ImageSynthesis Issue Date: 2026-02-17 GPT Summary- BitDanceは、バイナリ視覚トークンを予測する自己回帰型の画像生成モデルであり、高エントロピーのバイナリ潜在変数により最大2^{256}の状態を表現できます。バイナリ拡散ヘッドを採用し、標準の分類を超えたトークン生成を実現。次パッチ拡散技術により、複数トークンを高精度で並列予測し、推論速度を8.7倍向上させます。ImageNet 256x256では最高のFIDスコア1.24を達成し、1024x1024画像生成においては従来モデルと比較して30倍以上の速度向上を実現しています。コードとモデルは公開されています。 Comment

pj page: https://bitdance.csuhan.com/

元ポスト:

Loading…

[Paper Note] LUCID: Attention with Preconditioned Representations, Sai Surya Duvvuri+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #Attention #LongSequence #Architecture Issue Date: 2026-02-17 GPT Summary- ソフトマックスを用いたドット積注意はトランスフォーマーの基盤だが、文脈長が長くなると性能が劣化し、勾配消失が学習を妨げる。そこでLUCID Attentionを提案し、アテンション確率に前処理を適用することで、重要なキーに正確に集中させる。LUCIDのアプローチはソフトマックス温度を低くする必要がなく、60億パラメータの言語モデルを用いた実験で、長文脈の検索タスクにおいて顕著な改善を示した。特に、BABILongで最大18%、RULERで最大14%の性能向上を達成した。 Comment

元ポスト:

Loading…

[Paper Note] MonoLoss: A Training Objective for Interpretable Monosemantic Representations, Ali Nasiri-Sarvi+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Explanation #RepresentationLearning #Encoder #SparseAutoEncoder Issue Date: 2026-02-17 GPT Summary- Sparse autoencoders (SAEs)は、多義的な神経表現を単義的特徴に分解する。しかし、従来の学習目的はこの分解を促進せず、単義性指標も効率を低下させる。MonoScore指標を用いて、線形に増加する単一パスアルゴリズムを提案し、評価時に1200倍、トレーニング時に159倍の高速化を実現。これにより、モノセマンティシティ・ロス（MonoLoss）を導入し、一貫した活性化を促進。これにより、クラス純度が大幅に向上し、ImageNet-1Kの精度も改善。コードは公開中。 Comment

元ポスト:

Loading…

[Paper Note] An Industrial-Scale Sequential Recommender for LinkedIn Feed Ranking, Lars Hertel+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#RecommenderSystems #NeuralNetwork #A/B Testing #SequentialRecommendation #One-Line Notes #Initial Impression Notes Issue Date: 2026-02-16 GPT Summary- Feed Sequential Recommender（Feed-SR）は、LinkedInフィード向けのトランスフォーマーを用いた逐次ランキングモデルで、DCNv2ベースのランカーを置換。LinkedInの運用制約を満たしつつ、メンバーのエンゲージメントを向上させ、滞在時間が+2.10%増加。オンラインA/Bテストでの性能を通じて、Feed-SRの効率性と効果についても論じる。 Comment

元ポスト:

Loading…

linkedinのfeedにおけるsequential recommendationで利用されているモデルでdecoder onlyのpre-LN、RoPE、residual streamの更新がlearnableなパラメータでrescaleされて更新されるようなtransformerアーキテクチャが採用されている。細かいfeatureなどについては読めていない。A/Bテストによって効果が確認されている。

[Paper Note] Causal-JEPA: Learning World Models through Object-Level Latent Interventions, Heejeong Nam+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #Embeddings #EfficiencyImprovement #RepresentationLearning #Self-SupervisedLearning #OpenWeight #Encoder #WorldModels #KeyPoint Notes Issue Date: 2026-02-16 GPT Summary- C-JEPAは、オブジェクト中心の世界モデルで、画像パッチからの埋め込み予測を通じてオブジェクトの相互作用を捉えることを目的としている。オブジェクトレベルのマスキングを導入し、潜在的介入を誘発することで反事実的推論を強化し、ショートカット解法を防ぐ。実験結果では、視覚質問応答において約20％の性能向上を示し、エージェント制御タスクでは必要な潜在入力のわずか1％で同等の結果を達成した。さらに、因果的帰納的バイアスを誘発することも示している。 Comment

元ポスト:

Loading…

pj page: https://hazel-heejeong-nam.github.io/cjepa/

（JEPAはあまり馴染みがなく、以下の私の解説はどこかに誤りがある可能性が高い）

video basedなシステムを前提、すなわちimageのsequenceが与えられる前提である。このとき、各タイムステップごとに選択されたobjectの状態をマスクし、マスクされたobjectのhistoryを予測し、予測された状態から将来の状態を予測する。objectは状態だけでなく、補足的な観測可能な情報を保持することができ（たとえばアクションと感覚に関するシグナルなど）状態遷移に利用される。また、マスク対象として選択されたオブジェクトの最初のステップの状態だけは、アンカーとして保持する。マスク処理はlatent levelはでのinteiventionとして解釈でき、これにより予測のためにobject間の相互作用を捉えることが誘発され、object centricな潜在表現が学習される。マスクされたオブジェクトの状態は、予測された一つ前のステップでの状態に対してlinearで変換しpositional embeddingを足し合わせることで求められ（式3）、これらの予測されたhistoryの状態がViTの入力となり（bidirectionalなattentionを通じて）将来の状態を予測する。lossは予測されたhistoryの状態と将来の状態が与えられたときに、freezeされたobjectのエンコーダから得られる潜在表現との距離が最小化されるように学習される（エンコーダ側はstop gradientする）。

解説:

Loading…

[Paper Note] Latent Forcing: Reordering the Diffusion Trajectory for Pixel-Space Image Generation, Alan Baade+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #Embeddings #DiffusionModel #Architecture #2D (Image) #ImageSynthesis #Pixel-based Issue Date: 2026-02-13 GPT Summary- 潜在拡散モデルは高品質な画像生成を実現するものの、エンドツーエンドの利点を失うことが課題であった。本研究では、ラテント強制（Latent Forcing）を提案し、ラテントとピクセルを別々のノイズスケジュールで共同処理することで、効率的に高周波ピクセル特徴を生成する。条件信号の順序が重要であることを発見し、これを分析することで、トークナイザーのREPA蒸留と拡散モデルの違いや生成品質の関係を示す。ImageNetでの適用により、新たな最先端を達成した。 Comment

元ポスト:

Loading…

[Paper Note] Hybrid Linear Attention Done Right: Efficient Distillation and Effective Architectures for Extremely Long Contexts, Yingfa Chen+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #LanguageModel #Distillation #LongSequence #PositionalEncoding #Architecture #read-later #Selected Papers/Blogs #reading #RecurrentModels Issue Date: 2026-02-12 GPT Summary- ハイブリッドトランスフォーマーアーキテクチャは、ソフトマックスアテンションとRNNを組み合わせたもので、長い文脈の処理においてトレードオフを示すが、高コストな事前トレーニングが課題。既存の転送法は大量のデータを必要とし、ハイブリッドモデルの性能低下を招く。本研究では、トランスフォーマーからRNNアテンションハイブリッドモデルへの蒸留手法HALOを提案し、新たな位置エンコーディングスキームHyPEを導入したHypeNetを開発。HALOを用いてQwen3シリーズをHypeNetに変換し、わずか2.3Bトークンで同等の性能を実現しつつ、長文脈性能と効率を向上させた。

[Paper Note] ViT-5: Vision Transformers for The Mid-2020s, Feng Wang+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #Architecture #read-later #Selected Papers/Blogs #Backbone #Initial Impression Notes Issue Date: 2026-02-10 GPT Summary- ViT-5は、ビジョントランスフォーマーの要素を体系的に洗練し、新世代のバックボーンを形成する。このアーキテクチャは、正規化や位置エンコーディングなどの進化を含み、広範な実験で従来の最先端を上回る性能を示した。ImageNet-1k分類では84.2%のトップ-1精度を達成し、生成モデリングでも優れたFIDを記録。改善された表現学習と空間推論により、タスク間の移行が安定し、現代のファンデーションモデルに適したシンプルなアップグレードを提供する。 Comment

元ポスト:

Loading…

ModernBERTと同じ動機で、ViTに現代的な様々なアーキテクチャ上の工夫を入れたものをシステマチックに調査し、最適な組み合わせを見つけ性能向上したという話に見える。

[Paper Note] Next Concept Prediction in Discrete Latent Space Leads to Stronger Language Models, Yuliang Liu+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Quantization #Architecture #LatentReasoning Issue Date: 2026-02-10 GPT Summary- 次の概念予測（NCP）を提案し、生成型の事前学習パラダイムを構築。NCPは複数トークンの概念を予測し、生成モデルConceptLMが隠れ状態の量子化を通して概念語彙を形成。70Mから1.5Bパラメータの範囲で最大300Bのデータを用い、13のベンチマークで従来モデルを上回る性能を示す。また、8BパラメータのLlamaモデルにおける実験から、NCPがトークン予測を改善する可能性を示唆。NCPは強力な言語モデルを生む有望なアプローチである。 Comment

元ポスト:

Loading…

先行研究:
- [Paper Note] Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture, Mahmoud Assran+, CVPR'23, 2023.01
- [Paper Note] Large Concept Models: Language Modeling in a Sentence Representation Space, LCM team+, arXiv'24, 2024.12
- [Paper Note] Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space, Xingwei Qu+, arXiv'25, 2025.12

[Paper Note] How Do Transformers Learn to Associate Tokens: Gradient Leading Terms Bring Mechanistic Interpretability, Shawn Im+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #Explanation #RepresentationLearning #Attention #One-Line Notes Issue Date: 2026-02-09 GPT Summary- セマンティック関連性を理解することは、言語モデルの一般化能力を高め、一貫性のあるテキスト生成に寄与します。本研究では、注意ベースの言語モデルにおいて自然言語データからの関連性の学習を、トレーニングダイナミクスの観点から分析します。勾配の主成分近似を用いて、重みの初期表現を開発し、セマンティック関連性の形成過程を説明。結果として、トランスフォーマーの重みは、ビグラムや文脈マッピングといった基底関数の合成として表現され、統計を反映した関連性の捉え方を明らかにします。実験では理論的な特性付けが学習重みに一致し、トランスフォーマーの学習された関連性の解釈を示します。 Comment

元ポスト:

Loading…

学習中にtransformerがどのようにtoken間の関連性を学習しているのかを分析

[Paper Note] Inverse Depth Scaling From Most Layers Being Similar, Yizhou Liu+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #LanguageModel #Scaling Laws #Depth Issue Date: 2026-02-06 GPT Summary- 深さと幅がLLMの性能に与える影響を探究し、深さが損失に反比例してスケールすることを発見。これは、類似層がアンサンブル平均を通じて誤差を減少させることに起因する可能性がある。効率を改善するには、深さの効果的な利用を促進するアーキテクチャの革新が必要であることを示唆。 Comment

元ポスト:

Loading…

[Paper Note] HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache Sharing, Yizhao Gao+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Attention #Architecture #KV Cache #Hybrid #SparseAttention #Initial Impression Notes Issue Date: 2026-02-05 GPT Summary- 新しいアーキテクチャ「ハイブリッド疎注意」（HySparse）を提案。全注意層と疎注意層を交互に配置し、疎層のトークン選択を全注意層から導出。これにより、トークンの重要性予測が簡素化され、KVキャッシュの再利用が可能に。評価では、7B密集モデルと80B MoEモデルの両方で全注意およびハイブリッドSWAのベースラインを超え、特に49層の80B MoEモデルで顕著な性能向上とKVキャッシュの10倍削減を実現。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

Full attentionとsparse attentionを組み合わせたアーキテクチャの提案で、Full attentionと同等以上の性能を効率的に達成し、sparse attentionではfull attentionのKV Cacheを再利用するように設計されていることから、KV Cacheのスペースを大幅に削減できて嬉しい、という話に見える。

[Paper Note] ACE-Step 1.5: Pushing the Boundaries of Open-Source Music Generation, Junmin Gong+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #Chain-of-Thought #SpeechProcessing #DiffusionModel #Reasoning #SmallModel #PEFT(Adaptor/LoRA) #OpenWeight #Music Issue Date: 2026-02-05 GPT Summary- ACE-Step v1.5は、高効率のオープンソース音楽基盤モデルで、商業音楽モデルを超える品質を持ちながら、非常に高速で動作します。ユーザーは少数の楽曲から個人のスタイルをトレーニング可能で、ハイブリッドアーキテクチャを用いてシンプルなクエリを包括的な楽曲に変換します。内因性強化学習により、スタイル制御と多様な編集機能を強化し、50以上の言語に対応。コンテンツクリエイターの創造的なワークフローに統合されるツールとして利用可能です。 Comment

元ポスト:

Loading…

データは全て許可済みのもの、かつ合成データとポストされており商用利用も可らしいが、果たして。

[Paper Note] FSVideo: Fast Speed Video Diffusion Model in a Highly-Compressed Latent Space, FSVideo Team+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #DiffusionModel #4D (Video) #ImageToVideoGeneration Issue Date: 2026-02-05 GPT Summary- FSVideoは、高速なトランスフォーマーベースの画像から動画（I2V）への拡散フレームワークで、圧縮された潜在空間を持つ動画オートエンコーダー、強化された層間の情報フローを持つ拡散トランスフォーマー、少数ステップのアップサンプラーを利用して多解像度生成を実現。最終モデルは14BのDITベースとアップサンプラーを含み、競争力のある性能と優れた速度を誇る。モデル設計とトレーニング戦略も詳述。 Comment

pj page: https://kingofprank.github.io/fsvideo/

元ポスト:

Loading…

[Paper Note] SimpleGPT: Improving GPT via A Simple Normalization Strategy, Marco Chen+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#NLP #Architecture #Normalization #One-Line Notes Issue Date: 2026-02-03 GPT Summary- 本研究では、Transformerの最適化を第二次幾何学の視点から再評価し、活性化スケールの安定化を目的としたSimpleNormという正規化戦略を提案。これにより、ヘッセ行列のスペクトルノルムが低下し、より大きな学習率が許容されることを理論的に示します。1Bから8BのパラメータスケールのGPTモデルでの実験により、SimpleGPTは従来の手法よりも3倍から10倍の高い学習率を持ち、安定性と性能で優れた結果を実現。特に、7Bモデルでは、LLaMA2よりも低い訓練損失を記録しました。ソースコードは公開予定です。 Comment

元ポスト:

Loading…

LinearLayerをSimpleNormと呼ばれるオペレーターに置換するだけなシンプルな手法で性能向上しているようである。SimpleNormオペレーターは式(3)であり、Linearによる変換の"直後"に任意のNormalizationを実施するようなオペレーターとして定義される。SimpleGPTではPreLNなどは実施しない。

[Paper Note] JTok: On Token Embedding as another Axis of Scaling Law via Joint Token Self-modulation, Yebin Yang+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Embeddings #NLP #LanguageModel #Architecture #MoE(Mixture-of-Experts) Issue Date: 2026-02-03 GPT Summary- トークンインデックスパラメータを用いて、LLMの計算コストとモデル容量を切り離す新しいスケーリング手法を提案。Joint-Token（JTok）とMixture of Joint-Token（JTok-M）を導入し、Transformerレイヤーを強化。実験により、検証損失が低下し、MMLUやARCでの性能向上を実証。JTok-Mは、従来のMoEアーキテクチャに比べ、35%少ない計算で同等のモデル品質を実現。 Comment

元ポスト:

Loading…

[Paper Note] MemoryLLM: Plug-n-Play Interpretable Feed-Forward Memory for Transformers, Ajay Jaiswal+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Embeddings #NLP #LanguageModel #Architecture #memory Issue Date: 2026-02-03 GPT Summary- 大規模言語モデルのFFNの解釈可能性を再検討し、自己注意から切り離したMemoryLLMを提案。FFNをトークン単位のニューラルリトリーバルメモリとして機能させ、効率的な推論を実現。Flex-MemoryLLMも導入し、性能ギャップを埋める役割を果たす。 Comment

またしてもembeddingの活用

元ポスト:

Loading…

[Paper Note] TensorLens: End-to-End Transformer Analysis via High-Order Attention Tensors, Ido Andrew Atad+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #Attention #Interpretability Issue Date: 2026-02-01 GPT Summary- トランスフォーマーの注意行列を包括的に理解するため、TensorLensという新たな定式化を提案。これは、トランスフォーマー全体を単一の線形演算子として捉え、高次の注意相互作用テンソルを通じて各コンポーネントを共同でエンコード。これにより、モデルの計算の整合性を保ちながら、より豊かな表現を実現。実験によって、TensorLensが解釈性向上に寄与することが確認された。 Comment

元ポスト:

Loading…

[Paper Note] L$^3$: Large Lookup Layers, Albert Tseng+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Embeddings #NLP #LanguageModel #Architecture Issue Date: 2026-01-30 GPT Summary- L$^3$レイヤーを使用した新しいスパース性の手法を提案。これは静的なトークンベースのルーティングでトークンごとの埋め込みを集約し、メモリと計算の効率を向上させる。高速トレーニングが可能で、情報理論に基づく埋め込み割り当てアルゴリズムを採用。実験により、L$^3$が他のモデルを大きく上回る性能を示した。 Comment

[Paper Note] GeoNorm: Unify Pre-Norm and Post-Norm with Geodesic Optimization, Chuanyang Zheng+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #LanguageModel #Architecture #Normalization #read-later Issue Date: 2026-01-30 GPT Summary- 正規化層の配置に関する問題をマニフォールド最適化の視点から再考し、フィードフォワードネットワークと注意層の出力を更新方向として解釈。新手法GeoNormを提案し、標準の正規化を測地線更新に置き換える。包括的な実験で既存手法を一貫して上回る性能を確認。GeoNormは標準Transformerへ簡易に統合可能で、追加コストがわずかでも性能向上を達成。 Comment

元ポスト:

Loading…

[Paper Note] Scaling Embeddings Outperforms Scaling Experts in Language Models, Hong Liu+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Embeddings #NLP #LanguageModel #AIAgents #LongSequence #Architecture #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs Issue Date: 2026-01-30 GPT Summary- 本研究では、Mixture-of-Experts（MoE）アーキテクチャに代わる埋め込みスケーリングを検討し、その効果を体系的に分析。埋め込みスケーリングは専門家スケーリングよりも優れたパレートフロンティアを達成し、推論速度が向上することを示す。68.5BパラメータのLongCat-Flash-Liteモデルを導入し、約3Bのパラメータでトレーニングを行った結果、既存のMoEベースラインを超える性能を発揮。特にエージェント的およびコーディングの分野で競争力が示される。 Comment

HF: https://huggingface.co/meituan-longcat/LongCat-Flash-Lite

元ポスト:

Loading…

N-Gram Embeddingを用いることでMoEアーキテクチャの同等程度のモデルと比較してより高い性能を獲得しているように見える。NGramの各NごとにルックアップテーブルとProtectionのための重みを学習して最終的にAveragingをすることでContext Vectorを生成している、ようなアーキテクチャに見える。non-thinkingモデル

先行研究:
- [Paper Note] Scaling Embedding Layers in Language Models, Da Yu+, NeurIPS'25, 2025.02

[Paper Note] Post-LayerNorm Is Back: Stable, ExpressivE, and Deep, Chen Chen+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Architecture #Normalization #read-later #Stability #ResidualStream Issue Date: 2026-01-29 GPT Summary- LLMのスケーリングには限界があり、モデルの大きさやコンテキスト長の延長が表現力を向上させない一方、深さのスケーリングは有望だが訓練の安定性に課題がある。本研究では、Post-LayerNormの問題を再検討し、残差経路をハイウェイスタイルの接続に置き換えた「Keel」トランスフォーマーを提案。これにより勾配消失を防ぎ、1000層以上でも安定した訓練を可能にし、Pre-LNよりも性能を向上させる。Keelは、今後の深層アーキテクチャ構築の新たな基盤を提供する。 Comment

元ポスト:

Loading…

PostLNと言えばOlmo 2:
- OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini, AllenAI, 20250.3

1000 layerを超えるネットワークを安定して学習、、だと、、

関連:
- [Paper Note] 1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities, Wang+, NeurIPS'25 Best Paper Awards

[Paper Note] RayRoPE: Projective Ray Positional Encoding for Multi-view Attention, Yu Wu+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Multi #ComputerVision #Attention #PositionalEncoding #2D (Image) #One-Line Notes #DepthEstimation #NovelViewSynthesis Issue Date: 2026-01-23 GPT Summary- 我々は、マルチビュー変換器における位置エンコーディングの新手法RayRoPEを提案し、パッチをユニークにエンコードしてSE(3)不変な注意を実現します。既存のエンコーディング方式の限界を踏まえ、光線に基づいてパッチの位置を表現し、ジオメトリに配慮した予測点を使用します。RayRoPEは多周波数の類似性を計算するためのクエリフレームの投影座標を確立し、不正確な3D点の不確実性に対処するための位置エンコーディング手法を提供します。視点合成とステレオ深度推定のタスクにおいて、代替方式に対して一貫した性能向上を示し、RGB-D入力の効果的な利用も確認しました。 Comment

pj page: https://rayrope.github.io/

元ポスト:

Loading…

複数視点（multiview)での画像を入力とするtransformerの位置エンコーディングを改善した研究で、multiviewのattentionは下記のような性質を持つのが理想としており

(a) 座標系の取り方に対してattentionの出力が不変であり
(b) 同じ点であれば、どのviewからのattention出力であっても同一であるべき
(c) 幾何学的に近い点の方が類似度が高くあるべき
(d) 様々な粒度で特徴を捉えられるべき（高周波成分、低周波成分）

これらを獲得できるようにray（方向に関する情報）を取り入れるような新たなRoPEアーキテクチャを考案した、というような感じらしい（ゆるふわ理解）。

pj pageに他手法と比較して生成される別方向の画像などが高品質になっている例が掲載されている。

[Paper Note] STEM: Scaling Transformers with Embedding Modules, Ranajoy Sadhukhan+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Embeddings #EfficiencyImprovement #Pretraining #NLP #LongSequence #Architecture #read-later #Selected Papers/Blogs #Inference #Stability #Latency #Interpretability Issue Date: 2026-01-17 GPT Summary- STEMは、Transformersに埋め込みモジュールを用いてスパーシティを効果的に処理し、安定したトレーニングを実現します。FNNのアッププロジェクションを埋め込みのルックアップに置き換え、トークンごとの計算を削減しつつ、性能を向上させます。知識の保存や解釈性を向上させ、長いコンテキストでも効果を発揮。350Mおよび1Bモデルで約3～4%の精度向上を達成し、知識や推論のベンチマークで優れた結果を示しました。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

[Paper Note] V-DPM: 4D Video Reconstruction with Dynamic Point Maps, Edgar Sucar+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#ComputerVision #3D Reconstruction #3D (Scene) #4D Reconstruction #4D (Video) #SpatialUnderstanding Issue Date: 2026-01-16 GPT Summary- DPMをビデオ入力に適用するV-DPMを提案し、動的な3D再構築を実現。3D形状とカメラパラメータを表現し、VGGTを基にしたアプローチで最新の性能を達成。動的な深さと3D動作を完全に回復可能。 Comment

pj page: https://www.robots.ox.ac.uk/~vgg/research/vdpm/

元ポスト:

Loading…

VGGT:
- [Paper Note] VGGT: Visual Geometry Grounded Transformer, Jianyuan Wang+, CVPR'25

[Paper Note] MHLA: Restoring Expressivity of Linear Attention via Token-Level Multi-Head, Kewei Zhang+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #NLP #Attention #Architecture #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-01-14 GPT Summary- トランスフォーマーの自己注意の複雑さが大規模アプリケーションでの利用を制限する中、効率的な線形注意の適用は性能低下を招くことがあります。本研究では、モデルの表現の多様性を失わせる「グローバルコンテキスト崩壊」の問題を特定し、トークン次元に沿った注意計算による「マルチヘッド線形注意（MHLA）」を提案します。MHLAは線形の複雑さを保ちながら、ソフトマックス注意の表現力を回復することに成功し、様々なドメインでImageNet分類で3.6%、自然言語処理で6.3%、画像生成で12.6%、動画生成で41%の性能改善を達成しました。 Comment

pj page: https://dagroup-pku.github.io/MHLA/

元ポスト:

Loading…

（読了前の第一印象）スループットを大幅に向上させながらも、大幅な性能改善をしている新たなlikear attention手法であり、image, video, textの3つのモダリティに対して性能向上しているように見えるため、結果のインパクトが大きく重要論文に見える。

[Paper Note] UniVideo: Unified Understanding, Generation, and Editing for Videos, Cong Wei+, ICLR'26, 2025.10

Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #DiffusionModel #VariationalAutoEncoder #OpenWeight #ICLR #read-later #Selected Papers/Blogs #VideoGeneration/Understandings #Editing Issue Date: 2026-01-09 GPT Summary- UniVideoは、動画ドメインにおけるマルチモーダルコンテンツの生成と編集を目的とした統一モデルで、MLLMとMMDiTを組み合わせたデュアルストリーム設計を採用。これにより、複雑な指示の解釈と視覚的一貫性を維持しつつ、動画生成や編集タスクを統一的に訓練。実験結果では、テキスト/画像から動画への生成や文脈内編集において最先端の性能を示し、編集とスタイル転送の統合や未見の指示への対応も可能。視覚プロンプトに基づく生成もサポートし、モデルとコードは公開されている。 Comment

pj page: https://congwei1230.github.io/UniVideo/

元ポスト:

Loading…

HF: https://huggingface.co/KlingTeam/UniVideo

[Paper Note] Group Representational Position Encoding, Yifan Zhang+, ICLR'26, 2025.12

Paper/Blog Link My Issue
#NLP #PositionalEncoding #Architecture #ICLR Issue Date: 2025-12-10 GPT Summary- GRAPE（Group RepresentAtional Position Encoding）は、群作用に基づく位置エンコーディングの統一フレームワークを提案します。Multiplicative GRAPEは、位置を乗法的に作用させ、相対的かつノルムを保存する写像を生成します。一方、Additive GRAPEは、加法的ロジットを用いて特定のケースを再現し、相対法則とストリーミングキャッシュ可能性を保持します。GRAPEは、長文コンテキストモデルにおける位置幾何学の設計空間を提供し、RoPEやALiBiを特別なケースとして包含します。 Comment

pj page: https://model-architectures.github.io/GRAPE/

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=itoNJ3gJl2

[Paper Note] Epona: Autoregressive Diffusion World Model for Autonomous Driving, Kaiwen Zhang+, ICCV'25, 2025.06

Paper/Blog Link My Issue
#ComputerVision #NLP #DiffusionModel #LongSequence #OpenWeight #ICCV #WorldModels #4D (Video) Issue Date: 2026-02-08 GPT Summary- Eponaという自回帰型拡散世界モデルを提案し、長期予測と軌道計画の統合を実現。デカップル型因子分解により局所的な時空間分布をモデリングし、エンドツーエンドで動作計画と視覚モデリングを統合。実験により7.4%のFVD改善を達成し、数分間の長期予測が可能。学習したモデルはリアルタイム動作プランナーとしても優れた性能を示す。 Comment

日本語解説: https://speakerdeck.com/kentosasaki/di-66hui-konpiyutabiziyonmian-qiang-hui-at-guan-dong-epona-autoregressive-diffusion-world-model-for-autonomous-driving?slide=3

元ポスト:

Loading…

[Paper Note] Gated Delta Networks: Improving Mamba2 with Delta Rule, Songlin Yang+, ICLR'25, 2024.12

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Attention #LongSequence #Architecture #ICLR #Selected Papers/Blogs #LinearAttention Issue Date: 2026-02-04 GPT Summary- 線形トランスフォーマーの限界を克服するため、ゲーティングとデルタ更新ルールの2つのメカニズムを組み合わせた「Gated DeltaNet」を提案。これにより、迅速なメモリ消去とターゲット更新を実現し、言語モデリングや長文理解などのタスクで既存モデルを上回る性能を達成。ハイブリッドアーキテクチャを用いることでトレーニング効率も向上。 Comment

openreview: https://openreview.net/forum?id=r8H7xhYPwz¬eId=U0uk5A0VlT

linear attention:
- [Paper Note] Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention, Angelos Katharopoulos+, ICML'20

Mamba2(linear attention with decay):
- [Paper Note] Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality, Tri Dao+, ICML'24

[Paper Note] Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models, Yonggan Fu+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #SmallModel #OpenWeight #Architecture #read-later #Selected Papers/Blogs #EvolutionaryAlgorithm #Latency #Operator Issue Date: 2026-01-23 GPT Summary- SLMの効率的な展開はレイテンシ制約のあるアプリで重要。本研究は、SLMのレイテンシ決定要因を特定し、深さと幅の比率、オペレータ選択が鍵であることを示す。深く細いモデルが精度向上につながるが、トレードオフフロンティアからは外れることがある。新しい効率的アテンションの代替手段を評価し、最適なオペレータを用いた進化的検索フレームワークを開発。さらに重み正規化技術を用い、SLMの性能を向上。新ハイブリッドSLM「Nemotron-Flash」は、精度を平均+5.5%向上させ、レイテンシを大幅に低下、スループットを著しく改善。 Comment

解説:

Loading…

[Paper Note] RePo: Language Models with Context Re-Positioning, Huayang Li+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #PositionalEncoding #Architecture #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-01-19 GPT Summary- インコンテキスト学習の問題に対し、認知負荷を軽減する新メカニズム「RePo」を提案。トークンの位置を文脈依存に配置することで、深い推論を促進。OLMo-2 1Bでの実験により、RePoは長い文脈や構造化データにおいてパフォーマンスを向上させることを確認。詳細分析から、重要情報への注意配分が強化されていることが示された。 Comment

pj page: https://pub.sakana.ai/repo/

元ポスト:

Loading…

contextに応じてlearnableなパラメータでpositionの情報を動的に調整するというアイデアが非常に興味深く、RoPE（回転行列を用いた現在の主流）やNoPE（PEを排除する手法だが理論上は2層以上積み上げると相対/絶対注意の双方を実現可能で自由度が非常に高い）と比較しても性能が向上しており、PEの扱いはインパ駆動大きいため重要論文に見える。

ポイント解説:

Loading…

[Paper Note] Efficient Context Scaling with LongCat ZigZag Attention, Chen Zhang+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #Attention #LongSequence #Architecture #SparseAttention Issue Date: 2026-01-15 GPT Summary- LoZAは、フルアテンションモデルをスパースバージョンに変換するためのスパースアテンションスキームであり、長いコンテキストでの計算効率を向上させる。これにより、リトリーバル拡張生成やツール統合推論において顕著な速度向上が実現。LongCat-Flashの中間トレーニングに適用することで、1百万トークンまで迅速に処理可能な基盤モデルを提供し、効率的な長期推論が可能となる。 Comment

HF: https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-ZigZag

元ポスト:

Loading…

[Paper Note] Extending the Context of Pretrained LLMs by Dropping Their Positional Embeddings, Yoav Gelberg+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#NLP #LanguageModel #LongSequence #PositionalEncoding #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-01-12 GPT Summary- 本研究では、言語モデル（LM）の位置埋め込みを削除することで、事前学習のシーケンス長を超えたコンテキスト拡張のボトルネックを解消する手法DroPEを提案。位置埋め込みの過度な依存が一般化を妨げることを示し、短い再キャリブレーション後に安全に削除できることを実証。DroPEは長いコンテキストのファインチューニングなしでゼロショット拡張を実現し、従来の手法を上回る性能を示した。 Comment

興味深い

元ポスト:

Loading…

著者ポスト: https://www.linkedin.com/posts/hardmaru_introducing-drope-extending-the-context-activity-7416331313202352128--IsF?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

（読了前の第一印象）

- The Impact of Positional Encoding on Length Generalization in Transformers, Amirhossein Kazemnejad+, NeurIPS'23

において、NoPEは理論上絶対位置エンコーディングと相対位置エンコーディングの両方を実現可能であり、実際に学習をすると相対位置エンコーディングと似たような分布の位置エンコーディングが学習され、long contextの性能が改善することが報告されている。
まだ論文は読めていないのだが、NoPEは自由度が高いので、学習の初期は何らかの位置エンコーディング手法を補助輪的に使いある程度学習を進め、その後dropしてより自由度の高い状態でfinegrainedなrepresentationを学習するというのは確かにうまくいきそうだな、という感想をもった。

[Paper Note] Deep sequence models tend to memorize geometrically; it is unclear why, Shahriar Noroozizadeh+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Analysis #MachineLearning #Memorization #FactualKnowledge #Geometric Issue Date: 2026-01-05 GPT Summary- 深層系列モデルは、エンティティ間の新しいグローバルな関係を幾何学的記憶として保存することを提案。これにより、難しい推論タスクが簡単なナビゲーションタスクに変換されることを示す。ブルートフォース検索よりも複雑な幾何学が学習されることを主張し、Node2Vecとの関連を分析して、自然に生じるスペクトルバイアスからこの幾何学が生まれることを示す。Transformerメモリの幾何学的強化の可能性を指摘し、知識獲得や忘却に関する直感を再考することを促す。 Comment

元ポスト:

Loading…

[Paper Note] Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention, Haiquan Qiu+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Analysis #MachineLearning #NLP #read-later #Selected Papers/Blogs #Stability Issue Date: 2026-01-03 GPT Summary- 低精度フォーマットのトランスフォーマーモデルのトレーニングにおける不安定性の原因を分析し、フラッシュアテンションが損失の爆発を引き起こすメカニズムを明らかにした。具体的には、低ランク表現の出現と丸め誤差の累積がエラーの悪循環を生むことを示した。これを受けて、丸め誤差を軽減する修正を加えることでトレーニングの安定性を向上させ、実用的な解決策を提供した。 Comment

元ポスト:

Loading…

[Paper Note] Hyper-Connections, Defa Zhu+, ICLR'25, 2024.09

Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #Architecture #ICLR #ResidualStream Issue Date: 2026-01-02 GPT Summary- ハイパーコネクションは、残差接続の代替手法であり、勾配消失や表現崩壊の問題に対処します。異なる深さの特徴間の接続を調整し、層を動的に再配置することが可能です。実験により、ハイパーコネクションが残差接続に対して性能向上を示し、視覚タスクでも改善が確認されました。この手法は幅広いAI問題に適用可能と期待されています。 Comment

openreview: https://openreview.net/forum?id=9FqARW7dwB

[Paper Note] mHC: Manifold-Constrained Hyper-Connections, Zhenda Xie+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#MachineLearning #NLP #Architecture #read-later #Selected Papers/Blogs #Stability #KeyPoint Notes #Reference Collection #ResidualStream Issue Date: 2026-01-02 GPT Summary- Manifold-Constrained Hyper-Connections（mHC）を提案し、残差接続の多様化による訓練の不安定性やメモリアクセスのオーバーヘッドに対処。mHCは残差接続空間を特定の多様体に射影し、恒等写像特性を回復しつつ効率を確保。実証実験により、大規模訓練での性能向上とスケーラビリティを示し、トポロジーアーキテクチャ設計の理解を深めることを期待。 Comment

元ポスト:

Loading…

所見:

Loading…

先行研究:
- [Paper Note] Hyper-Connections, Defa Zhu+, ICLR'25, 2024.09
- [Paper Note] Deep Residual Learning for Image Recognition, Kaiming He+, CVPR'16, 2015.12

所見:

Loading…

ポイント解説:

Loading…

解説:

Loading…

従来のHCがResidual Streamに対してH_resを乗じて幾何的変換を実施する際に、H_resに制約がないため、Layerを重ねるごとにResidual Streamの大きさが指数的に発散、あるいは収縮していき学習が不安的になる課題を、二重確率行列（行と列の成分の合計が1.0となるような正規化をする）を用いた変換を用いることで、Residual Streamのノルムが変化しないようにし安定化させた、といった感じの話に見える。

[Paper Note] Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning, NVIDIA+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #OpenWeight #SSM (StateSpaceModel) #MoE(Mixture-of-Experts) #PostTraining #Hybrid Issue Date: 2025-12-28 GPT Summary- Nemotron 3 Nano 30B-A3Bは、Mixture-of-ExpertsハイブリッドMamba-Transformer言語モデルであり、25兆のテキストトークンで事前学習され、監視付きファインチューニングと強化学習を経て精度を向上。前世代のNemotron 2 Nanoよりも高精度で、フォワードパスごとに半分未満のパラメータを活性化し、同サイズのオープンモデルと比較して最大3.3倍の推論スループットを達成。エージェント的、推論、チャット能力が向上し、最大1Mトークンのコンテキスト長をサポート。事前学習済みモデルはHugging Faceで公開。 Comment

元ポスト:

Loading…

[Paper Note] Stronger Normalization-Free Transformers, Mingzhi Chen+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#MachineLearning #Architecture Issue Date: 2025-12-22 GPT Summary- 本研究では、Dynamic Tanh（DyT）を超える新たな正規化関数として$\mathrm{Derf}(x) = \mathrm{erf}(αx + s)$を提案。Derfは、画像認識、音声表現、DNA配列モデリングなどの分野でLayerNorm、RMSNorm、DyTを上回る性能を示し、その優れた一般化能力がパフォーマンス向上の要因であることを明らかにした。Derfはシンプルで強力なため、正規化なしのTransformerアーキテクチャにおける実用的な選択肢となる。 Comment

元ポスト:

Loading…

先行研究:
- [Paper Note] Transformers without Normalization, Jiachen Zhu+, CVPR'25

[Paper Note] Next-Embedding Prediction Makes Strong Vision Learners, Sihan Xu+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#ComputerVision #Pretraining #MultiModal #read-later #Selected Papers/Blogs #2D (Image) #Backbone #UMM #Omni #KeyPoint Notes Issue Date: 2025-12-20 GPT Summary- 生成的事前学習の原則を視覚学習に応用し、モデルが過去のパッチ埋め込みから未来の埋め込みを予測する「次埋め込み予測自己回帰（NEPA）」を提案。シンプルなTransformerを用いてImageNet-1kで高精度を達成し、タスク特有の設計を必要とせず、スケーラビリティを保持。NEPAは視覚的自己教師あり学習の新たなアプローチを提供する。 Comment

pj page: https://sihanxu.me/nepa/
HF: https://huggingface.co/collections/SixAILab/nepa

元ポスト:

Loading…

Autoregressiveにnext embedding prediction（≠reconstruction)をする。エンコーダ自身のembeddingとautoregressive headが生成したembeddingを比較することでlossが計算されるが、双方に勾配を流すとほぼ全てのパッチが同じembeddingを共有するという解に到達し何も学習されないので、エンコーダのエンコード結果（＝target)のgradientをstopする。これにより、targetとしての勾配は受け取らないが（predictionに近づけようとする勾配）、文脈に応じたベクトルを作り、next embeddingを予測する入力としての勾配は受け取るので、エンコーダは文脈に応じた学習を続けることができる。

コミュニティからのフィードバックを受けて執筆されたブログ:
https://sihanxu.me/nepa/blog

元ポスト:

Loading…

NEPAを提案した背景に関して直感的な解説を実施している。興味深い。具体的には、omnimodalityモデルの困難さはインターフェースの問題であり、latent spaceがomnimodalityの共通のインタフェースになりうり、モダリティごとの予測対象とlossを個別に設計せずに済む方法の一つがAutoregressiveな予測であり、そういったインタフェースがスケーリングのために必要という意見と、omnimodalityにおいて過去のliteratureで扱われているdiscreteなtokenとcontinuous symbolsは得意なモダリティが異なり予測対象や前処理のメカニズムも異なるため同時に扱うことが難しい旨などが記述されている。

[Paper Note] Diffusion Transformers with Representation Autoencoders, Boyang Zheng+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #TextToImageGeneration #Selected Papers/Blogs #2D (Image) #reading #One-Line Notes #ImageSynthesis #AutoEncoder Issue Date: 2025-12-17 GPT Summary- 本研究では、従来のVAEエンコーダを事前学習された表現エンコーダに置き換えた表現オートエンコーダ（RAE）を提案し、生成モデルの品質向上を目指す。RAEは高品質な再構成と意味的に豊かな潜在空間を提供し、拡散トランスフォーマーの効果的な機能を可能にする。実験により、ImageNetで優れた画像生成結果を達成し、RAEが拡散トランスフォーマーの新しいデフォルトとなるべきことを示した。 Comment

openreview: https://openreview.net/forum?id=0u1LigJaab

pj page: https://rae-dit.github.io

encoderをSigLIPなどの強力な（frozenした）vision encoderを用いた上で、デコーダを学習する手法。VAEではCNN等で潜在表現を低次元に圧縮するが、表現力に乏しく結果的に意味的な表現を捉える能力に乏しかったが、より強力な事前学習されたエンコーダと高次元の潜在表現を扱うことでDiffusion Modelで扱う潜在表現を進化させる。

[Paper Note] X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale, Pei Yang+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#ComputerVision #Dataset #SyntheticData #DiffusionModel #Robotics #WorldModels #VisionLanguageActionModel #4D (Video) #EmbodiedAI #One-Line Notes #Third-Person View Issue Date: 2025-12-12 GPT Summary- X-Humanoidは、動画から動画への生成的な編集アプローチを用いて、人間からヒューマノイドへの翻訳を実現するモデルです。Unreal Engineを活用し、17時間以上のペア合成動画を生成するデータ作成パイプラインを設計し、60時間のEgo-Exo4D動画を用いて360万以上の「ロボティクス化」されたヒューマノイド動画フレームを生成しました。定量的分析とユーザー調査により、69%のユーザーが動きの一貫性で最も優れていると評価し、62.1%が具現化の正確さで最も優れていると評価しました。 Comment

pj page: https://showlab.github.io/X-Humanoid/

元ポスト:

Loading…

既存研究は主観視点の動画における人の腕をロボットアームにルールベースで置き換えるなどの方法で動画をオーバレイすることでdata scarcityの問題に対処してきており、これは有望なアプローチだが、第三者視点の動画はしばしばより複雑（全身が写り、背景が動的に変化し遮蔽に隠れたりもする）で課題がある。このため、第三者視点での動画を人間からヒューマノイドに置換するモデルを学習[^1]し（強力なvideo editingモデルでもこの点はまだ苦戦するタスクとのこと）、私生活における人間の動画をヒューマノイドに置き換えてデータを合成することでロボットのポリシーや世界モデルの学習データ不足を補います、という話に見える。

[^1]: この部分の学習データはUnreal Engineを用いて17+時間に及ぶ人間-ヒューマノイドペアの動画を合成

（以下Chatgptとの問答により得た情報なのでハルシネーションの恐れがあります）

主観視点での人間の腕をロボットアームに置き換えて学習データを合成するというのは気持ちが分かりやすかったのだが（＝人間の腕と実際にロボット自身がカメラを通じて見る自分の腕は形状が違うため学習時と運用時にgapが生じる）、なぜ第三者視点でのこのようなHuman-Humanoid gapを埋めた学習データが必要なのか、という話はざーっと論文を見た限り書いておらず門外漢の私ではわからなかったので、ChatgptやGeminiにきいてみた。LLMの応答によると
- 主観視点での動画には限りがあり、第三者視点での動画の方が単純にデータ量が多い
- 主観視点動画では見える範囲が限定的であり、たとえばロボットに特定の動作を学習させたいときに、全身動作や背景の動き、物体との位置関係などはわからない。
- ロボットが実際に得る視界もロボットから見た時の主観視点であるが、それとは別の話としてこのような第三者視点がロボットが多様なタスクを学ぶときに全身が写っている動画は有用であるか（タスク、意図、行動の選択パターンなどの動作の意味情報を学ぶ）。また、第三者視点動画をロボットの視点に変換するようなモデルを作るためにもこのようなデータは必要で、これによりロボットは第三者視点の人間動画から学び、最終的にそれらを自分の主観視点に対応する表現として学習（retargetと呼ぶらしい）できる。

といった背景があるらしい。

（LLMから得た情報ここまで）

↑のLLMからの情報は妥当なように感じる。
まああとは、そもそも、ロボットが溢れかえる世界になったときに、ロボットが写っている学習データがないとまずいよね、というのも将来的にはあるのかなという感想。

[Paper Note] Can You Learn to See Without Images? Procedural Warm-Up for Vision Transformers, Zachary Shinnick+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Pretraining #2D (Image) #KeyPoint Notes #WarmUp Issue Date: 2025-12-11 GPT Summary- 視覚トランスフォーマー（ViTs）を手続き生成データで事前学習する新しい方法を提案。これにより、モデルは抽象的な計算的知識を内在化し、標準的な画像トレーニングでデータ効率やパフォーマンスが向上。ImageNet-1kで1%の手続き生成データを使用することで、精度が1.7%以上向上し、28%のデータに相当する効果を示す。新しい事前学習戦略の可能性を示唆。 Comment

元ポスト:

Loading…

特定のgrammarを持つ（意味情報を持たない予測可能な）シンボルトークン列（e.g.,規則的なアルファベットの羅列, 括弧による階層構造; 非画像データ）を用いてViTのTransformerブロックを事前学習することによって、MLPやattention Layerに対して構造情報を捉える能力がwarmupされ、その後実画像で事前学習をするとサンプル効率が上がる、という話らしい。

warmupでは、ViTにおける入力機構（画像パッチ+linear layer）は一切用いず、discreteなトークンと、それらをランダムに初期化したlookup table を用いる。このとき、embeddingとpositional encodingをfreezeすることで、MLP, Attention Layerに知識が埋め込まれることを保証する。

[Paper Note] Do Language Models Use Their Depth Efficiently?, Róbert Csordás+, NeurIPS'25, 2025.05

Paper/Blog Link My Issue
#Analysis #MachineLearning #NLP #Architecture #NeurIPS #Depth Issue Date: 2025-12-04 GPT Summary- 大規模言語モデル（LLM）の深さと性能の関係を分析した結果、後半の層は前半の層に比べて貢献度が低く、後半の層をスキップしても影響は小さいことが分かった。また、深いモデルは新しい計算を行っているのではなく、同じ計算を多くの層に分散させていることが示唆された。このことは、深さの増加がリターンの減少をもたらす理由を説明するかもしれない。 Comment

元ポスト:

Loading…

RLとネットワークの深さの関係性を分析した研究もある:
- [Paper Note] 1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities, Wang+, NeurIPS'25 Best Paper Awards

openreview: https://openreview.net/forum?id=Kz6eUL86XP&referrer=%5Bthe%20profile%20of%20Christopher%20D%20Manning%5D(%2Fprofile%3Fid%3D~Christopher_D_Manning1)

[Paper Note] Constructing Efficient Fact-Storing MLPs for Transformers, Owen Dugan+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #NLP #LanguageModel #Factuality #read-later #Encoder-Decoder Issue Date: 2025-11-30 GPT Summary- LLMの事実知識の格納能力に基づき、新たに改善されたMLP構築フレームワークを提案。主な改善点は、1）全入力出力ペアに機能し、2）情報理論的制約に一致するパラメータ効率を実現し、3）Transformers内での使いやすさを確保。これにより、事実のスケーリングやエンコーダ・デコーダメカニズムの特定、使いやすさとのトレードオフを明らかにし、モジュラー事実編集の概念実証も行った。 Comment

元ポスト:

Loading…

[Paper Note] PixelDiT: Pixel Diffusion Transformers for Image Generation, Yongsheng Yu+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #TextToImageGeneration #ImageSynthesis #Pixel-based Issue Date: 2025-11-26 GPT Summary- PixelDiTは、オートエンコーダーを排除し、ピクセル空間での拡散プロセスを直接学習するエンドツーエンドモデルである。グローバルなセマンティクスとテクスチャの詳細を捉える二重レベルのトランスフォーマーアーキテクチャを採用し、効率的なトレーニングを実現。ImageNetで1.61のFIDを達成し、テキストから画像への生成にも拡張。GenEvalで0.74、DPG-benchで83.5を記録し、既存モデルを上回る性能を示した。 Comment

元ポスト:

Loading…

[Paper Note] Apriel-H1: Towards Efficient Enterprise Reasoning Models, Oleksiy Ostapenko+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #RecurrentModels Issue Date: 2025-11-22 GPT Summary- 大規模言語モデル（LLMs）は、トランスフォーマーアーキテクチャの限界を克服するために、状態空間モデル（SSMs）と注意メカニズムを組み合わせたハイブリッドモデルApriel-H1を提案。これにより、推論性能を維持しつつ、スループットを2倍以上向上させることに成功。蒸留を通じて、重要度の低い注意層をSSMに置き換え、効率的な推論を実現。 Comment

元ポスト:

Loading…

blog: https://huggingface.co/blog/ServiceNow-AI/apriel-h1
HF: https://huggingface.co/collections/ServiceNow-AI/apriel-h1

[Paper Note] Depth Anything 3: Recovering the Visual Space from Any Views, Haotong Lin+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#ComputerVision #Dataset #Evaluation #FoundationModel #2D (Image) #4D (Video) #SpatialUnderstanding Issue Date: 2025-11-17 GPT Summary- Depth Anything 3（DA3）は、カメラポーズの有無にかかわらず、視覚入力から空間的一貫性のあるジオメトリを予測するモデルです。DA3は、単一のプレーンなトランスフォーマーをバックボーンとして使用し、複雑なマルチタスク学習を排除することで、Depth Anything 2（DA2）と同等の性能を達成しました。新たに設立した視覚ジオメトリベンチマークでは、DA3がすべてのタスクで最先端の結果を示し、カメラポーズ精度で従来の最先端を44.3%、ジオメトリ精度で25.1%上回りました。すべてのモデルは公共の学術データセットでトレーニングされています。 Comment

元ポスト:

Loading…

pj page: https://depth-anything-3.github.io/

openreview: https://openreview.net/forum?id=yirunib8l8

[Paper Note] Optimizing Mixture of Block Attention, Guangxuan Xiao+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Attention Issue Date: 2025-11-17 GPT Summary- Mixture of Block Attention (MoBA)は、LLMにおける長いコンテキスト処理を効率化するが、その設計原則やGPU実装が不十分である。本研究では、MoBAのメカニズムを分析し、クエリとキーの親和性に基づくブロックの識別能力が性能に影響することを明らかにする。改善策として、小さなブロックサイズの使用とキーに対する短い畳み込みの適用を提案。これを実現するために、FlashMoBAを導入し、効率的なMoBA実行を可能にするCUDAカーネルを開発。FlashMoBAは、最大14.7倍のスピードアップを達成し、理論に基づく改善を実用化した。 Comment

元ポスト:

Loading…

flash_attention2に対して最大で14.7倍👀どういう条件、実験だろうか

[Paper Note] Virtual Width Networks, Seed+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Architecture #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-17 GPT Summary- Virtual Width Networks (VWN)は、隠れ層のサイズを増やすことなく、より広い表現を可能にするフレームワークである。VWNはバックボーンの計算をほぼ一定に保ちながら埋め込み空間を拡張し、8倍の拡張でトークン予測の最適化を加速することを示した。トレーニングが進むにつれてこの利点は増幅され、仮想幅と損失削減の間には対数線形のスケーリング関係があることが確認された。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

重要論文に見える。transformerのバックボーンの次元は変えないでベクトルのwidthを広げることと同等の効力を得るためのアーキテクチャを提案している模様。

ざっくり言うとembeddingをN倍（over-width)し、提案手法であるGHCを用いてバックボーンに流せるサイズにベクトルを圧縮しtransformerブロックで処理しover-widthした次元に戻す処理をする機構と、over-widthしたembeddingを次元数は変えずに変換するlinearを噛ませた結果を足し合わせるような機構を用意して最大のボトルネックであるtransformerブロックの計算量は変えずに表現力を向上させる、といった感じの手法な模様

[Paper Note] OmniVGGT: Omni-Modality Driven Visual Geometry Grounded, Haosong Peng+, CVPR'25, 2025.11

Paper/Blog Link My Issue
#ComputerVision #FoundationModel #read-later #2D (Image) #3D (Scene) #Robotics #SpatialUnderstanding #Omni #Geometric #Robustness Issue Date: 2025-11-16 GPT Summary- OmniVGGTという新しいフレームワークを提案し、RGB以外の幾何学的手がかりを活用して3D基盤モデルの性能を向上させる。GeoAdapterを用いて深度情報やカメラパラメータをモデルにエンコードし、安定した最適化を実現。確率的なマルチモーダル融合手法により、任意の数のモダリティ入力を可能にし、堅牢な空間表現を学習。実験により、OmniVGGTが従来手法を上回り、視覚-言語-行動モデルに統合することでロボティクスタスクでも性能向上を達成。 Comment

元ポスト:

Loading…

depth mapやcameraの情報などの様々な幾何学的情報を入力した場合（depth mapがないなど情報が欠落していても良い）にロバストに対応できるような基盤モデルを構築する手法らしい

評価データ:
- [Paper Note] A naturalistic open source movie for optical flow evaluation, Butler+, ECCV'12
- [Paper Note] ReFusion: 3D Reconstruction in Dynamic Environments for RGB-D Cameras Exploiting Residuals, Emanuele Palazzolo+, IROS'19, 2019.05
- [Paper Note] Indoor Segmentation and Support Inference from RGBD Images, Silberman+, ECCV'12
- [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images,Shotton+, CVPR'13
- [Paper Note] ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes, Angela Dai+, CVPR'17, 2017.02
- [Paper Note] A Multi-view Stereo Benchmark with High-Resolution Images and Multi-camera Videos, Schöps+, CVPR'17
- [Paper Note] Large-Scale Data for Multiple-View Stereopsis, Aanæs+, IJCV'16
- [Paper Note] Tanks and temples: Benchmarking large-scale scene reconstruction, Knapitsch+, TOG'17
- [Paper Note] Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life 3D Category Reconstruction, Reizenstein+, ICCV'21
- [Paper Note] Stereo Magnification: Learning View Synthesis using Multiplane Images, Tinghui Zhou+, SIGGRAPH'18, 2018.05
- [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images, Shotton+, CVPR'13
- [Paper Note] CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks, Oier Mees+, RA-L'22 Best Paper Award, 2021.12

[Paper Note] RF-DETR: Neural Architecture Search for Real-Time Detection Transformers, Isaac Robinson+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#ComputerVision #NeuralArchitectureSearch #Encoder-Decoder #ObjectDetection #Realtime Issue Date: 2025-11-14 GPT Summary- RF-DETRは、オープンボキャブラリ検出器の一般化問題を解決するために導入された軽量の専門検出トランスフォーマーであり、重み共有ニューラルアーキテクチャサーチ（NAS）を用いて精度とレイテンシのトレードオフを評価します。RF-DETRは、COCOおよびRoboflow100-VLで従来の手法を大幅に上回り、特にRF-DETR（2x-large）はCOCOで60 APを超えた初のリアルタイム検出器です。 Comment

元ポスト:

Loading…

[Paper Note] ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation, Jay Zhangjie Wu+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #Selected Papers/Blogs #2D (Image) #WorldModels Issue Date: 2025-11-11 GPT Summary- ChronoEditフレームワークを提案し、画像編集を動画生成として再定義。入力画像と編集画像を動画の最初と最後のフレームとし、時間的一貫性を学習した動画生成モデルを活用。推論時に時間的推論ステージを導入し、物理的に実現可能な変換を制約する編集軌道を生成。新しいベンチマークPBench-Editで、ChronoEditが視覚的忠実性と物理的妥当性で最先端の手法を上回ることを示した。 Comment

HF: https://huggingface.co/nvidia/ChronoEdit-14B-Diffusers

LoRAによるUpscaler: https://huggingface.co/nvidia/ChronoEdit-14B-Diffusers-Upscaler-Lora

元ポスト:

Loading…

スケッチ+promptでの編集
HF: https://huggingface.co/nvidia/ChronoEdit-14B-Diffusers-Paint-Brush-Lora

元ポスト:

Loading…

[Paper Note] SAM 2: Segment Anything in Images and Videos, Nikhila Ravi+, ICLR'25, 2024.08

Paper/Blog Link My Issue
#ComputerVision #ImageSegmentation #Prompting #FoundationModel #2D (Image) #4D (Video) Issue Date: 2025-11-09 GPT Summary- Segment Anything Model 2（SAM 2）は、プロンプト可能な視覚セグメンテーションのための基盤モデルで、ユーザーのインタラクションを通じてデータを改善するデータエンジンを構築し、最大の動画セグメンテーションデータセットを収集。シンプルなトランスフォーマーアーキテクチャを用い、リアルタイム動画処理に対応。SAM 2は、動画セグメンテーションで従来の手法より3倍少ないインタラクションで高精度を達成し、画像セグメンテーションでも従来モデルより精度が高く、6倍速い。データ、モデル、コード、デモを公開し、関連タスクの重要なマイルストーンを目指す。 Comment

openreview: https://openreview.net/forum?id=Ha6RTeWMd0

SAMはこちら:
- Segment Anything, Alexander Kirillov+, arXiv'23

[Paper Note] The Strong Lottery Ticket Hypothesis for Multi-Head Attention Mechanisms, Hikari Otsuka+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#NeuralNetwork #NLP #AAAI #LearningPhenomena Issue Date: 2025-11-09 GPT Summary- 強いロッタリーチケット仮説（SLTH）は、ランダムに初期化されたニューラルネットワーク内に高性能なサブネットワークが存在することを示唆していますが、トランスフォーマーアーキテクチャにおける理解は不足しています。本研究では、マルチヘッドアテンション（MHA）内の強いロッタリーチケットの存在を理論的に分析し、特定の条件下で任意のMHAを高い確率で近似するサブネットワークが存在することを証明します。また、この理論を用いて正規化層のないトランスフォーマーにSLTHを拡張し、近似誤差が隠れ次元の増加に伴い指数関数的に減少することを実証的に示しました。 Comment

元ポスト:

Loading…

[Paper Note] Emu3.5: Native Multimodal Models are World Learners, Yufeng Cui+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #NLP #LanguageModel #MultiModal #DiffusionModel #2D (Image) #UMM #text Issue Date: 2025-11-01 GPT Summary- Emu3.5は、視覚と言語の両方に基づく次の状態を予測する大規模なマルチモーダルワールドモデルで、10兆トークン以上のデータで事前訓練されています。双方向の並列予測を用いた「Discrete Diffusion Adaptation（DiDA）」により、推論を約20倍加速し、強力なマルチモーダル能力を発揮します。Emu3.5は、画像生成や編集タスクで優れたパフォーマンスを示し、オープンソースとして提供されています。 Comment

pj page: https://emu.world/

元ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] Scaling Latent Reasoning via Looped Language Models, Rui-Jie Zhu+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Selected Papers/Blogs #LatentReasoning #KeyPoint Notes #RecurrentModels #RecursiveModels Issue Date: 2025-10-30 GPT Summary- Ouroは、推論を事前訓練フェーズに組み込むことを目指したループ言語モデル（LoopLM）であり、反復計算やエントロピー正則化を通じて性能を向上させる。1.4Bおよび2.6Bモデルは、最大12Bの最先端LLMに匹敵する性能を示し、知識操作能力の向上がその要因であることを実験で確認。LoopLMは明示的なCoTよりも整合した推論を生成し、推論の新たなスケーリングの可能性を示唆している。モデルはオープンソースで提供されている。 Comment

pj page: https://ouro-llm.github.io

元ポスト:

Loading…

解説:

Loading…

基本構造はdecoder-only transformerで
- Multi-Head Attention
- RoPE
- SwiGLU活性化
- Sandwich Normalization
が使われているLoopedTransformerで、exit gateを学習することで早期にloopを打ち切り、出力をすることでコストを節約できるようなアーキテクチャになっている。

より少ないパラメータ数で、より大きなパラメータ数のモデルよりも高い性能を示す（Table7,8）。また、Tを増やすとモデルの安全性も増す（＝有害プロンプトの識別力が増す）。その代わり、再帰数Tを大きくするとFLOPsがT倍になるので、メモリ効率は良いが計算効率は悪い。

linear probingで再帰の次ステップ予測をしたところ浅い段階では予測が不一致になるため、思考が進化していっているのではないか、という考察がある。

また、再帰数Tを4で学習した場合に、inference時にTを5--8にしてもスケールしない(Table10)。

またAppendix D.1において、通常のtransformerのLoopLMを比較し、5種類の大きさのモデルサイズで比較。通常のtransformerではループさせる代わりに実際に層の数を増やすことで、パラメータ数を揃えて実験したところ、通常のtransformerの方が常に性能が良く、loopLMは再帰数を増やしてもスケールせず、モデルサイズが大きくなるにつれて差がなくなっていく、というスケーリングの面では残念な結果に終わっているようだ。

といった話が解説に書かれている。元論文は完全にskim readingして解説ポストを主に読んだので誤りが含まれるかもしれない点には注意。

著者による紹介: https://youtu.be/jwb_QNZJNyA?si=tEOkew8Qo8Rjab3Y

[Paper Note] FARMER: Flow AutoRegressive Transformer over Pixels, Guangting Zheng+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #read-later #NormalizingFlow #Compression Issue Date: 2025-10-28 GPT Summary- FARMERという新しい生成フレームワークを提案し、正規化フローと自己回帰モデルを統合して高品質な画像合成と尤度推定を実現。潜在シーケンスへの変換や自己教師あり次元削減により、ARモデリングの効率を向上。推論速度を加速する蒸留スキームと画像生成品質を向上させる分類器フリーガイダンスを導入。実験により、FARMERは既存モデルと比較して競争力のある性能を示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

これは...👀👀👀

[Paper Note] SeeDNorm: Self-Rescaled Dynamic Normalization, Wenrui Cai+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #MachineLearning #NLP #LanguageModel #Architecture #Normalization Issue Date: 2025-10-28 GPT Summary- SeeDNormは、入力に基づいて動的にスケーリング係数を調整する新しい正規化層であり、RMSNormの限界を克服します。これにより、入力のノルム情報を保持し、データ依存の自己再スケーリングを実現。大規模言語モデルやコンピュータビジョンタスクでの有効性を検証し、従来の正規化手法と比較して優れた性能を示しました。

[Paper Note] IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction, Hao Li+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #Dataset #FoundationModel #3D Reconstruction #3D (Scene) #UMM #SpatialUnderstanding Issue Date: 2025-10-28 GPT Summary- 人間の3Dシーン理解を模倣するため、空間再構築とインスタンス理解を統合したInstanceGrounded Geometry Transformer（IGGT）を提案。IGGTは2D視覚入力を用いて幾何学的構造とインスタンスクラスタリングを統一的に表現し、3Dシーンの一貫性を向上させる。新たに構築したInsScene-15Kデータセットを用いて、3D一貫性のあるインスタンスレベルのマスク注釈を提供。 Comment

pj page: https://lifuguan.github.io/IGGT_official/

元ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] Positional Encoding Field, Yunpeng Bai+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #read-later Issue Date: 2025-10-26 GPT Summary- Diffusion Transformers（DiTs）は、視覚生成において優れた性能を示すアーキテクチャであり、パッチトークンと位置エンコーディング（PE）を用いています。本研究では、DiTsがどのように視覚コンテンツを整理するかを再考し、PEの摂動に対しても一貫した出力を生成することを発見しました。これに基づき、位置エンコーディングを3Dフィールドに拡張したPE-Fieldを提案し、ボリュメトリック推論と階層的エンコーディングを組み込みました。強化されたDiTは、新しい視点合成と空間画像編集において最先端の性能を達成しました。 Comment

pj page: https://yunpeng1998.github.io/PE-Field-HomePage/

元ポスト:

Loading…

[Paper Note] When Do Transformers Learn Heuristics for Graph Connectivity?, Qilin Ye+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Analysis #NLP #Reasoning Issue Date: 2025-10-24 GPT Summary- Transformersは一般化能力に欠け、脆弱なヒューリスティックに依存することが多い。分離型Transformerを用いて、$L$層のモデルが直径$3^L$までのグラフを解決できることを証明。トレーニングダイナミクスを分析し、能力内のグラフでは正しいアルゴリズムを学習し、能力を超えたグラフでは単純なヒューリスティックを学習することを示す。トレーニングデータを能力内に制限することで、正確なアルゴリズムの学習が促進されることを実証。 Comment

元ポスト:

Loading…

[Paper Note] Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning, Ling Team+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Attention #Architecture #MoE(Mixture-of-Experts) #Hybrid Issue Date: 2025-10-24 GPT Summary- Ring-linearモデルシリーズ、特にRing-mini-linear-2.0（16Bパラメータ）とRing-flash-linear-2.0（104Bパラメータ）を紹介。両モデルはハイブリッドアーキテクチャを採用し、長いコンテキストの推論でI/Oと計算オーバーヘッドを削減。推論コストは32億パラメータの密なモデルと比較して1/10、元のRingシリーズと比べて50%以上削減。最適なモデル構造を特定し、高性能FP8オペレーターライブラリ「linghe」によりトレーニング効率が50%向上。複数の複雑推論ベンチマークでSOTAパフォーマンスを維持。 Comment

HF: https://huggingface.co/inclusionAI/Ring-flash-linear-2.0-128k

元ポスト:

Loading…

所見:

Loading…

[Paper Note] Memory Layers at Scale, Vincent-Pierre Berges+, ICLR'25, 2024.12

Paper/Blog Link My Issue
#LanguageModel #Architecture #ICLR #read-later #Selected Papers/Blogs #memory #KeyPoint Notes Issue Date: 2025-10-23 GPT Summary- メモリ層は、計算負荷を増やさずにモデルに追加のパラメータを加えるための学習可能な検索メカニズムを使用し、スパースに活性化されたメモリ層が密なフィードフォワード層を補完します。本研究では、改良されたメモリ層を用いた言語モデルが、計算予算が2倍の密なモデルや同等の計算とパラメータを持つエキスパート混合モデルを上回ることを示し、特に事実に基づくタスクでの性能向上が顕著であることを明らかにしました。完全に並列化可能なメモリ層の実装とスケーリング法則を示し、1兆トークンまでの事前学習を行った結果、最大8Bのパラメータを持つベースモデルと比較しました。 Comment

openreview: https://openreview.net/forum?id=ATqGm1WyDj

transformerにおけるFFNをメモリレイヤーに置き換えることで、パラメータ数を増やしながら計算コストを抑えるようなアーキテクチャを提案しているようである。メモリレイヤーは、クエリqを得た時にtop kのkvをlookupし（＝ここで計算対象となるパラメータがスパースになる）、kqから求めたattention scoreでvを加重平均することで出力を得る。Memory+というさらなる改良を加えたアーキテクチャでは、入力に対してsiluによるgatingとlinearな変換を追加で実施することで出力を得る。

denseなモデルと比較して性能が高く、メモリパラメータを増やすと性能がスケールする。

[Paper Note] OminiControl: Minimal and Universal Control for Diffusion Transformer, Zhenxiong Tan+, ICCV'25 Highlight, 2024.11

Paper/Blog Link My Issue
#ComputerVision #Controllable #DiffusionModel #VariationalAutoEncoder #Selected Papers/Blogs #ICCV #KeyPoint Notes Issue Date: 2025-10-22 GPT Summary- OminiControlは、Diffusion Transformer（DiT）アーキテクチャにおける画像条件付けの新しいアプローチで、パラメータオーバーヘッドを最小限に抑えつつ、柔軟なトークン相互作用と動的な位置エンコーディングを実現。広範な実験により、複数の条件付けタスクで専門的手法を上回る性能を示し、合成された画像ペアのデータセット「Subjects200K」を導入。効率的で多様な画像生成システムの可能性を示唆。 Comment

元ポスト:

Loading…

DiTのアーキテクチャは（MMA以外は）変更せずに、Condition Image C_IをVAEでエンコードしたnoisy inputをDiTのinputにconcatし順伝播させることで、DiTをunified conditioningモデル（＝C_Iの特徴量を他のinputと同じlatent spaceで学習させ統合的に扱う）として学習する[^1]。

[^1]: 既存研究は別のエンコーダからエンコードしたfeatureが加算されていて（式3）、エンコーダ部分に別途パラメータが必要だっただけでなく、加算は空間的な対応関係が存在しない場合はうまく対処できず（featureの次元が空間的な情報に対応しているため）、conditional tokenとimageの交互作用を妨げていた。

また、positional encodingのindexをconditional tokenとnoisy image tokensと共有すると、空間的な対応関係が存在するタスク（edge guided generation等）はうまくいったが、被写体を指定する生成（subject driven generation)のような対応関係が存在しないタスク（non-aligned task)の場合はうまくいかなかった。しかし、non-aligned taskの場合は、indexにオフセットを加えシフトさせる（式4）ことで、conditional text/image token間で空間的にoverlapしないようにすることで性能が大幅に改善した。

既存研究では、C_Iの強さをコントロールするために、ハイパーパラメータとして定数を導入し、エンコードされたfeatureを加算する際の強さを調整していたが（3.2.3節）、本手法ではconcatをするためこのような方法は使えない。そのため、Multi-Modal Attention(MMA)にハイパーパラメータによって強さを調整可能なbias matrixを導入し、C_IとXのattentionの交互作用の強さを調整することで対応した（式5,6）。

[Paper Note] The Free Transformer, François Fleuret, arXiv'25, 2025.10

Paper/Blog Link My Issue
#MachineLearning #VariationalAutoEncoder #Architecture #Decoder Issue Date: 2025-10-22 GPT Summary- 無監督で学習された潜在変数に条件付けるデコーダーTransformerの拡張を提案し、下流タスクでの性能が大幅に向上することを実験で示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] Scaling Language-Free Visual Representation Learning, David Fan+, ICCV'25, 2025.04

Paper/Blog Link My Issue
#ComputerVision #Pretraining #Self-SupervisedLearning #ICCV #Scalability Issue Date: 2025-10-20 GPT Summary- 視覚的自己教師あり学習（SSL）は、CLIPに比べて視覚的質問応答（VQA）でのパフォーマンスが劣るが、同じデータセットで訓練することで、視覚的SSLモデルがCLIPモデルよりもスケールが良いことを示した。視覚的SSLは、VQAや従来の視覚ベンチマークでCLIPレベルのパフォーマンスを達成できる可能性がある。これにより、視覚中心の表現学習に新たな機会が開かれる。 Comment

pj page: https://davidfan.io/webssl/

元ポスト:

Loading…

[Paper Note] DiaMoE-TTS: A Unified IPA-Based Dialect TTS Framework with Mixture-of-Experts and Parameter-Efficient Zero-Shot Adaptation, Ziqi Chen+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#SpeechProcessing #DiffusionModel #MoE(Mixture-of-Experts) #FlowMatching #TTS #LowResource #ConvolutionalModels Issue Date: 2025-10-18 GPT Summary- DiaMoE-TTSは、方言の音声合成のためのIPAベースのフレームワークを提案し、音声表現の標準化と曖昧さの解決を図る。F5-TTSアーキテクチャを基に、方言に対応したMixture-of-Expertsを導入し、効率的なパラメータ適応を実現。スケーラブルでオープンデータ駆動のアプローチにより、数時間のデータで未見の方言や専門的なドメインに対して自然で表現力豊かな音声生成を達成。 Comment

元ポスト:

Loading…

[Paper Note] Frequency-Dynamic Attention Modulation for Dense Prediction, Linwei Chen+, ICCV'25, 2025.07

Paper/Blog Link My Issue
#ComputerVision #Attention #ICCV Issue Date: 2025-10-18 GPT Summary- 本研究では、Vision Transformers（ViTs）の周波数応答を改善するために、Frequency-Dynamic Attention Modulation（FDAM）を提案。FDAMは、注意行列のローパスフィルタを反転させるAttention Inversion（AttInv）と、異なる周波数成分に重み付けを行うFrequency Dynamic Scaling（FreqScale）から成る。これにより、表現の崩壊を回避し、セマンティックセグメンテーションや物体検出などのタスクで一貫した性能向上を実現。リモートセンシング検出でも最先端の結果を達成。コードは公開されている。 Comment

元ポスト:

Loading…

[Paper Note] Cautious Weight Decay, Lizhang Chen+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #NLP #LanguageModel #Optimizer Issue Date: 2025-10-16 GPT Summary- Cautious Weight Decay（CWD）は、オプティマイザに依存しない修正で、更新と符号が一致するパラメータにのみウェイト減衰を適用します。これにより、元の損失を保持しつつ、局所的なパレート最適点を探索可能にします。CWDは、既存のオプティマイザに簡単に適用でき、新たなハイパーパラメータを必要とせず、言語モデルの事前学習やImageNet分類で損失と精度を向上させます。 Comment

元ポスト:

Loading…

[Paper Note] How Reinforcement Learning After Next-Token Prediction Facilitates Learning, Nikolaos Tsilivis+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Analysis #MachineLearning #NLP #ReinforcementLearning #Reasoning #PostTraining #read-later Issue Date: 2025-10-14 GPT Summary- 大規模言語モデルの次のトークン予測を強化学習で最適化するフレームワークを提案。特に、短いおよび長い「思考の連鎖」シーケンスからの学習を通じて、強化学習が次のトークン予測を改善することを理論的に示す。長いシーケンスが稀な場合、強化学習により自己回帰型トランスフォーマーが一般化できることを確認。さらに、長い応答が計算を増加させるメカニズムを説明し、自己回帰型線形モデルが効率的に$d$ビットの偶奇を予測できる条件を理論的に証明。Llamaシリーズモデルのポストトレーニングによる実証も行う。 Comment

元ポスト:

Loading…

[Paper Note] Diffusion Transformers with Representation Autoencoders, Boyang Zheng+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #DiffusionModel #read-later #Selected Papers/Blogs #Backbone Issue Date: 2025-10-14 GPT Summary- 本研究では、従来のVAEエンコーダを事前学習された表現エンコーダに置き換えたRepresentation Autoencoders（RAE）を提案。これにより、高品質な再構成と豊かな潜在空間を実現し、拡散トランスフォーマーの性能向上を図る。RAEは、補助的な表現整合損失なしで早い収束を達成し、ImageNetで優れた画像生成結果を示した。RAEは、拡散トランスフォーマーの新しいデフォルトとしての利点を提供する。 Comment

pj page: https://rae-dit.github.io

元ポスト:

Loading…

U-NetをBackboneとしたVAEの代わりにViTに基づく（down, up- scaling無しの）アーキテクチャを用いることで、より少ない計算量で高い性能を達成しました、といった話に見える。

ポイント解説:

Loading…

解説:

Loading…

[Paper Note] Attention Sinks and Compression Valleys in LLMs are Two Sides of the Same Coin, Enrique Queipo-de-Llano+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Analysis #MachineLearning #NLP #Attention #AttentionSinks #CompressionValleys Issue Date: 2025-10-10 GPT Summary- 注意の沈降と圧縮の谷の関連性を示し、大規模な活性化が表現の圧縮とエントロピーの減少を引き起こすことを理論的に証明。実験により、シーケンスの開始トークンが中間層で極端な活性化を生むと、圧縮の谷と注意の沈降が同時に現れることを確認。TransformerベースのLLMがトークンを三つのフェーズで処理する「Mix-Compress-Refine」理論を提案し、タスク依存の表現の違いを説明。 Comment

元ポスト:

Loading…

[Paper Note] Heptapod: Language Modeling on Visual Signals, Yongxin Zhu+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #Pretraining #Decoder Issue Date: 2025-10-10 GPT Summary- Heptapodは、因果注意を用いた画像自動回帰モデルで、CFGへの依存を排除し、意味トークナイザーのトレンドを避ける。主な革新は、2D分布予測を行う因果Transformerで、画像の2D空間全体にわたる分布を学習する。これにより、生成的トレーニングを通じて画像の意味を捉えることが可能になる。ImageNet生成ベンチマークでFID値2.70を達成し、従来のアプローチを上回る成果を示した。 Comment

元ポスト:

Loading…

[Paper Note] ReasonIR: Training Retrievers for Reasoning Tasks, Rulin Shao+, COLM'25, 2025.04

Paper/Blog Link My Issue
#Embeddings #InformationRetrieval #SyntheticData #Reasoning #Test-Time Scaling #COLM #read-later #Selected Papers/Blogs #Encoder Issue Date: 2025-10-08 GPT Summary- ReasonIR-8Bは、一般的な推論タスク向けに特別に訓練された初のリトリーバーであり、合成データ生成パイプラインを用いて挑戦的なクエリとハードネガティブを作成。これにより、BRIGHTベンチマークで新たな最先端成果を達成し、RAGタスクでも他のリトリーバーを上回る性能を示す。トレーニングレシピは一般的で、将来のLLMへの拡張が容易である。コード、データ、モデルはオープンソース化されている。 Comment

元ポスト:

Loading…

Llama3.1-8Bをbidirectional encoderに変換してpost-trainingしている。

[Paper Note] Pretraining with hierarchical memories: separating long-tail and common knowledge, Hadi Pouransari+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #SmallModel #memory Issue Date: 2025-10-07 GPT Summary- 現代の言語モデルはパラメータのスケーリングに依存しているが、すべての世界知識を圧縮するのは非現実的である。これに対処するため、メモリ拡張アーキテクチャを提案し、小型言語モデルが階層的なメモリバンクにアクセスする仕組みを導入。実験により、160Mパラメータのモデルに18Mパラメータのメモリを追加することで、通常のモデルと同等の性能を達成。トランスフォーマーにおけるメモリの最適なタイプとサイズを研究し、提案したメモリが堅牢に機能することを確認。 Comment

元ポスト:

Loading…

[Paper Note] xLSTM Scaling Laws: Competitive Performance with Linear Time-Complexity, Maximilian Beck+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Scaling Laws #RecurrentModels Issue Date: 2025-10-03 GPT Summary- スケーリング法則はLLMsの性能予測に重要であり、トランスフォーマーとxLSTMのスケーリング挙動を比較。xLSTMは文脈の長さに対して線形の複雑さを持ち、トレーニングおよび推論においてトランスフォーマーよりも有利にスケールすることが示された。特に、文脈が増えるとxLSTMの利点が拡大する。 Comment

元ポスト:

Loading…

[Paper Note] Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation, Shuo Yang+, NeurIPS'25 Spotlight, 2025.05

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Attention #DiffusionModel #Architecture #NeurIPS #VideoGeneration/Understandings #Sparse #SparseAttention Issue Date: 2025-09-27 GPT Summary- Diffusion Transformers（DiTs）の動画生成におけるレイテンシーの問題を解決するため、重要トークンの特定精度を最大化し計算の無駄を最小化するトレーニング不要のフレームワークSVG2を提案。SVG2は意味に基づくトークンのクラスタリングと再配置を行い、計算効率を向上させる。これにより、HunyuanVideoおよびWan 2.1でそれぞれ最大2.30倍および1.89倍のスピードアップを達成し、PSNRを維持。 Comment

元ポスト:

Loading…

pj page: https://svg-project.github.io/v2/

Q, Kそれぞれについて独立してkmeansクラスタリングを実施し、意味的に類似したQ, Kをクラスタ化し、map上で散らばっているトークンの配置を整頓して計算機上で効率的に扱えるようにし、各クラスタのcentroidをattention scoreの計算に用いてクラスタ内のトークンのスコアを近似することで計算を効率化します、といった話な模様。また、クリティカルなクラスタとそうでは無いものがあるので、p個のクリティカルなクラスタを選択しさらに効率化をする模様。

[Paper Note] Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding, Mingyu Jin+, ICML'25, 2025.02

Paper/Blog Link My Issue
#Analysis #MachineLearning #NLP #Attention #ICML #ContextEngineering Issue Date: 2025-09-26 GPT Summary- 大規模言語モデル（LLMs）は文脈的知識の理解に成功しており、特に注意クエリ（Q）とキー（K）において集中した大規模な値が一貫して現れることを示す。これらの値は、モデルのパラメータに保存された知識ではなく、現在の文脈から得られる知識の解釈に重要である。量子化戦略の調査により、これらの値を無視すると性能が低下することが明らかになり、集中した大規模な値の出現がロタリーポジショナルエンコーディング（RoPE）によって引き起こされることを発見した。これらの結果は、LLMの設計と最適化に関する新たな洞察を提供する。 Comment

openreview: https://openreview.net/forum?id=1SMcxxQiSL¬eId=7BAXSETAwU

[Paper Note] MapAnything: Universal Feed-Forward Metric 3D Reconstruction, Nikhil Keetha+, arXiv'25

Paper/Blog Link My Issue
#ComputerVision #3D Reconstruction #2D (Image) #3D (Scene) #Backbone Issue Date: 2025-09-20 GPT Summary- MapAnythingは、画像と幾何学的入力を用いて3Dシーンの幾何学とカメラを回帰するトランスフォーマーベースのモデルです。多視点シーンの因子化された表現を活用し、様々な3Dビジョンタスクに対応可能です。実験により、専門モデルと同等またはそれを上回る性能を示し、効率的な共同トレーニングを実現しています。 Comment

pj page: https://map-anything.github.io

元ポスト:

Loading…

v1.1がリリース:

Loading…

[Paper Note] Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion, Xun Huang+, NeurIPS'25

Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #VariationalAutoEncoder #NeurIPS #PostTraining #Selected Papers/Blogs #VideoGeneration/Understandings #One-Line Notes Issue Date: 2025-09-19 GPT Summary- Self Forcingは、自動回帰型ビデオ拡散モデルの新しいトレーニング手法で、エクスポージャーバイアスの問題に対処します。従来の手法が真のコンテキストに基づくのに対し、Self Forcingは自己生成した出力に基づいてフレームを生成し、全体の品質を評価するホリスティックな損失を用います。計算コストとパフォーマンスのバランスを取るために、少数ステップの拡散モデルと確率的勾配切断を採用し、ロールイングKVキャッシュメカニズムを導入。実験により、リアルタイムのストリーミングビデオ生成が可能で、非因果的拡散モデルの生成品質に匹敵またはそれを上回ることが示されました。 Comment

pj page: https://self-forcing.github.io

元ポスト:

Loading…

自己回帰的な動画生成（をする）モデルにおいて、学習時はground-truchのcontextが利用して学習されるが、推論時は自身が生成結果そのものをcontextとして利用するため、学習-推論時にgapが生じ、（徐々に誤差が蓄積することで）品質が劣化するという問題（exposure bias）に対処するために、学習時から自身が生成した出力をcontextとして与えて生成を行い（ロールアウト）、動画全体に対して分布の整合性を測るlossを導入（=フレーム単位の誤差を最小化にするのではなく、動画全体に対して（分布の）誤差を最適化する）することで、exposure biasを軽減する、という話な模様。

結果的に、単一のRTX4090でリアルタイムのストリーミングビデオ生成が高品質に生成可能となった（かもしれない）:
https://note.com/ngc_shj/n/n505b2f7cdfe4

[Paper Note] 4DNeX: Feed-Forward 4D Generative Modeling Made Easy, Zhaoxi Chen+, arXiv'25

Paper/Blog Link My Issue
#ComputerVision #Dataset #DiffusionModel #PEFT(Adaptor/LoRA) #Encoder-Decoder #4D (Video) Issue Date: 2025-09-16 GPT Summary- 4DNeXは、単一の画像から動的3Dシーンを生成する初のフィードフォワードフレームワークであり、事前学習されたビデオ拡散モデルをファインチューニングすることで効率的な4D生成を実現。大規模データセット4DNeX-10Mを構築し、RGBとXYZシーケンスを統一的にモデル化。実験により、4DNeXは既存手法を上回る効率性と一般化能力を示し、動的シーンの生成的4Dワールドモデルの基盤を提供。 Comment

pj page: https://4dnex.github.io

元ポスト:

Loading…

[Paper Note] Forgetting Transformer: Softmax Attention with a Forget Gate, Zhixuan Lin+, ICLR'25, 2025.03

Paper/Blog Link My Issue
#NLP #LanguageModel #Attention #LongSequence #Architecture #ICLR #AttentionSinks Issue Date: 2025-09-16 GPT Summary- 忘却ゲートを取り入れたトランスフォーマー「FoX」を提案。FoXは長いコンテキストの言語モデリングや下流タスクでトランスフォーマーを上回る性能を示し、位置埋め込みを必要としない。再帰的シーケンスモデルに対しても優れた能力を保持し、性能向上のための「Pro」ブロック設計を導入。コードはGitHubで公開。 Comment

openreview: https://openreview.net/forum?id=q2Lnyegkr8

code: https://github.com/zhixuan-lin/forgetting-transformer

非常におもしろそう

データ非依存の固定されたsink tokenを用いるのではなく、データ依存のlearnableなsink tokenを用いる研究とみなせる。
- [Paper Note] Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters, Ailin Huang+, arXiv'26, 2026.02

[Paper Note] Adaptive Computation Pruning for the Forgetting Transformer, Zhixuan Lin+, COLM'25

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Pruning #Attention #LongSequence #Architecture Issue Date: 2025-09-16 GPT Summary- Forgeting Transformer（FoX）は、忘却ゲートを用いたソフトマックスアテンションを特徴とし、従来のTransformerと比較して優れた性能を示す。FoXの特性を活かし、適応計算プルーニング（ACP）を提案し、計算を動的にプルーニングすることで、FLOPsとメモリアクセスを約70%削減。これにより、アテンションの実行時間を50%から70%短縮し、トレーニングスループットを10%から40%向上させた。性能の劣化はなく、長い文脈長ではさらなる計算コストの節約が可能である。 Comment

code: https://github.com/zhixuan-lin/forgetting-transformer

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=xNj14CY5S1#discussion

先行研究:
- [Paper Note] Forgetting Transformer: Softmax Attention with a Forget Gate, Zhixuan Lin+, ICLR'25, 2025.03

[Paper Note] Streaming Sequence-to-Sequence Learning with Delayed Streams Modeling, Neil Zeghidour+, arXiv'25

Paper/Blog Link My Issue
#SpeechProcessing #TTS Issue Date: 2025-09-11 GPT Summary- Delayed Streams Modeling (DSM)は、ストリーミングおよびマルチモーダルなシーケンス・ツー・シーケンス学習のための新しい手法で、入力シーケンスを完全に消費するオフライン方式とは異なり、出力タイミングを学習するストリーミング方式を採用しています。DSMはデコーダー専用の言語モデルを用いて、時間的に整列されたストリームをモデル化し、遅延を導入することで任意の出力シーケンスのストリーミング推論を実現します。特に、テキストと音声のストリームにおいて、自動音声認識（ASR）やテキスト・トゥ・スピーチ（TTS）モデルに対して優れた性能を示し、オフラインベースラインと競争できることが実験で確認されました。 Comment

元ポスト:

Loading…

[Paper Note] Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free, Zihan Qiu+, NeurIPS'25 Best Paper

Paper/Blog Link My Issue
#NLP #LanguageModel #Attention #NeurIPS #AttentionSinks #read-later #Selected Papers/Blogs Issue Date: 2025-09-11 GPT Summary- ゲーティングメカニズムの効果を調査するため、強化されたソフトマックスアテンションのバリアントを実験。15B Mixture-of-Expertsモデルと1.7B密なモデルを比較し、シグモイドゲートの適用が性能向上に寄与することを発見。これにより訓練の安定性が向上し、スケーリング特性も改善。スパースゲーティングメカニズムが「アテンションシンク」を軽減し、長いコンテキストの外挿性能を向上させることを示した。関連コードとモデルも公開。 Comment

元ポスト:

Loading…

所見:

Loading…

NeurIPS'25 Best Paper:

Loading…

[Paper Note] mmBERT: A Modern Multilingual Encoder with Annealed Language Learning, Marc Marone+, arXiv'25

Paper/Blog Link My Issue
#Embeddings #NLP #MultiLingual #Encoder Issue Date: 2025-09-10 GPT Summary- mmBERTは、1800以上の言語で3兆トークンのデータを用いて事前学習されたエンコーダ専用の言語モデルであり、低リソース言語を短い減衰フェーズに含めることでパフォーマンスを向上させた。新しい要素を導入し、OpenAIのo3やGoogleのGemini 2.5 Proと同等の分類性能を達成。mmBERTは分類および検索タスクで以前のモデルを大幅に上回ることを示した。 Comment

blog: https://huggingface.co/blog/mmbert
HF: https://huggingface.co/jhu-clsp/mmBERT-checkpoints

- modernbert-ja-130m, SB Intuitions, 2025.02

と比較して日本語の性能はどうかなあ

元ポスト:

Loading…

解説:

Loading…

[Paper Note] Training Dynamics of the Cooldown Stage in Warmup-Stable-Decay Learning Rate Scheduler, Aleksandr Dremov+, TMLR'25

Paper/Blog Link My Issue
#Analysis #MachineLearning #NLP #LanguageModel #TMLR #Scheduler Issue Date: 2025-09-03 GPT Summary- WSD学習率スケジューラのクールダウンフェーズを分析し、異なる形状がモデルのバイアス-バリアンスのトレードオフに与える影響を明らかに。探索と活用のバランスが最適なパフォーマンスをもたらすことを示し、特に$\beta_2$の値が高いと改善が見られる。損失のランドスケープを視覚化し、クールダウンフェーズの最適化の重要性を強調。 Comment

元ポスト:

Loading…

[Paper Note] Looped Transformers for Length Generalization, Ying Fan+, ICLR'25

Paper/Blog Link My Issue
#MachineLearning #LongSequence #Architecture #ICLR #Generalization #RecurrentModels Issue Date: 2025-08-30 GPT Summary- ループトランスフォーマーを用いることで、未見の長さの入力に対する算術的およびアルゴリズム的タスクの長さ一般化が改善されることを示す。RASP-L操作を含む既知の反復解法に焦点を当て、提案する学習アルゴリズムで訓練した結果、さまざまなタスクに対して高い一般化能力を持つ解法を学習した。 Comment

openreview: https://openreview.net/forum?id=2edigk8yoU

[Paper Note] Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model, Xianglong He+, arXiv'25

Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #OpenWeight #VideoGeneration/Understandings #WorldModels #Game Issue Date: 2025-08-28 GPT Summary- Matrix-Game 2.0を提案し、インタラクティブな世界モデルがリアルタイムで長いビデオを生成できるようにする。主なコンポーネントは、スケーラブルなデータ生成パイプライン、インタラクティブな条件を可能にするアクション注入モジュール、リアルタイム生成のための数ステップの蒸留。これにより、25 FPSで高品質な1分間のビデオを生成可能。モデルの重みとコードはオープンソース化。 Comment

元ポスト:

Loading…

pj page: https://matrix-game-v2.github.io

公式:

Loading…

[Paper Note] JetFormer: An Autoregressive Generative Model of Raw Images and Text, Michael Tschannen+, ICLR'25

Paper/Blog Link My Issue
#ComputerVision #TextToImageGeneration #Architecture #ICLR #read-later #NormalizingFlow Issue Date: 2025-08-17 GPT Summary- JetFormerは、画像とテキストの共同生成を効率化する自己回帰型デコーダー専用のトランスフォーマーであり、別々にトレーニングされたコンポーネントに依存せず、両モダリティを理解・生成可能。正規化フローモデルを活用し、テキストから画像への生成品質で既存のベースラインと競合しつつ、堅牢な画像理解能力を示す。JetFormerは高忠実度の画像生成と強力な対数尤度境界を実現する初のモデルである。 Comment

openreview: https://openreview.net/forum?id=sgAp2qG86e

画像をnormalizing flowでソフトトークンに変換し、transformerでソフトトークンを予測させるように学習することで、テキストと画像を同じアーキテクチャで学習できるようにしました、みたいな話っぽい？おもしろそう

[Paper Note] Less Is More: Training-Free Sparse Attention with Global Locality for Efficient Reasoning, Lijie Yang+, arXiv'25

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Attention Issue Date: 2025-08-14 GPT Summary- 「LessIsMore」という新しいスパースアテンションメカニズムを提案。これは、トレーニング不要でグローバルアテンションパターンを活用し、トークン選択を効率化。精度を維持しつつ、デコーディング速度を1.1倍向上させ、トークン数を2倍削減。既存手法と比較して1.13倍のスピードアップを実現。 Comment

元ポスト:

Loading…

トレーニングフリーで1.1倍のデコーディング速度で性能もFull Attentionと同等以上のSparse Attentionらしい

[Paper Note] AR-GRPO: Training Autoregressive Image Generation Models via Reinforcement Learning, Shihao Yuan+, arXiv'25

Paper/Blog Link My Issue
#ComputerVision #ReinforcementLearning #TextToImageGeneration #GRPO #On-Policy #Encoder-Decoder Issue Date: 2025-08-12 GPT Summary- AR-GRPOは、自己回帰画像生成モデルにオンライン強化学習を統合した新しいアプローチで、生成画像の品質を向上させるためにGRPOアルゴリズムを適用。クラス条件およびテキスト条件の画像生成タスクで実験を行い、標準のARモデルと比較して品質と人間の好みを大幅に改善した。結果は、AR画像生成における強化学習の有効性を示し、高品質な画像合成の新たな可能性を開く。 Comment

元ポスト:

Loading…

[Paper Note] Fast and Simplex: 2-Simplicial Attention in Triton, Aurko Roy+, arXiv'25

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Attention #Architecture Issue Date: 2025-08-11 GPT Summary- 2-シンプリシアルトランスフォーマーを用いることで、トークン効率を向上させ、標準的なトランスフォーマーよりも優れた性能を発揮することを示す。固定されたトークン予算内で、数学や推論タスクにおいてドット積アテンションを上回る結果を得た。 Comment

元ポスト:

Loading…

[Paper Note] RankMixer: Scaling Up Ranking Models in Industrial Recommenders, Jie Zhu+, arXiv'25

Paper/Blog Link My Issue
#RecommenderSystems #NeuralNetwork #LearningToRank #read-later #Selected Papers/Blogs Issue Date: 2025-07-24 GPT Summary- RankMixerは、推薦システムのスケーラビリティを向上させるための新しいアーキテクチャで、トランスフォーマーの並列性を活かしつつ、効率的な特徴相互作用を実現。Sparse-MoEバリアントを用いて10億パラメータに拡張し、動的ルーティング戦略で専門家の不均衡を解消。実験により、1兆スケールのデータセットで優れたスケーリング能力を示し、MFUを4.5%から45%に向上させ、推論レイテンシーを維持しつつパラメータを100倍に増加。オンラインA/Bテストで推薦、広告、検索の各シナリオにおける効果を確認し、ユーザーのアクティブ日数を0.2%、アプリ内使用時間を0.5%改善。 Comment

元ポスト:

Loading…

[Paper Note] Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation, Sangmin Bae+, NeurIPS'25

Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #NLP #Architecture #NeurIPS #memory #RecurrentModels #RecursiveModels Issue Date: 2025-07-17 GPT Summary- Mixture-of-Recursions（MoR）というフレームワークを提案し、再帰型トランスフォーマー内でパラメータ共有と適応計算を同時に実現。MoRは、レイヤーの再利用とトークンごとの再帰深さの動的割り当てにより、メモリアクセス効率を向上させる。135Mから1.7Bパラメータのモデルで、トレーニングFLOPsを維持しつつ、困惑度を低下させ、少数ショット精度を向上。MoRは大規模モデルのコストを抑えつつ、品質向上に寄与することを示す。 Comment

元ポスト:

Loading…

解説:

Loading…

著者ポスト:

Loading…

[Paper Note] In-context denoising with one-layer transformers: connections between attention and associative memory retrieval, Matthew Smart+, arXiv'25

Paper/Blog Link My Issue
#Analysis #MachineLearning #NLP #In-ContextLearning Issue Date: 2025-07-16 GPT Summary- 「インコンテキストデノイジング」というタスクを通じて、注意ベースのアーキテクチャと密な連想記憶（DAM）ネットワークの関係を探求。ベイズ的フレームワークを用いて、単層トランスフォーマーが特定のデノイジング問題を最適に解決できることを示す。訓練された注意層は、コンテキストトークンを連想記憶として利用し、デノイジングプロンプトを一回の勾配降下更新で処理。これにより、DAMネットワークの新たな拡張例を提供し、連想記憶と注意メカニズムの関連性を強化する。 Comment

元ポスト:

Loading…

[Paper Note] ExPLoRA: Parameter-Efficient Extended Pre-Training to Adapt Vision Transformers under Domain Shifts, Samar Khanna+, ICML'25

Paper/Blog Link My Issue
#ComputerVision #Pretraining #PEFT(Adaptor/LoRA) #ICML #Finetuning #KeyPoint Notes Issue Date: 2025-07-14 GPT Summary- PEFT技術を用いたExPLoRAは、事前学習済みビジョントランスフォーマー（ViT）を新しいドメインに適応させる手法で、教師なし事前学習を通じて効率的にファインチューニングを行う。実験では、衛星画像において最先端の結果を達成し、従来のアプローチよりも少ないパラメータで精度を最大8%向上させた。 Comment

元ポスト:

Loading…

これまでドメイン適応する場合にラベル付きデータ+LoRAでFinetuningしていたのを、ラベル無しデータ+継続事前学習の枠組みでやりましょう、という話のようである。

手法は下記で、事前学習済みのモデルに対してLoRAを適用し継続事前学習する。ただし、最後尾のLayer、あるいは最初と最後尾のLayerの両方をunfreezeして、trainableにする。また、LoRAはfreezeしたLayerのQ,Vに適用し、それらのLayerのnormalization layerもunfreezeする。最終的に、継続事前学習したモデルにヘッドをconcatしてfinetuningすることで目的のタスクを実行できるようにする。詳細はAlgorithm1を参照のこと。

同じモデルで単にLoRAを適用しただけの手法や、既存手法をoutperform

画像+ViT系のモデルだけで実験されているように見えるが、LLMとかにも応用可能だと思われる。

[Paper Note] Nonlinear transformers can perform inference-time feature learning, Nishikawa+, ICML'25

Paper/Blog Link My Issue
#Analysis #MachineLearning #NLP #In-ContextLearning #ICML Issue Date: 2025-07-13 GPT Summary- 事前学習されたトランスフォーマーは、推論時に特徴を学習する能力を持ち、特に単一インデックスモデルにおける文脈内学習に焦点を当てています。勾配ベースの最適化により、異なるプロンプトからターゲット特徴を抽出し、非適応的アルゴリズムを上回る統計的効率を示します。また、推論時のサンプル複雑性が相関統計クエリの下限を超えることも確認されました。 Comment

元ポスト:

Loading…

[Paper Note] Energy-Based Transformers are Scalable Learners and Thinkers, Alexi Gladstone+, arXiv'25

Paper/Blog Link My Issue
#ComputerVision #MachineLearning #NLP #LanguageModel #MultiModal #Architecture #VideoGeneration/Understandings #VisionLanguageModel Issue Date: 2025-07-06 GPT Summary- エネルギーベースのトランスフォーマー（EBTs）を用いて、無監督学習から思考を学ぶモデルを提案。EBTsは、入力と候補予測の互換性を検証し、エネルギー最小化を通じて予測を行う。トレーニング中に従来のアプローチよりも高いスケーリング率を達成し、言語タスクでの性能を29%向上させ、画像のノイズ除去でも優れた結果を示す。EBTsは一般化能力が高く、モデルの学習能力と思考能力を向上させる新しいパラダイムである。 Comment

元ポスト:

Loading…

Project Page: https://energy-based-transformers.github.io

First Authorの方による解説ポスト:

Loading…

[Paper Note] Listwise Preference Alignment Optimization for Tail Item Recommendation, Zihao Li+, arXiv'25, 2025.07

Paper/Blog Link My Issue
#RecommenderSystems #ListWise #Alignment #SequentialRecommendation #Initial Impression Notes Issue Date: 2025-07-04 GPT Summary- LPO4Recは、テールアイテム推薦におけるPreference alignmentの課題を解決するために提案された手法で、Bradley-Terryモデルをペアワイズからリストワイズ比較に拡張し、効率的なトレーニングを実現。明示的な報酬モデリングなしで、テールアイテムを優先する負のサンプリング戦略を導入し、パフォーマンスを最大50%向上させ、GPUメモリ使用量を17.9%削減。実験結果は3つの公開データセットで示されている。 Comment

元ポスト:

Loading…

tail itemに強い手法らしい。LLMを用いたGenerative Recommendationではなく、1 BlockのTransformerにlistwiseなpreferenceを反映したlossを適用したものっぽい。

一貫して性能は高そうに見えるが、再現性はどうだろうか。

pointwise, pairwise, listwiseの基礎はこちらを参照:
- ランキング学習ことはじめ, DSIRNLP#1, 2011.07

[Paper Note] The Curse of Depth in Large Language Models, Wenfang Sun+, arXiv'25

Paper/Blog Link My Issue
#NLP #LanguageModel #Architecture #Normalization #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-07-03 GPT Summary- 本論文では、「深さの呪い」という現象を紹介し、LLMの深い層が期待通りに機能しない理由を分析します。Pre-LNの使用が出力の分散を増加させ、深い層の貢献を低下させることを特定。これを解決するために層正規化スケーリング（LNS）を提案し、出力分散の爆発を抑制します。実験により、LNSがLLMの事前トレーニング性能を向上させることを示し、教師ありファインチューニングにも効果があることを確認しました。 Comment

元ポスト:

Loading…

- [Paper Note] Transformers without Normalization, Jiachen Zhu+, CVPR'25

ではそもそもLayerNormalizationを無くしていた（正確にいうとparametrize tanhに置換)が、どちらが優れているのだろうか？

- Knowledge Neurons in Pretrained Transformers, Damai Dai+, N/A, ACL'22, 2022.05

では知識ニューロンの存在が示唆されており、これはTransformerの層の深い位置に存在し、かつ異なる知識間で知識ニューロンはシェアされない傾向にあった（ただしこれはPost-LNのBERTの話で本研究はPre-LNの話だが。Post-LNの勾配消失問題を緩和し学習を安定化させる研究も[Paper Note] On Layer Normalizations and Residual Connections in Transformers, Sho Takase+, arXiv'22 のように存在する)。これはこの研究が明らかにしたこととどういう関係性があるだろうか。

また、LayerNormalizationのScalingによって深いTransformerブロックの導関数が単位行列となる（学習に寄与しなくなる）ことが改善された場合、知識ニューロンはどのように変化するだろうか？

（下記Geminiの応答を見た上での感想)なんとなーくだけれども、おそらく知識ニューロンの局所化が解消されるのかなーという気がする。

となると次の疑問としては、MoEアーキテクチャにはどのような影響があるだろうか？
そもそも知識ニューロンが局所化しているからMoEアーキテクチャのルータによって関連するExpertsのみをactivateすれば（というより結果的にそうなるように学習される）性能を劣化させずに計算効率を上げられていた、と仮定する。そうすると、知識ニューロンが局所化せずに多くのニューロンでシェアされるようになると、[Paper Note] Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models, Zihan Wang+, arXiv'25 のように、サブネットワーク間の情報を互いにやりとりできます、みたいな仕組みがより効いてきそうな気がする。

参考までに、Gemini2.5-Proに考察させてみた結果をメモとして残しておく（あくまで参考程度に...）
```
ご質問ありがとうございます。非常に興味深い着眼点ですね。「Knowledge Neurons in Pretrained Transformers」と「The Curse of Depth in Large Language Models」は、一見すると全く異なるテーマを扱っているように見えますが、**「Transformerの深い層における振る舞い」**という共通点で結びつけて考察すると、非常に示唆に富んだ関係性が見えてきます。

以下に、両方の論文の概要を解説し、その関係性について考察します。

1. Knowledge Neurons in Pretrained Transformers の概要
この研究は、事前学習済みTransformerモデル（特にBERTなど）の内部で、特定の事実知識がどのように格納されているかを調査したものです。

発見: モデルの中間層、特に**全結合層（Feed-Forward Network, FFN）に、特定の知識（例：「ダンテ・アリギエーリはイタリアで生まれた」）に強く反応する「知識ニューロン」**が存在することを発見しました。

特徴: これらの知識ニューロンは、モデルの深い層（後方の層）に、より多く存在する傾向がありました。

意味: これまでブラックボックスとされてきた大規模言語モデルの内部で、知識がどのように表現・局在化しているかについて、具体的な手がかりを与えた画期的な研究です。

2. The Curse of Depth in Large Language Models の概要
この研究は、LLMをより深く（層を多く）することの難しさに焦点を当て、その原因と解決策を提案したものです。

問題（深さの呪い）: Transformerの標準的なアーキテクチャ（Pre-LN）では、層が深くなるにつれて、LayerNormalization（LN）への入力の分散が指数関数的に増大してしまいます。

結果:

出力が大きくなりすぎて学習が不安定になります。

さらに深刻なのは、深い層ではモデルの出力に関する導関数（勾配計算に必要）がほぼ単位行列になってしまうことです。これは、その層が入力に対してほとんど変換を行わなくなり、学習に寄与しなくなることを意味します。

解決策: この問題を解決するため、各層のLayerNormalizationをその深さ（レイヤー番号 l）に応じてスケーリングするというシンプルな手法を提案しました。これにより、深い層でも勾配が適切に伝播し、学習が安定・改善することが示されました。

考察：2つの研究の関係性
これら2つの研究は、**「学習の安定性」と「知識の格納方法」**という異なる側面から、Transformerの深い層を分析していますが、両者には以下のような深い関係性があると考えられます。

学習の不安定性が「知識ニューロン」形成の背景にある可能性
「The Curse of Depth」で指摘されているように、標準的なTransformerの深い層は、本質的に学習が不安定で、勾配情報が失われやすい環境にあります。

この劣悪な学習環境こそが、「知識ニューロン」という形で知識が局所的に格納される原因の一つになっている可能性があります。つまり、

学習の非効率性: 深い層のほとんどのニューロンは、勾配消失問題のために効率的に学習を進めることができません。

専門化の発生: そのような不安定な環境下で、たまたま特定の知識パターンをうまく捉えることができた一部のニューロンが、その知識を一身に背負う形で強く活性化するよう特化（専門化）していったのではないか、と考えられます。これは、ネットワーク全体で協調して学習するのが難しい状況で、一部のユニットだけが突出して学習を担う、という現象と解釈できます。

学習の安定化が、より効率的な知識獲得につながる
では、「The Curse of Depth」で提案された手法（LNのスケーリング）によって深い層の学習が安定化すると、知識の格納方法はどのように変わるでしょうか。

これは非常に興味深い問いであり、2つの可能性が考えられます。

可能性A: より強固な知識ニューロンの形成:
学習が安定することで、各知識ニューロンはより明確に、そして効率的に特定の知識をエンコードできるようになるかもしれません。ノイズの多い環境で偶然生まれた専門家ではなく、安定した環境で育成された真の専門家へと変化するイメージです。

可能性B: 知識の分散化:
ネットワークの全ニューロンが効率的に学習に寄与できるようになるため、一つの知識を少数のニューロンに集中させる必要がなくなり、より多くのニューロンに分散して知識が格納されるようになる可能性も考えられます。

現在のところ、学習の安定化は、知識ニューロンがより効率的に形成・機能するための基盤を提供すると考えるのが最も妥当でしょう。「深さの呪い」という問題を解決することは、モデルが知識をどのように獲得し、整理するかという、より根源的なメカニズム（知識ニューロンの振る舞い）にも直接的な影響を与えるはずです。

まとめ
「Knowledge Neurons」は深い層に存在する知識の**「状態」を明らかにし、「The Curse of Depth」は深い層で発生する学習の「問題」**とその解決策を提示しました。

これらを統合すると、**「深い層における学習の不安定性という問題が、知識ニューロンという局所的な知識表現を生み出す一因となっており、この問題を解決することで、より効率的で安定した知識の獲得・格納が可能になるかもしれない」**という関係性が見えてきます。

両者は、LLMの能力と限界を異なる角度から照らし出しており、組み合わせることでモデルの内部動作の解明をさらに一歩前進させる、非常に重要な研究だと言えます。
```

[Paper Note] AudioBERTScore: Objective Evaluation of Environmental Sound Synthesis Based on Similarity of Audio embedding Sequences, Minoru Kishi+, arXiv'25

Paper/Blog Link My Issue
#Metrics #Evaluation #SpeechProcessing #Initial Impression Notes Issue Date: 2025-07-02 GPT Summary- 新しい客観的評価指標AudioBERTScoreを提案し、合成音声の性能向上を目指す。従来の客観的指標は主観的評価との相関が弱いため、AudioBERTScoreは合成音声と参照音声の埋め込みの類似性を計算し、主観的評価との相関が高いことを実験で示した。 Comment

元ポスト:

Loading…

text-to-audioの自動評価が可能な模様

[Paper Note] Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers, Weiming Ren+, arXiv'25

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #LongSequence #SSM (StateSpaceModel) #VideoGeneration/Understandings #ICCV Issue Date: 2025-06-26 GPT Summary- VAMBAモデルは、Mamba-2ブロックを用いてビデオトークンを線形にエンコードし、トークン削減なしで1024フレームを処理可能。これにより、GPUメモリ使用量を50%削減し、トレーニング速度を倍増。1時間のビデオ理解ベンチマークLVBenchで4.3%の精度向上を達成し、様々なビデオ理解タスクで優れた性能を示す。 Comment

元ポスト:

Loading…

[Paper Note] VGGT: Visual Geometry Grounded Transformer, Jianyuan Wang+, CVPR'25

Paper/Blog Link My Issue
#ComputerVision #CVPR #read-later #Selected Papers/Blogs #3D Reconstruction #Backbone Issue Date: 2025-06-22 GPT Summary- VGGTは、シーンの主要な3D属性を複数のビューから直接推測するフィードフォワードニューラルネットワークであり、3Dコンピュータビジョンの分野において新たな進展を示します。このアプローチは効率的で、1秒未満で画像を再構築し、複数の3Dタスクで最先端の結果を達成します。また、VGGTを特徴バックボーンとして使用することで、下流タスクの性能が大幅に向上することが示されています。コードは公開されています。 Comment

元ポスト:

Loading…

様々な研究のBackboneとして活用されている。

[Paper Note] Seedance 1.0: Exploring the Boundaries of Video Generation Models, Yu Gao+, arXiv'25

Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #VideoGeneration/Understandings Issue Date: 2025-06-13 GPT Summary- Seedance 1.0は、動画生成の基盤モデルであり、プロンプト遵守、動きの妥当性、視覚的品質を同時に向上させることを目指しています。主な技術改善として、意味のある動画キャプションを用いたデータキュレーション、マルチショット生成のサポート、動画特有のRLHFを活用したファインチューニング、推論速度の約10倍向上を実現する蒸留戦略が挙げられます。Seedance 1.0は、1080p解像度の5秒間の動画を41.4秒で生成し、高品質かつ迅速な動画生成を実現しています。 Comment

元ポスト:

Loading…

[Paper Note] Value Residual Learning, Zhanchao Zhou+, ACL'25

Paper/Blog Link My Issue
#NLP #LanguageModel #Architecture #ACL #read-later #Selected Papers/Blogs Issue Date: 2025-06-12 GPT Summary- ResFormerは、隠れ状態の残差に値の残差接続を加えることで情報の流れを強化する新しいTransformerアーキテクチャを提案。実験により、ResFormerは従来のTransformerに比べて少ないパラメータとトレーニングデータで同等の性能を示し、SVFormerはKVキャッシュサイズを半減させることができる。性能はシーケンスの長さや学習率に依存する。 Comment

元ポスト:

Loading…

なぜValue Residual Learningがうまくいくかの直感的説明:

Loading…

ざっくり言うと、LayerNormよって初期layerの影響は深くなればなるほど小さくなり、情報が損なわれていってしまうため、ValueをQKに応じて情報を運んでくる要素と捉えると、検索やコピーなどの明確なinputに関する情報が欲しい場合に、すべてのlayerから初期のValueにアクセスできるvalue residual connectionが有用となる、といった話と理解した。Valueにのみフォーカスしているが、QKの場合はどうなのかといった要素はまだ未開拓な分野とのこと。

Wide&Deepみたいな話になってきた:
- [Paper Note] Wide & Deep Learning for Recommender Systems, Heng-Tze Cheng+, DLRS'16, 2016.06

Value Residual Learningを用いたアーキテクチャが現在nanoGPT Speedrunでトップになった。

Loading…

- Modded-NanoGPT, KellerJordan, 2024.05

現在のlayerのValueと初期レイヤーのValueを線形補完する重みをtrainableにするとさらに性能が改善することも言及されている。

[Paper Note] Log-Linear Attention, Han Guo+, arXiv'25

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Attention #Architecture Issue Date: 2025-06-10 GPT Summary- 対数線形注意を提案し、線形注意の効率性とソフトマックス注意の表現力を両立。固定サイズの隠れ状態を対数的に成長する隠れ状態に置き換え、計算コストを対数線形に抑える。Mamba-2とGated DeltaNetの対数線形バリアントが線形時間のバリアントと比較して優れた性能を示すことを確認。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…

[Paper Note] Learning Compositional Functions with Transformers from Easy-to-Hard Data, Zixuan Wang+, COLT'25

Paper/Blog Link My Issue
#Analysis #Pretraining #LanguageModel #PostTraining #COLT Issue Date: 2025-06-01 GPT Summary- 本研究では、Transformerベースの言語モデルの学習可能性を探求し、$k$-fold compositionタスクに焦点を当てる。$O(\log k)$層のトランスフォーマーでこのタスクを表現できる一方、SQオラクルに対するクエリの下限を示し、サンプルサイズが指数的である必要があることを証明。さらに、カリキュラム学習戦略を用いて、簡単な例と難しい例を含むデータ分布がトランスフォーマーの効率的な学習に必要であることを明らかにした。 Comment

元ポスト:

Loading…

こちらはまず元ポストのスレッドを読むのが良いと思われる。要点をわかりやすく説明してくださっている。

元ポストとalphaxivでざっくり理解したところ、

Transformerがcontextとして与えられた情報(σ)とparametric knowledge(π)をk回の知識マッピングが必要なタスク(k-fold composition task)を学習するにはO(log k)のlayer数が必要で、直接的にk回の知識マッピングが必要なタスクを学習するためにはkの指数オーダーのデータ量が最低限必要となることが示された。これはkが大きくなると（すなわち、複雑なreasoning stepが必要なタスク）になると非現実的なものとなるため、何らかの方法で緩和したい。学習データを簡単なものから難しいものをmixingすること（カリキュラム学習）ことで、この条件が緩和され、指数オーダーから多項式オーダーのデータ量で学習できることが示された

といった感じだと思われる。

じゃあ最新の32Bモデルよりも、よりパラメータ数が大きくてlayer数が多い古いモデルの方が複雑なreasoningが必要なタスクを実は解けるってこと！？直感に反する！と一瞬思ったが、おそらく最近のモデルでは昔のモデルと比べてparametric knowledgeがより高密度に適切に圧縮されるようになっていると思われるので、昔のモデルではk回の知識マッピングをしないと解けないタスクが、最新のモデルではk-n回のマッピングで解けるようになっていると推察され、パラメータサイズが小さくても問題なく解けます、みたいなことが起こっているのだろう、という感想を抱くなどした

Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures, Chenggang Zhao+, arXiv'25

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Attention #LLMServing #Architecture #MoE(Mixture-of-Experts) #SoftwareEngineering Issue Date: 2025-05-20 GPT Summary- DeepSeek-V3は、2,048台のNVIDIA H800 GPUでトレーニングされ、ハードウェア制約に対処するための共同設計を示す。メモリ効率向上のためのマルチヘッド潜在注意や、計算と通信の最適化を図る専門家の混合アーキテクチャ、FP8混合精度トレーニングなどの革新を強調。ハードウェアのボトルネックに基づく将来の方向性について議論し、AIワークロードに応えるためのハードウェアとモデルの共同設計の重要性を示す。 Comment

元ポスト:

Loading…

RNNs are not Transformers （Yet）: The Key Bottleneck on In-context Retrieval, Kaiyue Wen+, ICLR'25

Paper/Blog Link My Issue
#NLP #Chain-of-Thought #In-ContextLearning #SSM (StateSpaceModel) #ICLR Issue Date: 2025-04-26 GPT Summary- 本論文では、RNNとトランスフォーマーの表現力の違いを調査し、特にRNNがChain-of-Thought（CoT）プロンプトを用いてトランスフォーマーに匹敵するかを分析。結果、CoTはRNNを改善するが、トランスフォーマーとのギャップを埋めるには不十分であることが判明。RNNの情報取得能力の限界がボトルネックであるが、Retrieval-Augmented Generation（RAG）やトランスフォーマー層の追加により、RNNはCoTを用いて多項式時間で解決可能な問題を解決できることが示された。 Comment

元ポスト:

Loading…

関連:
- Transformers are Multi-State RNNs, Matanel Oren+, N/A, EMNLP'24

↑とはどういう関係があるだろうか？

AM-RADIO: Agglomerative Vision Foundation Model -- Reduce All Domains Into One, Mike Ranzinger+, CVPR'25

Paper/Blog Link My Issue
#ComputerVision #FoundationModel #OpenWeight #CVPR Issue Date: 2025-04-11 GPT Summary- 視覚基盤モデル（VFM）をマルチティーチャー蒸留を通じて統合するアプローチAM-RADIOを提案。これにより、ゼロショットの視覚-言語理解やピクセルレベルの理解を向上させ、個々のモデルの性能を超える。新しいアーキテクチャE-RADIOは、ティーチャーモデルよりも少なくとも7倍速い。包括的なベンチマークで様々な下流タスクを評価。 Comment

元ポスト:

Loading…

vision系のfoundation modelはそれぞれ異なる目的関数で訓練されてきており（CLIPは対照学習 Learning Transferable Visual Models From Natural Language Supervision, Radford+, OpenAI, ICML'21 , DINOv2は自己教師あり学習 DINOv2: Learning Robust Visual Features without Supervision, Maxime Oquab+, TMLR'24 , SAMはsegmentation Segment Anything, Alexander Kirillov+, arXiv'23 )それぞれ別の能力を持ってたが、それらを一個のモデルに蒸留しました、という話らしい

[Paper Note] Scalable-Softmax Is Superior for Attention, Ken M. Nakanishi, arXiv'25

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LongSequence #Architecture Issue Date: 2025-04-06 GPT Summary- SSMaxを提案し、Softmaxの代替としてTransformerモデルに統合。これにより、長いコンテキストでの重要情報の取得が向上し、事前学習中の損失減少が速くなる。SSMaxは注意スコアを改善し、長さの一般化を促進する。 Comment

- Llama 4 Series, Meta, 2025.04

で採用されている手法で、ブログポスト中で引用されている。Long Contextになった場合にsoftmaxの分布が均一になる（＝重要な情報にattendする能力が削がれる）ことを防ぐための手法を提案している。

解説ポスト:

Loading…

[Paper Note] Multi-Token Attention, Olga Golovneva+, arXiv'25

Paper/Blog Link My Issue
#NLP #LanguageModel #Attention #Architecture Issue Date: 2025-04-02 GPT Summary- マルチトークンアテンション（MTA）を提案し、複数のクエリとキーのベクトルに基づいてアテンションウェイトを条件付けることで、関連するコンテキストをより正確に特定できるようにする。MTAは畳み込み操作を用いて、近くのトークンが互いに影響を与え、豊かな情報を活用する。評価結果から、MTAはTransformerベースラインモデルを上回り、特に長いコンテキストでの情報検索において優れた性能を示した。 Comment

元ポスト:

Loading…

従来のMulti Head Attentionでは、単体のQKのみを利用していたけど、複数のQKの情報を畳み込んで活用できるようにして、Headも畳み込みで重要な情報がより伝搬されるようにして、GroupNormalizationをかけたらPerplexityの観点でDifferential Transformerを上回ったよ、という話な模様。

- [Paper Note] Group Normalization, Yuxin Wu+, arXiv'18, 2018.03
- [Paper Note] Differential Transformer, Tianzhu Ye+, N/A, ICLR'25

NeoBERT: A Next-Generation BERT, Lola Le Breton+, arXiv'25

Paper/Blog Link My Issue
#NLP Issue Date: 2025-03-15 GPT Summary- NeoBERTは、最新のアーキテクチャとデータを統合した次世代エンコーダで、双方向モデルの能力を再定義します。4,096トークンのコンテキスト長を活用し、250Mパラメータでありながら、MTEBベンチマークで最先端の結果を達成し、BERTやRoBERTaを上回ります。すべてのコードやデータを公開し、研究と実世界での採用を促進します。 Comment

関連:
- ModernBERT, AnswerDotAI, 2024.12

## BERT, ModernBERTとの違い

![Image](https://github.com/user-attachments/assets/58dbdcf6-e7dc-43c2-94ed-d8bb73cd2617)

## 性能

![Image](https://github.com/user-attachments/assets/72730c9c-38d0-4773-8ddb-f0349b8776d2)

## 所感
medium size未満のモデルの中ではSoTAではあるが、ModernBERTが利用できるのであれば、ベンチマークを見る限りは実用的にはModernBERTで良いのでは、と感じた。学習とinferenceの速度差はどの程度あるのだろうか？

[Paper Note] Transformers without Normalization, Jiachen Zhu+, CVPR'25

Paper/Blog Link My Issue
#EfficiencyImprovement #MachineLearning #NLP #Architecture #CVPR #Normalization Issue Date: 2025-03-14 GPT Summary- 本研究では、正規化層なしのトランスフォーマーがDynamic Tanh（DyT）を用いることで、同等またはそれ以上のパフォーマンスを達成できることを示します。DyTは、レイヤー正規化の代替として機能し、ハイパーパラメータの調整なしで効果を発揮します。多様な設定での実験により、正規化層の必要性に対する新たな洞察を提供します。 Comment

なん…だと…。LayerNormalizationを下記アルゴリズムのようなtanhを用いた超絶シンプルなレイヤー（parameterized thnh [Lecun氏ポスト](

Loading…

同等以上の性能を維持しながらモデル全体のinference, trainingの時間を8%程度削減。

[Paper Note] Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models, Weixin Liang+, TMLR'25

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #NLP #LanguageModel #MultiModal #SpeechProcessing #Architecture #TMLR #UMM Issue Date: 2024-11-12 GPT Summary- 大規模言語モデル（LLMs）のマルチモーダル処理を効率化するために、Mixture-of-Transformers（MoT）を提案。MoTは計算コストを削減し、モダリティごとにパラメータを分離して特化した処理を実現。Chameleon 7B設定では、55.8%のFLOPsで密なベースラインに匹敵する性能を示し、音声を含む場合も37.2%のFLOPsで同様の結果を達成。さらに、Transfusion設定では、7BのMoTモデルが密なベースラインの画像性能に対してFLOPsの3分の1で匹敵し、760Mのモデルは主要な画像生成指標で上回る結果を得た。MoTは実用的な利点も示し、画像品質を47.2%、テキスト品質を75.6%の経過時間で達成。

[Paper Note] Differential Transformer, Tianzhu Ye+, N_A, ICLR'25

Paper/Blog Link My Issue
#NLP #LanguageModel #Architecture #ICLR #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2024-10-21 GPT Summary- Diff Transformerは、関連するコンテキストへの注意を強化し、ノイズをキャンセルする新しいアーキテクチャです。差分注意メカニズムを用いて、注意スコアを計算し、スパースな注意パターンを促進します。実験結果は、Diff Transformerが従来のTransformerを上回り、長いコンテキストモデリングや幻覚の軽減において顕著な利点を示しています。また、文脈内学習においても精度を向上させ、堅牢性を高めることが確認されました。これにより、Diff Transformerは大規模言語モデルの進展に寄与する有望なアーキテクチャとされています。 Comment

# 概要
attention scoreのノイズを低減するようなアーキテクチャとして、二つのQKVを用意し、両者の差分を取ることで最終的なattentiok scoreを計算するDifferential Attentionを提案した。

attentionのnoiseの例。answerと比較してirrelevantなcontextにattention scoreが高いスコアが割り当てられてしまう（図左）。differential transformerが提案するdifferential attentionでは、ノイズを提言し、重要なcontextのattention scoreが高くなるようになる（図中央）、らしい。

# Differential Attentionの概要

二つのQKをどの程度の強さで交互作用させるかをλで制御し、λもそれぞれのQKから導出する。数式は2.1節に記述されているのでそちらも参照のこと。

QA, 機械翻訳, 文書分類, テキスト生成などの様々なNLPタスクが含まれるEval Harnessベンチマークでは、同規模のtransformerモデルを大幅にoutperform。ただし、3Bでしか実験していないようなので、より大きなモデルサイズになったときにgainがあるかは示されていない点には注意。

モデルサイズ（パラメータ数）と、学習トークン数のスケーラビリティについても調査した結果、LLaMAと比較して、より少ないパラメータ数/学習トークン数で同等のlossを達成。

64Kにcontext sgzeを拡張し、1.5B tokenで3Bモデルを追加学習をしたところ、これもtransformerと比べてより小さいlossを達成

context中に埋め込まれた重要な情報（今回はクエリに対応するmagic number）を抽出するタスク（Needle-In-A-Haystack test）の性能も向上。Needle（N）と呼ばれる正解のmagic numberが含まれる文をcontext中の様々な深さに配置し、同時にdistractorとなる文もランダムに配置する。これに対してクエリ（R）が入力されたときに、どれだけ正しい情報をcontextから抽出できるか、という話だと思われる。

これも性能が向上。特にクエリとNeedleが複数の要素で構成されていれ場合の性能が高く（Table2）、長いコンテキスト中の様々な位置に埋め込まれたNeedleを抽出する性能も高い（Figure5）

Many shotのICL能力も、異なる数のクラス分類を実施する4つのDatasetにおいて向上。クラス数が増えるに従ってAcc.のgainは小さくなっているように見える（{6, 50} class > 70 class > 150 class）が、それでもAcc.が大きく向上している。

要約タスクでのhallucinationも低減。生成された要約と正解要約を入力し、GPT-4oにhallucinationの有無を判定させて評価（このようなLLM-as-a-Judgeの枠組みは先行研究 (MT-Bench) で人手での評価と高いagreementがあることが示されている）

関連 (MT-Bench):
- [Paper Note] Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena, Lianmin Zheng+, NeurIPS'23, 2023.06

シンプルなアプローチでLLM全体の性能を底上げしている素晴らしい成果に見える。斜め読みなので読み飛ばしているかもしれないが、
- Textbooks Are All You Need, Suriya Gunasekar+, N/A, arXiv'23

のように高品質な学習データで学習した場合も同様の効果が発現するのだろうか？
attentionのスコアがnoisyということは、学習データを洗練させることでも改善される可能性があり、Textbooks Are All You Need, Suriya Gunasekar+, N/A, arXiv'23 はこれをデータで改善し、こちらの研究はモデルのアーキテクチャで改善した、みたいな捉え方もできるのかもしれない。

ちなみにFlash Attentionとしての実装方法も提案されており、スループットは通常のattentionと比べてむしろ向上している (Appendix A参照のこと) ので実用的な手法でもある。すごい。

あとこれ、事前学習とInstruction Tuningを通常のマルチヘッドアテンションで学習されたモデルに対して、独自データでSFTするときに導入したらdownstream taskの性能向上するんだろうか。もしそうなら素晴らしい

OpenReview: https://openreview.net/forum?id=OvoCm1gGhN

GroupNormalizationについてはこちら:
- [Paper Note] Group Normalization, Yuxin Wu+, arXiv'18, 2018.03

[Paper Note] Gated Linear Attention Transformers with Hardware-Efficient Training, Songlin Yang+, ICML'24, 2023.12

Paper/Blog Link My Issue
#NLP #LanguageModel #Architecture #ICML #Selected Papers/Blogs #LinearAttention Issue Date: 2026-02-04 GPT Summary- 線形アテンションを持つトランスフォーマーは、効率的な並列トレーニングを実現する一方、通常のソフトマックスアテンションに比べて性能が劣る。提案するFLASHLINEARATTENTIONは、メモリ移動と並列化のトレードオフを考慮し、短いシーケンスで高速な実装を実現。また、データ依存ゲートを追加したゲート付き線形アテンション（GLA）トランスフォーマーは、LLaMAやRetNet、Mambaと比較して競争力のある性能を示し、長さの一般化でも有効。GLAトランスフォーマーは、同サイズのMambaモデルよりも高いトレーニングスループットを持つ。

[Paper Note] Scaling Exponents Across Parameterizations and Optimizers, Katie Everett+, ICML'24

Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #Optimizer #ICML #read-later #ZeroshotHyperparameterTransfer #LearningRate Issue Date: 2025-08-31 GPT Summary- モデルのスケーリングには、パラメータ化やオプティマイザの選択が重要である。本研究では、パラメータとデータの整合性に関する新しい視点を提案し、広範なオプティマイザと学習率の組み合わせで数万のモデルを訓練した結果、最適な学習率スケーリングが重要であることを発見。新しい層ごとの学習率の処方は従来の方法を上回る性能を示し、Adamのイプシロンパラメータの適切なスケーリングが必要であることを明らかにし、数値的に安定した新しいAdamバージョンであるAdam-atan2を提案した。

[Paper Note] Looped Transformers are Better at Learning Learning Algorithms, Liu Yang+, ICLR'24

Paper/Blog Link My Issue
#MachineLearning #Architecture #RecurrentModels Issue Date: 2025-08-30 GPT Summary- ループ型transformerアーキテクチャを提案し、従来のtransformerに反復的特性を組み込むことで、データフィッティング問題を解決。実験により、標準のtransformerと同等の性能を保ちながら、パラメータ数を10%未満に抑えることができることが示された。 Comment

openreview: https://openreview.net/forum?id=HHbRxoDTxE

[Paper Note] Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models, Zhijian Zhuo+, arXiv'24

Paper/Blog Link My Issue
#NeuralNetwork #NLP #ActivationFunction Issue Date: 2025-08-25 GPT Summary- 新しい多項式合成活性化関数（PolyCom）を提案し、トランスフォーマーのダイナミクスを最適化。PolyComは他の活性化関数よりも高い表現力を持ち、最適近似率を達成。大規模言語モデルにおいて、従来の活性化関数をPolyComに置き換えることで、精度と収束率が向上することを実証。実験結果は他の活性化関数に対して大幅な改善を示す。コードは公開中。 Comment

DINOv2: Learning Robust Visual Features without Supervision, Maxime Oquab+, TMLR'24

Paper/Blog Link My Issue
#ComputerVision #FoundationModel #Self-SupervisedLearning #TMLR Issue Date: 2025-04-11 GPT Summary- 自己教師あり手法を用いて、多様なキュレーションデータから汎用的な視覚特徴を生成する新しい事前学習手法を提案。1BパラメータのViTモデルを訓練し、小型モデルに蒸留することで、OpenCLIPを上回る性能を達成。

Flex Attention: A Programming Model for Generating Optimized Attention Kernels, Juechu Dong+, arXiv'24

Paper/Blog Link My Issue
#NLP #Attention Issue Date: 2025-04-06 GPT Summary- FlexAttentionは、アテンションの新しいコンパイラ駆動型プログラミングモデルで、数行のPyTorchコードで多くのアテンションバリアントを実装可能にします。これにより、既存のアテンションバリアントを効率的に実装し、競争力のあるパフォーマンスを達成。FlexAttentionは、アテンションバリアントの組み合わせを容易にし、組み合わせ爆発の問題を解決します。 Comment

- Llama 4 Series, Meta, 2025.04

で利用されているAttention

pytochによる解説: https://pytorch.org/blog/flexattention/

- Flex AttentionはオリジナルのAttentionのQK/sqrt(d_k)の計算後にユーザが定義した関数score_modを適用する
- score_modを定義することで、attention scoreをsoftmaxをかけるまえに関数によって調整できる
- 多くのattentionの亜種はほとんどの場合この抽象化で対応できる
- score_modはQK tokenの内積に対応するので、QKの情報を受け取り、スカラー値を返せばなんでも良い
- score_modの実装例は元リンク参照
- FA2と比較して（現在のpytorchでの実装上は）Forward Passは90%, Backward Passは85%のスループットで、少し遅いが今後改善予定

元論文より引用。非常にシンプルで、数式上は下記のように表される:

[Paper Note] Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction, Keyu Tian+, NeurIPS'24

Paper/Blog Link My Issue
#ComputerVision #Pretraining #NeurIPS #KeyPoint Notes Issue Date: 2024-12-12 GPT Summary- Visual AutoRegressive modeling (VAR)を提案し、画像生成において自己回帰学習を次のスケール予測として再定義。VARは、GPTのようなARモデルが拡散トランスフォーマーを上回ることを実現し、ImageNet 256x256ベンチマークでFIDを18.65から1.73、ISを80.4から350.2に改善。推論速度は約20倍向上し、画像品質やデータ効率でも優れた性能を示す。VARはゼロショット一般化能力を持ち、スケーリング法則を示す。全モデルとコードを公開し、視覚生成の研究を促進。 Comment

NeurIPS2024のベストペーパー

OpenReview: https://openreview.net/forum?id=gojL67CfS8

Next Token Prediction, Next Image Token Generation (従来手法）, Next Scale (resolution) prediction (提案手法)の違いの図解。非常に分かりやすい。next token predictionでは次トークンのみを予測するがVARでは、次の解像度画像の全体のトークンマップを予測する。

学習方法の概要。2-Stageで学習される。最初のステージでK種類の解像度の画像（＝K種類のマルチスケールのtoken maps r_k）を得るためにAutoEncoderを学習し、次のステージでblock-wiseのcausal attention maskを用いて、K_各r_kをデコードする際にr_

従来手法と比べより小さいパラメータで高い性能を実現し、inference timeも非常に早い。

ScalingLawsも成立する。

Understanding LLMs: A Comprehensive Overview from Training to Inference, Yiheng Liu+, arXiv'24

Paper/Blog Link My Issue
#Survey #EfficiencyImprovement #NLP #LanguageModel #Attention Issue Date: 2024-11-17 GPT Summary- ChatGPTの普及に伴い、LLMsのコスト効率の良いトレーニングとデプロイメントへの関心が高まっている。本論文では、LLMsのトレーニング技術と推論デプロイメント技術の進化をレビューし、データ前処理やモデル圧縮などのさまざまな側面を議論する。また、LLMsの利用方法と将来の発展についての洞察も提供する。 Comment

[Perplexity（参考;Hallucinationに注意）]( https://www.perplexity.ai/search/yi-xia-nolun-wen-wodu-minei-ro-7vGwDK_AQX.HDO7j9H8iNA)

単なるLLMの理論的な説明にとどまらず、実用的に必要な各種並列処理技術、Mixed Precision、Offloadingなどのテクニックもまとまっているのがとても良いと思う。

LLM Frameworkのところに、メジャーなものが網羅されていないように感じる。たとえば、UnslothやLiger-KernelなどはTransformersの部分で言及されてても良いのでは、と感じる。

[Paper Note] What Matters in Transformers? Not All Attention is Needed, Shwai He+, arXiv'24, 2024.06

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Pruning #KeyPoint Notes Issue Date: 2024-10-22 GPT Summary- トランスフォーマー内の冗長性を調査し、アテンションレイヤーの大部分が高い類似性を示すことが判明。Llama-2-70Bはアテンションレイヤーを半分削除しても僅か2.4％の性能低下で48.4％のスピードアップを達成。トレーニング全体を通じて冗長性が一貫しており、アテンションとMLPレイヤーの共同削除によりさらなる効率化を模索。31レイヤー削除でもLlama-2-13Bは90％の性能を維持。研究はネットワークアーキテクチャ設計に新たな洞察を提供。 Comment

通常LLMはtransformer decoderのブロックをstackすることで形成されるが、積み上げたブロック、あるいはlayerってほんとに全部必要なの?という疑問に答えてくれる論文のようである。

transformer blockそのもの、あるいはMLP layerを削除するとpeformanceは大幅に低下するが、attention layerを削除してもperformanceの低下が起きなかった模様。これにより高速化が実現可能。

削除するブロックやlayerはinputとoutputのコサイン類似度が高いものを削除することによって実現。

比較的パラメータサイズが小さい7B, 13Bモデルでの実験結果

より大きなモデルでの実験結果

パフォーマンスが変わらない範囲だと、attention layer dropにより、7B, 13Bモデルの場合は23%程度、70Bの場合は35%のスループット向上

openreview (ICLR'25): https://openreview.net/forum?id=YLTWwEjkdx
openreview (TMLR): https://openreview.net/forum?id=xnYT0HjBsT

beeFormer: Bridging the Gap Between Semantic and Interaction Similarity in Recommender Systems, Vojtěch Vančura+, N_A, RecSys'24

Paper/Blog Link My Issue
#RecommenderSystems #TransferLearning Issue Date: 2024-09-25 GPT Summary- レコメンダーシステムにおいて、コールドスタートやゼロショットシナリオでの予測改善のために、インタラクションデータを活用した文のトランスフォーマーモデル「beeFormer」を提案。beeFormerは、意味的類似性の予測において従来の手法を上回り、異なるドメインのデータセット間で知識を転送可能であることを示した。これにより、ドメインに依存しないテキスト表現のマイニングが可能になる。 Comment

NLPでは言語という共通の体系があるから事前学習とかが成立するけど、RecSysのようなユーザとシステムのinteraction dataを用いたシステムでは（大抵の場合はデータセットごとにユニークなユーザIDとアイテムIDのログでデータが構成されるので）なかなかそういうことは難しいよね、と思っていた。が、もしRecSysのタスク設定で、データセット間の転移学習を実現できるのだとしたらどのように実現してきるのだろうか?興味深い。後で読む。

[Paper Note] FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision, Jay Shah+, NeurIPS'24

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Attention Issue Date: 2024-07-30 GPT Summary- FlashAttention-3は、Hopper GPU上でAttentionを高速化するために、3つの技術を開発し、H100 GPUで1.5-2.0倍の速度向上を実現。FP16で740 TFLOPs/s、FP8で約1.2 PFLOPs/sに達し、FP8では数値誤差が2.6倍低いことを確認。 Comment

openreview: https://openreview.net/forum?id=tVConYid20&referrer=%5Bthe%20profile%20of%20Tri%20Dao%5D(%2Fprofile%3Fid%3D~Tri_Dao1)

Mixture-of-Depths: Dynamically allocating compute in transformer-based language models, David Raposo+, N_A, arXiv'24

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel Issue Date: 2024-04-07 GPT Summary- Transformerベースの言語モデルは、入力シーケンス全体に均等にFLOPsを分散させる代わりに、特定の位置にFLOPsを動的に割り当てることを学習できることを示す。モデルの深さにわたって割り当てを最適化するために、異なるレイヤーで計算を動的に割り当てる。この手法は、トークンの数を制限することで合計計算予算を強制し、トークンはtop-kルーティングメカニズムを使用して決定される。この方法により、FLOPsを均等に消費しつつ、計算の支出が予測可能であり、動的かつコンテキストに敏感である。このようにトレーニングされたモデルは、計算を動的に割り当てることを学習し、効率的に行うことができる。 Comment

参考:

Loading…

Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference, Piotr Nawrot+, N_A, arXiv'24

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Attention Issue Date: 2024-04-07 GPT Summary- トランスフォーマーの生成効率を向上させるために、Dynamic Memory Compression（DMC）が提案された。DMCは、異なるヘッドとレイヤーで異なる圧縮率を適用する方法を学習し、事前学習済みLLMsに適用される。DMCは、元の下流パフォーマンスを最大4倍のキャッシュ圧縮で維持しつつ、スループットを向上させることができる。DMCは、GQAと組み合わせることでさらなる利益をもたらす可能性があり、長いコンテキストと大きなバッチを処理する際に有用である。 Comment

参考:

Loading…

論文中のFigure1が非常にわかりやすい。

GQA [Paper Note] GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, arXiv'23, 2023.05 と比較して、2~4倍キャッシュを圧縮しつつ、より高い性能を実現。70Bモデルの場合は、GQAで8倍キャッシュを圧縮した上で、DMCで追加で2倍圧縮をかけたところ、同等のパフォーマンスを実現している。

Transformers are Multi-State RNNs, Matanel Oren+, N_A, EMNLP'24

Paper/Blog Link My Issue
#MachineLearning #NLP #EMNLP Issue Date: 2024-01-16 GPT Summary- 本研究では、トランスフォーマーのデコーダーは無限マルチステートRNNとして概念化できることを示し、有限のマルチステートRNNに変換することも可能であることを示します。さらに、新しいキャッシュ圧縮ポリシーであるTOVAを導入し、他のポリシーよりも優れた性能を示すことを実験結果で示しました。TOVAは元のキャッシュサイズの1/8しか使用せず、トランスフォーマーデコーダーLLMが実際にはRNNとして振る舞うことが多いことを示しています。 Comment

TransformerはRNNとは異なる概念、特に全てのトークンの情報に直接アクセスできるということで区別されてきたが、よくよく考えてみると、Transformer Decoderは、RNNのhidden_states h を（hは1つのstateをベクトルで表している）、multi-stateを表す matrix H （t個のstateを表すmatrix; tは現在の着目しているトークンまでのsequenceの長さ）で置き換えたもの Multi-State-RNN (MSRNN) と解釈できる、という話。
また、window attentionなどのattentionの計算で考慮するKV cacheのスパンを（メモリを節約するために）制限する圧縮手法は、先ほどのMSRNNは全トークンのstate （KV Cache）にアクセスできる（= Unbounded）と考えると、アクセスできるトークンのstateが k (したがって、現在のLLMはTransformer Decoderを積み上げたものであるものであり、原理上はinference/training時に全てのトークンを考慮できるため、原理上はUnboundedなMSRNNとみなせる。一方、ここにメモリの制約が加わるとKV Cacheを圧縮しなければならないため、実用上はBoundedなMSRNNとなっている。

実際に式で表すと以下のようにRNNとTransformerは対応づけられる。

このことを考慮して、本研究ではTOVAと呼ばれる新しいKV Cacheの圧縮手法を提案している。非常にシンプルな手法で、KV Cacheがメモリの上限に到達したときに、その際にattention scoreが最も小さいトークンのKV Cacheを捨てる、という手法である。

TOVAをwindow attentionなどのベースラインとオラクルとしてfull attentionと比較。タスクは Language Modeling（PG-19データにおけるPerplexity）、Language Understanding （long contextからrelevantな情報を拾う必要があるQA）、Story Generation（長文のストーリーを書かせてGPT4によってpair-wiseで生成されたストーリーの品質をLLM-as-a-Judgeさせる）を利用。既存のKV Cache圧縮手法よりも効率的にKV Cacheを圧縮でき、4096 context windowの場合は、512程度でfull attentionと近い性能を示すことが示された。これにより、高いメモリ効率とスループットを実現できる。ここで、グラフのx軸のmultistateはTOVAにおいてはmatrix Hで保持するstate数に相当し、window attentionでは、window sizeに相当する。

[Paper Note] Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action, Jiasen Lu+, CVPR'24, 2023.12

Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #InstructionTuning #MultiModal #SpeechProcessing #CVPR #Selected Papers/Blogs #Encoder-Decoder #Robotics #UMM #EmbodiedAI #KeyPoint Notes #Surface-level Notes Issue Date: 2023-12-29 GPT Summary- 初の自己回帰型マルチモーダルモデル「Unified-IO 2」を提案し、画像、テキスト、音声、アクションを統一した意味空間で処理。トレーニングの安定化のためにアーキテクチャを改善し、120のデータセットで微調整を行い、GRITベンチマークで最先端のパフォーマンスを達成。35以上のベンチマークにおいて強力な結果を示し、すべてのモデルを公開。 Comment

画像、テキスト、音声、アクションを理解できる初めてのautoregressive model。AllenAI

モデルのアーキテクチャ図

マルチモーダルに拡張したことで、訓練が非常に不安定になったため、アーキテクチャ上でいくつかの工夫を加えている:

- 2D Rotary Embedding
- Positional EncodingとしてRoPEを採用
- 画像のような2次元データのモダリティの場合はRoPEを2次元に拡張する。具体的には、位置(i, j)のトークンについては、Q, Kのembeddingを半分に分割して、それぞれに対して独立にi, jのRoPE Embeddingを適用することでi, j双方の情報を組み込む。
- QK Normalization
- image, audioのモダリティを組み込むことでMHAのlogitsが非常に大きくなりatteetion weightが0/1の極端な値をとるようになり訓練の不安定さにつながった。このため、dot product attentionを適用する前にLayerNormを組み込んだ。
- Scaled Cosine Attention
- Image Historyモダリティにおいて固定長のEmbeddingを得るためにPerceiver Resamplerを扱ったているが、こちらも上記と同様にAttentionのlogitsが極端に大きくなったため、cosine類似度をベースとしたScaled Cosine Attention [Paper Note] Swin Transformer V2: Scaling Up Capacity and Resolution, Ze Liu+, arXiv'21 を利用することで、大幅に訓練の安定性が改善された。
- その他
- attention logitsにはfp32を適用
- 事前学習されたViTとASTを同時に更新すると不安定につながったため、事前学習の段階ではfreezeし、instruction tuningの最後にfinetuningを実施

目的関数としては、Mixture of Denoisers (UL2: Unifying Language Learning Paradigms, Yi Tay+, N/A, ICLR'23 )に着想を得て、Multimodal Mixture of Denoisersを提案。MoDでは、
- \[R\]: 通常のspan corruption (1--5 token程度のspanをmaskする)
- \[S\]: causal language modeling (inputを2つのサブシーケンスに分割し、前方から後方を予測する。前方部分はBi-directionalでも可)
- \[X\]: extreme span corruption (12>=token程度のspanをmaskする)

の3種類が提案されており、モダリティごとにこれらを使い分ける:
- text modality: UL2 (UL2: Unifying Language Learning Paradigms, Yi Tay+, N/A, ICLR'23 )を踏襲
- image, audioがtargetの場合: 2つの類似したパラダイムを定義し利用
- \[R\]: patchをランダムにx%マスクしre-constructする
- \[S\]: inputのtargetとは異なるモダリティのみの情報から、targetモダリティを生成する

訓練時には prefixとしてmodality token \[Text\], \[Image\], \[Audio\] とparadigm token \[R\], \[S\], \[X\] をタスクを指示するトークンとして利用している。

また、image, audioのマスク部分のdenoisingをautoregressive modelで実施する際には普通にやるとdecoder側でリークが発生する(a)。これを防ぐには、Encoder側でマスクされているトークンを、Decoder側でteacher-forcingする際にの全てマスクする方法(b)があるが、この場合、生成タスクとdenoisingタスクが相互に干渉してしまいうまく学習できなくなってしまう（生成タスクでは通常Decoderのinputとして[mask]が入力され次トークンを生成する、といったことは起きえないが、愚直に(b)をやるとそうなってしまう）。ので、(c)に示したように、マスクされているトークンをinputとして生成しなければならない時だけ、マスクを解除してdecoder側にinputする、という方法 (Dynamic Masking) でこの問題に対処している。

[Paper Note] Segment Anything in Medical Images, Jun Ma+, Nature Communications'24, 2023.04

Paper/Blog Link My Issue
#ComputerVision #Pretraining #ImageSegmentation #FoundationModel #One-Line Notes Issue Date: 2023-04-30 GPT Summary- 医用画像分割は診断や治療計画に不可欠だが、既存手法は特定のモダリティや疾患に限られがち。そこで、10の画像モダリティと30種以上のがんに対応する基盤モデルMedSAMを提案。1,570,263の画像-マスクペアで訓練され、精度と頑健性で専門モデルを上回ることを実証。MedSAMは診断ツールの進化と個別化治療計画を加速する可能性を秘めている。 Comment

SAMの性能は医療画像に対しては限定的だったため、11の異なるモダリティに対して200kのマスクをした医療画像を用意しfinetuningしたMedSAMによって、医療画像のセグメンテーションの性能を大幅に向上。
コードとモデルはpublicly available

[Paper Note] Robust Speech Recognition via Large-Scale Weak Supervision, Alec Radford+, ICML'23, 2022.12

Paper/Blog Link My Issue
#NeuralNetwork #SpeechProcessing #AutomaticSpeechRecognition(ASR) #Selected Papers/Blogs #Generalization #KeyPoint Notes #Robustness Issue Date: 2025-11-14 GPT Summary- 680,000時間の多言語音声トランスクリプトを用いて訓練した音声処理システムを研究。得られたモデルは、ゼロショット転送設定で良好に一般化し、従来の監視結果と競争力を持つ。人間の精度に近づくことが確認され、モデルと推論コードを公開。 Comment

いまさらながらWhisper論文

日本語解説: https://www.ai-shift.co.jp/techblog/3001

長文認識のためのヒューリスティックに基づくデコーディング戦略も解説されているので参照のこと。

研究のコアとなるアイデアとしては、既存研究は自己教師あり学習、あるいはself-learningによって性能向上を目指す流れがある中で、教師あり学習に着目。既存研究で教師あり学習によって性能が向上することが示されていたが、大規模なスケールで実施できていなかったため、それをweakly-supervisedなmanner（=つまり完璧なラベルではなくてノイジーでも良いからラベルを付与し学習する）といった方法で学習することで、より頑健で高性能なASRを実現したい、という気持ちの研究。また、複雑なサブタスク(language identification, inverse text normalization（ASR後のテキストを人間向けの自然なテキストに変換すること[^2]）, phrase-level timestamps (audioとtranscriptのタイムスタンプ予測))を一つのパイプラインで実現するような統合的なインタフェースも提案している。モデルのアーキテクチャ自体はencoder-decoderモデルである。また、positional encodingとしてはSinusoidal Positional Encoding（すなわち、絶対位置エンコーディング）が用いられている。デコーダにはprompt[^1]と呼ばれるtranscriptのhistoryを（確率的に挿入し）入力して学習することで、過去のcontextを考慮したASRが可能となる。lossの計算は、translate/transcribeされたトークンのみを考慮して計算する。

データセットについては詳細は記述されておらず、internetに存在する (audio, transcripts)のペアデータを用いたと書かれている。
しかしながら、収集したデータセットを確認んすると、transcriptionの品質が低いものが混ざっており、フィルタリングを実施している。これは、人間のtranscriptionとmachine-generatedなtranscriptionをmixして学習すると性能を損なうことが既存研究で知られているため、ヒューリスティックに基づいてmachine-generatedなtranscriptionは学習データから除外している。これは、初期のモデルを学習してエラー率を観測し、データソースを人手でチェックしてlow-qualityなtranscriptを除去するといった丁寧なプロセスもあ含まれる。

また、収集したデータの言語についてはVoxLingua107データセット [Paper Note] VoxLingua107: a Dataset for Spoken Language Recognition, Jörgen Valk+, SLT'21, 2020.11 によって学習された分類器（をさらにfinetuningしたモデルと書かれている。詳細は不明）によって自動的に付与する。すなわち、X->enのデータのX（つまりsource言語）のlanguage identificationについてもweakly-supervisedなラベルで学習されている。

audioファイルについては、30秒単位のセグメントに区切り全ての期間を学習データに利用。無音部分はサブサンプリング（=一部をサンプリングして使う）しVoice Activity Detectionも学習する。

[^1]: LLMの文脈で広く使われるPromptとは異なる点に注意。LLMはinstruction-tuningが実施されているため人間の指示に追従するような挙動となるが、Whisperではinstruction-tuningを実施していないのでそのような挙動にはならない。あくまで過去のhistoryの情報を与える役割と考えること。
[^2]: Whisperでは生のtranscriptをnormalizationせずに学習にそのまま利用するため書き起こしの表記の統一は行われないと考えられる。

[Paper Note] Language Modelling with Pixels, Phillip Rust+, ICLR'23, 2022.07

Paper/Blog Link My Issue
#NLP #LanguageModel #ICLR #Encoder #Pixel-based #Compression Issue Date: 2025-10-22 GPT Summary- PIXELは、テキストを画像として表現する新しい言語モデルで、語彙のボトルネックを回避し、言語間での表現転送を可能にする。86MパラメータのPIXELは、BERTと同じデータで事前学習され、非ラテン文字を含む多様な言語での構文的および意味的タスクでBERTを大幅に上回る性能を示したが、ラテン文字ではやや劣る結果となった。また、PIXELは正字法的攻撃や言語コードスイッチングに対してBERTよりも堅牢であることが確認された。 Comment

元ポスト:

Loading…

[Paper Note] Scalable Diffusion Models with Transformers, William Peebles+, ICCV'23

Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #read-later #Selected Papers/Blogs #Backbone Issue Date: 2025-08-27 GPT Summary- 新しいトランスフォーマーに基づく拡散モデル（Diffusion Transformers, DiTs）を提案し、U-Netをトランスフォーマーに置き換えた。DiTsは高いGflopsを持ち、低いFIDを維持しながら良好なスケーラビリティを示す。最大のDiT-XL/2モデルは、ImageNetのベンチマークで従来の拡散モデルを上回り、最先端のFID 2.27を達成した。 Comment

日本語解説: https://qiita.com/sasgawy/items/8546c784bc94d94ef0b2

よく見るDiT

- [Paper Note] DiT: Self-supervised Pre-training for Document Image Transformer, Junlong Li+, ACMMM'22

も同様の呼称だが全く異なる話なので注意

[Paper Note] Efficient Memory Management for Large Language Model Serving with PagedAttention, Woosuk Kwon+, SOSP'23

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Attention #python #LLMServing #Selected Papers/Blogs Issue Date: 2025-08-19 GPT Summary- PagedAttentionを用いたvLLMシステムを提案し、KVキャッシュメモリの無駄を削減し、リクエスト間での柔軟な共有を実現。これにより、同レベルのレイテンシでLLMのスループットを2-4倍向上。特に長いシーケンスや大規模モデルで効果が顕著。ソースコードは公開中。 Comment

（今更ながら）vLLMはこちら:
https://github.com/vllm-project/vllm

現在の主要なLLM Inference/Serving Engineのひとつ。

[Paper Note] Recommender Systems with Generative Retrieval, Shashank Rajput+, NeurIPS'23

Paper/Blog Link My Issue
#RecommenderSystems #VariationalAutoEncoder #NeurIPS #read-later #Selected Papers/Blogs #ColdStart #Encoder-Decoder #SemanticID Issue Date: 2025-07-28 GPT Summary- 新しい生成的検索アプローチを提案し、アイテムのセマンティックIDを用いて次のアイテムを予測するTransformerベースのモデルを訓練。これにより、従来のレコメンダーシステムを大幅に上回る性能を達成し、過去の対話履歴がないアイテムに対しても改善された検索性能を示す。 Comment

openreview: https://openreview.net/forum?id=BJ0fQUU32w

Semantic IDを提案した研究

アイテムを意味的な情報を保持したdiscrete tokenのタプル（＝Semantic ID)で表現し、encoder-decoderでNext ItemのSemantic IDを生成するタスクに落としこむことで推薦する。SemanticIDの作成方法は後で読んで理解したい。

[Paper Note] Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture, Mahmoud Assran+, CVPR'23, 2023.01

Paper/Blog Link My Issue
#ComputerVision #Embeddings #Pretraining #RepresentationLearning #Self-SupervisedLearning #CVPR #read-later #Selected Papers/Blogs #WorldModels #One-Line Notes Issue Date: 2025-07-24 GPT Summary- 本論文では、手作りのデータ拡張に依存せずに意味的な画像表現を学習するI-JEPAという自己教師あり学習アプローチを提案。I-JEPAは、単一のコンテキストブロックから異なるターゲットブロックの表現を予測する。重要な設計選択として、意味的に大きなターゲットブロックと情報量の多いコンテキストブロックのサンプリングが挙げられる。実験により、I-JEPAはVision Transformersと組み合わせることでスケーラブルであり、ImageNet上で強力な下流性能を達成した。 Comment

Joint-Embedding Predictive Architecture (JEPA)を提案した研究。ピクセルやトークンのreconstruction lossではなく、潜在表現を再構成するようなself-supervised learningによってより意味的な特徴を学習するように誘導するもの（と思われるがこれが本質的な理解として正しいかは自信がない）。

[Paper Note] Magneto: A Foundation Transformer, Hongyu Wang+, ICML'23

Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal #SpeechProcessing #Architecture #ICML #Normalization #KeyPoint Notes Issue Date: 2025-04-19 GPT Summary- 言語、視覚、音声、マルチモーダルにおけるモデルアーキテクチャの収束が進む中、異なる実装の「Transformers」が使用されている。汎用モデリングのために、安定性を持つFoundation Transformerの開発が提唱され、Magnetoという新しいTransformer変種が紹介される。Sub-LayerNormと理論に基づく初期化戦略を用いることで、さまざまなアプリケーションにおいて優れたパフォーマンスと安定性を示した。 Comment

マルチモーダルなモデルなモデルの事前学習において、PostLNはvision encodingにおいてsub-optimalで、PreLNはtext encodingにおいてsub-optimalであることが先行研究で示されており、マルタモーダルを単一のアーキテクチャで、高性能、かつ学習の安定性な高く、try and error無しで適用できる基盤となるアーキテクチャが必要というモチベーションで提案された手法。具体的には、Sub-LayerNorm(Sub-LN)と呼ばれる、self attentionとFFN部分に追加のLayerNormを適用するアーキテクチャと、DeepNetを踏襲しLayer数が非常に大きい場合でも学習が安定するような重みの初期化方法を理論的に分析し提案している。

具体的には、Sub-LNの場合、LayerNormを
- SelfAttention計算におけるQKVを求めるためのinput Xのprojectionの前とAttentionの出力projectionの前
- FFNでの各Linear Layerの前
に適用し、

初期化をする際には、FFNのW, およびself-attentionのV_projと出力のout_projの初期化をγ（＝sqrt(log(2N))によってスケーリングする方法を提案している模様。

Segment Anything, Alexander Kirillov+, arXiv'23

Paper/Blog Link My Issue
#ComputerVision #ImageSegmentation #FoundationModel Issue Date: 2025-04-11 GPT Summary- Segment Anything (SA)プロジェクトは、画像セグメンテーションの新しいタスク、モデル、データセットを提案し、1億以上のマスクを含む1,100万のプライバシー尊重した画像からなる最大のセグメンテーションデータセットを構築しました。プロンプト可能なモデルはゼロショットで新しい画像分布やタスクに適応でき、評価の結果、ゼロショット性能が高く、従来の監視された結果を上回ることもあります。SAMとSA-1Bデータセットは、研究促進のために公開されています。 Comment

SAM論文

pj page: https://segment-anything.com

The Impact of Positional Encoding on Length Generalization in Transformers, Amirhossein Kazemnejad+, NeurIPS'23

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #LongSequence #PositionalEncoding #NeurIPS #Selected Papers/Blogs #KeyPoint Notes #Surface-level Notes Issue Date: 2025-04-06 GPT Summary- 長さ一般化はTransformerベースの言語モデルにおける重要な課題であり、位置エンコーディング（PE）がその性能に影響を与える。5つの異なるPE手法（APE、T5の相対PE、ALiBi、Rotary、NoPE）を比較した結果、ALiBiやRotaryなどの一般的な手法は長さ一般化に適しておらず、NoPEが他の手法を上回ることが明らかになった。NoPEは追加の計算を必要とせず、絶対PEと相対PEの両方を表現可能である。さらに、スクラッチパッドの形式がモデルの性能に影響を与えることも示された。この研究は、明示的な位置埋め込みが長いシーケンスへの一般化に必須でないことを示唆している。 Comment

- Llama 4 Series, Meta, 2025.04

において、Llama4 Scoutが10Mコンテキストウィンドウを実現できる理由の一つとのこと。

元ポスト:

Loading…

Llama4のブログポストにもその旨記述されている:
>A key innovation in the Llama 4 architecture is the use of interleaved attention layers without positional embeddings. Additionally, we employ inference time temperature scaling of attention to enhance length generalization.

[The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation]( https://ai.meta.com/blog/llama-4-multimodal-intelligence/?utm_source=twitter&utm_medium=organic_social&utm_content=image&utm_campaign=llama4)

斜め読みだが、length generalizationを評価する上でdownstream taskに焦点を当て、3つの代表的なカテゴリに相当するタスクで評価したところ、この観点においてはT5のrelative positinal encodingとNoPE（位置エンコードディング無し）のパフォーマンスが良く、

NoPEは絶対位置エンコーディングと相対位置エンコーディングを理論上実現可能であり[^1]

実際に学習された異なる2つのモデルに対して同じトークンをそれぞれinputし、同じ深さのLayerの全てのattention distributionの組み合わせからJensen Shannon Divergenceで距離を算出し、最も小さいものを2モデル間の当該layerの距離として可視化すると下記のようになり、NoPEとT5のrelative positional encodingが最も類似していることから、NoPEが学習を通じて（実用上は）相対位置エンコーディングのようなものを学習することが分かった。

[^1]:深さ1のLayerのHidden State H^1から絶対位置の復元が可能であり（つまり、当該レイヤーのHが絶対位置に関する情報を保持している）、この前提のもと、後続のLayerがこの情報を上書きしないと仮定した場合に、相対位置エンコーディングを実現できる。

また、CoT/Scratchpadはlong sequenceに対する汎化性能を向上させることがsmall scaleではあるが先行研究で示されており、Positional Encodingを変化させた時にCoT/Scratchpadの性能にどのような影響を与えるかを調査。

具体的には、CoT/Scratchpadのフォーマットがどのようなものが有効かも明らかではないので、5種類のコンポーネントの組み合わせでフォーマットを構成し、mathematical reasoningタスクで以下のような設定で訓練し

- さまざまなコンポーネントの組み合わせで異なるフォーマットを作成し、
- 全ての位置エンコーディングあり/なしモデルを訓練

これらを比較した。この結果、CoT/Scratchpadはフォーマットに関係なく、特定のタスクでのみ有効（有効かどうかはタスク依存）であることが分かった。このことから、CoT/Scratcpad（つまり、モデルのinputとoutputの仕方）単体で、long contextに対する汎化性能を向上させることができないので、Positional Encoding（≒モデルのアーキテクチャ）によるlong contextに対する汎化性能の向上が非常に重要であることが浮き彫りになった。

また、CoT/Scratchpadが有効だったAdditionに対して各Positional Embeddingモデルを学習し、生成されたトークンのattentionがどの位置のトークンを指しているかを相対距離で可視化したところ（0が当該トークン、つまり現在のScratchpadに着目しており、1が遠いトークン、つまりinputに着目していることを表すように正規化）、NoPEとRelative Positional Encodingがshort/long rangeにそれぞれフォーカスするようなbinomialな分布なのに対し、他のPositional Encodingではよりuniformな分布であることが分かった。このタスクにおいてはNoPEとRelative POの性能が高かったため、binomialな分布の方がより最適であろうことが示唆された。

[Paper Note] GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, arXiv'23, 2023.05

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Attention #Selected Papers/Blogs Issue Date: 2024-04-07 GPT Summary- MQAを用いた単一のキー・バリューヘッドによるデコーダ推論の高速化が試みられるが、品質の低下の懸念がある。そこで、既存のマルチヘッドモデルを少ない計算でMQAにアップトレーニングする手法と、一般化されたGQAを提案。GQAは中間のキー・バリューヘッドを使用し、MQAと同等の速度で高品質を実現することを示した。 Comment

通常のMulti-Head AttentionがQKVが1対1対応なのに対し、Multi Query Attention (MQA) [Paper Note] Fast Transformer Decoding: One Write-Head is All You Need, Noam Shazeer, arXiv'19, 2019.11 は全てのQに対してKVを共有する。一方、GQAはグループごとにKVを共有する点で異なる。MQAは大幅にInfeerence` speedが改善するが、精度が劣化する問題があった。この研究では通常のMulti-Head Attentionに対して、オリジナルの事前学習に対して追加の5%の計算量でGQAモデルを学習する手法を提案している。

Main Result. Multi-Head Attentionに対して、inference timeが大幅に改善しているが、Multi-Query Attentionよりも高い性能を維持している。

Pushdown Layers: Encoding Recursive Structure in Transformer Language Models, Shikhar Murty+, N_A, EMNLP'23

Paper/Blog Link My Issue
#NLP Issue Date: 2023-12-04 GPT Summary- 本研究では、再帰構造をうまく捉えるために新しい自己注意層であるPushdown Layersを導入しました。Pushdown Layersは、再帰状態をモデル化するためにスタックテープを使用し、トークンごとの推定深度を追跡します。このモデルは、構文的な一般化を改善し、サンプル効率を向上させることができます。さらに、Pushdown Layersは標準の自己注意の代替としても使用でき、GLUEテキスト分類タスクでも改善を実現しました。

Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey, Yunpeng Huang+, N_A, arXiv'23

Paper/Blog Link My Issue
#Survey #LongSequence Issue Date: 2023-11-27 GPT Summary- 本論文では、Transformerベースの大規模言語モデル（LLMs）の長い文脈の能力を最適化するための包括的な調査を提案しています。現行のLLMsの制約や問題点を明確化し、アーキテクチャのアップグレードや評価の必要性について説明しています。さらに、最適化ツールキットや将来の研究の可能性についても議論しています。関連文献はhttps://github.com/Strivin0311/long-llms-learningでリアルタイムに更新されています。 Comment

TransformerをLongContextに対応させる技術のサーベイ。
（画像は元ツイートより）
元ツイート:

Loading…

[Paper Note] Hiformer: Heterogeneous Feature Interactions Learning with Transformers for Recommender Systems, Huan Gui+, arXiv'23, 2023.11

Paper/Blog Link My Issue
#RecommenderSystems Issue Date: 2023-11-13 GPT Summary- 特徴間の学習はレコメンダーシステムに不可欠ですが、入力特徴空間が希薄で大きいため困難です。この問題に対処するため、Transformerベースの注意層を利用し特徴間を自動的に捉える新手法「Hiformer」を提案します。従来のTransformerは、異質な特徴の相互作用を捉えられず、処理遅延が高い問題がありましたが、Hiformerは異質自己注意層を導入し、低ランク近似とモデルプルーニングにより効率的な推論を実現しました。実際のアプリランキングモデルへの展開により、エンゲージメント指標で最大+2.66%の改善を達成しました。 Comment

推薦システムは、Factorization Machinesあたりから大抵の場合特徴量間の交互作用を頑張って捉えることで精度向上を目指す、という話をしてきている気がするが、これはTransformerを使って交互作用捉えられるようなモデルを考えました、という研究のようである。

self attention部分に工夫がなされており（提案手法は右端）、task tokenとそれぞれのfeatureをconcatしてQKVを求めることで、明示的に交互作用が生まれるような構造にしている。

Online A/Bテストでも評価しており、HiformerによってSoTAな交互作用モデル（DCN）よりも高いユーザエンゲージメントを実現することが示されている。

Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in Transformer Models, Steve Yadlowsky+, N_A, arXiv'23

Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel Issue Date: 2023-11-06 GPT Summary- 本研究では、トランスフォーマーモデルの文脈学習（ICL）能力を調査しました。トランスフォーマーモデルは、事前学習データの範囲内で異なるタスクを特定し、学習する能力を持っています。しかし、事前学習データの範囲外のタスクや関数に対しては一般化が劣化することが示されました。また、高容量のシーケンスモデルのICL能力は、事前学習データの範囲に密接に関連していることが強調されました。 Comment

Transformerがpre-training時に利用された学習データ以外の分布に対しては汎化性能が落ちることを示したらしい。もしこれが正しいとすると、結局真に新しい分布というか関数というかタスクというか、をTransformerが創出する可能性は低いと言えるかもしれない。が、新しいものって大体は既存の概念の組み合わせだよね（スマホとか）、みたいなことを考えると、別にそれでも十分では？と思ってしまう。人間が本当に真の意味で新しい関数というかタスクというか分布を生み出せているかというと、実はそんなに多くないのでは？という予感もする。まあたとえば、量子力学を最初に考えました！とかそういうのは例外だと思うけど・・・、そのレベルのことってどんくらいあるんだろうね？

Boolformer: Symbolic Regression of Logic Functions with Transformers, Stéphane d'Ascoli+, N_A, arXiv'23

Paper/Blog Link My Issue
#MachineLearning Issue Date: 2023-10-09 GPT Summary- この研究では、BoolformerというTransformerアーキテクチャを使用して、ブール関数のシンボリック回帰を実行する方法を紹介します。Boolformerは、クリーンな真理値表やノイズのある観測など、さまざまなデータに対して効果的な式を予測することができます。さらに、実世界のデータセットや遺伝子制御ネットワークのモデリングにおいて、Boolformerは解釈可能な代替手法として優れた性能を発揮します。この研究の成果は、公開されています。 Comment

ブール関数をend-to-endで学習できるtransformeiアーキテクチャを提案した模様

UniTRec: A Unified Text-to-Text Transformer and Joint Contrastive Learning Framework for Text-based Recommendation, ACL'23

Paper/Blog Link My Issue
#RecommenderSystems #NLP #Contents-based #pretrained-LM #ContrastiveLearning Issue Date: 2023-07-18 GPT Summary- 本研究では、事前学習済み言語モデル（PLM）を使用して、テキストベースの推薦の性能を向上させるための新しいフレームワークであるUniTRecを提案します。UniTRecは、ユーザーの履歴の文脈をより良くモデル化するために統一されたローカル-グローバルアテンションTransformerエンコーダを使用し、候補のテキストアイテムの言語の複雑さを推定するためにTransformerデコーダを活用します。幅広い評価により、UniTRecがテキストベースの推薦タスクで最先端のパフォーマンスを発揮することが示されました。

Randomized Positional Encodings Boost Length Generalization of Transformers, ACL'23

Paper/Blog Link My Issue
#NLP #LongSequence #PositionalEncoding Issue Date: 2023-07-14 GPT Summary- トランスフォーマーは、固定長のタスクにおいては優れた汎化能力を持つが、任意の長さのシーケンスには対応できない。この問題を解決するために、新しい位置エンコーディング手法を提案する。ランダム化された位置エンコーディングスキームを使用し、長いシーケンスの位置をシミュレートし、順序付けられたサブセットをランダムに選択する。大規模な実証評価により、この手法がトランスフォーマーの汎化能力を向上させ、テストの正確性を平均して12.0％向上させることが示された。

[Paper Note] Explicit Syntactic Guidance for Neural Text Generation, Yafu Li+, ACL'23, 2023.06

Paper/Blog Link My Issue
#BeamSearch #NaturalLanguageGeneration #Controllable #NLP #LanguageModel #ACL #Decoder Issue Date: 2023-07-13 GPT Summary- 本研究では、構文に基づいた生成スキーマを提案し、構成素解析木に従ってシーケンスを生成する新しいテキスト生成モデルを開発。デコーディングプロセスは、構文コンテキスト内での埋め込みテキストの予測と、構成素のマッピングによる構文構造の構築に分かれ、構造的ビームサーチ手法を用いて階層的な構文構造を探索。実験結果は、提案手法がパラフレーズ生成と機械翻訳において自己回帰型ベースラインを上回り、解釈可能性や制御可能性、多様性においても優れていることを示した。

Trainable Transformer in Transformer, Abhishek Panigrahi+, N_A, arXiv'23

Paper/Blog Link My Issue
#NLP #LanguageModel Issue Date: 2023-07-12 GPT Summary- 本研究では、Transformer in Transformer（TinT）という効率的な構築を提案し、大規模な事前学習言語モデルの内部モデルをシミュレートして微調整することが可能となります。TinTは小さなパラメータ数でも高い性能を発揮し、トランスフォーマー内の単純なモデルの効率も向上させます。さまざまな実験により、TinTの性能向上が観察され、大規模な事前学習言語モデルが複雑なサブルーチンを実行できることが示されました。また、TinTのモジュラーで拡張可能なコードベースも提供されています。 Comment

参考:

Loading…

研究の進み早すぎません？？？

openreview: https://openreview.net/forum?id=VmqTuFMk68

Generative Pretraining in Multimodality, Quan Sun+, N_A, arXiv'23

Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #MultiModal Issue Date: 2023-07-12 GPT Summary- Emuは、マルチモーダルなコンテキストで画像とテキストを生成するためのTransformerベースのモデルです。このモデルは、単一モダリティまたはマルチモーダルなデータ入力を受け入れることができます。Emuは、マルチモーダルなシーケンスでトレーニングされ、画像からテキストへのタスクやテキストから画像へのタスクなど、さまざまなタスクで優れたパフォーマンスを示します。また、マルチモーダルアシスタントなどの拡張機能もサポートしています。

A Comprehensive Survey on Applications of Transformers for Deep Learning Tasks, Saidul Islam+, N_A, arXiv'23

Paper/Blog Link My Issue
#Survey Issue Date: 2023-07-03 GPT Summary- Transformerモデルは、セルフアテンションメカニズムを使用して文脈関係を理解するためのディープニューラルネットワークであり、長い依存関係を処理することができます。このモデルは、自然言語処理だけでなく、他のさまざまなドメインでも注目されています。しかし、さまざまなドメインでのTransformerの応用に関する包括的な調査はまだ不足しています。そこで、私たちは提案されたTransformerモデルの包括的な調査を行い、その応用ドメインと影響を分析しました。私たちの目的は、研究者に対してTransformerの可能性を明らかにし、この技術の理解を広めることです。 Comment

Transformerに関する最新サーベイ論文。Transformerが利用されているアプリケーションと、モデルのリストが列挙されている。

Faith and Fate: Limits of Transformers on Compositionality, Nouha Dziri+, N_A, arXiv'23

Paper/Blog Link My Issue
#MachineLearning #NLP Issue Date: 2023-06-30 GPT Summary- Transformerの大規模言語モデル（LLMs）は、多段階の推論を必要とするタスクで優れたパフォーマンスを示す一方、些細な問題で失敗することもある。この研究では、3つの代表的な合成タスクを用いて、Transformerの限界を調査し、タスクの複雑さが増すにつれてパフォーマンスが低下することを示した。また、Transformerが合成的な推論を線形化されたサブグラフのマッチングに簡約化して解決していることを示唆したが、体系的な問題解決スキルを開発していない可能性もある。 Comment

参考:

Loading…

[Paper Note] RWKV: Reinventing RNNs for the Transformer Era, Bo Peng+, N_A, EMNLP'23 Findings, 2023.05

Paper/Blog Link My Issue
#NeuralNetwork #NLP #LanguageModel #EMNLP #Findings #RecurrentModels Issue Date: 2023-06-16 GPT Summary- 本研究では、トランスフォーマーとRNNの両方の利点を組み合わせた新しいモデルアーキテクチャであるRWKVを提案し、トレーニング中に計算を並列化し、推論中に一定の計算およびメモリの複雑さを維持することができます。RWKVは、同じサイズのトランスフォーマーと同等のパフォーマンスを発揮し、将来的にはより効率的なモデルを作成するためにこのアーキテクチャを活用できることを示唆しています。 Comment

（斜め読みしかできておらず、不正確な点が多いと思います。ご容赦ください。）

RWKVの構造は基本的に、residual blockをスタックすることによって構成される。一つのresidual blockは、time-mixing（時間方向の混ぜ合わせ）と、channnel-mixing（要素間での混ぜ合わせ）を行う。　
RWKVのカギとなる要素は以下の4つでありこれらが乗算によって交互作用する。RWKVのブロック、およびLMでのアーキテクチャは以下のようになる：

- R: 過去の情報をどれだけ取り入れるかを制御するゲート
- W: positionごとにどれだけ重みを減衰させるかを学習（言い換えると過去の情報をどれだけ減衰させていくか）
- K: attentionのKeyと同じ
- V: attentionのValueと同じ

r, k, vがそれぞれ時刻tでの状態を表しており、Transformerのように過去の全ての情報を保持するのではなく、時刻t-1のr,k,vに基づいて時刻tの状態を更新するためメモリ消費が大幅に削減される。

ここで、token-shiftは、previsou timestepのinputとのlinear interpolationを現在のinputととることである（時刻t-1のinputと時刻tのinputの交互作用をしてr, k, v, r', k' を決定する）。これにより過去の情報を考慮して状態を更新するRNNのような挙動となる。

RWKVは他のLLMと比較し、パラメータ数に対して性能はcomparableであり(Figure4)、context lengthを増やすことで、lossはきちんと低下し(Figure5)、テキスト生成をする際に要する時間は他のLLMと比較して、トークン数に対して線形にしか増加しない(Figure6)。

異なるtransformerとRWKVの計算量とメモリ消費量の比較。Inference timeは系列長に対して線形で、状態の保持は系列長に依存せず、d次元のみで済む。これはRNNのような逐次的な推論の際の話で、学習の際はTransformerのような並列性を持って学習できると思われる（3.2節）

openreview: https://openreview.net/forum?id=7SaXczaBpG

Think Before You Act: Decision Transformers with Internal Working Memory, Jikun Kang+, N_A, arXiv'23

Paper/Blog Link My Issue
#NLP #AIAgents Issue Date: 2023-06-16 GPT Summary- 大規模言語モデル（LLM）の性能は、トレーニング中にパラメータに振る舞いを記憶する「忘却現象」によって低下する可能性がある。人間の脳は分散型のメモリストレージを利用しており、忘却現象を軽減している。そこで、我々は、内部作業メモリモジュールを提案し、Atariゲームとメタワールドオブジェクト操作タスクの両方でトレーニング効率と汎化性を向上させることを示した。

Birth of a Transformer: A Memory Viewpoint, Alberto Bietti+, N_A, arXiv'23

Paper/Blog Link My Issue
#MachineLearning Issue Date: 2023-06-16 GPT Summary- 大規模言語モデルの内部メカニズムを理解するため、トランスフォーマーがグローバルとコンテキスト固有のbigram分布をどのようにバランスするかを研究。2層トランスフォーマーでの実証的分析により、グローバルbigramの高速な学習と、コンテキスト内のbigramの「誘導ヘッド」メカニズムの遅い発達を示し、重み行列が連想記憶としての役割を強調する。データ分布特性の役割も研究。

[Paper Note] MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers, Lili Yu+, NeurIPS'23, 2023.05

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #MachineLearning #NLP #SpeechProcessing #LongSequence #Architecture #NeurIPS #One-Line Notes #Byte-level Issue Date: 2023-05-15 GPT Summary- Megabyteというマルチスケールデコーダーアーキテクチャを提案し、長いシーケンスのエンドツーエンドのモデリングを可能にする。シーケンスをパッチに分割し、ローカルサブモデルとグローバルモデルを使用することで、計算効率を向上させつつコストを削減。実験により、Megabyteは長いコンテキストの言語モデリングで競争力を持ち、最先端の密度推定を達成した。トークン化なしの自己回帰シーケンスモデリングの実現可能性を示す。 Comment

byte列のsequenceからpatch embeddingを作成することで、tokenizer freeなtransformerを提案。
byte列で表現されるデータならなんでも入力できる。つまり、理論上なんでも入力できる。

openreview: https://openreview.net/forum?id=JTmO2V9Xpz

Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens, Zhanpeng Zeng+, N_A, NeurIPS'23

Paper/Blog Link My Issue
#LongSequence #NeurIPS #Encoder #Encoder-Decoder Issue Date: 2023-05-09 GPT Summary- 本論文では、Transformerモデルの二次コストを削減するために、各層でサイズ$r$が$n$に独立した表現に入力を圧縮する方法を提案する。VIPトークン中心の圧縮（Vcc）スキームを使用し、VIPトークンの表現を近似するために入力シーケンスを選択的に圧縮する。提案されたアルゴリズムは、競合するベースラインと比較して効率的であり、多数のタスクにおいて競争力のあるまたはより優れたパフォーマンスを発揮する。また、アルゴリズムは128Kトークンにスケーリングでき、一貫して精度の向上を提供することが示された。

[Paper Note] Efficiently Scaling Transformer Inference, Reiner Pope+, MLSys'23, 2022.11

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Attention #LongSequence #Architecture #Inference #One-Line Notes Issue Date: 2023-04-30 GPT Summary- 大規模なTransformerモデルの生成的推論を、長いシーケンス長と厳格な遅延目標の下で研究。TPU v4用に最適化された解析モデルを開発し、待機時間とモデルFLOPS利用率のトレードオフにおいて新しいパレート前線を達成。マルチクエリ注意機構を用いることでメモリ要件を減少させ、コンテキスト長を最大32倍に拡張。最終的に、小さなバッチサイズでの1トークンあたりの遅延は29ミリ秒となり、MFUは76%に達し、PaLM 540Bモデルで2048トークンのコンテキストをサポート。 Comment

特にMultiquery Attentionという技術がTransformerのinferenceのコスト削減に有効らしい

Multi Query Attention (MQA):
- [Paper Note] Fast Transformer Decoding: One Write-Head is All You Need, Noam Shazeer, arXiv'19, 2019.11

[Paper Note] Scaling Transformer to 1M tokens and beyond with RMT, Aydar Bulatov+, arXiv'23, 2023.04

Paper/Blog Link My Issue
#NeuralNetwork #NLP #LanguageModel #LongSequence #memory #One-Line Notes Issue Date: 2023-04-25 GPT Summary- 再帰的メモリ拡張を用いて、トランスフォーマーの計算量を線形にスケールし、最大二百万トークンまでのシーケンスを扱う能力を実証。言語モデリングタスクでの実験は、パープレキシティの改善を示し、長期依存の処理能力向上の可能性を強調。 Comment

Reccurent Memory Transformer [Paper Note] Recurrent Memory Transformer, Aydar Bulatov+, NeurIPS'22, 2022.07 を使って2Mトークン扱えるようにしたよーという話。

ハリーポッターのトークン数が1.5Mらしいので、そのうち小説一冊書けるかもという世界。

[Paper Note] Perceiver: General Perception with Iterative Attention, Andrew Jaegle+, ICLR'22, 2021.03

Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal #SpeechProcessing #Attention #Architecture #ICLR #Selected Papers/Blogs #2D (Image) #audio #text Issue Date: 2026-02-07 GPT Summary- 本研究では、Transformersに基づく「Perceiver」モデルを提案し、生物システムのように多様なモダリティの高次元入力を同時に処理する能力を持つことを示します。従来のモデルが個々のモダリティに特化しているのに対し、Perceiverは少ない仮定で多数の入力を扱い、非対称注意メカニズムを用いて大規模なデータを処理します。これにより、画像や音声などの多様な分類タスクにおいて、先行モデルと同等以上の性能を実現しました。特に、ImageNetでは数十万のピクセルを直接扱い、ResNet-50やViTに匹敵する結果を達成し、AudioSetにおいても競争力を持っています。 Comment

openreview: https://openreview.net/forum?id=fILj7WpI-g

多様なモダリティ入力を単一のモデルで処理しlogitsで出力するtransformer。Perceiver-IOと並んで多様なモダリティを処理可能な先駆け的研究

Perceiverの出力は単純な分類問題を想定しており、より多様なoutputができるように拡張したものがPerceiver-IO:
- [Paper Note] Perceiver IO: A General Architecture for Structured Inputs & Outputs, Andrew Jaegle+, ICLR'22, 2021.07

[Paper Note] bert2BERT: Towards Reusable Pretrained Language Models, Cheng Chen+, ACL'22, 2021.10

Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #NLP #LanguageModel #ACL #Encoder #Decoder Issue Date: 2025-12-11 GPT Summary- bert2BERTは、既存の小規模事前学習モデルの知識を大規模モデルに転送し、事前学習効率を向上させる手法。二段階の事前学習を提案し、トレーニングコストを大幅に削減。BERT_BASEとGPT_BASEの事前学習で約45%および47%の計算コストを節約。

[Paper Note] Efficient Transformers: A Survey, Yi Tay+, ACM Computing Surveys'22, 2022.12

Paper/Blog Link My Issue
#Survey #ComputerVision #EfficiencyImprovement #NLP #Attention #Sparse #SparseAttention Issue Date: 2025-11-30 GPT Summary- 本論文では、計算効率やメモリ効率を向上させることに焦点を当てた「X-former」モデル（Reformer、Linformer、Performer、Longformerなど）の大規模なセレクションを紹介し、最近の研究を体系的かつ包括的にまとめる。Transformersは自然言語処理を含む多くの分野で重要な役割を果たしている。 Comment

[Paper Note] Classifier-Free Diffusion Guidance, Jonathan Ho+, arXiv'22, 2022.07

Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #Selected Papers/Blogs Issue Date: 2025-10-10 GPT Summary- 分類器ガイダンスは条件付き拡散モデルのポストトレーニング手法で、モードカバレッジとサンプル忠実度のトレードオフを図る。著者は、分類器なしで生成モデルによるガイダンスが可能であることを示し、これを分類器フリーガイダンスと呼ぶ。条件付きおよび無条件の拡散モデルを共同でトレーニングし、サンプル品質と多様性のトレードオフを達成する。 Comment

日本語解説: https://qiita.com/UMAboogie/items/160c1159811743c49d99

[Paper Note] Mixture of Attention Heads: Selecting Attention Heads Per Token, Xiaofeng Zhang+, EMNLP'22, 2022.10

Paper/Blog Link My Issue
#NLP #Attention #Architecture #MoE(Mixture-of-Experts) #EMNLP #KeyPoint Notes Issue Date: 2025-10-04 GPT Summary- Mixture of Attention Heads (MoA)は、MoEネットワークとマルチヘッドアテンションを組み合わせた新しいアーキテクチャで、動的に選択されたアテンションヘッドのサブセットを使用することでパフォーマンスを向上させる。スパースゲート化により計算効率を保ちながら拡張可能で、モデルの解釈可能性にも寄与する。実験では、機械翻訳やマスク付き言語モデリングなどのタスクで強力なベースラインを上回る結果を示した。 Comment

FFNに適用されることが多かったMoEをmulti-head attention (MHA) に適用する研究。このようなattentionをMixture of Attention Heads (MoA)と呼ぶ。

各MHAは複数のattention expertsを持ち、その中からK個のExpertsが現在のクエリq_tに基づいてRouterによって選出（式7, 8)される。それぞれのattention expertsに対してq_tが流され、通常のMHAと同じ流れでoutputが計算され、最終的に選択された際の（正規化された（式9））probabilityによる加重平均によって出力を計算する（式6)。

注意点としては、各attention expertsは独立したprojection matrix W_q, W_o（それぞれi番目のexpertsにおけるトークンtにおいて、query q_tを変換、output o_{i,t}をhidden space次元に戻す役割を持つ)を持つが、K, Vに対する変換行列は共有すると言う点。これにより、事前に全てのexpertsに対してk, vに対する変換は計算しておけるので、headごとに異なる変換を学習しながら、計算コストを大幅に削減できる。

また、特定のexpertsにのみルーティングが集中しないように、lossを調整することで学習の安定させ性能を向上させている（4.3節）。

[Paper Note] DiT: Self-supervised Pre-training for Document Image Transformer, Junlong Li+, ACMMM'22

Paper/Blog Link My Issue
#ComputerVision #OCR #ACMMM #Backbone Issue Date: 2025-08-22 GPT Summary- 自己監視型事前学習モデルDiTを提案し、ラベルなしテキスト画像を用いて文書AIタスクにおける性能を向上。文書画像分類やレイアウト分析、表検出、OCRなどで新たな最先端結果を達成。コードとモデルは公開中。

[Paper Note] On Layer Normalizations and Residual Connections in Transformers, Sho Takase+, arXiv'22

Paper/Blog Link My Issue
#NLP #Architecture #Normalization #Encoder-Decoder Issue Date: 2025-07-04 GPT Summary- 本研究では、Transformerアーキテクチャのレイヤー正規化の位置に関するPost-LNとPre-LNの違いを調査。Post-LNは浅い層で優れた性能を示す一方、深い層では不安定なトレーニングを引き起こす消失勾配問題があることを発見。これを踏まえ、Post-LNの修正により安定したトレーニングを実現する方法を提案し、実験でPre-LNを上回る結果を示した。 Comment

Pre-LNの安定性を持ちながらもPost-LNのような高い性能を発揮する良いとこ取りのB2TConnectionを提案

NLP2022: https://www.anlp.jp/proceedings/annual_meeting/2022/pdf_dir/A2-5.pdf

[Paper Note] DeepNet: Scaling Transformers to 1,000 Layers, Hongyu Wang+, arXiv'22

Paper/Blog Link My Issue
#NLP #Architecture #Normalization Issue Date: 2025-04-19 GPT Summary- 本論文では、深いTransformerを安定化させるための新しい正規化関数DeepNormを提案し、残差接続の修正と理論的初期化を行う。これにより、Post-LNの性能とPre-LNの安定性を兼ね備え、最大1,000層のTransformerをスケールアップ可能にした。特に、3.2Bパラメータの200層モデルが、12Bパラメータの48層モデルを5 BLEUポイント上回る性能を示し、今後のスケーリングの可能性を示唆している。 Comment

ステートオブAIガイドによる解説: https://ja.stateofaiguides.com/20220308-deepnet-transformer/

[Paper Note] Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity, William Fedus+, JMLR'22

Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #NLP #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #JMLR Issue Date: 2025-02-11 GPT Summary- Switch Transformerを提案し、Mixture of Experts (MoE)の複雑さや通信コスト、トレーニングの不安定性を改善。これにより、低精度フォーマットでの大規模スパースモデルのトレーニングが可能になり、最大7倍の事前トレーニング速度向上を実現。さらに、1兆パラメータのモデルを事前トレーニングし、T5-XXLモデルに対して4倍の速度向上を達成。

Knowledge Neurons in Pretrained Transformers, Damai Dai+, N_A, ACL'22, 2022.05

Paper/Blog Link My Issue
#Analysis #NLP #ACL #KnowledgeEditing #Selected Papers/Blogs #FactualKnowledge #Encoder Issue Date: 2024-07-11 GPT Summary- 大規模な事前学習言語モデルにおいて、事実知識の格納方法についての研究を行いました。具体的には、BERTのfill-in-the-blank cloze taskを用いて、関連する事実を表現するニューロンを特定しました。また、知識ニューロンの活性化と対応する事実の表現との正の相関を見つけました。さらに、ファインチューニングを行わずに、知識ニューロンを活用して特定の事実知識を編集しようと試みました。この研究は、事前学習されたTransformers内での知識の格納に関する示唆に富んでおり、コードはhttps://github.com/Hunter-DDM/knowledge-neuronsで利用可能です。 Comment

大規模言語モデルにおいて､「知識は全結合層に蓄積される」という仮説についての文献調査

日本語解説: https://speakerdeck.com/kogoro/knowledge-neurons-in-pretrained-transformers-for-snlp2022

上記資料によると、特定の知識を出力する際に活性化する知識ニューロンを特定する手法を提案。MLMを用いたclozeタスクによる実験で[MASK]部分に当該知識を出力する実験をした結果、知識ニューロンの重みをゼロとすると性能が著しく劣化し、値を2倍にすると性能が改善するといった傾向がみられた。　ケーススタディとして、知識の更新と、知識の削除が可能かを検証。どちらとも更新・削除がされる方向性[^1]へモデルが変化した。

また、知識ニューロンはTransformerの層の深いところに位置している傾向にあり、異なるrelationを持つような関係知識同士では共有されない傾向にある模様。

[^1]: 他の知識に影響を与えず、完璧に更新・削除できたわけではない。知識の更新・削除に伴いExtrinsicな評価によって性能向上、あるいはPerplexityが増大した、といった結果からそういった方向性へモデルが変化した、という話

[Paper Note] Why do tree-based models still outperform deep learning on tabular data?, Léo Grinsztajn+, NeurIPS'22, 2022.07

Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #TabularData #InductiveBias #NeurIPS #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2023-04-28 GPT Summary- 深層学習はテキストと画像で進展を見せているが、表形式データでの優位性は不明。標準と新規の深層学習法を木ベースのモデルと比較し、45のデータセットでベンチマークを実施。結果は、中規模データにおいて木ベースモデルが依然として優れた性能を示すことを示す。木ベースモデルとニューラルネットワークのバイアスの違いを実証的に調査し、表形式データ特化のNN開発に向けた課題を提示。標準的ベンチマーク用の生データを提供し、各学習器のハイパーパラメータ探索に20,000時間の計算資源を投入した。 Comment

tree basedなモデルがテーブルデータに対してニューラルモデルよりも優れた性能を発揮することを確認し、なぜこのようなことが起きるかいくつかの理由を説明した論文。

NNよりもtree basedなモデルがうまくいく理由として、モデルの帰納的バイアスがテーブルデータに適していることを調査している。考察としては

1. NNはスムーズなターゲットを学習する能力が高いが、表形式のような不規則なデータを学習するのに適していない

- Random Forestでは、x軸においてirregularなパターンも学習できているが、NNはできていない。

2. uninformativeなfeaatureがMLP-likeなNNに悪影響を与える

- Tabular dataは一般にuninformativeな情報を多く含んでおり、実際MLPにuninformativeなfeatureを組み込んだ場合tree-basedな手法とのgapが増加した

3. データはrotationに対して不変ではないため、学習手順もそうあるべき（この辺がよくわからなかった）

- ResNetはRotationを加えても性能が変わらなかった（rotation invariantな構造を持っている）

openreview: https://openreview.net/forum?id=Fp7__phQszn

[Paper Note] Are Transformers Effective for Time Series Forecasting?, Ailing Zeng+, arXiv'22, 2022.05

Paper/Blog Link My Issue
#TimeSeriesDataProcessing #MachineLearning #LanguageModel #One-Line Notes Issue Date: 2022-12-29 GPT Summary- LTSFタスクに対するTransformer解法の妥当性を疑問視し、単純な1層線形モデル（LTSF-Linear）が既存のTransformerモデルを全ケースで上回る結果を示す。時間的関係の抽出における要素の影響を詳細に分析し、新たな研究の方向性を提案。将来的には他の時系列分析にもアプローチを見直すことを提唱。 Comment

Linear Layerに基づくシンプルな手法がTransformerベースの手法に時系列予測で勝ったという話

[Paper Note] Primer: Searching for Efficient Transformers for Language Modeling, David R. So+, NIPS'21, 2021.09

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #ActivationFunction #One-Line Notes Issue Date: 2026-02-16 GPT Summary- 大規模なTransformerモデルのコスト削減を目指し、プリミティブに基づく低レベルの探索を行い、Primerアーキテクチャを提案。これにより、自己回帰型言語モデリングで訓練コストを大幅に削減。具体的にはReLU活性化関数の二乗化と深さ方向の畳み込み層追加が主な改善点。実験により、計算規模が大きくなるほどPrimerの利得が増加し、特に5億パラメータの設定で元のT5アーキテクチャに対し4分の1のコストで改善を確認。また、19億パラメータ設定でも、訓練資源を大幅に削減しながら同等の性能を実現。再現性を考慮し、モデルをオープンソース化。 Comment

nanochat speedrunを改善させたReLU^2を提案しているとのこと

Loading…

[Paper Note] Vision Transformers for Dense Prediction, René Ranftl+, ICCV'21, 2021.03

Paper/Blog Link My Issue
#ComputerVision #read-later #ICCV #Encoder #Backbone #DepthEstimation #SemanticSegmentation Issue Date: 2025-12-29 GPT Summary- 密なビジョントランスフォーマーは、畳み込みネットワークの代わりにビジョントランスフォーマーを用いた密な予測タスク向けの新しいアーキテクチャです。異なる解像度のトークンを集め、畳み込みデコーダでフル解像度の予測に統合します。このアーキテクチャは、グローバルな受容野を持ち、より一貫した予測を提供します。実験により、特に大量のトレーニングデータがある場合に、単眼深度推定で最大28%の性能向上を示し、セマンティックセグメンテーションではADE20Kで49.02%のmIoUを達成しました。さらに、他の小規模データセットでも最先端の結果を記録しています。モデルは公開されています。 Comment

DPT headの解説: https://qiita.com/Chi_corp_123/items/8a2e9a4f542a3404a700

[Paper Note] MiniLMv2: Multi-Head Self-Attention Relation Distillation for Compressing Pretrained Transformers, Wenhui Wang+, ACL'21 Findings, 2020.12

Paper/Blog Link My Issue
#NLP #Attention #Distillation #ACL #Encoder #Findings #KeyPoint Notes Issue Date: 2025-10-20 GPT Summary- 自己注意関係蒸留を用いて、MiniLMの深層自己注意蒸留を一般化し、事前学習されたトランスフォーマーの圧縮を行う手法を提案。クエリ、キー、バリューのベクトル間の関係を定義し、生徒モデルを訓練。注意ヘッド数に制限がなく、教師モデルの層選択戦略を検討。実験により、BERTやRoBERTa、XLM-Rから蒸留されたモデルが最先端の性能を上回ることを示した。 Comment

教師と（より小規模な）生徒モデル間で、tokenごとのq-q/k-k/v-vのdot productによって形成されるrelation map（たとえばq-qの場合はrelatiok mapはトークン数xトークン数の行列で各要素がdot(qi, qj))で表現される関係性を再現できるようにMHAを蒸留するような手法。具体的には、教師モデルのQKVと生徒モデルのQKVによって構成されるそれぞれのrelation map間のKL Divergenceを最小化するように蒸留する。このとき教師モデルと生徒モデルのattention heads数などは異なってもよい（q-q/k-k/v-vそれぞれで定義されるrelation mapははトークン数に依存しており、head数には依存していないため）。

[Paper Note] Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer, Greg Yang+, NeurIPS'21

Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #NLP #LanguageModel #NeurIPS #read-later #ZeroshotHyperparameterTransfer #One-Line Notes Issue Date: 2025-08-28 GPT Summary- ハイパーパラメータチューニングは高コストであり、特に大規模なニューラルネットワークにおいて負担が大きい。新たに提案するmuTransferは、最大更新パラメータ化（muP）を利用し、小さなモデルでチューニングしたHPをフルサイズモデルにゼロショットで転送する手法である。実験により、1300万パラメータのモデルからBERT-largeを超える性能を達成し、4000万パラメータからはGPT-3を上回る結果を得た。チューニングコストはそれぞれ事前学習コストの同等または7%に抑えられた。 Comment

openreview: https://openreview.net/forum?id=Bx6qKuBM2AD

小規模なモデルに対してハイパーパラメータのチューニングを実施し、同様のベースモデルで、**各layerのwidthが大きいもの**に対しても、小規模モデルで最適であったハイパーパラメータをzero-shotで転移することで near optimalなハイパーパラメータで学習できるmu Transferを提案。

モデルの深さ（以外にも下表中の*印のパラメータ）に対しても限定的に転移可能な模様。Post-Layer NormのTransformerやではあまりうまくいかないことが11節に記述されている（実験はpre-Layer Norm Transformer, ResNetに対して行われている模様）。
また、6.1節では、（実験的に）利用する小規模モデルのスケールとして幅256, 深さ4, バッチサイズ32, sequence長128, 訓練ステップ数5000を最低満たしており、かつスケールさせる幅が妥当な範囲内である必要がある、といった話が記述されている。

前提知識（muP）や条件が多そうな気がするので、しっかり確認した方がよさそう。
たとえば、muPで初期化されている必要があることや、転送可能なハイパーパラメータに限りがある（e.g. 学習率）、異なるデータに対するfinetuningなどは転送できないなど。

muP:
- [Paper Note] Feature Learning in Infinite-Width Neural Networks, Greg Yang+, ICML'21

[Paper Note] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, Alexey Dosovitskiy+, ICLR'21

Paper/Blog Link My Issue
#ComputerVision #ICLR #Selected Papers/Blogs #Backbone Issue Date: 2025-08-25 GPT Summary- 純粋なトランスフォーマーを画像パッチのシーケンスに直接適用することで、CNNへの依存なしに画像分類タスクで優れた性能を発揮できることを示す。大量のデータで事前学習し、複数の画像認識ベンチマークで最先端のCNNと比較して優れた結果を達成し、計算リソースを大幅に削減。 Comment

openreview: https://openreview.net/forum?id=YicbFdNTTy

ViTを提案した研究

[Paper Note] Swin Transformer V2: Scaling Up Capacity and Resolution, Ze Liu+, arXiv'21

Paper/Blog Link My Issue
#ComputerVision #Pretraining #Architecture #Backbone Issue Date: 2025-07-19 GPT Summary- 本論文では、大規模ビジョンモデルのトレーニングと応用における課題に対処するための3つの技術を提案。具体的には、トレーニングの安定性向上のための残差後正規化法、低解像度から高解像度への転送を可能にする位置バイアス法、ラベル付きデータの必要性を減少させる自己教師あり学習法を用いる。これにより、30億パラメータのSwin Transformer V2モデルをトレーニングし、複数のビジョンタスクで新記録を樹立。トレーニング効率も向上し、ラベル付きデータと時間を大幅に削減。

[Paper Note] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows, Ze Liu+, ICCV'21

Paper/Blog Link My Issue
#ComputerVision #Attention #Architecture #Selected Papers/Blogs #ICCV #Backbone #One-Line Notes Issue Date: 2025-07-19 GPT Summary- Swin Transformerは、コンピュータビジョンの新しいバックボーンとして機能する階層的トランスフォーマーを提案。シフトウィンドウ方式により、効率的な自己注意計算を実現し、さまざまなスケールでのモデリングが可能。画像分類や物体検出、セマンティックセグメンテーションなどで従来の最先端を上回る性能を示し、トランスフォーマーのビジョンバックボーンとしての可能性を示唆。コードは公開されている。 Comment

日本語解説: https://qiita.com/m_sugimura/items/139b182ee7c19c83e70a

画像処理において、物体の異なるスケールや、解像度に対処するために、PatchMergeと呼ばれるプーリングのような処理 (Figure1) と、固定サイズのローカルなwindowに分割してSelf-Attentionを実施し、layerごとに通常のwindowとシフトされたwindowを適用することで、window間を跨いだ関係性も考慮できるようにする機構(Figure2)を導入したモデル。

[Paper Note] Transformer Feed-Forward Layers Are Key-Value Memories, Mor Geva+, EMNLP'21

Paper/Blog Link My Issue
#Analysis #NLP #EMNLP #Selected Papers/Blogs #FactualKnowledge Issue Date: 2025-07-04 GPT Summary- フィードフォワード層はトランスフォーマーモデルの大部分を占めるが、その役割は未探求。研究により、フィードフォワード層がキー・バリュー・メモリとして機能し、トレーニング例のテキストパターンと相関することを示す。実験で、下層は浅いパターン、上層は意味的なパターンを学習し、バリューが出力分布を誘導することが確認された。最終的に、フィードフォワード層の出力はメモリの合成であり、残差接続を通じて洗練される。 Comment

日本語解説（p.5より）: https://speakerdeck.com/kogoro/knowledge-neurons-in-pretrained-transformers-for-snlp2022?slide=5

[Paper Note] Transformer Feed-Forward Layers Are Key-Value Memories, Mor Geva+, N_A, EMNLP'21

Paper/Blog Link My Issue
#Analysis #NLP Issue Date: 2024-07-11 GPT Summary- トランスフォーマーモデルのフィードフォワード層は、キー・バリューメモリとして機能し、学習されたパターンが人間に解釈可能であることや、上位層がより意味のあるパターンを学習することが示されました。さらに、出力分布を誘導する役割も持ちます。フィードフォワード層の出力はそのメモリの合成であり、残差接続を介してモデルの層を通じて洗練され、最終的な出力分布を生成します。 Comment

大規模言語モデルにおいて､「知識は全結合層に蓄積される」という仮説についての文献調査

FF layerがKey-Valueストアとして機能する仕組みの概略図

実際に特定のKeyと最も関連度が高い訓練事例（input）を抽出し、人間がinputのパターンを分類した結果

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision, Wonjae Kim+, N_A, ICML'21

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Pretraining #NLP #LanguageModel #MultiModal Issue Date: 2023-08-22 GPT Summary- VLP（Vision-and-Language Pre-training）のアプローチは、ビジョンと言語のタスクでのパフォーマンスを向上させているが、現在の方法は効率性と表現力の面で問題がある。そこで、本研究では畳み込みフリーのビジョンと言語のトランスフォーマ（ViLT）モデルを提案する。ViLTは高速でありながら競争力のあるパフォーマンスを示し、コードと事前学習済みの重みはGitHubで利用可能である。 Comment

日本語解説: https://tech.fusic.co.jp/posts/2021-12-29-vilt/

SAINT+: Integrating Temporal Features for EdNet Correctness Prediction, Shin+, RiiiD AI Research, LAK'21

Paper/Blog Link My Issue
#NeuralNetwork #AdaptiveLearning #EducationalDataMining #StudentPerformancePrediction #LAK #Selected Papers/Blogs #One-Line Notes Issue Date: 2021-10-28 Comment

Student Performance PredictionにTransformerを初めて利用した研究

[Paper Note] Big Bird: Transformers for Longer Sequences, Manzil Zaheer+, NIPS'20, 2020.07

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Attention #LongSequence #NeurIPS #Sparse #SparseAttention Issue Date: 2025-11-30 GPT Summary- BigBirdは、Transformersモデルのシーケンス長に対する二次的依存性を線形に削減するスパース注意メカニズムを提案。これにより、長いシーケンスを最大8倍処理可能となり、質問応答や要約などのNLPタスクでの性能が向上。さらに、ゲノムデータへの新たな応用も示唆。 Comment

日本語解説: https://www.docswell.com/s/DeepLearning2023/KVV8VP-dlvisual-grounding-of-learned-physical-models-238500048

[Paper Note] Query-Key Normalization for Transformers, Alex Henry+, EMNLP'20 Findings

Paper/Blog Link My Issue
#MachineTranslation #EMNLP #Normalization #Findings Issue Date: 2025-08-16 GPT Summary- 低リソース言語翻訳において、QKNormという新しい正規化手法を提案。これは、注意メカニズムを修正し、ソフトマックス関数の飽和耐性を向上させつつ表現力を維持。具体的には、クエリとキー行列に対して$\ell_2$正規化を適用し、学習可能なパラメータでスケールアップ。TED TalksコーパスとIWSLT'15の低リソース翻訳ペアで平均0.928 BLEUの改善を達成。 Comment

QKに対してL2正規化を実施し、learnableなスカラー値を乗じることでスケーリングすることで、low resourceな言語での翻訳性能が向上。MTで実験されているが、transformerの表現力が改善されるのでGLM-4.5のアーキテクチャでも採用されている。

dot product attentionでは内積を利用するため値域に制約がなく、ある単語にのみattention scoreが集中してしまい、他の全ての単語のsignalをかき消してしまう問題がある。このため、QKをノルムによって正規化し（これにより実質QKはcosine similarityとなる）値域を制限する。しかしこうすると今度はスコア間の差が小さすぎて、attendしなくても良い単語を無視できなくなるので、learnableなパラメータでスケールを調整する。

[Paper Note] Longformer: The Long-Document Transformer, Iz Beltagy+, arXiv'20

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Attention #One-Line Notes #Sparse #SparseAttention Issue Date: 2025-08-09 GPT Summary- Longformerは、長いシーケンスを線形に処理できる注意機構を持つTransformerベースのモデルで、数千トークンの文書を扱える。局所的なウィンドウ注意とタスクに基づくグローバル注意を組み合わせ、文字レベルの言語モデリングで最先端の結果を達成。事前学習とファインチューニングを行い、長文タスクでRoBERTaを上回る性能を示した。また、Longformer-Encoder-Decoder（LED）を導入し、長文生成タスクにおける効果を確認した。 Comment

（固定された小さめのwindowsサイズの中でのみattentionを計算する）sliding window attentionを提案。Figure2を見ると、通常のAttentionと比較して、現在のトークンの周辺のトークンにしか注目しない特性が図示されており、イメージが掴みやすい。

OpenLLMの文脈だと、Mistralに採用されて話題になったかも？
- Mistral 7B, Albert Q. Jiang+, N/A, arXiv'23

[Paper Note] Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention, Angelos Katharopoulos+, ICML'20

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Attention #ICML #Selected Papers/Blogs #RecurrentModels #LinearAttention Issue Date: 2025-08-05 GPT Summary- 自己注意をカーネル特徴マップの線形ドット積として表現することで、Transformersの複雑性を$\mathcal{O}\left(N^2\right)$から$\mathcal{O}\left(N\right)$に削減。これにより、自己回帰型Transformersの速度が最大4000倍向上し、従来のパフォーマンスを維持。 Comment

pj page: https://linear-transformers.com

[Paper Note] Reformer: The Efficient Transformer, Nikita Kitaev+, ICLR'20

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Attention #ICLR #Sparse #SparseAttention Issue Date: 2025-08-05 GPT Summary- 本研究では、トランスフォーマーモデルの効率を向上させるために、局所感度ハッシュを用いた注意機構と可逆残差層を提案。これにより、計算量をO($L^2$)からO($L\log L$)に削減し、メモリ効率と速度を向上させたReformerモデルを実現。トランスフォーマーと同等の性能を維持。 Comment

openreview: https://openreview.net/forum?id=rkgNKkHtvB

[Paper Note] Linformer: Self-Attention with Linear Complexity, Sinong Wang+, arXiv'20

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Attention Issue Date: 2025-08-05 GPT Summary- 大規模トランスフォーマーモデルは自然言語処理で成功を収めているが、長いシーケンスに対しては高コスト。自己注意メカニズムを低ランク行列で近似し、複雑さを$O(n^2)$から$O(n)$に削減する新しいメカニズムを提案。これにより、メモリと時間効率が向上した線形トランスフォーマー「Linformer」が標準モデルと同等の性能を示す。

[Paper Note] On Layer Normalization in the Transformer Architecture, Ruibin Xiong+, arXiv'20

Paper/Blog Link My Issue
#Analysis #NLP #Normalization #Encoder-Decoder Issue Date: 2025-07-05 GPT Summary- 本論文では、Transformerの学習率のウォームアップ段階の重要性を理論的に研究し、レイヤー正規化の位置が訓練の安定性に与える影響を示す。特に、Post-LN Transformerでは大きな勾配が不安定さを引き起こすため、ウォームアップが有効である一方、Pre-LN Transformerでは勾配が良好に振る舞うため、ウォームアップを省略できることを示す。実験により、ウォームアップなしのPre-LN Transformerがベースラインと同等の結果を達成し、訓練時間とハイパーパラメータの調整が削減できることを確認した。 Comment

OpenReview: https://openreview.net/forum?id=B1x8anVFPr

Encoder-DecoderのTransformerにおいて、Post-LNの場合は、Warmupを無くすと最終的な性能が悪化し、またWarmUpステップの値によって（500 vs. 4000で実験)も最終的な性能が変化する。これには学習時にハイパーパラメータをしっかり探索しなければならず、WarmUPを大きくすると学習効率が落ちるというデメリットがある。

Post-LNの場合は、Pre-LNと比較して勾配が大きく、Warmupのスケジュールをしっかり設計しないと大きな勾配に対して大きな学習率が適用され学習が不安定になる。これは学習率を非常に小さくし、固定値を使うことで解決できるが、収束が非常に遅くなるというデメリットがある。

一方、Pre-LNはWarmup無しでも、高い性能が達成でき、上記のようなチューニングの手間や学習効率の観点から利点がある、みたいな話の模様。

[Paper Note] GLU Variants Improve Transformer, Noam Shazeer, arXiv'20, 2020.02

Paper/Blog Link My Issue
#NeuralNetwork #NLP #LanguageModel #Selected Papers/Blogs #ActivationFunction Issue Date: 2024-05-24 GPT Summary- Gated Linear Units（GLU）のバリエーションにより、異なる非線形または線形関数を使用し、Transformerモデルのフィードフォワードサブレイヤーでテストしました。いくつかのバリエーションは、一般的なReLUやGELUよりも優れた性能を示しました。 Comment

一般的なFFNでは、linear layerをかけた後に、何らかの活性化関数をかませる方法が主流である。
このような構造の一つとしてGLUがあるが、linear layerと活性化関数には改良の余地があり、様々なvariantが考えられるため、色々試しました（以下の8種類のvariantが提案されている）、というはなし。

オリジナルのGLUと比較して、T5と同じ事前学習タスクを実施したところ、perplexityが改善

また、finetuningをした場合の性能も、多くの場合オリジナルのGLUよりも高い性能を示した。

[Paper Note] Leveraging Pre-trained Checkpoints for Sequence Generation Tasks, Sascha Rothe+, TACL'20, 2019.07

Paper/Blog Link My Issue
#DocumentSummarization #NeuralNetwork #MachineTranslation #NLP #pretrained-LM #TACL #Encoder #Encoder-Decoder #KeyPoint Notes Issue Date: 2022-12-01 GPT Summary- 事前学習された大規模なニューラルモデルがシーケンス生成においても有効であることを示し、BERT、GPT-2、RoBERTaと互換性のあるTransformerベースのモデルを開発。これにより、機械翻訳やテキスト要約などのタスクで新たな最先端の成果を達成。 Comment

# 概要

BERT-to-BERT論文。これまでpre-trainedなチェックポイントを利用する研究は主にNLUで行われてきており、Seq2Seqでは行われてきていなかったので、やりました、という話。

publicly availableなBERTのcheckpointを利用し、BERTをencoder, decoder両方に採用することでSeq2Seqを実現。実現する上で、

1. decoder側のBERTはautoregressiveな生成をするようにする（左側のトークンのattentionしか見れないようにする）

2. encoder-decoder attentionを新たに導入する

の2点を工夫している。

# 実験

Sentence Fusion, Sentence Split, Machine Translation, Summarizationの4タスクで実験

## MT

BERT2BERTがSoTA達成。Edunov+の手法は、data _augmentationを利用した手法であり、純粋なWMT14データを使った中ではSoTAだと主張。特にEncoder側でBERTを使うと、Randomにinitializeした場合と比べて性能が顕著に上昇しており、その重要性を主張。

Sentence Fusion, Sentence Splitでは、encoderとdecoderのパラメータをshareするのが良かったが、MTでは有効ではなかった。これはMTではmodelのcapacityが非常に重要である点、encoderとdecoderで異なる文法を扱うためであると考えられる。

## Summarization

BERTSHARE, ROBERTASHAREの結果が良かった。

[Paper Note] Text-to-Text Pre-Training for Data-to-Text Tasks, Mihir+, Google Research, INLG'20

Paper/Blog Link My Issue
#NeuralNetwork #NaturalLanguageGeneration #NLP #DataToTextGeneration #INLG #KeyPoint Notes Issue Date: 2022-09-16 Comment

# 概要

pre-training済みのT5に対して、Data2Textのデータセットでfinetuningを実施する方法を提案。WebNLG（graph-to-text）, ToTTo（table-to-text）, Multiwoz（task oriented dialogue）データにおいて、simpleなTransformerでも洗練されたmulti-stageなpipelined approachをoutperformできることを示した研究。

# 手法

事前学習済みのT5に対してfine-tuningを実施した。手法はシンプルで、data-to-textタスクをtext-to-textタスクに変換した。具体的には、構造かされたデータをflatな文字列（linearization）で表現することで、text-to-textタスクに変換。各データセットに対するlinearizationのイメージは下図。デリミタや特殊文字を使って構造かされたデータをflatなstringで表現している。

# データセット

## ToTTo（2020）

Wikipediaのテーブルと自然言語でdescriptionのペアデータ

## MultiWoz（2018）

10Kの人間同士のtask-orientedなdialogueデータ。

## WebNLG（2017）

subject-object-predicateの3組みをテキスト表現に変換するタスクのデータ

# Result

## WebNLG

GCNを利用した2020年に提案されたDualEncがSoTAだったらしいが、outperormしている。

## ToTTo

[こちら]( https://github.com/google-research-datasets/totto)のリーダーボードと比較してSoTAを記録

## MultiWoz

T5は事前学習済みGPT-2をfinetuningした手法もoutperformした。SC-GPT2は当時のMultiWozでのSoTA

# Impact of Model capacity

T5モデルのサイズがどれが良いかについては、データセットのサイズと複雑さに依存することを考察している。たとえば、MultiWozデータは構造化データのバリエーションが最も少なく、データ量も56kと比較的多かった。このため、T5-smallでもより大きいモデルの性能に肉薄できている。

一方、WebNLGデータセットは、18kしか事例がなく、特徴量も約200種類程度のrelationのみである。このような場合、モデルサイズが大きくなるにつれパフォーマンスも向上した（特にUnseen test set）。特にBLEUスコアはT5-smallがT5-baseになると、10ポイントもジャンプしており、modelのcapacityがout-of-domainに対する一般化に対してcriticalであることがわかる。ToTToデータセットでも、SmallからBaseにするとパフォーマンスは改善した。

# 所感

こんな簡単なfine-tuningでSoTAを達成できてしまうとは、末恐ろしい。ベースラインとして有用。

Deep Knowledge Tracing with Transformers, Shi+ （w_ Michael Yudelson）, ETS_ACT, AIED'20

Paper/Blog Link My Issue
#AdaptiveLearning #KnowledgeTracing #AIED #One-Line Notes Issue Date: 2022-08-17 Comment

TransformerでKTした研究。あまり引用されていない。SAINT, SAINT+と同時期に発表されている。

[Paper Note] CTRL: A Conditional Transformer Language Model for Controllable Generation, Nitish Shirish Keskar+, arXiv'19, 2019.09

Paper/Blog Link My Issue
#NaturalLanguageGeneration #Controllable #NLP #LanguageModel #Selected Papers/Blogs #Decoder Issue Date: 2026-01-16 GPT Summary- CTRLは、スタイルや内容、タスク特有の振る舞いを制御するコードに基づいて訓練された条件付きトランスフォーマー言語モデルで、1.63億パラメータを持つ。このモデルは、無監督学習の利点を生かしつつ、テキスト生成に対する明示的な制御を提供。CTRLは与えられたシーケンスに基づいて最も可能性のあるトレーニングデータを予測でき、データ分析の新たなアプローチを提示する。また、複数の事前訓練済みバージョンが公開されている。 Comment

Control Code（いわゆるタグ）によって条件付けることで生成されるテキストのスタイルや内容等をcontrollableにする研究の先駆け

[Paper Note] Generating Long Sequences with Sparse Transformers, Rewon Child+, arXiv'19, 2019.04

Paper/Blog Link My Issue
#ComputerVision #LongSequence #Selected Papers/Blogs #One-Line Notes #SparseAttention Issue Date: 2025-11-30 GPT Summary- スパース因子分解を用いてトランスフォーマーの注意行列を$O(n \sqrt{n})$に削減し、深いネットワークの訓練やメモリ節約のための手法を導入。スパーストランスフォーマーは数百層で数万タイムステップのシーケンスをモデル化し、Enwik8、CIFAR-10、ImageNet-64で新たな最先端を達成。自己注意を用いて100万以上の長さのシーケンスをモデル化する可能性を示す。 Comment

Sparse Attentionの概念を提案した研究。以下Surveyより
- [Paper Note] Generating Long Sequences with Sparse Transformers, Rewon Child+, arXiv'19, 2019.04

[Paper Note] Universal Transformers, Mostafa Dehghani+, ICLR'19

Paper/Blog Link My Issue
#NLP #Architecture #ICLR #Generalization #RecurrentModels Issue Date: 2025-08-30 GPT Summary- 再帰神経ネットワーク（RNN）は逐次処理によりシーケンスモデリングで広く使われてきたが、トレーニングが遅くなる欠点がある。最近のフィードフォワードや畳み込みアーキテクチャは並列処理が可能で優れた結果を出しているが、RNNが得意とする単純なタスクでの一般化には失敗する。そこで、我々はユニバーサル・トランスフォーマー（UT）を提案し、フィードフォワードの並列処理能力とRNNの帰納バイアスを組み合わせたモデルを開発した。UTは特定の条件下でチューリング完全であり、実験では標準的なトランスフォーマーを上回る性能を示し、特にLAMBADAタスクで新たな最先端を達成し、機械翻訳でもBLEUスコアを改善した。 Comment

openreview: https://openreview.net/forum?id=HyzdRiR9Y7

[Paper Note] Supervised Multimodal Bitransformers for Classifying Images and Text, Douwe Kiela+, arXiv'19

Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal #Architecture Issue Date: 2025-08-21 GPT Summary- テキストと画像情報を融合する監視型マルチモーダルビットランスフォーマーモデルを提案し、さまざまなマルチモーダル分類タスクで最先端の性能を達成。特に、難易度の高いテストセットでも強力なベースラインを上回る結果を得た。 Comment

テキスト+imageを用いるシンプルなtransformer

[Paper Note] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context, Zihang Dai+, ACL'19

Paper/Blog Link My Issue
#EfficiencyImprovement #Attention #LongSequence #PositionalEncoding #ACL #One-Line Notes Issue Date: 2025-08-05 GPT Summary- Transformer-XLは、固定長のコンテキストを超えた長期的な依存関係を学習する新しいニューラルアーキテクチャで、セグメントレベルの再帰メカニズムと新しい位置エンコーディングを採用。これにより、RNNより80%、従来のTransformersより450%長い依存関係を学習し、評価時には最大1,800倍の速度向上を実現。enwiki8やWikiText-103などで最先端のパフォーマンスを達成し、数千トークンの一貫したテキスト生成も可能。コードとモデルはTensorflowとPyTorchで利用可能。 Comment

日本語解説:
- 事前学習言語モデルの動向 / Survey of Pretrained Language Models, Kyosuke Nishida, 2019

3.2節の定式化を見ると、一つ前のセグメントのトークン・layerごとのhidden stateを、現在のセグメントの対応するトークンとlayerのhidden stateにconcatし（過去のセグメントに影響を与えないように勾配を伝搬させないStop-Gradientを適用する）、QKVのうち、KVの計算に活用している。また、絶対位置エンコーディングを利用するとモデルがセグメント間の時系列的な関係を認識できなくなるため、位置エンコーディングには相対位置エンコーディングを利用する。これにより、現在のセグメントのKVが一つ前のセグメントによって条件づけられ、contextとして考慮することが可能となり、セグメント間を跨いだ依存関係の考慮が実現される。

What Does BERT Learn about the Structure of Language?, Jawahar+, ACL'19

Paper/Blog Link My Issue
#Analysis #NLP Issue Date: 2024-10-07 GPT Summary- BERTは言語理解において優れた成果を上げており、本研究ではその言語構造の要素を解明する実験を行った。主な発見は、フレーズ表現がフレーズレベルの情報を捉え、中間層が構文的および意味的特徴の階層を形成し、長期依存性の問題に対処するために深い層が必要であること、さらにBERTの構成が古典的な木構造に類似していることを示している。 Comment

大規模言語モデル (LLM) の技術と最新動向, Ikuya Yamada, 2024.06 中で引用されている。Transformerの各ブロックが、何を学習しているかを分析。

[Paper Note] Fast Transformer Decoding: One Write-Head is All You Need, Noam Shazeer, arXiv'19, 2019.11

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Attention Issue Date: 2024-04-07 GPT Summary- マルチヘッド注意層はTransformerモデルで情報を並列処理するが、逐次推論ではメモリコストが問題となる。これに対処するため、全ての注意ヘッドでキーとバリューを共有する「マルチクエリ注意」を提案。これによりメモリ使用量が削減され、逐次デコーディングが高速化されることが実験で確認された。 Comment

**※ 以前のメモでは "Queryを単一にする" と記述していましたが、完全に誤りでした。**

Multi Query Attention論文。Multi-Head Attentionにおける **KVを全てのhead間で共有する（つまりKV Cacheの量が1/num_headになる）** することで代替する。劇的にDecoderのInferenceが早くなりメモリ使用量が減る。論文中では言及されていない？ようだが、後続の研究で性能と学習の安定性が課題が指摘されているようである。

[Paper Note] Self-Attention with Relative Position Representations, Peter Shaw+, NAACL'18

Paper/Blog Link My Issue
#NLP #Attention #PositionalEncoding Issue Date: 2025-08-09 GPT Summary- 本研究では、Transformerの自己注意機構を拡張し、シーケンス要素間の相対的な位置を効率的に考慮する新しいアプローチを提案。WMT 2014の翻訳タスクで1.3 BLEUおよび0.3 BLEUの改善を達成。相対位置と絶対位置の組み合わせではさらなる改善は見られなかった。提案手法は、任意のグラフラベル付き入力に一般化可能な関係認識自己注意機構として位置付けられる。 Comment

相対位置エンコーディングを提案した研究

絶対位置エンコーディングは
- [Paper Note] Attention Is All You Need, Ashish Vaswani+, NeurIPS'17, 2017.07

[Paper Note] Efficient Attention: Attention with Linear Complexities, Zhuoran Shen+, arXiv'18

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #Attention Issue Date: 2025-08-05 GPT Summary- 新しい効率的なアテンションメカニズムを提案し、ドット積アテンションと同等の性能を維持しつつ、メモリと計算コストを大幅に削減。これにより、アテンションモジュールの柔軟な統合が可能となり、精度向上を実現。実験結果では、MS-COCO 2017での物体検出やインスタンスセグメンテーションでの性能向上が確認され、Scene Flowデータセットでは最先端の精度を達成。コードは公開されている。 Comment

Figure1を見るとコンセプトが一目でわかり、非常にわかりやすい

[Paper Note] Self-Attentive Sequential Recommendation, Wang-Cheng Kang+, ICDM'18

Paper/Blog Link My Issue
#RecommenderSystems #SequentialRecommendation #ICDM #Selected Papers/Blogs Issue Date: 2025-07-04 GPT Summary- 自己注意に基づく逐次モデル（SASRec）を提案し、マルコフ連鎖と再帰型ニューラルネットワークの利点を統合。SASRecは、少数のアクションから次のアイテムを予測し、スパースおよび密なデータセットで最先端のモデルを上回る性能を示す。モデルの効率性と注意重みの視覚化により、データセットの密度に応じた適応的な処理が可能であることが確認された。

[Paper Note] Attention Is All You Need, Ashish Vaswani+, NeurIPS'17, 2017.07

Paper/Blog Link My Issue
#NeuralNetwork #MachineTranslation #NLP #FoundationModel #Attention #PositionalEncoding #NeurIPS #Normalization #Selected Papers/Blogs #KeyPoint Notes #Reference Collection Issue Date: 2018-01-19 GPT Summary- Transformerは、再帰や畳み込みを排除し、注意機構のみに基づいた新しいネットワークアーキテクチャである。実験により、機械翻訳タスクで優れた品質を示し、トレーニング時間を大幅に短縮。WMT 2014の英独翻訳で28.4 BLEU、英仏翻訳で41.8 BLEUを達成し、既存モデルを上回る性能を示した。また、英語の構文解析にも成功裏に適用可能であることを示した。 Comment

Transformer (self-attentionを利用) 論文

解説スライド： https://www.slideshare.net/DeepLearningJP2016/dlattention-is-all-you-need

解説記事： https://qiita.com/nishiba/items/1c99bc7ddcb2d62667c6

* 新しい翻訳モデル(Transformer)を提案。既存のモデルよりも並列化に対応しており、短時間の訓練で（既存モデルの1/4以下のコスト）高いBLEUスコアを達成した。

* TransformerはRNNやCNNを使わず、attentionメカニズムに基づいている。

（解説より）

分かりやすい:
https://qiita.com/halhorn/items/c91497522be27bde17ce

Transformerの各コンポーネントでのoutputのshapeや、attention_maskの形状、実装について記述されており有用:
https://qiita.com/FuwaraMiyasaki/items/239f3528053889847825

集合知

Transformer提案時と最近の動向への流れ

- BPEによるOOVの防止
- その後sentencepieceによる真の多言語化の実現
- Positional Encodingの提案
- 本稿はSinusoidal PE（絶対位置エンコーディング）で提案され、その後相対位置エンコーディング / RoPE / NoPE などの変種が登場
- Residual Connectionによる勾配爆発・消失の低減による深いモデル化
- 最近はHyperConnection等のResidual Streamの改善が進む
- Scaled dot product attention（のsqrt(d)での除算）によるノルム肥大化の防止
- Multi-head-attentionによるトークン間の多様な関係性のモデル化
- トークン間を跨いだ情報のmixing
- FFNによるトークン内での情報のmixing
- O(n^2)によるボトルネックを改善するために Sparse Attention / Linear Attention 等のより計算量が小さい手法へ進展
- また、実装上の工夫としてFlash Attentionが標準に
- Layer Normalizationによる正規化（内部共変量シフト防止）による学習の安定化
- 本稿ではPostLN
- その後Pre-LNの方が性能は落ちるが学習が安定するため主流となり、現在またPost-LNが再考されている
- また、現在はLayerNormalizationではなくRMSNormを使用する傾向がある
- 本稿ではRNNと比較して並列計算可能なEncoder-Decoderアーキテクチャとして提案されMTで評価
- Decoder側ではCausal Maskの導入によるleakの防止
- その後、Decoder-only Model として現在のLLMの基盤に
- 実装上の工夫としてKV Cacheによる生成の高速化

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift, Sergey Ioffe+, ICML'15

Paper/Blog Link My Issue
#MachineLearning #LanguageModel #ICML #Normalization #Selected Papers/Blogs Issue Date: 2025-04-02 GPT Summary- バッチ正規化を用いることで、深層ニューラルネットワークのトレーニングにおける内部共変量シフトの問題を解決し、高い学習率を可能にし、初期化の注意を軽減。これにより、同じ精度を14倍少ないトレーニングステップで達成し、ImageNet分類で最良の公表結果を4.9%改善。 Comment

メモってなかったので今更ながら追加した

共変量シフトやBatch Normalizationの説明は
- [Paper Note] Layer Normalization, Ba+, arXiv'16, 2016.07

記載のスライドが分かりやすい。

FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling, together.ai, 2026.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #Attention #Chip #read-later #Selected Papers/Blogs #GPUKernel #Initial Impression Notes Issue Date: 2026-03-06 Comment

元ポスト:

Loading…

AdderBoard, anadim, 2026.02

Paper/Blog Link My Issue
#Article #MachineLearning #Repository #Mathematics #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2026-02-28 Comment

10桁の加算を実現するtransformerを実現するレースが実施されている模様。もともとはClaude Code, Codexがそれぞれ6k, 1.6kパラメータからスタートしたところ、現在は人間が（おそらく重みを）手書きした139 params, 学習によって実現された311 paramsまで効率化が進んでいる模様。

ルールは
- self-attention-basedなDecoder-only transformerを利用すること
- 10Kのheld out セットにおいて>=99%以上のAccを実現すること
- アルゴリズムのハードコーディングは不可

という感じな模様。

>Self-attention is required. The model must contain at least one self-attention layer. This is the defining feature of a transformer — without it, you have an MLP or RNN, not a transformer.

と書かれているので、linear attentionは実質RNNのようなものなので、linear attentionのような亜種はおそらく不可であり、オリジナルで提案されているself-attentionが必要そうである。

Ming-flash-omni-2.0, inclusionAI, 2026.02

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #SpeechProcessing #DiffusionModel #Speech #OpenWeight #MoE(Mixture-of-Experts) #2D (Image) #Omni #text Issue Date: 2026-02-12 Comment

元ポスト:

Loading…

公式ポスト:

Loading…

Waypoint-1: Real-time Interactive Video Diffusion from Overworld, Overworld, 2026.01

Paper/Blog Link My Issue
#Article #ComputerVision #Controllable #NLP #MultiModal #DiffusionModel #OpenWeight #WorldModels #interactive #4D (Video) #One-Line Notes #RectifiedFlow #Realtime Issue Date: 2026-01-22 Comment

blog: https://over.world/blog/the-path-to-real-time-worlds-and-why-it-matters
pj page: https://over.world/

元ポスト:

Loading…

リアルタイムにzero latencyでマウス（カメラも自由に動かせる）、キーボード、テキストでinteraction可能なworld model

LongCat-Video-Avatar, meituan-longcat, 2025.12

Paper/Blog Link My Issue
#Article #ComputerVision #DiffusionModel #VariationalAutoEncoder #OpenWeight #VideoGeneration/Understandings #3D (Scene) #One-Line Notes #Audio-Text-to-Video #Audio-Text-Image-to-Video #Video Continuation Issue Date: 2025-12-17 Comment

元ポスト:

Loading…

アーキテクチャはDiTベースのDiffusion Modelで、3D Variational AutoencoderによってEncode/Decodeされ、3D RoPEによって位置情報が埋め込まれる。DiT Blockでは、テキストとaudio用のcross attentionが用いられてこれらのモーダルに関する情報が組み込まれる。audioはWav2Vecでエンコードされ、テキストはUMT5[^1]によってエンコードされる。

[^1]: multilingualなT5で100言語以上がサポートされている模様

Improved accuracy in Smart Turn v3.1, Daily, 2025.12

Paper/Blog Link My Issue
#Article #NeuralNetwork #AIAgents #SpeechProcessing #Blog #MultiLingual #OpenWeight #OpenSource #One-Line Notes #VAD Issue Date: 2025-12-04 Comment

dataset: https://huggingface.co/pipecat-ai
code: https://github.com/pipecat-ai/smart-turn
model: https://huggingface.co/pipecat-ai/smart-turn-v3

オープンソースのVoice Activity Detection (VAD)モデル。本ブログのv3.1では、TTSデータだけでなく英語とスペイン語の人間によるaudio sampleも追加し学習し性能向上。23言語をサポートし、Accuracyは90%以上を達成。数msでのリアルタイムなlatencyを達成できる。

バックボーンはWhisper Tiny encoderで、headとしてshallow linear classifiesを利用しているとのこと。

Whisper:
- [Paper Note] Robust Speech Recognition via Large-Scale Weak Supervision, Alec Radford+, ICML'23, 2022.12

Hunyuan Video 1.5 Technical Report, Tencent, 2025.11

Paper/Blog Link My Issue
#Article #ComputerVision #DiffusionModel #OpenWeight #VideoGeneration/Understandings Issue Date: 2025-11-21 Comment

pj page: https://hunyuan.tencent.com/video/zh?tabIndex=0
HF: https://huggingface.co/tencent/HunyuanVideo-1.5

元ポスト:

Loading…

How to Train a State-of-the-Art Pathology Foundation Model with $1.6k, Kaplan+, 2025.11

Paper/Blog Link My Issue
#Article #ComputerVision #FoundationModel #Medical Issue Date: 2025-11-15 GPT Summary- OpenMidnightは、Midnight病理基盤モデルを再現・改善したもので、12,000枚の全スライド画像を用いて$1.6Kでトレーニングし、複数のベンチマークで最先端の性能を達成。大規模データなしでもトップパフォーマンスが可能であり、トレーニングパイプライン、コード、モデルの重みを公開して研究を促進する。 Comment

HF: https://huggingface.co/SophontAI/OpenMidnight

元ポストより

> The surprising performance of our model points to the challenges of the pathology FM space.
> Performance doesn't seem to scale with compute or dataset size, and for some benchmarks, really simple baselines perform shockingly well.

> In our mind, this indicates both that current models aren't being trained efficiently, and that the current benchmarks are poor.

まだデータセットサイズや計算量に応じてスケールしているようには見えず、現在のモデルが効率的に学習ができてとらず、かつ現在のベンチマークがモデルの性能を適切に測れていないのでは、といった話が記述されている。興味深い。

Omnilingual ASR: Advancing Automatic Speech Recognition for 1,600+ Languages, Meta, 2025.11

Paper/Blog Link My Issue
#Article #SpeechProcessing #MultiLingual #OpenWeight #AutomaticSpeechRecognition(ASR) #Selected Papers/Blogs #AudioLanguageModel Issue Date: 2025-11-12 Comment

paper: https://scontent-nrt1-2.xx.fbcdn.net/v/t39.2365-6/581068541_867604242498398_5662399655411595851_n.pdf?_nc_cat=104&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=roRXUCWwUzgQ7kNvwGfUHdX&_nc_oc=Adk1jwJ3ikYa7-wjyoYuwAWxspuId2sUB5R3ZFF_nob0zB5jE6dql9wPt6OXGp9hJjE&_nc_zt=14&_nc_ht=scontent-nrt1-2.xx&_nc_gid=_HnDT1USFOsMkvlcwznXoQ&oh=00_AfjbS8ajtH_TlDsUoGJIPal9Vq0iq0BL4gKvBSdqHsZ3Sw&oe=6919E35F

Everything About Transformers, Krupa Dave, 2025.10

Paper/Blog Link My Issue
#Article #Tutorial #NLP #Blog #One-Line Notes Issue Date: 2025-10-30 Comment

元ポスト:

Loading…

ざっと見た感じtransformerの基本的な内容の丁寧な解説に見える。literature(RNNや、LSTM、seq2seqなど）、self/cross-attention,LayerNorm, ResidualConnection, PositionalEncodingといった話の基礎が図解付きで説明されている。

LongCat-Video Techcal Report, Meituan LongCat Team, 2025.10

Paper/Blog Link My Issue
#Article #ComputerVision #DiffusionModel #TextToImageGeneration #LongSequence #VariationalAutoEncoder #OpenWeight #VideoGeneration/Understandings Issue Date: 2025-10-26 Comment

元ポスト:

Loading…

HF: https://huggingface.co/meituan-longcat/LongCat-Video

公式ポスト:

Loading…

FlashInfer-Bench: Building the Virtuous Cycle for AI-driven LLM Systems, FlashInfer Community, 2025.10

Paper/Blog Link My Issue
#Article #NeuralNetwork #MachineLearning #Dataset #AIAgents #Evaluation #SoftwareEngineering #GPUKernel Issue Date: 2025-10-22 Comment

元ポスト:

Loading…

GPUカーネルのエージェントによる自動最適化のためのベンチマークとのこと。

Introducing Stable Diffusion 3.5, StabilityAI, 2024.10

Paper/Blog Link My Issue
#Article #ComputerVision #DiffusionModel #TextToImageGeneration #Blog #OpenWeight #Selected Papers/Blogs Issue Date: 2025-10-10 Comment

SD3.5

IBM Granite 4.0: hyper-efficient, high performance hybrid models for enterprise, IBM, 2025.10

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #LongSequence #SmallModel #OpenWeight #SSM (StateSpaceModel) Issue Date: 2025-10-02 Comment

元ポスト:

Loading…

Mamba2とtransformerのハイブリッドモデルで、比率は9:1とMamba2ブロックが多めらしい。Mamba2の恩恵によりlokg-context時のメモリ使用量が70パーセント削減されるとのこと。

Attention ls Off By One, Evanmiller.org, 2023.07

Paper/Blog Link My Issue
#Article #Tutorial #MachineLearning #NLP #Attention #Blog #AttentionSinks #Selected Papers/Blogs Issue Date: 2025-09-12 Comment

Attention Scoreの計算におけるSoftmax関数はその性質上必ずいずれかのトークンに値を割り振らなければならないが、headがどこにも注意を向けたくない場合に、Softmax関数の性質上そうすることができない。たとえば、headがどのトークンにもスコアを割り振りたくなく、全てのトークンに対して負のlimitをとるような例を考えたときに、headはどこにも注意を向けたくないにもかかわらず、何らかのトークンにスコアは割り振られてしまう。これによって強制的に何らかのトークンに注意を向けざるを得なくなるが、本来はこのような場合はどこにも注意を向けないような挙動ができるようになるべきである。それを改善するために、ソフトマックス関数の分母に1を加えるシンプルな修正を加えた関数Softmax_1を提案しており、ソフトマックス関数の出力ベクトルのスコアの総和が1未満を取れる（言い換えると各スコアが0に近づくことができる）ような修正を提案している。

Attention Sinksと問題意識が同じであり、このブログの二か月後にAttention Sinkを指摘した研究がarXivに投稿される、という時系列に見える。
- Efficient Streaming Language Models with Attention Sinks, Guangxuan Xiao+, ICLR'24

Wan-S2V: Audio-Driven Cinematic Video Generation, Alibaba, 2025.08

Paper/Blog Link My Issue
#Article #ComputerVision #OpenWeight #VideoGeneration/Understandings #Encoder-Decoder Issue Date: 2025-08-27 Comment

元ポスト:

Loading…

RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation, Jiang+, Alibaba, 2025.08

Paper/Blog Link My Issue
#Article #NLP #Blog #VariationalAutoEncoder #OpenWeight #VideoGeneration/Understandings #Robotics #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-08-12 Comment

TL;DRは下記。

> We introduce RynnVLA-001, a vision-language-action model built upon large-scale video generative pre-training.
> - RynnVLA-001 is pretrained on ~12M ego-centric manipulation videos.
> - We unify next-frame prediction and next-action prediction into a single transformer.
> - We train a lightweight VAE to accurately compress action chunks into action embeddings.
> - Our RynnVLA-001 outperforms Pi-0 and GR00T-N1.5, in terms of both real-world task success rate and instruction-following capability.

まず、11.93Mの一人称視点での人間が操作（特に手の操作）をする動画と、244Kのrobotが操作をする動画でTransformerを事前学習する。このとき、actionラベルは一切用いず、pixelの情報から物理世界のダイナミクスを理解させる。続いて、Action Chunks（複数のアクションの少量のかたまり）を、dense embeddingにエンコードするVAEを学習する。チャンクを用いる理由は、ピクセルの変化が微小な場合、同じアクションが連続して予測されてしまいstuckしめしまう現象を防ぐこと、予測の効率が良いからとのこと。これによりVLAは単一のembedding vectorを予測するだけで、一貫性のあるアクション系列にデコードできる。最後に、step1で学習したvideo generationモデルと、step2で学習したVAEによるaction representationを統合する。具体的には、next frame prediction（visual tokenを予測; cross entropy loss）とnext action prediction（action edbeddingを予測する）を統合して学習する。action embeddingはcontinuousなベクトルなので異なるヘッドを用意して学習する（L1 Loss)。inference時はRGBのobservationと、テキストによるinstructionを入力として受け取り、action embeddingを予測する。action edbeddingはVAE decoderに渡され、low levelなaction系列に変換される。robotは予測されたアクションを実行し、observationが変化するのでまた予測する、といったiterationを実施する。visual tokenによる予測は不要なので、計算効率の観点から実施しない。

元ポスト:

Loading…

HF: https://huggingface.co/Alibaba-DAMO-Academy/RynnVLA-001-7B-Base

The Big LLM Architecture Comparison, Sebastian Laschka, 2025.07

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Architecture #Selected Papers/Blogs Issue Date: 2025-08-06 Comment

Qwen3とGPT-OSSの比較はこちら:

Loading…

最新のモデルも含めて内容が更新:

Loading…

DeepSeek V3/R1
- MLA
- MoE

OLMo2
- LayerNorm → RMSNorm
- PreLN → PostNorm (Post RMSNorm)
- ただしオリジナルのtransformerとは異なり、residual connectionの内側にRMSNormが入る
- QK-Norm
- PostNorm + QK-Normによりpost normalizationのアーキテクチャでも学習が安定

Gemma3
- 27B程度の性能がそこそこ良く使いやすいサイズにフォーカス
- Sliding Window Attention / Local Attention
- Gemma2はlocal:global比はり1:1で、window幅は4kだったが、Gemma3は5:1となり、localの比率が5倍になり、window幅も1024となり1/4に
- ablation実験の結果性能の低下はminimumであることが示されている
- GQA
- Pre-RMSNorm + Post-RMSNorm
- これもresidual connectionの内側

あとで書く

【輪講資料】Moshi: a speech-text foundation model for real-time dialogue, Hayato Tsukagoshi, 2025.07

Paper/Blog Link My Issue
#Article #SpeechProcessing #Conversation #Slide #read-later Issue Date: 2025-07-15

Modded-NanoGPT, KellerJordan, 2024.05

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Pretraining #NLP #LanguageModel #Repository #Optimizer #Selected Papers/Blogs #Decoder Issue Date: 2025-07-15 Comment

NanoGPT speedrun

2025年度人工知能学会全国大会チュートリアル講演「深層基盤モデルの数理」, Taiji Suzuki, 2025.05

Paper/Blog Link My Issue
#Article #Tutorial #Pretraining #MachineLearning #NLP #LanguageModel #Chain-of-Thought #In-ContextLearning #Attention #DiffusionModel #SSM (StateSpaceModel) #Scaling Laws #PostTraining Issue Date: 2025-05-31 Comment

元ポスト:

Loading…

Datadog_Toto-Open-Base-1.0, Datadog, 2025.05

Paper/Blog Link My Issue
#Article #TimeSeriesDataProcessing #MachineLearning #FoundationModel #OpenWeight Issue Date: 2025-05-25 Comment

元ポスト:

Loading…

（あとでコメント追記する

Nemotron-H: A Family of Accurate, Efficient Hybrid Mamba-Transformer Models, Nvidia, 2025.03

Paper/Blog Link My Issue
#Article #ComputerVision #EfficiencyImprovement #Pretraining #NLP #LanguageModel #Supervised-FineTuning (SFT) #MultiModal #Blog #SSM (StateSpaceModel) #Selected Papers/Blogs Issue Date: 2025-03-24 Comment

ModernBERT, AnswerDotAI, 2024.12

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #Library #pretrained-LM Issue Date: 2024-12-20 GPT Summary- ModernBERTは、エンコーダ専用のトランスフォーマーモデルで、従来のBERTに比べて大幅なパレート改善を実現。2兆トークンで訓練され、8192シーケンス長を持ち、分類タスクやリトリーバルで最先端の結果を示す。速度とメモリ効率も優れており、一般的なGPUでの推論に最適化されている。 Comment

最近の進化しまくったTransformer関連のアーキテクチャをEncodnr-OnlyモデルであるBERTに取り込んだら性能上がるし、BERTの方がコスパが良いタスクはたくさんあるよ、系の話、かつその実装だと思われる。
テクニカルペーパー中に記載はないが、評価データと同じタスクでのDecoder-Onlyモデル（SFT有り無し両方）との性能を比較したらどの程度の性能なのだろうか？

そもそも学習データが手元にあって、BERTをFinetuningするだけで十分な性能が出るのなら（BERTはGPU使うのでそもそもxgboostとかでも良いが）、わざわざLLM使う必要ないと思われる。BERTのFinetuningはそこまで時間はかからないし、inferenceも速い。

参考:
- [Paper Note] Prompt2Model: Generating Deployable Models from Natural Language Instructions, Vijay Viswanathan+, EMNLP'23 System Demonstrations, 2023.08

日本語解説: https://zenn.dev/dev_commune/articles/3f5ab431abdea1?utm_source=substack&utm_medium=email

Sohu, etched, 2024.06

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Chip Issue Date: 2024-09-18 Comment

>By burning the transformer architecture into our chip, we can’t run most traditional AI models: the DLRMs powering Instagram ads, protein-folding models like AlphaFold 2, or older image models like Stable Diffusion 2. We can’t run CNNs, RNNs, or LSTMs either.

transformer以外の大抵のモデルでは動作しないが、代わりにH-100よりも20倍早いinferenceを実現できるチップらしい。

>With over 500,000 tokens per second in Llama 70B throughput, Sohu lets you build products impossible on GPUs.

いやいやいやLlama-70Bで0.5M Token/secは早すぎる！！！

[Paper Note] RoFormer: Enhanced Transformer with Rotary Position Embedding, Jianlin Su+, Neurocomputing Vol. 568, 2021.04

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #PositionalEncoding #Selected Papers/Blogs Issue Date: 2024-05-24 GPT Summary- 位置エンコーディングはトランスフォーマーにおいて重要な役割を果たす。本論文では、トランスフォーマーベースのモデルに位置情報を統合する方法を検討し、新しい回転位置埋め込み（RoPE）を提案。RoPEは絶対位置を回転行列でエンコードし、相対位置依存性を組み込むことで、シーケンス長の柔軟性やトークン間の依存性改善などの特性を実現。RoFormerとして評価した結果、他の手法を常に上回る性能を示し、理論的分析も提供。RoFormerはHuggingfaceに統合済み。 Comment

RoPEを提案した論文

# Absolute Position Embedding と Relative Position Embedding

## TransformerにおけるQKVベクトルの計算方法

一般に、Transformerにおける Query (Q), Key (K), Value (V) は以下の式で定式化される：

m, nはそれぞれ位置を表す整数。Absolute Position Embeddingと、Relative Position Embeddingは、関数fの設計がそれぞれ異なっている：

## Absolute Position Embedding

absolute position embeddingは、固定されたposition ベクトル、あるいはtrainableなposition ベクトルpを、入力ベクトルに対して足し合わせる：

## Relative Position Embedding

一方、Relative Position Embeddingは、Queryの位置に対する、Key, Valueの相対位置（つまり、mとnの差）に対して、trainableなベクトル \tilde{p}_r をKey, Valueおよび相対距離rごとに用意し、そのベクトルを入力に足し合わせる、という定式化となっている：

ここで、r = clip(m-n, r_max, r_min)であり、r_max, r_minは考慮する相対距離の最大値と最小値である。

他にも様々な定式化が提案されているがたいてい定式化の中に相対位置m-nが出現する。

## RoPE

RoPEでは、入力ベクトル(Q,K)に対して回転行列を適用することで、回転に対して位置情報を保持させる。具体的には、異なる位置m, nに対するq_m^T k_nを計算すると、回転行列をRとした場合式16に示されているように回転行列Rに相対位置m-nが現れ（るように設計されており）、相対位置を考慮したqkの計算になっている。[^1]

[^1]: (R_mq_m)^T R_nK_n = q_m^T (R_m^T R_n) k_n = q_m^T (R_{-m}R_n) k_n = q_m^T R_{n-m} k_n. ここで、R_m^T = R_{-m}であり、R_m R_n = R_{m+n}の性質を使っている。

RoPEは下記のような性質を持つ：

- long-term decay: θi = 10000−2i/d と設定することにより、相対位置が離れているトークンのベクトルとのinner productの値が小さくなる。すなわち、位置が離れているトークン間の依存関係が小さくなる。

- Linear-Attention: RoPEは回転行列であり、乗算後のベクトルのノルムを変化させない。このため、Linear Attentionの式の中に回転行列を組み込むことで、Linear Attentionと簡単に組み合わせることが可能

Absolute Position Embedding, Relative Position Embeddingでは、ベクトルに対して位置情報を加算する定式化で K, Vの計算時に位置情報を考慮していたため、Linear Attentionの計算そのものに位置情報を組み込んだ定式化とはなっていなかった。

が、RoPEでは回転行列を乗算する定式化であり、ノルムを変化させないのでLinear Attentionの定式化に組み込むことができる。このため、モデルのアーキテクチャを大きく変更しなくとも組み込める。

RoPE自体は実装にパラメータを必要としないが、モデルのその他のパラメータがRoPEに適用できるように学習されていないと適用できないであろう点には注意（事前学習時にRoPEが使われていれば話は別）。

Table Transformer Demo

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #TabularData Issue Date: 2023-12-01 Comment

PDF中のテーブルとその構造（行列セル）をdetectするモデル

Exampleは以下のような感じ（日本語だとどれくらいできるのかな...）

Transformers.js, 2023

Paper/Blog Link My Issue
#Article #Library #Blog Issue Date: 2023-11-13 Comment

ブラウザ上でTransformerベースの様々なモデルを動作させることができるライブラリ

大規模言語モデルにおいて､「知識は全結合層に蓄積される」という仮説についての文献調査

Paper/Blog Link My Issue
#Article #Analysis #MachineLearning #Blog Issue Date: 2023-10-29 Comment

タイトルの通り、知識がFFNに蓄積されていると主張しているらしい原論文を読み解いている。まとめを引用すると

> 「知識は全結合層に蓄積される」という表現は､ややラジカルで､
少なくともこの論文では「全結合層は知識獲得において重要」という程度
の､もう少しマイルドな主張をしているように見受けられました｡

とのこと。

FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning, 2023

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #MachineLearning #NLP #Attention Issue Date: 2023-07-23 GPT Summary- FlashAttention-2は、長いシーケンス長におけるTransformerのスケーリングの問題に対処するために提案された手法です。FlashAttention-2は、非対称なGPUメモリ階層を利用してメモリの節約とランタイムの高速化を実現し、最適化された行列乗算に比べて約2倍の高速化を達成します。また、FlashAttention-2はGPTスタイルのモデルのトレーニングにおいても高速化を実現し、最大225 TFLOPs/sのトレーニング速度に達します。 Comment

Flash Attention1よりも2倍高速なFlash Attention 2

Flash Attention1はこちらを参照
https://arxiv.org/pdf/2205.14135.pdf

QK Matrixの計算をブロックに分けてSRAMに送って処理することで、3倍高速化し、メモリ効率を10-20倍を達成。

Assisted Generation: a new direction toward low-latency text generation, 2023

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #Library #python Issue Date: 2023-05-11 Comment

1 line加えるとtransformerのgenerationが最大3倍程度高速化されるようになったらしい

assistant modelをロードしgenerateに引数として渡すだけ

OpenLLaMA

Paper/Blog Link My Issue
#Article #NeuralNetwork #NLP #LanguageModel #Library Issue Date: 2023-05-04 Comment

LLaMAと同様の手法を似たデータセットに適用し商用利用可能なLLaMAを構築した模様

30分で完全理解するTransformerの世界, はまなすなぎさ, Zenn, 2023.02

Paper/Blog Link My Issue
#Article #Tutorial #Survey #NLP Issue Date: 2023-02-14 Comment

非常に詳細で実質日本語のサーベイ論文のようなもの

Transformers Interpret, 2022

Paper/Blog Link My Issue
#Article #ComputerVision #MachineLearning #NLP #Library #Explanation #Blog #One-Line Notes Issue Date: 2022-12-01 Comment

transformersのモデルをたった2行追加するだけで、explainableにするライブラリ

基本的にtextとvisionのclassificationをサポートしている模様
text classificationの場合、たとえばinput tokenの各トークンの分類に対する寄与度をoutputしてくれる。

BetterTransformer, Out of the Box Performance for Hugging Face Transformers

Paper/Blog Link My Issue
#Article #NeuralNetwork #Tutorial #EfficiencyImprovement #NLP #Library #One-Line Notes Issue Date: 2022-12-01 Comment

たった1ライン追加するだけで、Transformerのinferenceが最大で4.5倍高速化されるBetterTransformerの解説記事

better_model = BetterTransformer.transform(model)

CNN vs. ViT, Yoshitaka Ushiku, ECCV 2022 読み会, 2022.10

Paper/Blog Link My Issue
#Article #NeuralNetwork #Tutorial #ComputerVision #Slide #One-Line Notes Issue Date: 2022-10-27 Comment

・Swin Transformer, Depth-wise conv, ConvNeXt, ViTとCNNのロバスト性の違いの話があり勉強になる

・最終的な結論が、CNNもTransformerも変わらない（明確な勝者はいない; 今のところ引き分け）というのはおもしろかった

depth-wise conv, point-wise convの解説記事： https://agirobots.com/depthwise-pointwise-convolution/

通常のCNNのフィルタによるfeature map計算を、空間方向（depth-wise conv）とチャネル方向（point-wise conv; 1x1 conv）に分解することで大幅にパラメータ数削減

Transformerの最前線〜畳込みニューラルネットワークの先へ〜, Yoshitaka Ushiku, 2022.06

Paper/Blog Link My Issue
#Article #NeuralNetwork #Tutorial #NLP #Slide #Selected Papers/Blogs Issue Date: 2022-09-06

FastSeq: Make Sequence Generation Faster, Yan+, ACL’21

Paper/Blog Link My Issue
#Article #NeuralNetwork #EfficiencyImprovement #NLP #ACL #One-Line Notes Issue Date: 2021-06-10 Comment

BART, DistilBART, T5, GPT2等のさまざまなTransformer-basedな手法で、4-9倍Inference speedを向上させる手法を提案。