Decoderに関する論文・技術記事メモの一覧

Decoder

[Paper Note] Your UnEmbedding Matrix is Secretly a Feature Lens for Text Embeddings, Songhao Wu+, arXiv'26, 2026.06

Paper/Blog Link My Issue
#DocumentSummarization #Embeddings #NLP #LanguageModel #Initial Impression Notes Issue Date: 2026-06-11 GPT Summary- 大規模言語モデルはゼロショット能力に優れるが、テキスト埋め込みベンチマークでは性能が不足している。これは、高頻度トークンの過剰な表現が意味表現の能力を抑制するためと考える。そこで、EmbedFilterを導入し、LLMから生成された埋め込みを洗練させる。具体的には、頻繁なトークンの影響を抑えるためのフィルタリングを行い、意味表現を強化しつつ、埋め込み次元を削減。実験により、EmbedFilterを用いたLLMが、次元削減後もゼロショット性能が向上することを示した。本研究がLLMベースの表現の理解を深め、テキスト埋め込みの改善に寄与することを期待する。 Comment

元ポスト:

Loading…

decoder-onlyモデルからembeddingを取得する際に、高頻度語の成分を除去するフィルタを導入することでembeddingの品質を向上させる

[Paper Note] Repetition Improves Language Model Embeddings, Jacob Mitchell Springer+, ICLR'25, 2024.02

Paper/Blog Link My Issue
#Sentence #Embeddings #NLP #ICLR #One-Line Notes Issue Date: 2026-06-11 GPT Summary- エコー埋め込みを通じて、自己回帰LMをアーキテクチャ変更なしで高品質なテキスト埋め込みモデルに転換。入力を繰り返すことで埋め込みを抽出し、ゼロショット設定で従来の埋め込みを5％以上上回る性能を発揮。監督付きファインチューニングでも双方向化済みLMと同等かそれ以上の結果を示し、埋め込みモデルにおける双方向注意機構の不要性を証明。全てのNLPタスクへの統一アーキテクチャの実現に寄与。 Comment

openreview: https://openreview.net/forum?id=Ahlrf2HGJR

autorgressiveなモデルで文embeddingを取得する際に、単に文のtokenをpoolingするのではなく、embeddingを取得したいsentenceを繰り返し、2回目に出現したtokenのpoolingによってsentence embeddingを形成すると良質な文embeddingを取得できる。これは、あるtokenから見たときに未来のtokenの情報をautoregressiveなモデルは考慮できないことに起因する。

PromptingのRE2とアイデアが似ている。同じPromptを複数回繰り返すことにより、autoregressiveモデルに対してbi-directionalなエンコーダのような性質を付与する:
- [Paper Note] Re-Reading Improves Reasoning in Large Language Models, Xiaohan Xu+, EMNLP'24, 2023.09

[Paper Note] The Free Transformer, François Fleuret, arXiv'25, 2025.10

Paper/Blog Link My Issue
#MachineLearning #Transformer #VariationalAutoEncoder #Architecture Issue Date: 2025-10-22 GPT Summary- 無監督で学習された潜在変数に条件付けるデコーダーTransformerの拡張を提案し、下流タスクでの性能が大幅に向上することを実験で示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

[Paper Note] Heptapod: Language Modeling on Visual Signals, Yongxin Zhu+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #Pretraining #Transformer Issue Date: 2025-10-10 GPT Summary- Heptapodは、因果注意を用いた画像自動回帰モデルで、CFGへの依存を排除し、意味トークナイザーのトレンドを避ける。主な革新は、2D分布予測を行う因果Transformerで、画像の2D空間全体にわたる分布を学習する。これにより、生成的トレーニングを通じて画像の意味を捉えることが可能になる。ImageNet生成ベンチマークでFID値2.70を達成し、従来のアプローチを上回る成果を示した。 Comment

元ポスト:

Loading…

[Paper Note] SSDD: Single-Step Diffusion Decoder for Efficient Image Tokenization, Théophane Vallaeys+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #DiffusionModel #Tokenizer Issue Date: 2025-10-08 GPT Summary- 新しいピクセル拡散デコーダアーキテクチャ（SSDD）を提案し、KL-VAEに依存せずに高品質な画像再構成を実現。SSDDは敵対的損失なしで訓練され、再構成FIDを改善し、サンプリング速度を向上させる。これにより、KL-VAEの代替として迅速かつ高品質な生成モデルの構築が可能となる。 Comment

元ポスト:

Loading…

[Paper Note] NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models, Chankyu Lee+, ICLR'25

Paper/Blog Link My Issue
#RecommenderSystems #Embeddings #InformationRetrieval #NLP #LanguageModel #RepresentationLearning #InstructionTuning #ContrastiveLearning #ICLR #Generalization Issue Date: 2025-07-10 GPT Summary- デコーダー専用のLLMベースの埋め込みモデルNV-Embedは、BERTやT5を上回る性能を示す。アーキテクチャ設計やトレーニング手法を工夫し、検索精度を向上させるために潜在的注意層を提案。二段階の対照的指示調整手法を導入し、検索と非検索タスクの両方で精度を向上。NV-EmbedモデルはMTEBリーダーボードで1位を獲得し、ドメイン外情報検索でも高スコアを達成。モデル圧縮技術の分析も行っている。 Comment

Decoder-Only LLMのlast hidden layerのmatrixを新たに導入したLatent Attention Blockのinputとし、Latent Attention BlockはEmbeddingをOutputする。Latent Attention Blockは、last hidden layer (系列長l×dの
matrix)をQueryとみなし、保持しているLatent Array(trainableなmatrixで辞書として機能する;後述の学習においてパラメータが学習される)[^1]をK,Vとして、CrossAttentionによってcontext vectorを生成し、その後MLPとMean Poolingを実施することでEmbeddingに変換する。

学習は2段階で行われ、まずQAなどのRetrievalタスク用のデータセットをIn Batch negativeを用いてContrastive Learningしモデルの検索能力を高める。その後、検索と非検索タスクの両方を用いて、hard negativeによってcontrastive learningを実施し、検索以外のタスクの能力も高める（下表）。両者において、instructionテンプレートを用いて、instructionによって条件付けて学習をすることで、instructionに応じて生成されるEmbeddingが変化するようにする。また、学習時にはLLMのcausal maskは無くし、bidirectionalにrepresentationを考慮できるようにする。

[^1]: [Paper Note] Perceiver IO: A General Architecture for Structured Inputs & Outputs, Andrew Jaegle+, ICLR'22, 2021.07 Perceiver-IOにインスパイアされている。

[Paper Note] Explicit Syntactic Guidance for Neural Text Generation, Yafu Li+, ACL'23, 2023.06

Paper/Blog Link My Issue
#BeamSearch #NaturalLanguageGeneration #Controllable #NLP #LanguageModel #Transformer #ACL Issue Date: 2023-07-13 GPT Summary- 本研究では、構文に基づいた生成スキーマを提案し、構成素解析木に従ってシーケンスを生成する新しいテキスト生成モデルを開発。デコーディングプロセスは、構文コンテキスト内での埋め込みテキストの予測と、構成素のマッピングによる構文構造の構築に分かれ、構造的ビームサーチ手法を用いて階層的な構文構造を探索。実験結果は、提案手法がパラフレーズ生成と機械翻訳において自己回帰型ベースラインを上回り、解釈可能性や制御可能性、多様性においても優れていることを示した。

[Paper Note] bert2BERT: Towards Reusable Pretrained Language Models, Cheng Chen+, ACL'22, 2021.10

Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #NLP #LanguageModel #Transformer #ACL #Encoder Issue Date: 2025-12-11 GPT Summary- bert2BERTは、既存の小規模事前学習モデルの知識を大規模モデルに転送し、事前学習効率を向上させる手法。二段階の事前学習を提案し、トレーニングコストを大幅に削減。BERT_BASEとGPT_BASEの事前学習で約45%および47%の計算コストを節約。

[Paper Note] CTRL: A Conditional Transformer Language Model for Controllable Generation, Nitish Shirish Keskar+, arXiv'19, 2019.09

Paper/Blog Link My Issue
#NaturalLanguageGeneration #Controllable #NLP #LanguageModel #Transformer #Selected Papers/Blogs Issue Date: 2026-01-16 GPT Summary- CTRLは、スタイルや内容、タスク特有の振る舞いを制御するコードに基づいて訓練された条件付きトランスフォーマー言語モデルで、1.63億パラメータを持つ。このモデルは、無監督学習の利点を生かしつつ、テキスト生成に対する明示的な制御を提供。CTRLは与えられたシーケンスに基づいて最も可能性のあるトレーニングデータを予測でき、データ分析の新たなアプローチを提示する。また、複数の事前訓練済みバージョンが公開されている。 Comment

Control Code（いわゆるタグ）によって条件付けることで生成されるテキストのスタイルや内容等をcontrollableにする研究の先駆け

[Paper Note] Learning to Skim Text, Adams Wei Yu+, ACL'17, 2017.04

Paper/Blog Link My Issue
#NeuralNetwork #EfficiencyImprovement #NLP #ReinforcementLearning #ACL #KeyPoint Notes #Sparse Issue Date: 2017-12-31 GPT Summary- 再帰型ニューラルネットワーク（RNN）は自然言語処理での可能性を示すが、長文の処理が遅い。本論文では、無関係な情報をスキップしながらテキストを読むアプローチを提案。モデルは、入力テキストの数語を読んだ後にジャンプする距離を学習し、ポリシー勾配法で訓練。数値予測や自動Q&Aなど4つのタスクで、提案モデルは標準LSTMに比べて最大6倍の速度向上を達成し、精度も維持。 Comment

解説スライド： http://www.lr.pi.titech.ac.jp/~haseshun/acl2017suzukake/slides/07.pdf

Reinforceにおける勾配の更新式の導出が丁寧に記述されており大変ありがたい。

RNNにおいて重要な部分以外は読み飛ばすことで効率を向上させる研究。いくつ読み飛ばすかも潜在変数として一緒に学習する。潜在変数（離散変数）なので、普通に尤度最大化するやり方では学習できず、おまけに離散変数なのでバックプロパゲーション使えないので、強化学習で学習する。

Vanilla LSTMと比較し、色々なタスクで実験した結果、性能も（少し）上がるし、スピードアップもする。

うーんこの研究は今改めて見返すと非常に面白いな…（8年も経ったのか）。ざっくり言うと必要のない部分は読み飛ばして考慮しないという話であり、最近のLLMでもこういった話はよくやられている印象。一番近いのはSparse Attentionだろうか。
- [Paper Note] Efficient Transformers: A Survey, Yi Tay+, ACM Computing Surveys'22, 2022.12
- [Paper Note] Big Bird: Transformers for Longer Sequences, Manzil Zaheer+, NIPS'20, 2020.07
- [Paper Note] Reformer: The Efficient Transformer, Nikita Kitaev+, ICLR'20
- [Paper Note] Generating Long Sequences with Sparse Transformers, Rewon Child+, arXiv'19, 2019.04
- [Paper Note] Longformer: The Long-Document Transformer, Iz Beltagy+, arXiv'20

トークン単位などはなくlayerをスキップするとかもある（Layer Skip）。
- [Paper Note] Skip a Layer or Loop it? Test-Time Depth Adaptation of Pretrained LLMs, Ziyue Li+, arXiv'25

Modded-NanoGPT, KellerJordan, 2024.05

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Pretraining #NLP #LanguageModel #Transformer #Repository #Optimizer #Selected Papers/Blogs Issue Date: 2025-07-15 Comment

NanoGPT speedrun

MuonとAdamWのweight decayをHyperball optimizationに置き換えることで記録更新されたようである:

Loading…

Hyperball optimizationについては以下:
- Fantastic Pretraining Optimizers and Where to Find Them 2.1: Hyperball Optimization, Wen+, 2026.01

SOAP preconditioningをMuon直交化の前に加えることでSoTAとのこと。
関連:
- [Paper Note] SOAP: Improving and Stabilizing Shampoo using Adam, Nikhil Vyas+, ICLR'25

Loading…

A Paper List for Recommend-system PreTrained Models

Paper/Blog Link My Issue
#Article #RecommenderSystems #Survey #Pretraining #LanguageModel #pretrained-LM #Encoder Issue Date: 2022-12-01