SoftPrompt
[Paper Note] GradMem: Learning to Write Context into Memory with Test-Time Gradient Descent, Yuri Kuratov+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#NLP #LanguageModel #PEFT(Adaptor/LoRA) #read-later #memory #Initial Impression Notes #Test Time Training (TTT) #Author Thread-Post Issue Date: 2026-03-26 GPT Summary- 長い文脈をコンパクトに保存するGradMemを提案。これは、推論時に文脈へアクセスできない状況で、文脈を圧縮して数のクエリに応答する。モデルの重みを凍結し、少量のプレフィックストークンで数ステップの勾配降下を行うことで、文脈の再構成を最適化。連想キー-値検索において、GradMemは従来の手法より優れた性能を発揮し、自然言語タスクで競争力のある結果を示す。 Comment
元ポスト:
prefixにmemory用のトークンを用意し、TTTの枠組みでcontextのreconstruction lossを通じて圧縮する、という話に見える。tokenはsoft tokenであり、m*d次元の行列で表現される。
要はcontextの潜在表現をReconstruction lossによるTTTでprefix tuningするsoft prompting手法、という感じだろうか。
Graph Neural Prompting with Large Language Models, Yijun Tian+, N_A, AAAI'24
Paper/Blog Link My Issue
#GraphBased #NLP #LanguageModel #KnowledgeGraph #Prompting #AAAI #One-Line Notes Issue Date: 2023-10-09 GPT Summary- 本研究では、大規模言語モデル(LLMs)を知識グラフと組み合わせるための新しい手法であるGraph Neural Prompting(GNP)を提案しています。GNPは、標準的なグラフニューラルネットワークエンコーダやクロスモダリティプーリングモジュールなどの要素から構成されており、異なるLLMのサイズや設定において、常識的な推論タスクやバイオメディカル推論タスクで優れた性能を示すことが実験によって示されました。 Comment
元ツイート:
事前学習されたLLMがKGから有益な知識を学習することを支援する手法を提案。
しっかり論文を読んでいないが、freezeしたLLMがあった時に、KGから求めたGraph Neural Promptを元のテキストと組み合わせて、新たなLLMへの入力を生成し利用する手法な模様。
Graph Neural Promptingでは、Multiple choice QAが入力された時に、その問題文や選択肢に含まれるエンティティから、KGのサブグラフを抽出し、そこから関連性のある事実や構造情報をエンコードし、Graph Neural Promptを獲得する。そのために、GNNに基づいたアーキテクチャに、いくつかの工夫を施してエンコードをする模様。
つまりKGの情報を保持したSoft Prompting手法というイメージだろうか。
[Paper Note] Tailor: A Prompt-Based Approach to Attribute-Based Controlled Text Generation, Kexin Yang+, ACL'23, 2022.04
Paper/Blog Link My Issue
#NaturalLanguageGeneration #Controllable #NLP #PEFT(Adaptor/LoRA) #ACL #KeyPoint Notes Issue Date: 2023-07-15 GPT Summary- 属性に基づくCTGでは、プロンプトを使用して望ましい属性を満たす文を生成。新手法Tailorは、各属性を連続ベクトルとして表し、固定PLMの生成を誘導。実験によりマルチ属性生成が実現できるが、流暢さの低下が課題。マルチ属性プロンプトマスクと再インデックス位置ID列でこのギャップを埋め、学習可能なプロンプトコネクタにより属性間の連結も可能に。11の生成タスクで強力な性能を示し、GPT-2の最小限のパラメータで有効性を確認。 Comment
Soft Promptを用いてattributeを連続値ベクトルで表現しconcatすることで生成をコントロールする。このとき、複数attuributeを指定可能である。
工夫点としては、attention maskにおいて
soft prompt同士がattendしないようにし、交互作用はMAP Connectorと呼ばれる交互作用そのものを学習するコネクタに移譲する点、(複数のsoft promptをconcatすることによる)Soft Promptのpositionのsensitivityを低減するために、末尾のsoft prompt以外はreindexしている点のようである。
[Paper Note] The Power of Scale for Parameter-Efficient Prompt Tuning, Brian Lester+, EMNLP'21, 2021.04
Paper/Blog Link My Issue
#NeuralNetwork #NLP #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #EMNLP #PostTraining #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2022-08-19 GPT Summary- 本研究では、凍結された言語モデルを特定のタスクに適応させるための「ソフトプロンプト」を学習するプロンプトチューニング手法を提案。逆伝播を通じて学習されるソフトプロンプトは、GPT-3の少数ショット学習を上回る性能を示し、モデルサイズが大きくなるほど競争力が増すことが確認された。特に、数十億のパラメータを持つモデルにおいて、全ての重みを調整するモデルチューニングに匹敵する性能を発揮。これにより、1つの凍結モデルを複数のタスクに再利用できる可能性が示唆され、ドメイン転送に対するロバスト性も向上することが明らかとなった。 Comment
日本語解説:
https://qiita.com/kts_plea/items/79ffbef685d362a7b6ce
T5のような大規模言語モデルに対してfinetuningをかける際に、大規模言語モデルのパラメータは凍結し、promptをembeddingするパラメータを独立して学習する手法
言語モデルのパラメータ数が増加するにつれ、言語モデルそのものをfinetuningした場合(Model Tuning)と同等の性能を示した。
いわゆる(Softな) Prompt Tuning
