meta-learning

#MachineLearning #Pocket #NLP #LanguageModel #In-ContextLearning
Issue Date: 2025-11-03 [Paper Note] Iterative Amortized Inference: Unifying In-Context Learning and Learned Optimizers, Sarthak Mittal+, arXiv'25, 2025.10 GPT Summary- アモータイズド学習に基づく統一的フレームワークを提案し、タスク適応の方法をパラメトリック、暗黙的、明示的に分類。推論時のタスクデータ処理能力の制限を指摘し、反復アモータイズド推論を導入。これにより、最適化ベースのメタ学習とLLMのアプローチを結びつけ、汎用タスク適応のためのスケーラブルな基盤を提供。 Comment

元ポスト:

Loading…


#Pocket #NLP #Dataset #Supervised-FineTuning (SFT) #Evaluation #In-ContextLearning #PostTraining #Selected Papers/Blogs #KeyPoint Notes #Steering
Issue Date: 2025-10-14 [Paper Note] Spectrum Tuning: Post-Training for Distributional Coverage and In-Context Steerability, Taylor Sorensen+, arXiv'25, 2025.10 GPT Summary- ポストトレーニングは言語モデルの性能を向上させるが、操作性や出力空間のカバレッジ、分布の整合性においてコストが伴う。本研究では、これらの要件を評価するためにSpectrum Suiteを導入し、90以上のタスクを網羅。ポストトレーニング技術が基礎的な能力を引き出す一方で、文脈内操作性を損なうことを発見。これを改善するためにSpectrum Tuningを提案し、モデルの操作性や出力空間のカバレッジを向上させることを示した。 Comment

元ポスト:

Loading…

著者らはモデルの望ましい性質として
- In context steerbility: inference時に与えられた情報に基づいて出力分布を変えられる能力
- Valid output space coverage: タスクにおける妥当な出力を広範にカバーできること
- Distributional Alignment: ターゲットとする出力分布に対してモデルの出力分布が近いこと

の3つを挙げている。そして既存のinstruction tuningや事後学習はこれらを損なうことを指摘している。

ここで、incontext steerbilityとは、事前学習時に得た知識や、分布、能力だけに従うのではなく、context内で新たに指定した情報をモデルに活用させることである。

モデルの上記3つの能力を測るためにSpectrum Suiteを導入する。これには、人間の様々な嗜好、numericな分布の出力、合成データ作成などの、モデル側でsteeringや多様な分布への対応が必要なタスクが含まれるベンチマークのようである。

また上記3つの能力を改善するためにSpectrum Tuningと呼ばれるSFT手法を提案している。
手法はシンプルで、タスクT_iに対する 多様なinput X_i タスクのcontext(すなわちdescription) Z_i が与えられた時に、T_i: X_i,Z_i→P(Y_i) を学習したい。ここで、P(Y_i)は潜在的なoutputの分布であり、特定の1つのサンプルyに最適化する、という話ではない点に注意(meta learningの定式化に相当する)。

具体的なアルゴリズムとしては、タスクのコレクションが与えられた時に、タスクiのcontextとdescriptionをtokenizeした結果 z_i と、incontextサンプルのペア x_ij, y_ij が与えられた時に、output tokenのみに対してcross entropyを適用してSFTをする。すなわち、以下のような手順を踏む:

1. incontextサンプルをランダムなオーダーにソートする
2. p_dropの確率でdescription z_i をドロップアウトしx_i0→y_i0の順番でconcatする、
2-1. descriptionがdropしなかった場合はdescription→x_i0→y_i0の順番でconcatし入力を作る。
2-2. descriptionがdropした場合、x_i0→y_i0の順番で入力を作る。
3. 他のサンプルをx_1→y_1→...→x_n→y_nの順番で全てconcatする。
4. y_{1:n}に対してのみクロスエントロピーlossを適用し、他はマスクして学習する。

一見するとinstruct tuningに類似しているが、以下の点で異なっている:
- 1つのpromptに多くのi.i.dな出力が含まれるのでmeta-learningが促進される
- 個別データに最適化されるのではなく、タスクに対する入出力分布が自然に学習される
- chat styleのデータにfittingするのではなく、分布に対してfittingすることにフォーカスしている
- input xやタスクdescription zを省略することができ、ユーザ入力が必ず存在する設定とは異なる

という主張をしている。



#Pocket #NLP #LanguageModel #KnowledgeEditing #FactualKnowledge
Issue Date: 2025-06-17 [Paper Note] PropMEND: Hypernetworks for Knowledge Propagation in LLMs, Zeyu Leo Liu+, arXiv'25 GPT Summary- PropMENDは、LLMsにおける知識伝播を改善するためのハイパーネットワークベースのアプローチである。メタ学習を用いて、注入された知識がマルチホップ質問に答えるために伝播するように勾配を修正する。RippleEditデータセットで、難しい質問に対して精度がほぼ2倍向上し、Controlled RippleEditデータセットでは新しい関係やエンティティに対する知識伝播を評価。PropMENDは既存の手法を上回るが、性能差は縮小しており、今後の研究で広範な関係への知識伝播が求められる。 Comment

元ポスト:

Loading…

従来のKnowledge Editing手法は新たな知識を記憶させることはできる(i.e., 注入した知識を逐語的に生成できる;東京は日本の首都である。)が、知識を活用することは苦手だった(i.e., 日本の首都の気候は?)ので、それを改善するための手法を提案している模様。

既存手法のlimitationは
- editing手法で学習をする際に知識を伝搬させるデータが無く
- 目的関数がraw textではなく、QA pairをSFTすること

によって生じるとし、

- 学習時にpropagation question(Figure1のオレンジ色のQA; 注入した知識を活用して推論が必要なQA)を用意しどのように知識を伝搬(活用)させるかを学習し
- 目的関数をCausal Language Modeling Loss

にすることで改善する、とのこと。

image
image

non-verbatimなQA(注入された知識をそのまま回答するものではなく、何らかの推論が必要なもの)でも性能が向上。
image

ベースライン:
- Mass-Editing Memory in a Transformer, Kevin Meng+, N/A, ICLR'23
- [Paper Note] Fast Model Editing at Scale, Eric Mitchell+, ICLR'22