SkillTag


Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #SyntheticData #read-later #One-Line Notes Issue Date: 2025-10-21 GPT Summary- 本研究では、言語モデルのメタ認知能力を活用した新しいファインチューニング戦略「STAT」を提案。教師モデルがタスクに必要なスキルをラベル付けし、学生モデルのスキル不足を追跡することで、トレーニングセットを修正。STAT-Selでは既存の例の重みを調整し、STAT-Synでは新たな例を合成。実験により、MATHで最大7.5%の改善を達成し、分布外ベンチマークでも平均4.6%の向上を示した。STATは強化学習手法GRPOと補完的であり、スキルターゲットの適応トレーニングがトレーニングパイプラインを改善することを示唆。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Metacognitive Capabilities of LLMs: An Exploration in Mathematical Problem Solving, Aniket Didolkar+, NeurIPS'24, 2024.05

Reward Modelでquestionがeasy/hardを定量化し、hardなものに対してモデルが応答を生成。応答の結果をstronger modelに確認させ、モデルにどのようなスキルが不足しているかを特定する。これによりモデルのスキルに関するprofileが作成されるのでこれに基づいて学習データの各サンプルとスキルを紐づけた上でサンプルを重みの調整、および不足しているスキルに関するデータを合成しSFTに活用する、といった話な模様。

image

結果を見ると、+SFT / +GRPOよりも性能が高くなっている。Table1ではLlamaでの結果しか掲載されていないが、Qwenでも実験がされて同様の結果が得られている。
image

また、Figure4を見ると不足していたスキルが学習によってきちんと補われていることが分かる。

image

(評価と考察部分をもう少しじっくり読みたい)




Paper/Blog Link My Issue
#Pocket #LanguageModel #NeurIPS #read-later #MetacognitiveKnowledge/Ability Issue Date: 2025-10-21 GPT Summary- メタ認知的知識を持つ大規模言語モデル(LLM)が、数学的推論において適切なスキルラベルを割り当てる能力を示す。プロンプトガイドを用いたインタラクション手法を開発し、スキルラベルの意味的クラスタリングを行う。実験では、GPT-4に数学データセットに基づくスキルラベルを割り当てさせ、精度向上を確認。提案手法は数学以外のドメインにも適用可能。 Comment

StudentPerformancePredictionのスキルモデルのような話になってきた。興味深い