Concept (LLM PreTraining)


Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #ICLR Issue Date: 2025-02-14 GPT Summary- 次トークン予測を最適化する新しい事前学習フレームワークCoCoMixを提案。離散的な予測と連続概念を組み合わせ、スパースオートエンコーダから学習した概念を隠れ表現に交互に組み込むことで高いサンプル効率を達成。従来手法を上回る性能を示し、概念学習と交互挿入が重要であると結論。さらに、概念の検査・修正が可能で、モデルの推論過程を透明にする。 Comment

著者による一言解説:

Loading…

openreview: https://openreview.net/forum?id=wTGcb3DxOn