Concept (LLM PreTraining)


Paper/Blog Link My Issue
#NLP #LanguageModel #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #LatentReasoning #Initial Impression Notes #Author Thread-Post Issue Date: 2026-01-30 GPT Summary- ConceptMoEは、トークン間の類似性を利用して計算リソースを動的に割り当てる新しい手法です。これにより、概念表現を生成し、計算集約モデルへのシーケンス圧縮を行います。評価において、ConceptMoEは標準的なMoEを上回り、言語や視覚言語タスクでの性能向上を示しました。特に、計算の効率も大幅に改善され、アーキテクチャの改変なしに既存のMoEに統合可能です。 Comment

著者ポスト:

Loading…

論文タイトルにMoEというワードが入っているが、実際にMoEアーキテクチャを採用しているわけではない点に注意。アーキテクチャはいわゆるLarge Concept Model (エンコーダー→チャンク生成→コンセプトモデル→デチャンキング→デコーダー)であり、チャンクの境界がトークン間のlearnableなモジュールによって学習・決定されるため、トークンレベルで見たときに適応的にトークンをチャンク化することでコンセプトが定義され、かつトークン単位の計算資源の配分がチャンク化を(learnableに)通じて行われるという話に見える。

斜め読みしかできていないが、アーキテクチャそのものの貢献よりも、本研究の貢献として大きい部分はMoEモデルを用いた同じパラメータ/FLOPsでの異なるアーキテクチャ間のfair comparisonを通じてconcept modelの性能が高いことを示したことや、既存のMoEモデルを軽量なモジュールの追加(チャンクモジュール+デチャンクモジュール+追加のゼロで初期化されたQKV attention)し継続事前学習をすることでretrofittingすることでも性能が向上すること、計算効率がチャンクによってトークンが圧縮されるため、fair comparisonの上で高い性能を達成しながら、圧縮率Rに応じて向上することを示ししたこと、などにあるように見受けられる。

が、ただの斜め読みした感想でしかないので読みたい。

関連:
- [Paper Note] Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space, Xingwei Qu+, arXiv'25, 2025.12




Paper/Blog Link My Issue
#NLP #LanguageModel #read-later #LatentReasoning #One-Line Notes #Author Thread-Post Issue Date: 2026-01-03 GPT Summary- DLCM(Dynamic Large Concept Models)は、トークン均一な計算の限界を克服するための階層的な言語モデリングフレームワークであり、意味的境界を学習して計算を圧縮された概念空間にシフトします。これにより、推論を効率化し、固定されたFLOPsの下で計算配分を最適化します。DLCMは、実用的な設定で推論計算の約3分の1を再配分し、12のゼロショットベンチマークで平均2.69%の性能向上を達成しました。 Comment

元ポスト:

Loading…

従来のトークンを最小単位とする言語モデルではなく、意味的なチャンクを最小単位として扱う(チャンクの境界は隠れ状態の類似度が閾値を超えるか否かによって決める)Encoder-(Thinking Model)-Decoderタイプのモデルに見える。

関連:
- [Paper Note] Large Concept Models: Language Modeling in a Sentence Representation Space, LCM team+, arXiv'24, 2024.12

扱うconceptの最小単位という観点で見ると、こちらの研究はコンセプトをsentenceとしているが、本研究は(まだ全然読めていないのでおそらく)動的に決まるboundaryに基づくチャンクという点で異なっているように見える。

著者ポストを引用しているポスト:

Loading…




Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #SyntheticData #read-later #Author Thread-Post Issue Date: 2025-09-22 GPT Summary- Synthetic Bootstrapped Pretraining(SBP)は、文書間の関係を学習し、新しいコーパスを合成する言語モデルの事前学習手法です。従来の事前学習は単一文書内の因果関係に焦点を当てていますが、SBPは文書間の相関関係を効率的にモデル化します。3Bパラメータのモデルを用いた実験で、SBPは強力なベースラインを改善し、合成された文書は単なる言い換えを超えた新しい物語を構築することが示されました。SBPは自然なベイズ的解釈を許容し、関連文書間の潜在的な概念を学習します。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

興味深い。

著者ポスト:

Loading…

conceptを学習するという観点では以下が関連している気がするが、アプローチが大きく異なる:
- [Paper Note] Large Concept Models: Language Modeling in a Sentence Representation Space, LCM team+, arXiv'24, 2024.12




Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #ICLR #Author Thread-Post Issue Date: 2025-02-14 GPT Summary- 次のトークン予測を最適化する大規模言語モデルに、新たに提案するCoCoMixフレームワークを導入。これは、離散的な予測と連続概念を交互に混ぜ込む手法で、隠れ表現を改善。実験により、サンプル効率が高く、複数のベンチマークで標準的手法を上回る性能を確認。概念学習と交互配置が性能向上に重要で、モデルの内部推論を透明にする機能も提供。 Comment

著者による一言解説:

Loading…

openreview: https://openreview.net/forum?id=wTGcb3DxOn




Paper/Blog Link My Issue
#Sentence #NLP #LanguageModel #Tokenizer #Surface-level Notes Issue Date: 2024-12-24 GPT Summary- 大規模言語モデル(LLMs)の限界を克服するために、概念を用いた新しいアーキテクチャ「Large Concept Model」を提案。これは、テキストと音声の両方に対応し、200言語をサポートする文埋め込み空間SONARを活用。自己回帰的な文予測に基づき、複数のアプローチ(MSE回帰や拡散ベース生成)で実験し、パラメータを増加させたモデルでも印象的なゼロショット一般化性能を示す。訓練コードは公開されている。 Comment

まだ全く読めていないが、従来のLLMはnent-token-predictionで学習をしており、transformers decoderの内部状態で何らかの抽象的な概念はとらえているものの、次トークン予測に前回生成したトークンをinputするのが必須である以上「トークンで考える」みたいな挙動をある程度はしてしまっており、人間はそんなことしないですよね?みたいな話だと思われる。
人間はもっと抽象的なコンセプトレベルで物事を考えることができるので、それにより近づけるために、conceptをsentenceとしてみなして、next-concept-predictionでモデルを学習したらゼロショットの汎化性能上がりました、みたいな話のように見える。ただし、評価をしているのはマルチリンガルな文書要約タスクのみに見える。

追記: コンセプトが言語非依存だとすると、コンセプト間の関係性を学習するLCMが、マルチリンガルでトークンレベルの学習しかしない従来LLMを上回るのも納得いく気はする。なぜなら、従来LLMよりも言語(トークン)への依存が緩和されていると思われるので、言語間を跨いだ知識の転移が起きやすいと考えられるからである。

image

image

Base-LCMを見ると、文の埋め込みのground truthと生成された文の埋め込みの差を最小化する(Mean Squared Error) ようなlossになっている。つまり、トークンレベルではなく、より抽象的な概念を直接学習するような設計になっているためここが従来のLLMと異なる。

image

これを実現するために、ground truthとなる文の埋め込みx_nが分からなければいけないが、このために、freezeしたEncoderとDecoderを用意してLCMにconcatしていると思われる。つまり、入力と出力のconceptを解釈する機構は固定して、正解となる文埋め込みを決めてしまう。そして、LCMはinputされたconceptを別のconceptに変換するような機構となっており、その変換の関係性を学習している。なるほど、なんとなく気持ちはわかった。

日本語を含むいくつかの言語でゼロショット性能が低下しているのが興味深い。日本語特有の概念とか、特定の言語固有の概念は欠落する可能性が示唆される。