AutoEncoder
#Pretraining
#Pocket
#NLP
#LanguageModel
#Architecture
#KeyPoint Notes
Issue Date: 2025-11-03 [Paper Note] Continuous Autoregressive Language Models, Chenze Shao+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデル(LLMs)の効率を向上させるため、連続自己回帰言語モデル(CALM)を提案。CALMは、次トークン予測から次ベクトル予測へのシフトを行い、Kトークンを連続ベクトルに圧縮することで生成ステップをK倍削減。新たなフレームワークを開発し、性能と計算コストのトレードオフを改善。CALMは、効率的な言語モデルへの道筋を示す。 Comment
Issue Date: 2025-11-03 [Paper Note] Continuous Autoregressive Language Models, Chenze Shao+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデル(LLMs)の効率を向上させるため、連続自己回帰言語モデル(CALM)を提案。CALMは、次トークン予測から次ベクトル予測へのシフトを行い、Kトークンを連続ベクトルに圧縮することで生成ステップをK倍削減。新たなフレームワークを開発し、性能と計算コストのトレードオフを改善。CALMは、効率的な言語モデルへの道筋を示す。 Comment
pj page: https://shaochenze.github.io/blog/2025/CALM/
元ポスト:
VAEを学習し(deterministicなauto encoderだと摂動に弱くロバストにならないためノイズを加える)、Kトークンをlatent vector zに圧縮、auto regressiveなモデルでzを生成できるように学習する。専用のヘッド(generative head)を用意し、transformerの隠れ状態からzを条件付きで生成する。zが生成できればVAEでdecodeすればKトークンが生成される。loss functionは下記のエネルギースコアで、第一項で生成されるトークンの多様性を担保しつつ(モード崩壊を防ぎつつ)、第二項でground truth yに近い生成ができるようにする、といった感じらしい。評価はautoregressiveにzを生成する設定なのでperplexityを計算できない。このため、BrierLMという指標によって評価している。BrierLMがどのようなものかは理解できていない。必要になったら読む。
future workにあるようにスケーリング特性がまだ明らかになっていないのでなんとも言えないという感想。
ポイント解説: