SSM (StateSpaceModel)
#MachineLearning#Pocket#NLP#LongSequence
Issue Date: 2024-11-05 Stuffed Mamba: State Collapse and State Capacity of RNN-Based Long-Context Modeling, Yingfa Chen+, arXiv24 #Analysis#MachineLearning#Pocket#NLP
Issue Date: 2024-08-27 The Illusion of State in State-Space Models, William Merrill+, N_A, arXiv24 SummarySSM(状態空間モデル)は、トランスフォーマーよりも優れた状態追跡の表現力を持つと期待されていましたが、実際にはその表現力は制限されており、トランスフォーマーと類似しています。SSMは複雑性クラス$\mathsf{TC}^0$の外での計算を表現できず、単純な状態追跡問題を解決することができません。このため、SSMは実世界の状態追跡問題を解決する能力に制限がある可能性があります。 Comment>しかし、SSMが状態追跡の表現力で本当に(トランスフォーマーよりも)優位性を持っているのでしょうか?驚くべきことに、その答えは「いいえ」です。私たちの分析によると、SSMの表現力は、トランスフォーマーと非常に類似して制限されています:SSMは複雑性クラス$\mathsf{TC}^0$の外での計算を ...
Issue Date: 2024-11-05 Stuffed Mamba: State Collapse and State Capacity of RNN-Based Long-Context Modeling, Yingfa Chen+, arXiv24 #Analysis#MachineLearning#Pocket#NLP
Issue Date: 2024-08-27 The Illusion of State in State-Space Models, William Merrill+, N_A, arXiv24 SummarySSM(状態空間モデル)は、トランスフォーマーよりも優れた状態追跡の表現力を持つと期待されていましたが、実際にはその表現力は制限されており、トランスフォーマーと類似しています。SSMは複雑性クラス$\mathsf{TC}^0$の外での計算を表現できず、単純な状態追跡問題を解決することができません。このため、SSMは実世界の状態追跡問題を解決する能力に制限がある可能性があります。 Comment>しかし、SSMが状態追跡の表現力で本当に(トランスフォーマーよりも)優位性を持っているのでしょうか?驚くべきことに、その答えは「いいえ」です。私たちの分析によると、SSMの表現力は、トランスフォーマーと非常に類似して制限されています:SSMは複雑性クラス$\mathsf{TC}^0$の外での計算を ...