SSM (StateSpaceModel)
#ComputerVision#Embeddings#Analysis#Pocket#NLP#LanguageModel#Supervised-FineTuning (SFT)#Chain-of-Thought#ICML#PostTraining#read-later
Issue Date: 2025-05-04 Layer by Layer: Uncovering Hidden Representations in Language Models, Oscar Skean+, ICML25 Comment現代の代表的な言語モデルのアーキテクチャ(decoder-only model, encoder-only model, SSM)について、最終層のembeddingよりも中間層のembeddingの方がdownstream task(MTEBの32Taskの平均)に、一貫して(ただし、これはMTE ... #Pocket#NLP#Transformer#Chain-of-Thought#In-ContextLearning#ICLR
Issue Date: 2025-04-26 RNNs are not Transformers (Yet): The Key Bottleneck on In-context Retrieval, Kaiyue Wen+, ICLR25 Comment元ポスト:https://x.com/yuma_1_or/status/1915968478735130713?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q関連:#1210↑とはどういう関係があるだろうか? ... #Pocket#NLP#LanguageModel#ICML
Issue Date: 2025-03-24 Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality, Tri Dao+, ICML24 CommentMamba2の詳細を知りたい場合に読む ...
Issue Date: 2025-05-04 Layer by Layer: Uncovering Hidden Representations in Language Models, Oscar Skean+, ICML25 Comment現代の代表的な言語モデルのアーキテクチャ(decoder-only model, encoder-only model, SSM)について、最終層のembeddingよりも中間層のembeddingの方がdownstream task(MTEBの32Taskの平均)に、一貫して(ただし、これはMTE ... #Pocket#NLP#Transformer#Chain-of-Thought#In-ContextLearning#ICLR
Issue Date: 2025-04-26 RNNs are not Transformers (Yet): The Key Bottleneck on In-context Retrieval, Kaiyue Wen+, ICLR25 Comment元ポスト:https://x.com/yuma_1_or/status/1915968478735130713?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q関連:#1210↑とはどういう関係があるだろうか? ... #Pocket#NLP#LanguageModel#ICML
Issue Date: 2025-03-24 Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality, Tri Dao+, ICML24 CommentMamba2の詳細を知りたい場合に読む ...
#MachineLearning#Pocket#NLP#LongSequence
Issue Date: 2024-11-05 Stuffed Mamba: State Collapse and State Capacity of RNN-Based Long-Context Modeling, Yingfa Chen+, arXiv24 #Analysis#MachineLearning#Pocket#NLP
Issue Date: 2024-08-27 The Illusion of State in State-Space Models, William Merrill+, N_A, arXiv24 SummarySSM(状態空間モデル)は、トランスフォーマーよりも優れた状態追跡の表現力を持つと期待されていましたが、実際にはその表現力は制限されており、トランスフォーマーと類似しています。SSMは複雑性クラス$\mathsf{TC}^0$の外での計算を表現できず、単純な状態追跡問題を解決することができません。このため、SSMは実世界の状態追跡問題を解決する能力に制限がある可能性があります。 Comment>しかし、SSMが状態追跡の表現力で本当に(トランスフォーマーよりも)優位性を持っているのでしょうか?驚くべきことに、その答えは「いいえ」です。私たちの分析によると、SSMの表現力は、トランスフォーマーと非常に類似して制限されています:SSMは複雑性クラス$\mathsf{TC}^0$の外での計算を ... #Article#ComputerVision#EfficiencyImprovement#Pretraining#NLP#LanguageModel#Transformer#Supervised-FineTuning (SFT)#MulltiModal#Article
Issue Date: 2025-03-24 Nemotron-H: A Family of Accurate, Efficient Hybrid Mamba-Transformer Models, Nvidia, 2025.03 Comment関連:#1820TransformerのSelf-attention LayerをMamba2 Layerに置換することで、様々なベンチマークで同等の性能、あるいは上回る性能で3倍程度のInference timeの高速化をしている(65536 input, 1024 output)。56B程度のm ... #Article#NLP#LanguageModel#Reasoning#ProprietaryLLM
Issue Date: 2025-03-22 Huayuan T1, Tencent, 2025.03 Comment元ポスト:https://x.com/txhunyuan/status/1903121005809373386?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q画像はブログより引用。DeepSeek-R1と比較すると優っているタスクと劣っているタスクがあり、なんとも言えない感。GPT4.5 ... #Article#Tutorial#ComputerVision#NLP
Issue Date: 2024-11-27 チュートリアル:Mamba, Vision Mamba (Vim), Hironobu Fujiyoshi, 2024.11
Issue Date: 2024-11-05 Stuffed Mamba: State Collapse and State Capacity of RNN-Based Long-Context Modeling, Yingfa Chen+, arXiv24 #Analysis#MachineLearning#Pocket#NLP
Issue Date: 2024-08-27 The Illusion of State in State-Space Models, William Merrill+, N_A, arXiv24 SummarySSM(状態空間モデル)は、トランスフォーマーよりも優れた状態追跡の表現力を持つと期待されていましたが、実際にはその表現力は制限されており、トランスフォーマーと類似しています。SSMは複雑性クラス$\mathsf{TC}^0$の外での計算を表現できず、単純な状態追跡問題を解決することができません。このため、SSMは実世界の状態追跡問題を解決する能力に制限がある可能性があります。 Comment>しかし、SSMが状態追跡の表現力で本当に(トランスフォーマーよりも)優位性を持っているのでしょうか?驚くべきことに、その答えは「いいえ」です。私たちの分析によると、SSMの表現力は、トランスフォーマーと非常に類似して制限されています:SSMは複雑性クラス$\mathsf{TC}^0$の外での計算を ... #Article#ComputerVision#EfficiencyImprovement#Pretraining#NLP#LanguageModel#Transformer#Supervised-FineTuning (SFT)#MulltiModal#Article
Issue Date: 2025-03-24 Nemotron-H: A Family of Accurate, Efficient Hybrid Mamba-Transformer Models, Nvidia, 2025.03 Comment関連:#1820TransformerのSelf-attention LayerをMamba2 Layerに置換することで、様々なベンチマークで同等の性能、あるいは上回る性能で3倍程度のInference timeの高速化をしている(65536 input, 1024 output)。56B程度のm ... #Article#NLP#LanguageModel#Reasoning#ProprietaryLLM
Issue Date: 2025-03-22 Huayuan T1, Tencent, 2025.03 Comment元ポスト:https://x.com/txhunyuan/status/1903121005809373386?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q画像はブログより引用。DeepSeek-R1と比較すると優っているタスクと劣っているタスクがあり、なんとも言えない感。GPT4.5 ... #Article#Tutorial#ComputerVision#NLP
Issue Date: 2024-11-27 チュートリアル:Mamba, Vision Mamba (Vim), Hironobu Fujiyoshi, 2024.11