Architecture

#ComputerVision#Efficiency/SpeedUp#NLP#Transformer#MulltiModal#AudioProcessing
Issue Date: 2024-11-12 Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models, Weixin Liang+, arXiv24 Comment![image](https://github.com/user-attachments/assets/340ab176-7b17-467a-8731-20d1594d6951) ... #NLP#Transformer
Issue Date: 2024-10-21 Differential Transformer, Tianzhu Ye+, N_A, arXiv24 Comment最近のMSはなかなかすごい(小並感# 概要 attention scoreのノイズを低減するようなアーキテクチャとして、二つのQKVを用意し、両者の差分を取ることで最終的なattentiok scoreを計算するDifferential Attentionを提案した。 attentionのnois ...