Encoder-Decoder

#Pocket#Transformer#LongSequence#NeurIPS#Encoder
Issue Date: 2023-05-09 Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens, Zhanpeng Zeng+, N_A, NeurIPS23 Summary本論文では、Transformerモデルの二次コストを削減するために、各層でサイズ$r$が$n$に独立した表現に入力を圧縮する方法を提案する。VIPトークン中心の圧縮(Vcc)スキームを使用し、VIPトークンの表現を近似するために入力シーケンスを選択的に圧縮する。提案されたアルゴリズムは、競合するベースラインと比較して効率的であり、多数のタスクにおいて競争力のあるまたはより優れたパフォーマンスを発揮する。また、アルゴリズムは128Kトークンにスケーリングでき、一貫して精度の向上を提供することが示された。 #Pocket#NLP#Transformer#Architecture#Normalization
Issue Date: 2025-07-04 On Layer Normalizations and Residual Connections in Transformers, Sho Takase+, arXiv22 CommentPre-LNの安定性を持ちながらもPost-LNのような高い性能を発揮する良いとこ取りのB2TConnectionを提案![image](https://github.com/user-attachments/assets/4d85bf16-19e4-4d2a-85e5-87da45cd2a98)N ... #Analysis#Pocket#NLP#Transformer#Normalization
Issue Date: 2025-07-05 On Layer Normalization in the Transformer Architecture, Ruibin Xiong+, arXiv20 CommentOpenReview:https://openreview.net/forum?id=B1x8anVFPrEncoder-DecoderのTransformerにおいて、Post-LNの場合は、Warmupを無くすと最終的な性能が悪化し、またWarmUpステップの値によって(500 vs. 4000 ...