RecurrentModels
#EfficiencyImprovement
#Pocket
#NLP
#LanguageModel
#LongSequence
Issue Date: 2025-10-10 [Paper Note] Artificial Hippocampus Networks for Efficient Long-Context Modeling, Yunhao Fang+, arXiv'25, 2025.10 GPT Summary- 長大なシーケンスモデリングにおけるメモリのトレードオフを解決するため、人工海馬ネットワーク(AHN)を提案。AHNは短期メモリを維持しつつ、長期メモリを圧縮。実験により、AHNを用いたモデルが従来のベースラインを上回り、計算とメモリ要件を大幅に削減しつつ、パフォーマンスを向上させることを示した。 Comment
#Pocket #NLP #Scaling Laws
Issue Date: 2025-10-03 [Paper Note] xLSTM Scaling Laws: Competitive Performance with Linear Time-Complexity, Maximilian Beck+, arXiv'25, 2025.10 GPT Summary- スケーリング法則はLLMsの性能予測に重要であり、トランスフォーマーとxLSTMのスケーリング挙動を比較。xLSTMは文脈の長さに対して線形の複雑さを持ち、トレーニングおよび推論においてトランスフォーマーよりも有利にスケールすることが示された。特に、文脈が増えるとxLSTMの利点が拡大する。 Comment
#Pocket #NLP #Architecture #NeurIPS
Issue Date: 2025-10-03 [Paper Note] xLSTM: Extended Long Short-Term Memory, Maximilian Beck+, NeurIPS'24 Spotlight, 2024.05 GPT Summary- LSTMを数十億のパラメータにスケールアップし、最新技術を活用して制限を軽減する試み。指数的ゲーティングと修正されたメモリ構造を導入し、sLSTMとmLSTMを開発。これらを統合してxLSTMブロックを生成し、トランスフォーマーと比較してパフォーマンスとスケーリングで優れた結果を得る。 Comment
Issue Date: 2025-10-10 [Paper Note] Artificial Hippocampus Networks for Efficient Long-Context Modeling, Yunhao Fang+, arXiv'25, 2025.10 GPT Summary- 長大なシーケンスモデリングにおけるメモリのトレードオフを解決するため、人工海馬ネットワーク(AHN)を提案。AHNは短期メモリを維持しつつ、長期メモリを圧縮。実験により、AHNを用いたモデルが従来のベースラインを上回り、計算とメモリ要件を大幅に削減しつつ、パフォーマンスを向上させることを示した。 Comment
元ポスト:
所見:
#Pocket #NLP #Scaling Laws
Issue Date: 2025-10-03 [Paper Note] xLSTM Scaling Laws: Competitive Performance with Linear Time-Complexity, Maximilian Beck+, arXiv'25, 2025.10 GPT Summary- スケーリング法則はLLMsの性能予測に重要であり、トランスフォーマーとxLSTMのスケーリング挙動を比較。xLSTMは文脈の長さに対して線形の複雑さを持ち、トレーニングおよび推論においてトランスフォーマーよりも有利にスケールすることが示された。特に、文脈が増えるとxLSTMの利点が拡大する。 Comment
元ポスト:
関連:
- [Paper Note] xLSTM: Extended Long Short-Term Memory, Maximilian Beck+, NeurIPS'24 Spotlight, 2024.05
#Pocket #NLP #Architecture #NeurIPS
Issue Date: 2025-10-03 [Paper Note] xLSTM: Extended Long Short-Term Memory, Maximilian Beck+, NeurIPS'24 Spotlight, 2024.05 GPT Summary- LSTMを数十億のパラメータにスケールアップし、最新技術を活用して制限を軽減する試み。指数的ゲーティングと修正されたメモリ構造を導入し、sLSTMとmLSTMを開発。これらを統合してxLSTMブロックを生成し、トランスフォーマーと比較してパフォーマンスとスケーリングで優れた結果を得る。 Comment
code: https://github.com/NX-AI/xlstm
最近名前をみるxLSTM
openreview: https://openreview.net/forum?id=ARAxPPIAhq¬eId=gra7vHnb0q