ContextWindow

#Pocket #NLP #Attention #memory
Issue Date: 2025-09-30 [Paper Note] Short window attention enables long-term memorization, Loïc Cabannes+, arXiv'25, 2025.09 GPT Summary- SWAXというハイブリッドアーキテクチャは、スライディングウィンドウアテンションとxLSTM線形RNN層を組み合わせており、短いウィンドウが長期的な記憶をより良く訓練することを示す。SWAXはウィンドウサイズを確率的に変更し、短い・長いコンテキストの両方で優れた性能を発揮する。 Comment

元ポスト:

Loading…


#EfficiencyImprovement #InformationRetrieval #Pocket #NLP #RAG(RetrievalAugmentedGeneration) #read-later
Issue Date: 2025-09-10 [Paper Note] Efficient Context Selection for Long-Context QA: No Tuning, No Iteration, Just Adaptive-$k$, Chihiro Taguchi+, arXiv'25 GPT Summary- Adaptive-$k$ retrievalを提案し、クエリと候補パッセージの類似度に基づいて適応的にパッセージ数を選択。これにより、固定サイズのベースラインと同等以上の性能を発揮し、トークン使用量を最大10倍削減しつつ70%の関連パッセージを取得。LCLMsと埋め込みモデルで精度向上を実現し、動的なコンテキストサイズ調整が効率的なQAに寄与することを示す。 Comment

元ポスト:

Loading…

実務上コストを抑えられるのは非常に嬉しい。あとで読む。



#Analysis #Pocket #NLP #LanguageModel #LongSequence
Issue Date: 2024-04-07 Long-context LLMs Struggle with Long In-context Learning, Tianle Li+, N_A, arXiv'24 GPT Summary- LLMsは長いシーケンスを処理する能力に進展しているが、実世界のシナリオでの能力を評価するための専門的なベンチマークLongICLBenchが導入された。このベンチマークでは、LLMsは巨大なラベル空間を理解し、正しい予測を行うために入力全体を理解する必要がある。研究によると、長いコンテキストLLMsは長いコンテキストウィンドウを活用することで比較的良いパフォーマンスを示すが、最も困難なタスクでは苦労している。現在のLLMsは長くコンテキスト豊かなシーケンスを処理し理解する能力にギャップがあることを示唆しており、長いコンテキストの理解と推論は依然として難しい課題であることが示されている。 Comment

GPT4以外はコンテキストが20Kを超えると性能が劣化する傾向にあるとのこと。データセットを難易度別に収集し評価したところ、難易度の高いデータではそもそもコンテキストが長くなると全てのLLMがタスクを理解するできずほぼ0%の性能となった。
image



#NLP #LanguageModel Issue Date: 2023-07-11 Extending Context Window of Large Language Models via Positional Interpolation, Shouyuan Chen+, N_A, arXiv'23 GPT Summary- 私たちは、Position Interpolation(PI)という手法を提案します。これにより、RoPEベースの事前学習済みLLM(例:LLaMAモデル)のコンテキストウィンドウサイズを最大32768まで拡張することができます。PIを使用することで、長いコンテキストが必要なタスクで強力な性能を示し、元のコンテキストウィンドウ内のタスクに対しても良好な品質を保持します。PIは、注意スコアを壊滅的に高くすることを防ぐために、入力の位置インデックスを線形にダウンスケールして元のコンテキストウィンドウサイズに合わせます。この手法は、既存の最適化とインフラストラクチャを再利用することができます。 Comment

LLMのContext Windowを最大32kまで拡張する手法を提案。1000 step以内のminimalなfinetuningでモデルの性能を維持しながら実現できる。



#Article #Survey Issue Date: 2023-07-01 Extending Context is Hard…but not Impossible Comment

Open source LLMのcontext lengthをどのように大きくするかに関する議論