ContextWindow


Paper/Blog Link My Issue
#NLP #LanguageModel #Encoder #One-Line Notes #text #Compression Issue Date: 2025-10-26 GPT Summary- 本研究では、コンテキストを連続表現に圧縮するARC-Encoderを提案し、デコーダLLMのトークン埋め込みを置き換えるアプローチを探求。ARC-Encoderは、テキストトークンの少ない連続表現を出力し、計算効率を向上させる。さまざまなLLMシナリオで評価した結果、最先端のパフォーマンスを達成し、複数のデコーダに同時に適応可能であることを示した。 Comment

元ポスト:

Loading…

最近textのcontextをvisual tokenでレンダリングすることで圧縮する話が盛り上がっているが、こちらはtextの表現そのものを圧縮する話な模様。

そのうちpixel単位の入力、テキスト単位での入力を圧縮する話どちらかだけでなく、双方のハイブリッドになり、かつタスクに応じてattention等を通じてどちらのモダリティの情報を使うか、また圧縮前と後の情報どちらを使うか、みたいなものを動的に選択してタスクに応じて計算量やメモリを節約しつつ、高い性能を担保する、みたいな話になるんではなかろうか。




Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #NLP #LongSequence #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes Issue Date: 2025-10-21 GPT Summary- 本研究では、長いコンテキストを持つ大規模言語モデル(LLMs)の実用性を向上させるため、Glyphというフレームワークを提案し、テキストを画像に変換して視覚と言語のモデル(VLMs)で処理します。このアプローチにより、3-4倍のトークン圧縮を実現し、精度を維持しつつ処理速度を約4倍向上させます。さらに、128KコンテキストのVLMが1Mトークンのテキストタスクを処理可能になることを示しました。 Comment

元ポスト:

Loading…

所見:

Loading…

テキストを画像にレンダリングしてVLMに入力することでtextと比較して3.2倍KV Cache (context)を圧縮し、prefillingとデコード速度も4.8, 4.4倍高速化するフレームワークらしい

image




Paper/Blog Link My Issue
#NLP #Attention #memory Issue Date: 2025-09-30 GPT Summary- SWAXというハイブリッドアーキテクチャは、スライディングウィンドウアテンションとxLSTM線形RNN層を組み合わせており、短いウィンドウが長期的な記憶をより良く訓練することを示す。SWAXはウィンドウサイズを確率的に変更し、短い・長いコンテキストの両方で優れた性能を発揮する。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=btgVfhudI1




Paper/Blog Link My Issue
#EfficiencyImprovement #InformationRetrieval #NLP #RAG(RetrievalAugmentedGeneration) #read-later Issue Date: 2025-09-10 GPT Summary- Adaptive-$k$ retrievalを提案し、クエリと候補パッセージの類似度に基づいて適応的にパッセージ数を選択。これにより、固定サイズのベースラインと同等以上の性能を発揮し、トークン使用量を最大10倍削減しつつ70%の関連パッセージを取得。LCLMsと埋め込みモデルで精度向上を実現し、動的なコンテキストサイズ調整が効率的なQAに寄与することを示す。 Comment

元ポスト:

Loading…

実務上コストを抑えられるのは非常に嬉しい。あとで読む。




Paper/Blog Link My Issue
#NLP #LanguageModel #LongSequence #PositionalEncoding #ICLR #PostTraining #Selected Papers/Blogs Issue Date: 2025-08-02 GPT Summary- YaRN(Yet another RoPE extensioN method)は、トランスフォーマーベースの言語モデルにおける位置情報のエンコードを効率的に行い、コンテキストウィンドウを従来の方法よりも10倍少ないトークンと2.5倍少ない訓練ステップで拡張する手法を提案。LLaMAモデルが長いコンテキストを効果的に利用できることを示し、128kのコンテキスト長まで再現可能なファインチューニングを実現。 Comment

openreview: https://openreview.net/forum?id=wHBfxhZu1u

現在主流なRoPEを前提としたコンテキストウィンドウ拡張手法で、事前学習で学習されたRoPEのコンテキストウィンドウを中間学習において拡張する。様々なモデルで利用されている。

日本語解説: https://zenn.dev/bilzard/scraps/de7ecd3c380b6e

RoPE:
- [Paper Note] RoFormer: Enhanced Transformer with Rotary Position Embedding, Jianlin Su+, arXiv'21, 2021.04

- 国産生成AI PLaMoを支える事後学習と推論最適化, PFN, 2026.04

pp.24--25に解説がある




Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #AIAgents #Blog #NeurIPS #LongHorizon #Initial Impression Notes Issue Date: 2025-01-25 GPT Summary- 長い文脈を処理するために、Chain-of-Agents(CoA)フレームワークを提案。複数のワーカーエージェントが逐次的に情報を集約し、マネージャーエージェントが最終出力を統合。各エージェントに短い文脈を割り当てることで焦点の問題を軽減し、質問応答や要約などのタスクで最大10%の性能向上を実現。 Comment

元ポスト:

Loading…

LLMがどこまでいってもcontext長の制約に直面する問題に対してLLM Agentを組み合わせて対処しました、的な話な模様

ブログ中にアプローチを解説した動画があるのでわかりやすい

Is the experimental code open source?

Thank you for your comment. I tried to find an official open-source implementation provided by the authors, but I was not able to locate one. In fact, I also checked the personal webpage of the first author, but there was no link to any released code.

Is seems that an unofficial implementation is listed under the “Code” tab on the NeurIPS page. I hope this is helpful. Thank you.

NeurIPS link: https://nips.cc/virtual/2024/poster/95563
openreview: https://openreview.net/forum?id=LuCLf4BJsr




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #LongSequence #One-Line Notes Issue Date: 2024-04-07 GPT Summary- LLMsは長いシーケンスを処理する能力に進展しているが、実世界のシナリオでの能力を評価するための専門的なベンチマークLongICLBenchが導入された。このベンチマークでは、LLMsは巨大なラベル空間を理解し、正しい予測を行うために入力全体を理解する必要がある。研究によると、長いコンテキストLLMsは長いコンテキストウィンドウを活用することで比較的良いパフォーマンスを示すが、最も困難なタスクでは苦労している。現在のLLMsは長くコンテキスト豊かなシーケンスを処理し理解する能力にギャップがあることを示唆しており、長いコンテキストの理解と推論は依然として難しい課題であることが示されている。 Comment

GPT4以外はコンテキストが20Kを超えると性能が劣化する傾向にあるとのこと。データセットを難易度別に収集し評価したところ、難易度の高いデータではそもそもコンテキストが長くなると全てのLLMがタスクを理解するできずほぼ0%の性能となった。
image




Paper/Blog Link My Issue
#NLP #LanguageModel #One-Line Notes Issue Date: 2023-07-11 GPT Summary- Position Interpolation(PI)を提案し、RoPEベースのLLMの文脈ウィンドウサイズを最小限のファインチューニングで最大32768に拡張。長文要約やパスキー取得などのタスクで高い性能を示し、元のタスクでも良好な品質を維持。入力位置を元のウィンドウサイズに合わせて縮小することで、自己注意機構の安定性を確保。PIは元のアーキテクチャを保持し、既存のインフラも利用可能。 Comment

LLMのContext Windowを最大32kまで拡張する手法を提案。1000 step以内のminimalなfinetuningでモデルの性能を維持しながら実現できる。




Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Quantization #PositionalEncoding #LLMServing #Slide #mid-training #DPO #PostTraining #GRPO #KV Cache #Compression Issue Date: 2026-04-07 Comment

元ポスト:

Loading…

関連:
- PLaMo 3.0 Prime β版, PFN, 2026.03

関連:
- RoPE / YaRN
- [Paper Note] RoFormer: Enhanced Transformer with Rotary Position Embedding, Jianlin Su+, arXiv'21, 2021.04
- [Paper Note] YaRN: Efficient Context Window Extension of Large Language Models, Bowen Peng+, ICLR'24
- DPO
- [Paper Note] Direct Preference Optimization: Your Language Model is Secretly a Reward Model, Rafael Rafailov+, arXiv'23, 2023.05
- GRPO
- DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models, Zhihong Shao+, arXiv'24
- RLはSFTよりも汎化性能に優れ、基本的には事前学習で獲得された能力を引き出す、という話
- [Paper Note] SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training, Tianzhe Chu+, ICML'25
- [Paper Note] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?, Yang Yue+, NeurIPS'25, 2025.04
- JFBench: 実務レベルの日本語指示追従性能を備えた生成AIを目指して, PFN, 2026.01
- LLM Serving系
- [Paper Note] Efficient Memory Management for Large Language Model Serving with PagedAttention, Woosuk Kwon+, SOSP'23
- [Paper Note] GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers, Elias Frantar+, ICLR'23, 2022.10
- [Paper Note] AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration, Ji Lin+, MLSys'24
- TurboQuant: Redefining AI efficiency with extreme compression, Google Research, 2026.03

うーーんおもしろかった!後でnote中の関連文献を紐づけてついでに復習したい




Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #Blog #One-Line Notes Issue Date: 2025-02-12 Comment

日本語解説: https://jobirun.com/deepscaler-1-5b-surpasses-o1-preview-rl-scaling/

openreview: https://openreview.net/forum?id=I6GzDCne7U

Iterative Context Lengtheningと呼ばれる、RLの学習時に最初から固定された大きなcontext(24Kなど)ではなく、学習の過程で小さなcontext windowから始め、効率的なreasoningを学習させながら、段階的にモデルのcontext windowを引き上げる手法(論文中では8K->16K->24K)を提案している。