LongSequenceに関する論文・技術記事メモの一覧

LongSequence

#ComputerVision #EfficiencyImprovement #Pocket #Transformer #SSM (StateSpaceModel)#VideoGeneration/Understandings #ICCV
Issue Date: 2025-06-26 Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers, Weiming Ren+, arXiv25 Comment元ポスト:https://x.com/wenhuchen/status/1938064510369280136?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket #NLP #Dataset #LLMAgent #Evaluation #Programming
Issue Date: 2025-06-17 ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering, Yuki Imajuku+, arXiv25 Comment元ポスト:https://x.com/sakanaailabs/status/1934767254715117812?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q関連ポスト:https://x.com/iwiwi/status/1934830621756674499?s=46&t=Y6 ... #Pocket #NLP #LanguageModel #OpenWeight
Issue Date: 2025-05-27 QwenLong-CPRS: Towards $\infty$-LLMs with Dynamic Context Optimization, Weizhou Shen+, arXiv25 Comment元ポスト:https://x.com/_akhaliq/status/1927014346690826684?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ...

#Pocket #NLP #LanguageModel #OpenWeight #read-later
Issue Date: 2025-05-27 QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning, Fanqi Wan+, arXiv25 Comment元ポスト:https://x.com/_akhaliq/status/1927011243597967524?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Survey #Pocket #LanguageModel #Supervised-FineTuning (SFT)#ReinforcementLearning #Chain-of-Thought #InstructionTuning #PPO (ProximalPolicyOptimization)#Reasoning #RewardHacking #GRPO #Contamination #VerifiableRewards #CurriculumLearning
Issue Date: 2025-05-06 100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models, Chong Zhang+, arXiv25 Comment元ポスト:https://x.com/_philschmid/status/1918898257406709983?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qサーベイのtakeawayが箇条書きされている。 ... #MachineLearning #Pocket #LanguageModel #ReinforcementLearning #Reasoning
Issue Date: 2025-04-08 VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks, YuYue+, arXiv25 Comment同じくByteDanceの#1815を上回る性能![image](https://github.com/user-attachments/assets/51f7a43a-9410-45f3-989c-4e0b1fdd86ef)元ポスト:https://x.com/_akhaliq/status/19 ... #EfficiencyImprovement #Pocket #NLP #Transformer #Architecture
Issue Date: 2025-04-06 Scalable-Softmax Is Superior for Attention, Ken M. Nakanishi, arXiv25 Comment#1863で採用されている手法で、ブログポスト中で引用されている。Long Contextになった場合にsoftmaxの分布が均一になる（＝重要な情報にattendする能力が削がれる）ことを防ぐための手法を提案している。解説ポスト:https://x.com/nrehiew_/status/1908 ... #Pocket #NLP #Dataset #LanguageModel
Issue Date: 2025-03-20 Lost-in-the-Middle in Long-Text Generation: Synthetic Dataset, Evaluation Framework, and Mitigation, Junhao Zhang+, arXiv25 CommentLost in the Middleに関する研究。関連研究:#793 ... #MachineLearning #Pocket #LanguageModel #ReinforcementLearning #Reasoning #GRPO #read-later
Issue Date: 2025-03-20 DAPO: An Open-Source LLM Reinforcement Learning System at Scale, Qiying Yu+, arXiv25 Comment既存のreasoning modelのテクニカルレポートにおいて、スケーラブルなRLの学習で鍵となるレシピは隠されていると主張し、実際彼らのbaselineとしてGRPOを走らせたところ、DeepSeekから報告されているAIME2024での性能（47ポイント）よりもで　大幅に低い性能（30ポイント ... #Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT)#ReinforcementLearning #Chain-of-Thought #Reasoning #RewardHacking #PostTraining
Issue Date: 2025-02-07 Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, arXiv25 Comment元ポスト:https://x.com/xiangyue96/status/1887332772198371514?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q元ポストのスレッド中に論文の11個の知見が述べられている。どれも非常に興味深い。DeepSeek-R1のテクニカルペーパーと同様 ... #RecommenderSystems #NLP #UserModeling #LanguageModel #CTRPrediction #RAG(RetrievalAugmentedGeneration)#WWW
Issue Date: 2025-03-27 ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation, Jianghao Lin+, WWW24 Comment#1839のベースラインLLMでCTR予測する際の性能を向上した研究。そもそもLLMでCTR予測をする際は、ユーザのデモグラ情報とアクティビティログなどのユーザプロファイルと、ターゲットアイテムの情報でpromptingし、yes/noを出力させる。yes/noトークンのスコアに対して2次元のソフト ... #Embeddings #Pocket #Supervised-FineTuning (SFT)#RAG(RetrievalAugmentedGeneration)#ACL #PostTraining
Issue Date: 2025-01-06 Grounding Language Model with Chunking-Free In-Context Retrieval, Hongjin Qian+, arXiv24 CommentChunking無しでRAGを動作させられるのは非常に魅力的。![image](https://github.com/user-attachments/assets/8841930a-3099-46c8-aae7-50f52473fbb1)一貫してかなり性能が向上しているように見える![image] ... #MachineLearning #Pocket #NLP #SSM (StateSpaceModel)
Issue Date: 2024-11-05 Stuffed Mamba: State Collapse and State Capacity of RNN-Based Long-Context Modeling, Yingfa Chen+, arXiv24 #Analysis #Pocket #NLP #LanguageModel #ContextWindow
Issue Date: 2024-04-07 Long-context LLMs Struggle with Long In-context Learning, Tianle Li+, N_A, arXiv24 SummaryLLMsは長いシーケンスを処理する能力に進展しているが、実世界のシナリオでの能力を評価するための専門的なベンチマークLongICLBenchが導入された。このベンチマークでは、LLMsは巨大なラベル空間を理解し、正しい予測を行うために入力全体を理解する必要がある。研究によると、長いコンテキストLLMsは長いコンテキストウィンドウを活用することで比較的良いパフォーマンスを示すが、最も困難なタスクでは苦労している。現在のLLMsは長くコンテキスト豊かなシーケンスを処理し理解する能力にギャップがあることを示唆しており、長いコンテキストの理解と推論は依然として難しい課題であることが示されている。 CommentGPT4以外はコンテキストが20Kを超えると性能が劣化する傾向にあるとのこと。データセットを難易度別に収集し評価したところ、難易度の高いデータではそもそもコンテキストが長くなると全てのLLMがタスクを理解するできずほぼ0%の性能となった。 ...

#Pocket #NLP #LanguageModel #NAACL
Issue Date: 2023-10-09 Effective Long-Context Scaling of Foundation Models, Wenhan Xiong+, N_A, NAACL24 Summary私たちは、長いコンテキストをサポートする一連のLLMsを提案します。これらのモデルは、長いテキストを含むデータセットでトレーニングされ、言語モデリングや他のタスクで評価されます。提案手法は、通常のタスクと長いコンテキストのタスクの両方で改善をもたらします。また、70Bバリアントはgpt-3.5-turbo-16kを上回るパフォーマンスを実現します。さらに、私たちはLlamaの位置エンコーディングや事前学習プロセスの設計選択の影響についても分析しました。結果から、長いコンテキストの継続的な事前学習が効果的であることが示されました。 Comment以下elvis氏のツイートの意訳Metaが32kのcontext windowをサポートする70BのLLaMa2のvariant提案し、gpt-3.5-turboをlong contextが必要なタスクでoutperform。short contextのLLaMa2を継続的に訓練して実現。これ位置エ ... #EfficiencyImprovement #NLP #LanguageModel #Transformer #PositionalEncoding #NeurIPS
Issue Date: 2025-04-06 The Impact of Positional Encoding on Length Generalization in Transformers, Amirhossein Kazemnejad+, NeurIPS23 Comment#1863において、Llama4 Scoutが10Mコンテキストウィンドウを実現できる理由の一つとのこと。元ポスト:https://x.com/drjimfan/status/1908615861650547081?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QLlama斜め読みだが、l ... #Survey #Transformer
Issue Date: 2023-11-27 Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey, Yunpeng Huang+, N_A, arXiv23 Summary本論文では、Transformerベースの大規模言語モデル（LLMs）の長い文脈の能力を最適化するための包括的な調査を提案しています。現行のLLMsの制約や問題点を明確化し、アーキテクチャのアップグレードや評価の必要性について説明しています。さらに、最適化ツールキットや将来の研究の可能性についても議論しています。関連文献はhttps://github.com/Strivin0311/long-llms-learningでリアルタイムに更新されています。 CommentTransformerをLongContextに対応させる技術のサーベイ。（画像は元ツイートより）元ツイート: https://x.com/omarsar0/status/1727358484360945750?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ...

#EfficiencyImprovement #MachineLearning #Pocket #NLP #Dataset #QuestionAnswering #Supervised-FineTuning (SFT)#PEFT(Adaptor/LoRA)
Issue Date: 2023-09-30 LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models, Yukang Chen+, N_A, arXiv23 Summary本研究では、計算コストを制限しながら大規模言語モデル（LLMs）のコンテキストサイズを拡張する効率的なファインチューニング手法であるLongLoRAを提案します。従来の方法では、LLMsの長いコンテキストサイズでのトレーニングには高い計算コストとGPUリソースが必要でしたが、提案手法ではコンテキスト拡張を高速化し、非自明な計算コストの削減を実現します。また、パラメータ効率的なファインチューニング手法も再評価し、LongLoRAはさまざまなタスクで強力な実験結果を示しています。さらに、教師ありファインチューニングのためのデータセットであるLongQAも収集されました。 Comment# 概要 context長が大きい場合でも効率的にLoRAする手法。通常のLoRAではcontext lengthが大きくなるにつれてperplexityが大きくなってしまう。一方、通常のFinetuningではperplexityは高い性能を維持するが、計算コストとVRAMの消費量が膨大になって ...

#NLP #Transformer #PositionalEncoding
Issue Date: 2023-07-14 Randomized Positional Encodings Boost Length Generalization of Transformers, ACL23 Summaryトランスフォーマーは、固定長のタスクにおいては優れた汎化能力を持つが、任意の長さのシーケンスには対応できない。この問題を解決するために、新しい位置エンコーディング手法を提案する。ランダム化された位置エンコーディングスキームを使用し、長いシーケンスの位置をシミュレートし、順序付けられたサブセットをランダムに選択する。大規模な実証評価により、この手法がトランスフォーマーの汎化能力を向上させ、テストの正確性を平均して12.0％向上させることが示された。 #MachineLearning #Pocket #NLP #LanguageModel
Issue Date: 2023-07-03 Augmenting Language Models with Long-Term Memory, Weizhi Wang+, N_A, arXiv23 Summary既存の大規模言語モデル（LLMs）は、入力長の制限により、長い文脈情報を活用できない問題があります。そこで、私たちは「長期記憶を持つ言語モデル（LongMem）」というフレームワークを提案しました。これにより、LLMsは長い履歴を記憶することができます。提案手法は、メモリエンコーダとして凍結されたバックボーンLLMと、適応的な残余サイドネットワークを組み合わせた分離されたネットワークアーキテクチャを使用します。このアーキテクチャにより、長期の過去の文脈を簡単にキャッシュし、利用することができます。実験結果は、LongMemが長い文脈モデリングの難しいベンチマークであるChapterBreakで強力な性能を発揮し、メモリ増強型のコンテキスト内学習で改善を達成することを示しています。提案手法は、言語モデルが長い形式のコンテンツを記憶し利用するのに効果的です。 CommentLLMに長期のhistoryを記憶させることを可能する新たな手法を提案し、既存のstrongな長いcontextを扱えるモデルを上回るパフォーマンスを示した ...

#EfficiencyImprovement #Pocket #NLP #LanguageModel #Transformer #Attention #Inference
Issue Date: 2023-04-30 Efficiently Scaling Transformer Inference, Reiner Pope+, N_A, MLSys23 Summary大規模Transformerベースのモデルの推論のエンジニアリングのトレードオフを理解するために、最適な多次元分割技術を選択するための単純な解析モデルを開発低レベルの最適化と組み合わせることで、500B+パラメータモデルのレイテンシーとモデルFLOPS利用率のトレードオフにおいて、FasterTransformerベンチマークスイートを上回る新しいParetoフロンティアを実現適切な分割により、マルチクエリアテンションの低いメモリ要件により、32倍の大きなコンテキスト長にスケーリング可能int8ウェイト量子化を使用した生成中の低バッチサイズレイテンシーは、トークンあたり29msであり、入力トークンの大バッチサイズ処理において76％のMFUを実現し、PaLM 540Bパラメータモデルにおいて2048トークンの長いコンテキスト長をサポートしている。 Comment特にMultiquery Attentionという技術がTransformerのinferenceのコスト削減に有効らしい ... #Article #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT)#ReinforcementLearning #InstructionTuning #Blog #MultiLingual #OpenWeight #MoE(Mixture-of-Experts)#PostTraining
Issue Date: 2025-04-29 Qwen3, Qwen Team, 2025.04 Comment119言語をサポートMoEモデル #1911 30B-A3B / 235B-A22N 128K context window Qwen2.5はMoEを採用していないので新たなアーキテクチャとなるDenseモデル（非MoEモデル）も公開BestPracticeに関するポスト:http ... #Article #NLP #Dataset #LanguageModel #Evaluation
Issue Date: 2025-04-09 Fiction.liveBench, 2025.04 Commentlong contextではGemini-2.5-proの圧勝 ... #Article #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration)
Issue Date: 2024-07-03 RetrievaBERTの公開, 2024 CommentRAGへ応用する際に、長いコンテキストを扱いEmbeddingを獲得したいシーンが増えたので、最大でコンテキスト長が2048のBERTを学習し公開。Apache2.0 オリジナルのBERTと比較して、近年のLLMで有用性が示されている以下をアーキテクチャに取り入れている SwiGLU活性 ... #Article #NLP #LanguageModel #Blog
Issue Date: 2023-07-01 How Long Can Open-Source LLMs Truly Promise on Context Length?, 2023 CommentLLMのcontext長を伸ばす際の方法と得られた知見がまとめられている ... #Article #NLP #LanguageModel
Issue Date: 2023-04-27 Unleashing Infinite-Length Input Capacity for Large-scale Language Models with Self-Controlled Memory System, 2023 Comment> Our findings indicate that our system outperforms ChatGPT in handling ultra-long inputs or conversations. と書いてあるが、定量評価の結果が全く書いていない模様。全くもって信用できない。4/ ...