Length

#Analysis #Pocket #NLP #LanguageModel #EMNLP
Issue Date: 2025-09-20 [Paper Note] Length Representations in Large Language Models, Sangjun Moon+, EMNLP'25 GPT Summary- LLMsは出力シーケンスの長さを制御する能力を持ち、その内部メカニズムを探求。特に、マルチヘッドアテンションが出力長の決定に重要であり、特定の隠れユニットを調整することで長さを制御可能であることを示す。プロンプトが長さ特有になると隠れユニットが活性化し、モデルの内部認識を反映。これにより、LLMsは外部制御なしに出力の長さを適応的に制御するメカニズムを学習していることが示唆される。 #Pocket #RLVR
Issue Date: 2025-09-10 [Paper Note] $ΔL$ Normalization: Rethink Loss Aggregation in RLVR, Zhiyuan He+, arXiv'25 GPT Summary- RLにおける検証可能な報酬の動的生成長に対応した損失集約手法$\Delta L$正規化を提案。従来手法の問題点を克服し、ポリシー損失の不偏推定を提供しつつ勾配の分散を最小化。実験により、様々なモデルサイズやタスクで優れた結果を達成。コードは公開予定。 Comment

元ポスト:

Loading…


#EfficiencyImprovement #Pocket #NLP #LanguageModel #Chain-of-Thought #Reasoning #EMNLP #Inference
Issue Date: 2025-08-24 [Paper Note] TokenSkip: Controllable Chain-of-Thought Compression in LLMs, Heming Xia+, EMNLP'25 GPT Summary- Chain-of-Thought (CoT)はLLMの推論能力を向上させるが、長いCoT出力は推論遅延を増加させる。これに対処するため、重要度の低いトークンを選択的にスキップするTokenSkipを提案。実験により、TokenSkipはCoTトークンの使用を削減しつつ推論性能を維持することを示した。特に、Qwen2.5-14B-InstructでGSM8Kにおいて推論トークンを40%削減し、性能低下は0.4%未満であった。 Comment

元ポスト:

Loading…


#Embeddings #Pocket #NLP #RepresentationLearning Issue Date: 2025-07-29 [Paper Note] Beyond Matryoshka: Revisiting Sparse Coding for Adaptive Representation, Tiansheng Wen+, arXiv'25 GPT Summary- スパースコーディングを用いたContrastive Sparse Representation(CSR)を提案し、適応的な埋め込みを実現。CSRは事前訓練された埋め込みをスパース化し、意味的品質を保持しつつコスト効果の高い推論を可能にする。実験により、CSRは精度と検索速度でMatryoshka Representation Learning(MRL)を上回り、訓練時間も大幅に短縮されることが示された。スパースコーディングは実世界のアプリケーションにおける適応的な表現学習の強力な手法として位置づけられる。 Comment

元ポスト:

Loading…

マトリョーシカ表現:
- [Paper Note] Matryoshka Representation Learning, Aditya Kusupati+, NeurIPS'22



#Analysis #Pocket #NLP #Prompting #ACL Issue Date: 2025-10-02 [Paper Note] Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models, Mosh Levy+, ACL'24, 2024.02 GPT Summary- 本研究では、入力長の拡張が大規模言語モデル(LLMs)の性能に与える影響を評価する新しいQA推論フレームワークを提案。異なる長さやタイプのパディングを用いて、LLMsの推論性能が短い入力長で著しく低下することを示した。さらに、次の単語予測がLLMsの性能と負の相関を持つことを明らかにし、LLMsの限界に対処するための戦略を示唆する失敗モードを特定した。 #Controllable #Pocket #NLP #LanguageModel #PositionalEncoding Issue Date: 2025-01-03 Precise Length Control in Large Language Models, Bradley Butcher+, arXiv'24 GPT Summary- 本研究では、LLMの応答の長さを正確に制御するために、二次的な長さ差位置エンコーディング(LDPE)を用いたアプローチを提案。LDPEを組み込むことで、モデルは平均3トークン未満の誤差で望ましい長さで応答を終了できるようになる。また、柔軟な上限長さ制御を可能にするMax New Tokens++も導入。実験結果は、質問応答や文書要約において応答の質を維持しつつ正確な長さ制御が実現できることを示している。 Comment

元ポスト:

Loading…

- Controlling Output Length in Neural Encoder-Decoders, Yuta Kikuchi+, EMNLP'16

などのEncoder-Decoderモデルで行われていたoutput lengthの制御をDecoder-onlyモデルでもやりました、という話に見える。



#Controllable #Pocket #NLP #LanguageModel #InstructionTuning Issue Date: 2024-07-30 Following Length Constraints in Instructions, Weizhe Yuan+, N_A, arXiv'24 GPT Summary- アラインされた命令に従うモデルは、非アラインのモデルよりもユーザーの要求をよりよく満たすことができることが示されています。しかし、このようなモデルの評価には長さのバイアスがあり、訓練アルゴリズムは長い応答を学習することでこのバイアスを利用する傾向があることが示されています。本研究では、推論時に所望の長さ制約を含む命令で制御できるモデルの訓練方法を示します。このようなモデルは、長さ指示された評価において優れており、GPT4、Llama 3、Mixtralなどの標準的な命令に従うモデルを上回っています。 Comment

SoTA LLMがOutput長の制約に従わないことを示し、それを改善する学習手法LIFT-DPOを提案image

元ツイート:

Loading…


#Embeddings #Pocket #NLP #RepresentationLearning #NeurIPS #Selected Papers/Blogs Issue Date: 2025-07-29 [Paper Note] Matryoshka Representation Learning, Aditya Kusupati+, NeurIPS'22 GPT Summary- マトリョーシカ表現学習(MRL)は、異なる計算リソースに適応可能な柔軟な表現を設計する手法であり、既存の表現学習パイプラインを最小限に修正して使用します。MRLは、粗から細への表現を学習し、ImageNet-1K分類で最大14倍小さい埋め込みサイズを提供し、実世界のスピードアップを実現し、少数ショット分類で精度向上を達成します。MRLは視覚、視覚+言語、言語のモダリティにわたるデータセットに拡張可能で、コードとモデルはオープンソースで公開されています。 Comment

日本語解説: https://speakerdeck.com/hpprc/lun-jiang-zi-liao-matryoshka-representation-learning

単一のモデルから複数のlengthのEmbeddingを出力できるような手法。



#NeuralNetwork #Controllable #NLP #EMNLP Issue Date: 2025-01-03 Controlling Output Length in Neural Encoder-Decoders, Yuta Kikuchi+, EMNLP'16 GPT Summary- ニューラルエンコーダ-デコーダモデルの出力長を制御する方法を提案。特にテキスト要約において、デコーディングと学習に基づく2つのアプローチを用い、学習ベースの方法が要約の質を保ちながら長さを調整できることを示した。 Comment

Encoder-Decoderモデルにおいてoutput lengthを制御する手法を提案した最初の研究