Length


Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #EMNLP Issue Date: 2025-09-20 GPT Summary- LLMsは出力シーケンスの長さを制御する能力を持ち、その内部メカニズムを探求。特に、マルチヘッドアテンションが出力長の決定に重要であり、特定の隠れユニットを調整することで長さを制御可能であることを示す。プロンプトが長さ特有になると隠れユニットが活性化し、モデルの内部認識を反映。これにより、LLMsは外部制御なしに出力の長さを適応的に制御するメカニズムを学習していることが示唆される。

Paper/Blog Link My Issue
#Pocket #RLVR Issue Date: 2025-09-10 GPT Summary- RLにおける検証可能な報酬の動的生成長に対応した損失集約手法$\Delta L$正規化を提案。従来手法の問題点を克服し、ポリシー損失の不偏推定を提供しつつ勾配の分散を最小化。実験により、様々なモデルサイズやタスクで優れた結果を達成。コードは公開予定。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #Chain-of-Thought #Reasoning #EMNLP #Inference Issue Date: 2025-08-24 GPT Summary- Chain-of-Thought (CoT)はLLMの推論能力を向上させるが、長いCoT出力は推論遅延を増加させる。これに対処するため、重要度の低いトークンを選択的にスキップするTokenSkipを提案。実験により、TokenSkipはCoTトークンの使用を削減しつつ推論性能を維持することを示した。特に、Qwen2.5-14B-InstructでGSM8Kにおいて推論トークンを40%削減し、性能低下は0.4%未満であった。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Embeddings #Pocket #NLP #RepresentationLearning Issue Date: 2025-07-29 GPT Summary- スパースコーディングを用いたContrastive Sparse Representation(CSR)を提案し、適応的な埋め込みを実現。CSRは事前訓練された埋め込みをスパース化し、意味的品質を保持しつつコスト効果の高い推論を可能にする。実験により、CSRは精度と検索速度でMatryoshka Representation Learning(MRL)を上回り、訓練時間も大幅に短縮されることが示された。スパースコーディングは実世界のアプリケーションにおける適応的な表現学習の強力な手法として位置づけられる。 Comment

元ポスト:

Loading…

マトリョーシカ表現:
- [Paper Note] Matryoshka Representation Learning, Aditya Kusupati+, NeurIPS'22




Paper/Blog Link My Issue
#Controllable #Pocket #NLP #LanguageModel #InstructionTuning #EMNLP #One-Line Notes Issue Date: 2024-07-30 GPT Summary- 整列された指示に従うモデルは、整列されていないモデルよりもユーザーの要求に対して優れていますが、評価には長さバイアスが存在します。本研究では、望ましい応答の長さを制御するモデルのトレーニング方法を提案し、これにより長さに対する指示評価において、GPT4やLlama 3、Mixtralなどの従来モデルを上回る性能を示しました。 Comment

SoTA LLMがOutput長の制約に従わないことを示し、それを改善する学習手法LIFT-DPOを提案image

元ツイート:

Loading…



Paper/Blog Link My Issue
#Analysis #Pocket #NLP #Prompting #ACL Issue Date: 2025-10-02 GPT Summary- 本研究では、入力長の拡張が大規模言語モデル(LLMs)の性能に与える影響を評価する新しいQA推論フレームワークを提案。異なる長さやタイプのパディングを用いて、LLMsの推論性能が短い入力長で著しく低下することを示した。さらに、次の単語予測がLLMsの性能と負の相関を持つことを明らかにし、LLMsの限界に対処するための戦略を示唆する失敗モードを特定した。

Paper/Blog Link My Issue
#Controllable #Pocket #NLP #LanguageModel #PositionalEncoding Issue Date: 2025-01-03 GPT Summary- 応答の長さ制御に苦労するLLMに対し、ユーザーが設定した長さを精密に制御するための新たなアプローチを提案。二次の長さ差位置エンコーディング(LDPE)を利用し、ファインチューニングで一貫した応答の長さを達成、平均トークン誤差は3トークン未満。また、柔軟な上限長さ制御を実現するMax New Tokens++を導入。質問応答や文書要約での実験結果が、品質を保ちながらの長さ制御を示す。 Comment

元ポスト:

Loading…

- [Paper Note] Controlling Output Length in Neural Encoder-Decoders, Yuta Kikuchi+, EMNLP'16

などのEncoder-Decoderモデルで行われていたoutput lengthの制御をDecoder-onlyモデルでもやりました、という話に見える。




Paper/Blog Link My Issue
#Embeddings #Pocket #NLP #RepresentationLearning #NeurIPS #Selected Papers/Blogs Issue Date: 2025-07-29 GPT Summary- マトリョーシカ表現学習(MRL)は、異なる計算リソースに適応可能な柔軟な表現を設計する手法であり、既存の表現学習パイプラインを最小限に修正して使用します。MRLは、粗から細への表現を学習し、ImageNet-1K分類で最大14倍小さい埋め込みサイズを提供し、実世界のスピードアップを実現し、少数ショット分類で精度向上を達成します。MRLは視覚、視覚+言語、言語のモダリティにわたるデータセットに拡張可能で、コードとモデルはオープンソースで公開されています。 Comment

日本語解説: https://speakerdeck.com/hpprc/lun-jiang-zi-liao-matryoshka-representation-learning

単一のモデルから複数のlengthのEmbeddingを出力できるような手法。




Paper/Blog Link My Issue
#NeuralNetwork #Controllable #NLP #EMNLP #Encoder-Decoder Issue Date: 2025-01-03 GPT Summary- ニューラルエンコーダ-デコーダモデルの出力長を制御する方法を提案。特にテキスト要約において、デコーディングと学習に基づく2つのアプローチを用い、学習ベースの方法が要約の質を保ちながら長さを調整できることを示した。 Comment

Encoder-Decoderモデルにおいてoutput lengthを制御する手法を提案した最初の研究