Length

#EfficiencyImprovement #Pocket #NLP #LanguageModel #Chain-of-Thought #Reasoning #EMNLP #Inference
Issue Date: 2025-08-24 [Paper Note] TokenSkip: Controllable Chain-of-Thought Compression in LLMs, Heming Xia+, EMNLP'25 SummaryChain-of-Thought (CoT)はLLMの推論能力を向上させるが、長いCoT出力は推論遅延を増加させる。これに対処するため、重要度の低いトークンを選択的にスキップするTokenSkipを提案。実験により、TokenSkipはCoTトークンの使用を削減しつつ推論性能を維持することを示した。特に、Qwen2.5-14B-InstructでGSM8Kにおいて推論トークンを40%削減し、性能低下は0.4%未満であった。 Comment元ポスト:https://x.com/hemingkx/status/1891873475545137245?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Embeddings #Pocket #NLP #RepresentationLearning
Issue Date: 2025-07-29 [Paper Note] Beyond Matryoshka: Revisiting Sparse Coding for Adaptive Representation, Tiansheng Wen+, arXiv'25 Summaryスパースコーディングを用いたContrastive Sparse Representation(CSR)を提案し、適応的な埋め込みを実現。CSRは事前訓練された埋め込みをスパース化し、意味的品質を保持しつつコスト効果の高い推論を可能にする。実験により、CSRは精度と検索速度でMatryoshka Representation Learning(MRL)を上回り、訓練時間も大幅に短縮されることが示された。スパースコーディングは実世界のアプリケーションにおける適応的な表現学習の強力な手法として位置づけられる。 Comment元ポスト:https://x.com/hillbig/status/1949957739637002450?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qマトリョーシカ表現:
・2311
#Controllable #Pocket #NLP #LanguageModel #PositionalEncoding
Issue Date: 2025-01-03 Precise Length Control in Large Language Models, Bradley Butcher+, arXiv'24 Summary本研究では、LLMの応答の長さを正確に制御するために、二次的な長さ差位置エンコーディング(LDPE)を用いたアプローチを提案。LDPEを組み込むことで、モデルは平均3トークン未満の誤差で望ましい長さで応答を終了できるようになる。また、柔軟な上限長さ制御を可能にするMax New Tokens++も導入。実験結果は、質問応答や文書要約において応答の質を維持しつつ正確な長さ制御が実現できることを示している。 Comment元ポスト:https://x.com/dair_ai/status/1870821203780256178?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q・1647

などのEncoder-Decoderモデルで行われていたoutput lengthの制御をDecoder-onlyモデルでもやりました、という話に見える。

#Controllable #Pocket #NLP #LanguageModel #InstructionTuning Issue Date: 2024-07-30 Following Length Constraints in Instructions, Weizhe Yuan+, N_A, arXiv'24 Summaryアラインされた命令に従うモデルは、非アラインのモデルよりもユーザーの要求をよりよく満たすことができることが示されています。しかし、このようなモデルの評価には長さのバイアスがあり、訓練アルゴリズムは長い応答を学習することでこのバイアスを利用する傾向があることが示されています。本研究では、推論時に所望の長さ制約を含む命令で制御できるモデルの訓練方法を示します。このようなモデルは、長さ指示された評価において優れており、GPT4、Llama 3、Mixtralなどの標準的な命令に従うモデルを上回っています。 CommentSoTA LLMがOutput長の制約に従わないことを示し、それを改善する学習手法LIFT-DPOを提案image

元ツイート: https://x.com/jaseweston/status/1805771223747481690?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q
#Embeddings #Pocket #NLP #RepresentationLearning #NeurIPS Issue Date: 2025-07-29 [Paper Note] Matryoshka Representation Learning, Aditya Kusupati+, NeurIPS'22 Summaryマトリョーシカ表現学習(MRL)は、異なる計算リソースに適応可能な柔軟な表現を設計する手法であり、既存の表現学習パイプラインを最小限に修正して使用します。MRLは、粗から細への表現を学習し、ImageNet-1K分類で最大14倍小さい埋め込みサイズを提供し、実世界のスピードアップを実現し、少数ショット分類で精度向上を達成します。MRLは視覚、視覚+言語、言語のモダリティにわたるデータセットに拡張可能で、コードとモデルはオープンソースで公開されています。 Comment日本語解説:https://speakerdeck.com/hpprc/lun-jiang-zi-liao-matryoshka-representation-learning単一のモデルから複数のlengthのEmbeddingを出力できるような手法。 #NeuralNetwork #Controllable #NLP #EMNLP Issue Date: 2025-01-03 Controlling Output Length in Neural Encoder-Decoders, Yuta Kikuchi+, EMNLP'16 Summaryニューラルエンコーダ-デコーダモデルの出力長を制御する方法を提案。特にテキスト要約において、デコーディングと学習に基づく2つのアプローチを用い、学習ベースの方法が要約の質を保ちながら長さを調整できることを示した。 CommentEncoder-Decoderモデルにおいてoutput lengthを制御する手法を提案した最初の研究