COLM

#Pocket
Issue Date: 2025-07-15 [Paper Note] L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning, Pranjal Aggarwal+, arXiv'25 SummaryLength Controlled Policy Optimization(LCPO)を導入し、推論言語モデルL1を訓練。これにより、出力の長さを制御しつつ計算コストと精度のトレードオフを最適化。LCPOは、長さ制御において最先端の手法S1を上回る性能を示し、1.5B L1モデルは同じ推論の長さでGPT-4oを超える結果を得た。 Comment元ポスト:https://x.com/pranjalaggarw16/status/1944452267861741684?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Pocket #Tokenizer
Issue Date: 2025-07-15 [Paper Note] SuperBPE: Space Travel for Language Models, Alisa Liu+, COLM'25 SummarySuperBPEという新しいトークナイザーを導入し、サブワードを超えたトークン化を実現。これにより、エンコーディング効率が33%向上し、30のダウンストリームタスクで平均+4.0%の性能改善を達成。SuperBPEは意味的に単一の単位として機能する表現を捉え、全体的に優れた言語モデルを提供する。 Comment元ポスト:https://x.com/alisawuffles/status/1944890077059965276?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Analysis #Pretraining #Pocket #NLP #LanguageModel #Stability
Issue Date: 2025-07-11 [Paper Note] Spike No More: Stabilizing the Pre-training of Large Language Models, Sho Takase+, COLM'25 Summary大規模言語モデルの事前学習中に発生する損失のスパイクは性能を低下させるため、避けるべきである。勾配ノルムの急激な増加が原因とされ、サブレイヤーのヤコビ行列の分析を通じて、勾配ノルムを小さく保つための条件として小さなサブレイヤーと大きなショートカットが必要であることを示した。実験により、これらの条件を満たす手法が損失スパイクを効果的に防ぐことが確認された。 Comment元ポスト:https://x.com/shot4410/status/1943301371010388175?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qsmall sub-layers, large shortcutsの説明はこちらに書かれている。前者については、現在主流なLLMの初期化手法は満たしているが、後者はオリジナルのTransformerの実装では実装されている[^1]が、最近の実装では失われてしまっているとのこと。
image

下図が実験結果で、条件の双方を満たしているのはEmbedLN[^2]とScaled Embed[^3]のみであり、実際にスパイクが生じていないことがわかる。
image

[^1]:オリジナル論文 245 の3.4節末尾、embedding layersに対してsqrt(d_model)を乗じるということがサラッと書いてある。これが実はめちゃめちゃ重要だったという…
[^2]: positional embeddingを加算する前にLayer Normalizationをかける方法
[^3]: EmbeddingにEmbeddingの次元数d(i.e., 各レイヤーのinputの次元数)の平方根を乗じる方法前にScaled dot-product attentionのsqrt(d_k)がめっちゃ重要ということを実験的に示した、という話もあったような…
(まあそもそも元論文になぜスケーリングさせるかの説明は書いてあるけども)

#Pretraining #Pocket #NLP #Dataset #LanguageModel #SyntheticData #Programming #Mathematics #mid-training Issue Date: 2025-07-10 [Paper Note] MegaMath: Pushing the Limits of Open Math Corpora, Fan Zhou+, COLM'25 SummaryMegaMathは、数学に特化したオープンデータセットで、LLMの数学的推論能力を向上させるために作成された。ウェブデータの再抽出、数学関連コードの特定、合成データの生成を通じて、371Bトークンの高品質なデータを提供し、既存のデータセットを上回る量と品質を実現した。 Comment元ポスト:https://x.com/fazhou_998/status/1942610771915202590?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q非常に大規模な数学の事前学習/mid-training向けのデータセット

CommonCrawlのHTMLから、さまざまなフィルタリング処理(reformatting, 2 stageのHTML parserの活用(片方はnoisyだが高速、もう一方は高性能だが遅い), fasttextベースの分類器による抽出, deduplication等)を実施しMegaMath-Webを作成、また、MegaMathWebをさらに分類器で低品質なものをフィルタリングし、LLMによってノイズ除去、テキストのreorganizingを実施し(≠ピュアな合成データ)継続事前学習、mid-training向けの高品質なMegaMath-Web-Proを作成。

MegaMathCodeはThe Stack V2 (2199) をベースにしており、mathematical reasoning, logic puzzles, scientific computationに関するコードを収集。まずこれらのコードと関連が深い11のプログラミング言語を選定し、そのコードスニペットのみを対象とする。次にstrong LLMを用いて、数学に関するrelevanceスコアと、コードの品質を0--6のdiscrete scoreでスコアリングし学習データを作成。作成した学習データでSLMを学習し大規模なフィルタリングを実施することでMegaMath-Codeを作成。

最後にMegaMath-{Web, code}を用いて、Q&A, code data, text&code block dataの3種類を合成。Q&Aデータの合成では、MegaMath-WebからQAペアを抽出し、多様性とデータ量を担保するためQwen2.5-72B-Instruct, Llama3.3-70B-Instructの両方を用いて、QAのsolutionを洗練させる(reasoning stepの改善, あるいはゼロから生成する[^1])ことで生成。また、code dataでは、pythonを対象にMegaMath-Codeのデータに含まれるpython以外のコードを、Qwen2.5-Coder-32B-Instructと、Llamd3.1-70B-Instructによってpythonに翻訳することでデータ量を増やした。text&code blockデータでは、MegaMath-Webのドキュメントを与えて、ブロックを生成(タイトル、数式、結果、コードなど[^1])し、ブロックのverificationを行い(コードが正しく実行できるか、実行結果とanswerが一致するか等)、verifiedなブロックを残すことで生成。

image

image

image

[^1]: この辺は論文の記述を咀嚼して記述しており実サンプルを見ていないので少し正しい認識か不安
#Pocket Issue Date: 2025-07-09 [Paper Note] When Does Metadata Conditioning (NOT) Work for Language Model Pre-Training? A Study with Context-Free Grammars, Rei Higuchi+, COLM'25 Summaryメタデータを事前学習データの先頭に追加することで、言語モデルの潜在的な意味の獲得能力を向上させるアプローチを調査。下流タスクにおいて正の効果と負の効果が見られ、効果はコンテキストの長さに依存。十分な長さのコンテキストがあれば性能向上が確認されたが、情報が不足している場合は悪影響を及ぼすことが示された。 Comment元ポスト:https://x.com/hillbig/status/1943086341933383720?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Pocket Issue Date: 2025-07-09 [Paper Note] Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents, Saaket Agashe+, COLM'25 SummaryAgent S2は、GUIとの対話を通じてデジタルタスクを自動化する新しいエージェントで、一般モデルと専門モデルに認知的責任を分担させるフレームワークを採用。Mixture-of-Grounding技術でGUIの位置特定を向上させ、Proactive Hierarchical Planningで動的なアクションプランを実現。評価では、OSWorldの15ステップおよび50ステップでそれぞれ18.9%と32.7%の改善を達成し、他のシステムでも優れた性能を示した。 Comment元ポスト:https://x.com/xwang_lk/status/1942428731303420054?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Pocket Issue Date: 2025-07-09 [Paper Note] ReasonIR: Training Retrievers for Reasoning Tasks, Rulin Shao+, COLM'25 Summary推論タスク向けに特別に訓練されたリトリーバーReasonIR-8Bを提案。合成データ生成パイプラインを用いて挑戦的なクエリとハードネガティブを作成し、訓練。BRIGHTベンチマークで新たな最先端成果を達成し、RAGタスクでも他のリトリーバーを上回る性能を示す。トレーニングレシピは一般的で、将来のLLMへの拡張が容易。コード、データ、モデルはオープンソースで公開。 Comment元ポスト:https://x.com/rulinshao/status/1942590591885615572?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Pocket Issue Date: 2025-07-09 [Paper Note] Learning to Generate Unit Tests for Automated Debugging, Archiki Prasad+, COLM'25 Summaryユニットテスト(UT)の重要性を踏まえ、UTGenを提案し、LLMを用いてエラーを明らかにするUT入力とその期待出力を生成。UTDebugを併用することで、出力予測の改善とオーバーフィッティングの回避を実現。UTGenは他のLLMベースラインを7.59%上回り、UTDebugと組み合わせることでQwen2.5の精度をそれぞれ3.17%および12.35%向上。最終的に、UTGenはHumanEval+で最先端モデルを4.43%上回る性能を示した。 Comment元ポスト:https://x.com/archikiprasad/status/1942645157943468500?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #NaturalLanguageGeneration #Citations #NLP #LanguageModel #Supervised-FineTuning (SFT) #AcademicWriting Issue Date: 2025-07-08 [Paper Note] ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations, Yubo Wang+, COLM'25 SummaryScholarCopilotは、学術的な執筆を支援するために大規模言語モデルを強化したフレームワークで、正確で文脈に関連した引用を生成します。取得トークンを用いて動的に文献を取得し、生成プロセスを補強します。評価では、取得精度が40.1%に達し、生成品質も他のモデルを大幅に上回りました。特に、ScholarCopilotはChatGPTを超える性能を示し、引用の質で100%の好ましさを達成しました。 Comment元ポスト:https://x.com/wenhuchen/status/1907861046833885397?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q従来のRAGベースのAcademicWriting手法では、まずReferenceを検索して、その内容をcontextに含めてテキストを生成するというSequentialなパイプラインだったが、本研究では通常のNextTokenPrediction Lossに加え、特殊トークン\[RET\]を導入し、ContrastiveLearningによって、\[RET\]トークンがトリガーとなり、生成過程のContextとqueryから適切なReferenceを検索できるEmbeddingを出力し、Referenceを検索し、動的にReferenceの内容をcontextに加え、テキストを生成する手法を提案している。
image
image

データセットはarXivからlatex sourceを収集し、bibliography部分からReferenceのタイトルをQwenを用いて抽出。タイトルをarXivおよびSemanticScholarのデータベースと照合し、paperとReferenceの紐付けを実施することで構築している。
image

GPT-4oによるjudgeの結果、ground truthのcitationを用いた場合には及ばないが、提案手法により品質が向上し、citation retrievalのRecall@Kも大幅に改善している。
image
image
#NLP #LanguageModel #Supervised-FineTuning (SFT) #PostTraining Issue Date: 2025-03-25 Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate, Yubo Wang+, COLM'25 Summary批評ファインチューニング(CFT)は、言語モデルがノイズのある応答を批評することを学ぶ新しい戦略で、従来の監視付きファインチューニング(SFT)に挑戦します。CFTは人間の学習プロセスにインスパイアを受け、深い分析を促進します。WebInstructから構築した50Kサンプルのデータセットを用いて、CFTは複数のベースモデルでSFTに対して4-10%の性能向上を示しました。特に、Qwen2.5-Math-CFTは少ないトレーニングで強力な競合と同等の性能を発揮し、CFTの堅牢性も確認されました。CFTは言語モデルの推論を進展させる効果的な手法であると主張します。 Comment元ポスト: https://x.com/WenhuChen/status/1885060597500567562Critique Fine-Tuning (CFT) を提案。CFTでは、query x, noisy response y [^1] が与えられたときに、それに対する批評 cを学習する。cはgivenではないので、GPT4oのような強力なモデルによって合成する。

![Image](https://github.com/user-attachments/assets/f25babdd-63d6-4d3d-a9b0-3217db2bd07f)

目的関数は以下。[x; y] がgivenな時にcを生成する確率を最大化する。シンプル。
![Image](https://github.com/user-attachments/assets/ccdb8e42-e8b2-4ae1-99a6-a0b7c1d4bf2a)

RLを用いた手法との比較。1/10程度のデータ量、1/100程度のGPU時間で同等の性能を達成できる。
![Image](https://github.com/user-attachments/assets/848376ff-9965-485b-b8a0-7960d1d0e7b9)

[^1]: 本論文で利用しているWebInstructからサンプリングしたデータでは、たとえば約50%程度のyが正解, 残りは不正解(程度のnoisyデータを利用している)
#Pocket #NLP #Dataset #LanguageModel #QuestionAnswering Issue Date: 2023-11-22 GPQA: A Graduate-Level Google-Proof Q&A Benchmark, David Rein+, N_A, COLM'24 Summary私たちは、高品質で非常に困難な多肢選択問題からなるGPQAデータセットを提案します。このデータセットは、専門家でも高い正答率を達成できず、最先端のAIシステムでも困難であることが示されています。将来のAIシステムの開発において、スケーラブルな監督方法を開発する必要があります。これにより、スキルを持つ監督者がAIシステムから信頼性のある情報を得ることができるようになります。GPQAデータセットは、スケーラブルな監督実験を可能にし、人間の専門家がAIシステムから真実の情報を確実に得る方法を考案するのに役立つことが期待されています。 Comment該当領域のPh.D所有者でも74%、高いスキルを持つ非専門家(Googleへアクセスして良い環境)で34%しか正答できないQAデータセット。
元ツイート: https://x.com/idavidrein/status/1727033002234909060?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QOpenReview:https://openreview.net/forum?id=Ti67584b98
#MachineLearning #NLP #LanguageModel #PEFT(Adaptor/LoRA) Issue Date: 2023-08-08 LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA Composition, Chengsong Huang+, N_A, COLM'24 Summary本研究では、大規模言語モデル(LLMs)を新しいタスクに適応させるための低ランク適応(LoRA)を検討し、LoraHubというフレームワークを提案します。LoraHubを使用すると、少数の例から複数のLoRAモジュールを組み合わせて柔軟に適応性のあるパフォーマンスを実現できます。また、追加のモデルパラメータや勾配は必要ありません。実験結果から、LoraHubが少数の例でのインコンテキスト学習のパフォーマンスを効果的に模倣できることが示されています。さらに、LoRAコミュニティの育成と共有リソースの提供にも貢献しています。 Comment学習されたLoRAのパラメータをモジュールとして捉え、新たなタスクのinputが与えられた時に、LoRA Hub上の適切なモジュールをLLMに組み合わせることで、ICL無しで汎化を実現するというアイデア。few shotのexampleを人間が設計する必要なく、同等の性能を達成。
image複数のLoRAモジュールは組み合わられるか?element wiseの線型結合で今回はやっているが、その疑問にこたえたのがcontributionOpenReview:https://openreview.net/forum?id=TrloAXEJ2B