COLM

#Pocket
Issue Date: 2025-10-12 [Paper Note] Hidden in plain sight: VLMs overlook their visual representations, Stephanie Fu+, COLM'25 Outstanding Papers, 2025.06 GPT Summary- VLMは視覚情報と言語情報を統合するが、視覚タスクでのパフォーマンスが低下し、ほぼ偶然の結果に至ることが判明。視覚表現の劣化、タスクプロンプトへの脆弱性、言語モデルの役割の3つの要因がボトルネックであり、VLMは視覚情報を効果的に活用できていない。研究はVLMの失敗モードを診断し、視覚理解に関する評価を提供。 Comment

openreview: https://openreview.net/forum?id=qQb1JLrwol#discussion

元ポスト:

Loading…


#Pocket
Issue Date: 2025-10-12 [Paper Note] Don't lie to your friends: Learning what you know from collaborative self-play, Jacob Eisenstein+, COLM'25 Outstanding Papers, 2025.03 GPT Summary- AIエージェントが有用なアシスタントになるためには、自身の能力と限界を理解する必要がある。これを実現するために「協調的自己プレイ」という新しいアプローチを提案し、マルチエージェントが共同で正しい答えに到達することで報酬を得る仕組みを構築。実験により、グループレベルの報酬が個々のエージェントのツール使用と予測の改善に寄与することが示された。 Comment

openreview: https://arxiv.org/abs/2503.14481

元ポスト:

Loading…


#Pocket
Issue Date: 2025-10-12 [Paper Note] Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling, Benjamin Lipkin+, COLM'25 Outstanding Papers, 2025.04 GPT Summary- 本研究では、言語モデルから制約に従って生成するための新しいアルゴリズムを提案。従来の局所制約デコーディング(LCD)の問題点である高コストな制約評価と文脈無視を解決するため、適応的拒絶サンプリングを用いて制約評価を効率化。さらに、低分散でバイアスのない推定を生成し、短期的な行動を修正。実証評価により、提案手法が最先端のベースラインを上回り、実行時間とパフォーマンスの両方を改善することを示した。 Comment

openreview: https://openreview.net/forum?id=3BmPSFAdq3#discussion

元ポスト:

Loading…


#Embeddings #InformationRetrieval #Pocket #Transformer #SyntheticData #Reasoning #Test-Time Scaling #read-later #Selected Papers/Blogs #Encoder Issue Date: 2025-10-08 [Paper Note] ReasonIR: Training Retrievers for Reasoning Tasks, Rulin Shao+, COLM'25, 2025.04 GPT Summary- ReasonIR-8Bは、一般的な推論タスク向けに特別に訓練された初のリトリーバーであり、合成データ生成パイプラインを用いて挑戦的なクエリとハードネガティブを作成。これにより、BRIGHTベンチマークで新たな最先端成果を達成し、RAGタスクでも他のリトリーバーを上回る性能を示す。トレーニングレシピは一般的で、将来のLLMへの拡張が容易である。コード、データ、モデルはオープンソース化されている。 Comment

元ポスト:

Loading…

Llama3.1-8Bをbidirectional encoderに変換してpost-trainingしている。

関連:
- [Paper Note] Generative Representational Instruction Tuning, Niklas Muennighoff+, ICLR'25, 2024.02



#Pocket Issue Date: 2025-10-08 [Paper Note] Shared Global and Local Geometry of Language Model Embeddings, Andrew Lee+, COLM'25 Outstanding Paper, 2025.03 GPT Summary- 大規模言語モデルのトークン埋め込みにおける幾何学的類似性を発見。グローバルな類似性として、トークン埋め込みが類似した方向を持つことを確認。局所的な幾何学を局所線形埋め込みと内因次元の尺度で特徴づけ、局所的な類似性を特定。内因次元が低いトークンは意味的に一貫したクラスターを形成し、高いトークンはそうでないことが判明。これに基づき、異なる次元の言語モデル間での線形変換を行うアプリケーションEMB2EMBを提案。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=aJDykpJAYF#discussion



#Pocket Issue Date: 2025-10-08 [Paper Note] Weak-for-Strong: Training Weak Meta-Agent to Harness Strong Executors, Fan Nie+, COLM'25, 2025.04 GPT Summary- Weak-for-Strong Harnessing(W4S)フレームワークを提案し、小型言語モデルをカスタマイズして強力なモデルを活用する効率的なワークフローを設計。マルコフ決定過程を用いて、強化学習でメタエージェントを訓練し、手動介入なしで効果的なワークフローを学習。実験結果では、7Bメタエージェントが最強のベースラインを2.9%から24.6%上回り、一般化能力も高いことを示す。 Comment

元ポスト:

Loading…


#Pocket Issue Date: 2025-10-08 Readability ̸= Learnability: Rethinking the Role of Simplicity in Training Small Language Models, Lee+, COLM'25 Comment

openreview: https://openreview.net/forum?id=AFMGbq39bQ#discussion

元ポスト:

Loading…


#NLP #LanguageModel #Safety Issue Date: 2025-10-08 [Paper Note] G1yphD3c0de: Towards Safer Language Models on Visually Perturbed Texts, Yeo+, COLM'25 Comment

openreview: https://openreview.net/forum?id=OGwE7LwtcR#discussion

元ポスト:

Loading…


#Multi #Pocket #NLP #Dataset #LanguageModel #Evaluation #Conversation #Safety Issue Date: 2025-10-08 [Paper Note] X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents, Salman Rahman+, COLM'25, 2025.04 GPT Summary- X-Teamingを提案し、無害なインタラクションが有害な結果にエスカレートする過程を探求。協力的なエージェントを用いて、最大98.1%の成功率でマルチターン攻撃を実現。特に、Claude 3.7 Sonnetモデルに対して96.2%の成功率を達成。さらに、30Kの脱獄を含むオープンソースのトレーニングデータセットXGuard-Trainを導入し、LMのマルチターン安全性を向上させる。 Comment

openreview: https://openreview.net/forum?id=gKfj7Jb1kj#discussion

元ポスト:

Loading…


#Pocket #NLP #LanguageModel #ReinforcementLearning #GRPO #On-Policy #TextToSQL Issue Date: 2025-10-08 [Paper Note] Reasoning-SQL: Reinforcement Learning with SQL Tailored Partial Rewards for Reasoning-Enhanced Text-to-SQL, Mohammadreza Pourreza+, COLM'25, 2025.03 GPT Summary- Text-to-SQLタスクにおいて、部分的報酬を用いた強化学習(RL)アプローチを提案。スキーマリンクやAIフィードバックなどの報酬を設計し、LLMsの推論スキルを向上させる。RLトレーニングを受けた14Bパラメータモデルは、他のモデルを上回る精度を達成し、提案手法の有効性を示す。 Comment

openreview: https://openreview.net/forum?id=HbwkIDWQgN#discussion

元ポスト:

Loading…


#Pocket #NLP #Dataset #LanguageModel #Coding #mid-training #Editing #One-Line Notes Issue Date: 2025-10-08 [Paper Note] D3: A Dataset for Training Code LMs to Act Diff-by-Diff, Piterbarg+, COLM'25 Comment

openreview: https://openreview.net/forum?id=sy71y74U80#discussion

openreviewのサマリによると、8B tokens, 850k python filesのデータセットで、コーディングタスクを、ゴールで条件づけられたsequential editsタスクとみなし The Stack上のコードを分析ツールとLLMによって合成されたrationaleによってフィルタリング/拡張したデータを提供しているとのこと。具体的には (state, goal, action_i) の3つ組みのデータセットであり、action_iがaction前後でのdiffになっている模様。D3データセットでSFTの前にLlama 1B / 3Bをmid-trainingした結果、downstreamタスク(コード生成、completion、編集)において性能が向上したとのこと。

<img width="865" height="348" alt="Image" src=" <a href="https://github.com/user-attachments/assets/d99b5ee6-dbc8-48f7-9b68-880add54dbbb"" target="_blank" rel="noopener noreferrer">https://github.com/user-attachments/assets/d99b5ee6-dbc8-48f7-9b68-880add54dbbb"</a> />



Issue Date: 2025-10-08 [Paper Note] From Next-Token to Mathematics: The Learning Dynamics of Mathematical Reasoning in Language Models, Mishra+, COLM'25 Comment

openreview: https://openreview.net/forum?id=bJ9aARjtBu#discussion

元ポスト:

Loading…


#Pocket Issue Date: 2025-10-08 [Paper Note] Hypothesis-Driven Theory-of-Mind Reasoning for Large Language Models, Hyunwoo Kim+, COLM'25, 2025.02 GPT Summary- thought-tracingを提案し、エージェントのメンタルステートを追跡する推論アルゴリズムを開発。ベイズ理論に基づき、LLMを用いて確率的推論を行い、心の理論ベンチマークで顕著な性能向上を示す。最近の推論モデルの興味深い挙動も明らかにし、社会的推論の特異性を強調。 Comment

openreview: https://openreview.net/forum?id=yGQqTuSJPK#discussion

元ポスト:

Loading…


#Pocket Issue Date: 2025-10-08 [Paper Note] Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers, Wooseok Seo+, COLM'25, 2025.06 GPT Summary- ファクト検証はLLMアプリケーションの信頼性に不可欠であり、本研究では12の事前学習済みLLMと1つの専門ファクト検証器を評価しました。主な発見は、注釈エラーや曖昧さがモデルの性能に大きな影響を与えること、少数のインコンテキスト例で高いパフォーマンスを達成するLLMの存在、そして小型で微調整されたファクト検証器の必要性です。特に、合成のマルチホップ推論データでのトレーニングが能力向上に寄与することを示しました。コードやデータセットは公開されています。 Comment

openreview: https://openreview.net/forum?id=3NjnRo6apU#discussion

元ポスト:

Loading…


Issue Date: 2025-10-08 [Paper Note] The Unlearning Mirage: A Dynamic Framework for Evaluating LLM Unlearning, Shah+, COLM'25 Comment

openreview: https://openreview.net/forum?id=exW2SFJK4H#discussion

元ポスト:

Loading…


#Pocket Issue Date: 2025-10-08 [Paper Note] LongCodeBench: Evaluating Coding LLMs at 1M Context Windows, Stefano Rando+, COLM'25, 2025.05 GPT Summary- 長コンテキストモデルの急速な進化に伴い、現実的な長コンテキストベンチマークの構築が困難になっている。本研究では、コードの理解と修正を長コンテキストモデルのテストベンチとして位置付け、LongCodeBench(LCB)を導入。実際のGitHubの問題を基にしたQAおよびバグ修正タスクを通じて、LCLMの理解能力と修正能力を評価する。異なるスケールのモデルを対象にした結果、長コンテキストが全モデルにおいてパフォーマンス低下を引き起こすことが確認された。 Comment

openreview: https://openreview.net/forum?id=GFPoM8Ylp8#discussion

元ポスト:

Loading…


#Pocket #read-later Issue Date: 2025-10-08 [Paper Note] Base Models Beat Aligned Models at Randomness and Creativity, Peter West+, COLM'25, 2025.04 GPT Summary- アライメント技術はLLMの開発において重要だが、普遍的に適用すべきではないと提案。特に、ランダム数生成や創造的執筆などの予測不可能なタスクでは、アライメントされたモデルが狭い行動傾向を示し、パフォーマンスが低下することが確認された。一般的なベンチマークでの良好なパフォーマンスが、特定のタスクでのパフォーマンス低下と関連していることが示唆されている。 Comment

openreview: https://openreview.net/forum?id=vqN8uom4A1

元ポスト:

Loading…


#Pocket Issue Date: 2025-10-08 [Paper Note] Humans overrely on overconfident language models, across languages, Neil Rathi+, COLM'25, 2025.07 GPT Summary- LLMの応答が言語間で調整される重要性を調査し、過信や依存のリスクを評価。5つの言語での認識的マーカーの分布を分析し、言語による過信の違いを発見。特に日本語では不確実性のマーカーが多く生成され、依存行動が言語によって異なることが明らかに。これにより、言語間での過信した生成物への依存リスクが高いことが示され、多言語的な調整の課題とモデルの安全性評価の重要性が強調される。 Comment

openreview: https://openreview.net/forum?id=QsQatTzATT#discussion

元ポスト:

Loading…


#Pocket #NLP #LanguageModel #In-ContextLearning #Safety #Scaling Laws #read-later #Selected Papers/Blogs Issue Date: 2025-10-08 [Paper Note] Bayesian scaling laws for in-context learning, Aryaman Arora+, COLM'25, 2024.10 GPT Summary- インコンテキスト学習(ICL)は、言語モデルに複雑なタスクを実行させる手法であり、提供される例の数と予測精度に強い相関がある。本研究では、ICLがベイズ学習者を近似することを示し、新しいベイズスケーリング法則を提案。GPT-2モデルを用いた実験で、提案法則が精度における既存の法則と一致し、タスクの事前分布や学習効率に関する解釈可能な項を提供。実験では、ICLを用いて抑制されたモデル能力を再現する条件を予測し、LLMの安全性向上に寄与することを示した。 Comment

openreview: https://openreview.net/forum?id=U2ihVSREUb#discussion

元ポスト:

Loading…


#Multi #Pocket #NLP #Dataset #LanguageModel #ReinforcementLearning #SyntheticData #One-Line Notes Issue Date: 2025-10-08 [Paper Note] Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use, Anna Goldie+, COLM'25, 2025.04 GPT Summary- 段階的強化学習(SWiRL)を提案し、複数のテキスト生成や推論ステップを通じて大規模言語モデルの性能を向上させる手法を紹介。SWiRLは、各アクションに対するサブ軌道を生成し、合成データフィルタリングと強化学習最適化を適用。実験では、GSM8KやHotPotQAなどのタスクでベースラインを上回る精度を達成し、タスク間での一般化も示された。 Comment

openreview: https://openreview.net/forum?id=oN9STRYQVa

元ポスト:

Loading…

従来のRLではテキスト生成を1ステップとして扱うことが多いが、複雑な推論やtool useを伴うタスクにおいては複数ステップでの最適化が必要となる。そのために、多段階の推論ステップのtrajectoryを含むデータを作成し、同データを使いRLすることによって性能が向上したという話な模様。RLをする際には、stepごとにRewardを用意するようである。また、現在のstepの生成を実施する際には過去のstepの情報に基づいて生成する方式のようである。



#Analysis #Pretraining #Pocket #NLP #LanguageModel #ReinforcementLearning #read-later Issue Date: 2025-10-07 [Paper Note] Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining, Rosie Zhao+, COLM'25, 2025.04 GPT Summary- 強化学習(RL)によるファインチューニングは、数学的推論やコーディングのための言語モデルの性能向上に寄与しているが、そのメカニズムは未解明である。本研究では、オープンなデータセットを用いて、さまざまなスケールのモデルに対するRLファインチューニングの効果を調査し、RLアルゴリズムが出力分布に収束し、事前学習データのパターンを増幅することを明らかにした。また、異なるスケールのモデルが異なる出力分布に収束することや、簡単な質問へのファインチューニングが難しい質問の性能向上に寄与する可能性を示した。これにより、RLの役割に関する新たな洞察が得られた。 Comment

元ポスト:

Loading…


#ComputerVision #Pocket #Dataset #LanguageModel #Evaluation #VisionLanguageModel #Geometric Issue Date: 2025-10-06 [Paper Note] VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information, Ryo Kamoi+, COLM'25, 2024.12 GPT Summary- LVLMsの幾何学的認識を評価するためのデータセット「VisOnlyQA」を導入し、LVLMsが画像内の幾何学的情報を正確に認識できないことを明らかにした。23のLVLMs(GPT-4oやGemini 2.5 Proを含む)は、VisOnlyQAでの性能が低く、追加のトレーニングデータでは改善されない。より強力なLLMを使用するLVLMsは幾何学的認識が向上するが、視覚エンコーダーからの情報処理がボトルネックであることが示唆された。 Comment

openreview: https://openreview.net/forum?id=PYHwlyu2fa#discussion

元ポスト:

Loading…


#Pocket Issue Date: 2025-10-03 [Paper Note] SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild, Weihao Zeng+, COLM'25, 2025.03 GPT Summary- DeepSeek-R1は、ルールベースの報酬を用いた強化学習フレームワークを通じて、長い思考の連鎖推論を自然に生じさせることを示した。ゼロRLトレーニングを用いて、10の異なるベースモデルにおける推論精度と応答の長さを改善。トレーニング中に異なるモデルが異なるパターンを示すことを観察し、特に小型モデルで「アハ体験」を初めて確認。成功したゼロRLトレーニングの設計戦略を共有し、研究を促進するために関連リソースをオープンソース化する。 Comment

元ポスト:

Loading…


#Pocket #NLP #Dataset #LanguageModel #IRT #Evaluation Issue Date: 2025-09-17 [Paper Note] Fluid Language Model Benchmarking, Valentin Hofmann+, COLM'25 GPT Summary- Fluid Benchmarkingという新しい言語モデル(LM)評価アプローチを提案。これは、LMの能力に応じて評価項目を動的に選択し、評価の質を向上させる。実験では、Fluid Benchmarkingが効率、妥当性、分散、飽和の4つの次元で優れたパフォーマンスを示し、静的評価を超えることでLMベンチマークを改善できることを示した。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…


#Pocket Issue Date: 2025-07-15 [Paper Note] L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning, Pranjal Aggarwal+, COLM'25 GPT Summary- Length Controlled Policy Optimization(LCPO)を導入し、推論言語モデルL1を訓練。これにより、出力の長さを制御しつつ計算コストと精度のトレードオフを最適化。LCPOは、長さ制御において最先端の手法S1を上回る性能を示し、1.5B L1モデルは同じ推論の長さでGPT-4oを超える結果を得た。 Comment

元ポスト:

Loading…


#Pocket #Tokenizer Issue Date: 2025-07-15 [Paper Note] SuperBPE: Space Travel for Language Models, Alisa Liu+, COLM'25 GPT Summary- SuperBPEという新しいトークナイザーを導入し、サブワードを超えたトークン化を実現。これにより、エンコーディング効率が33%向上し、30のダウンストリームタスクで平均+4.0%の性能改善を達成。SuperBPEは意味的に単一の単位として機能する表現を捉え、全体的に優れた言語モデルを提供する。 Comment

元ポスト:

Loading…


#Analysis #Pretraining #Pocket #NLP #LanguageModel #Selected Papers/Blogs #Stability #KeyPoint Notes Issue Date: 2025-07-11 [Paper Note] Spike No More: Stabilizing the Pre-training of Large Language Models, Sho Takase+, COLM'25 GPT Summary- 大規模言語モデルの事前学習中に発生する損失のスパイクは性能を低下させるため、避けるべきである。勾配ノルムの急激な増加が原因とされ、サブレイヤーのヤコビ行列の分析を通じて、勾配ノルムを小さく保つための条件として小さなサブレイヤーと大きなショートカットが必要であることを示した。実験により、これらの条件を満たす手法が損失スパイクを効果的に防ぐことが確認された。 Comment

元ポスト:

Loading…

small sub-layers, large shortcutsの説明はこちらに書かれている。前者については、現在主流なLLMの初期化手法は満たしているが、後者はオリジナルのTransformerの実装では実装されている[^1]が、最近の実装では失われてしまっているとのこと。
image

下図が実験結果で、条件の双方を満たしているのはEmbedLN[^2]とScaled Embed[^3]のみであり、実際にスパイクが生じていないことがわかる。
image

[^1]:オリジナル論文 [Paper Note] Attention Is All You Need, Ashish Vaswani+, arXiv'17 の3.4節末尾、embedding layersに対してsqrt(d_model)を乗じるということがサラッと書いてある。これが実はめちゃめちゃ重要だったという…
[^2]: positional embeddingを加算する前にLayer Normalizationをかける方法
[^3]: EmbeddingにEmbeddingの次元数d(i.e., 各レイヤーのinputの次元数)の平方根を乗じる方法

前にScaled dot-product attentionのsqrt(d_k)がめっちゃ重要ということを実験的に示した、という話もあったような…
(まあそもそも元論文になぜスケーリングさせるかの説明は書いてあるけども)

著者ポスト(スライド):

Loading…


非常に興味深いので参照のこと。初期化の気持ちの部分など勉強になる。


#Pretraining #Pocket #NLP #Dataset #LanguageModel #SyntheticData #Coding #Mathematics #mid-training Issue Date: 2025-07-10 [Paper Note] MegaMath: Pushing the Limits of Open Math Corpora, Fan Zhou+, COLM'25 GPT Summary- MegaMathは、数学に特化したオープンデータセットで、LLMの数学的推論能力を向上させるために作成された。ウェブデータの再抽出、数学関連コードの特定、合成データの生成を通じて、371Bトークンの高品質なデータを提供し、既存のデータセットを上回る量と品質を実現した。 Comment

元ポスト:

Loading…

非常に大規模な数学の事前学習/mid-training向けのデータセット

CommonCrawlのHTMLから、さまざまなフィルタリング処理(reformatting, 2 stageのHTML parserの活用(片方はnoisyだが高速、もう一方は高性能だが遅い), fasttextベースの分類器による抽出, deduplication等)を実施しMegaMath-Webを作成、また、MegaMathWebをさらに分類器で低品質なものをフィルタリングし、LLMによってノイズ除去、テキストのreorganizingを実施し(≠ピュアな合成データ)継続事前学習、mid-training向けの高品質なMegaMath-Web-Proを作成。

MegaMathCodeはThe Stack V2 ([Paper Note] StarCoder 2 and The Stack v2: The Next Generation, Anton Lozhkov+, arXiv'24 ) をベースにしており、mathematical reasoning, logic puzzles, scientific computationに関するコードを収集。まずこれらのコードと関連が深い11のプログラミング言語を選定し、そのコードスニペットのみを対象とする。次にstrong LLMを用いて、数学に関するrelevanceスコアと、コードの品質を0--6のdiscrete scoreでスコアリングし学習データを作成。作成した学習データでSLMを学習し大規模なフィルタリングを実施することでMegaMath-Codeを作成。

最後にMegaMath-{Web, code}を用いて、Q&A, code data, text&code block dataの3種類を合成。Q&Aデータの合成では、MegaMath-WebからQAペアを抽出し、多様性とデータ量を担保するためQwen2.5-72B-Instruct, Llama3.3-70B-Instructの両方を用いて、QAのsolutionを洗練させる(reasoning stepの改善, あるいはゼロから生成する[^1])ことで生成。また、code dataでは、pythonを対象にMegaMath-Codeのデータに含まれるpython以外のコードを、Qwen2.5-Coder-32B-Instructと、Llamd3.1-70B-Instructによってpythonに翻訳することでデータ量を増やした。text&code blockデータでは、MegaMath-Webのドキュメントを与えて、ブロックを生成(タイトル、数式、結果、コードなど[^1])し、ブロックのverificationを行い(コードが正しく実行できるか、実行結果とanswerが一致するか等)、verifiedなブロックを残すことで生成。

image

image

image

[^1]: この辺は論文の記述を咀嚼して記述しており実サンプルを見ていないので少し正しい認識か不安



#Pocket Issue Date: 2025-07-09 [Paper Note] When Does Metadata Conditioning (NOT) Work for Language Model Pre-Training? A Study with Context-Free Grammars, Rei Higuchi+, COLM'25 GPT Summary- メタデータを事前学習データの先頭に追加することで、言語モデルの潜在的な意味の獲得能力を向上させるアプローチを調査。下流タスクにおいて正の効果と負の効果が見られ、効果はコンテキストの長さに依存。十分な長さのコンテキストがあれば性能向上が確認されたが、情報が不足している場合は悪影響を及ぼすことが示された。 Comment

元ポスト:

Loading…


#Pocket Issue Date: 2025-07-09 [Paper Note] Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents, Saaket Agashe+, COLM'25 GPT Summary- Agent S2は、GUIとの対話を通じてデジタルタスクを自動化する新しいエージェントで、一般モデルと専門モデルに認知的責任を分担させるフレームワークを採用。Mixture-of-Grounding技術でGUIの位置特定を向上させ、Proactive Hierarchical Planningで動的なアクションプランを実現。評価では、OSWorldの15ステップおよび50ステップでそれぞれ18.9%と32.7%の改善を達成し、他のシステムでも優れた性能を示した。 Comment

元ポスト:

Loading…


#Pocket Issue Date: 2025-07-09 [Paper Note] ReasonIR: Training Retrievers for Reasoning Tasks, Rulin Shao+, COLM'25 GPT Summary- 推論タスク向けに特別に訓練されたリトリーバーReasonIR-8Bを提案。合成データ生成パイプラインを用いて挑戦的なクエリとハードネガティブを作成し、訓練。BRIGHTベンチマークで新たな最先端成果を達成し、RAGタスクでも他のリトリーバーを上回る性能を示す。トレーニングレシピは一般的で、将来のLLMへの拡張が容易。コード、データ、モデルはオープンソースで公開。 Comment

元ポスト:

Loading…


#Pocket Issue Date: 2025-07-09 [Paper Note] Learning to Generate Unit Tests for Automated Debugging, Archiki Prasad+, COLM'25 GPT Summary- ユニットテスト(UT)の重要性を踏まえ、UTGenを提案し、LLMを用いてエラーを明らかにするUT入力とその期待出力を生成。UTDebugを併用することで、出力予測の改善とオーバーフィッティングの回避を実現。UTGenは他のLLMベースラインを7.59%上回り、UTDebugと組み合わせることでQwen2.5の精度をそれぞれ3.17%および12.35%向上。最終的に、UTGenはHumanEval+で最先端モデルを4.43%上回る性能を示した。 Comment

元ポスト:

Loading…


#NaturalLanguageGeneration #Citations #NLP #LanguageModel #Supervised-FineTuning (SFT) #AcademicWriting Issue Date: 2025-07-08 [Paper Note] ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations, Yubo Wang+, COLM'25 GPT Summary- ScholarCopilotは、学術的な執筆を支援するために大規模言語モデルを強化したフレームワークで、正確で文脈に関連した引用を生成します。取得トークンを用いて動的に文献を取得し、生成プロセスを補強します。評価では、取得精度が40.1%に達し、生成品質も他のモデルを大幅に上回りました。特に、ScholarCopilotはChatGPTを超える性能を示し、引用の質で100%の好ましさを達成しました。 Comment

元ポスト:

Loading…

従来のRAGベースのAcademicWriting手法では、まずReferenceを検索して、その内容をcontextに含めてテキストを生成するというSequentialなパイプラインだったが、本研究では通常のNextTokenPrediction Lossに加え、特殊トークン\[RET\]を導入し、ContrastiveLearningによって、\[RET\]トークンがトリガーとなり、生成過程のContextとqueryから適切なReferenceを検索できるEmbeddingを出力し、Referenceを検索し、動的にReferenceの内容をcontextに加え、テキストを生成する手法を提案している。
image
image

データセットはarXivからlatex sourceを収集し、bibliography部分からReferenceのタイトルをQwenを用いて抽出。タイトルをarXivおよびSemanticScholarのデータベースと照合し、paperとReferenceの紐付けを実施することで構築している。
image

GPT-4oによるjudgeの結果、ground truthのcitationを用いた場合には及ばないが、提案手法により品質が向上し、citation retrievalのRecall@Kも大幅に改善している。
image
image



#EfficiencyImprovement #Pretraining #Pocket #NLP #Dataset #LanguageModel #MultiLingual #Selected Papers/Blogs Issue Date: 2025-06-28 [Paper Note] FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language, Guilherme Penedo+, COLM'25 GPT Summary- 多言語LLMsの性能向上のために、FineWebに基づく新しい事前学習データセットキュレーションパイプラインを提案。9つの言語に対して設計選択肢を検証し、非英語コーパスが従来のデータセットよりも高性能なモデルを生成できることを示す。データセットの再バランス手法も導入し、1000以上の言語にスケールアップした20テラバイトの多言語データセットFineWeb2を公開。 Comment

元ポスト:

Loading…

v1
- The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale, Guilherme Penedo+, NeurIPS'24

abstを見る限りFinewebを多言語に拡張した模様

openreview: https://openreview.net/forum?id=jnRBe6zatP#discussion



#Pretraining #Pocket #NLP #Dataset #LanguageModel #SyntheticData Issue Date: 2025-06-25 [Paper Note] Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models, Thao Nguyen+, COLM'25 GPT Summary- スケーリング法則に基づき、低品質なウェブデータを再利用する手法「REWIRE」を提案。これにより、事前学習データの合成表現を増やし、フィルタリングされたデータのみでのトレーニングと比較して、22のタスクで性能を向上。生データと合成データの混合が効果的であることを示し、ウェブテキストのリサイクルが事前学習データのスケーリングに有効であることを示唆。 Comment

元ポスト:
-

Loading…

-
Loading…

学習データの枯渇に対する対処として別の方向性としては下記のような研究もある:
- Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23

data: https://huggingface.co/datasets/facebook/recycling_the_web



#Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #SmallModel #PostTraining #Selected Papers/Blogs #In-Depth Notes Issue Date: 2025-04-13 A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility, Andreas Hochlehnert+, COLM'25 GPT Summary- 推論は言語モデルの重要な課題であり、進展が見られるが、評価手法には透明性や堅牢性が欠けている。本研究では、数学的推論ベンチマークが実装の選択に敏感であることを発見し、標準化された評価フレームワークを提案。再評価の結果、強化学習アプローチは改善が少なく、教師ありファインチューニング手法は強い一般化を示した。再現性を高めるために、関連するコードやデータを公開し、今後の研究の基盤を築く。 Comment

元ポスト:

Loading…

SLMをmath reasoning向けにpost-trainingする場合、評価の条件をフェアにするための様々な工夫を施し評価をしなおした結果(Figure1のように性能が変化する様々な要因が存在する)、RL(既存研究で試されているもの)よりも(大規模モデルからrejection samplingしたreasoning traceを用いて)SFTをする方が同等か性能が良く(Table3)、結局のところ(おそらく汎化性能が低いという意味で)reliableではなく、かつ(おそらく小規模なモデルでうまくいかないという意味での)scalableではないので、reliableかつscalableなRL手法が不足しているとのこと。

※ 本論文で分析されているのは<=10B以下のSLMである点に注意。10B以上のモデルで同じことが言えるかは自明ではない。
※ DAPO, VAPOなどについても同じことが言えるかも自明ではない。
※ DeepSeek-R1のtechnical reportにおいて、小さいモデルにGRPOを適用してもあまり効果が無かったことが既に報告されている。

image
image

- DeepSeek-R1の論文読んだ?【勉強になるよ】 , asap, 2025.01
- DeepSeek-R1, DeepSeek, 2025.01

個々のpost-trainingされたRLモデルが具体的にどういう訓練をしたのかは追えていないが、DAPOやDr. GRPO, VAPOの場合はどうなるんだろうか?

- DAPO: An Open-Source LLM Reinforcement Learning System at Scale, Qiying Yu+, arXiv'25
- VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks, YuYue+, arXiv'25
- Understanding R1-Zero-Like Training: A Critical Perspective, 2025.03

Rewardの設定の仕方はどのような影響があるのだろうか(verifiable rewardなのか、neuralモデルによるrewardなのかなど)?

学習のさせ方もどのような影響があるのだろうか(RLでカリキュラムlearningにした場合など)?

検証しているモデルがそれぞれどのような設定で学習されているかまでを見ないとこの辺はわからなそう。

ただなんとなーくの直感だと、SLMを賢くしたいという場合は何らかの賢いモデルの恩恵に預かると有利なケースが多く(SFTの場合はそれが大規模なモデルから蒸留したreasoning trace)、SLM+RLの場合はPRMのような思考プロセスを評価してRewardに反映させるようなものを利用しないと、少なくとも小規模なLLMをめちゃ賢くします〜というのはきついんじゃないかなあという感想ではある。
ただ、結局SLMという時点で多くの場合、より賢いパラメータ数の多いLLMが世の中には存在するあるはずなので、RLしないでSFTして蒸留すれば良いんじゃない…?と思ってしまう。
が、多くの場合その賢いLLMはProprietaryなLLMであり、出力を得て自分のモデルをpost-trainingすることは利用規約違反となるため、自前で賢くてパラメータ数の多いLLMを用意できない場合は困ってしまうので、SLMをクソデカパラメータのモデルの恩恵なしで超絶賢くできたら世の中の多くの人は嬉しいよね、とも思う。

(斜め読みだが)
サンプル数が少ない(数十件)AIMEやAMCなどのデータはseedの値にとてもsensitiveであり(Takeaway1, 2)、

<img width="549" height="256" alt="Image" src=" <a href="https://github.com/user-attachments/assets/97581133-cf17-4635-b66c-442eaf8956d4"" target="_blank" rel="noopener noreferrer">https://github.com/user-attachments/assets/97581133-cf17-4635-b66c-442eaf8956d4"</a> />

それらは10種類のseedを用いて結果を平均すると分散が非常に小さくなるので、seedは複数種類利用して平均の性能を見た方がreliableであり(Takeaway3)

<img width="688" height="266" alt="Image" src=" <a href="https://github.com/user-attachments/assets/5065ef0e-de89-4b17-aa52-c90b7191e9b2"" target="_blank" rel="noopener noreferrer">https://github.com/user-attachments/assets/5065ef0e-de89-4b17-aa52-c90b7191e9b2"</a> />

temperatureを高くするとピーク性能が上がるが分散も上がるため再現性の課題が増大するが、top-pを大きくすると再現性の問題は現れず性能向上に寄与し

<img width="545" height="508" alt="Image" src=" <a href="https://github.com/user-attachments/assets/76d5c989-edbb-4d70-9080-d1d4b01de2ff"" target="_blank" rel="noopener noreferrer">https://github.com/user-attachments/assets/76d5c989-edbb-4d70-9080-d1d4b01de2ff"</a> />

既存研究のモデルのtemperatureとtop-pを変化させ実験するとperformanceに非常に大きな変化が出るため、モデルごとに最適な値を選定して比較をしないとunfairであることを指摘 (Takeaway4)。

<img width="553" height="511" alt="Image" src=" <a href="https://github.com/user-attachments/assets/d8b453d1-3d2e-4a80-b03d-c69ec1b2232e"" target="_blank" rel="noopener noreferrer">https://github.com/user-attachments/assets/d8b453d1-3d2e-4a80-b03d-c69ec1b2232e"</a> />

また、ハードウェアの面では、vLLMのようなinference engineはGPU typeやmemoryのconfigurationに対してsensitiveでパフォーマンスが変わるだけでなく、

<img width="689" height="356" alt="Image" src=" <a href="https://github.com/user-attachments/assets/a41891c7-072c-4c38-9ad6-beada4721bac"" target="_blank" rel="noopener noreferrer">https://github.com/user-attachments/assets/a41891c7-072c-4c38-9ad6-beada4721bac"</a> />

評価に利用するフレームワークごとにinference engineとprompt templateが異なるためこちらもパフォーマンスに影響が出るし (Takeaway5)、

<img width="275" height="115" alt="Image" src=" <a href="https://github.com/user-attachments/assets/1f7d328c-0757-47b9-9961-630e2429fb3e"" target="_blank" rel="noopener noreferrer">https://github.com/user-attachments/assets/1f7d328c-0757-47b9-9961-630e2429fb3e"</a> />

max output tokenの値を変化させると性能も変わり、prompt templateを利用しないと性能が劇的に低下する (Takeaway6)。

<img width="681" height="577" alt="Image" src=" <a href="https://github.com/user-attachments/assets/dc0902d1-a5f2-47de-8df1-c28107e1da28"" target="_blank" rel="noopener noreferrer">https://github.com/user-attachments/assets/dc0902d1-a5f2-47de-8df1-c28107e1da28"</a> />

これらのことから著者らはreliableな評価のために下記を提案しており (4.1節; 後ほど追記)、

実際にさまざまな条件をfair comparisonとなるように標準化して評価したところ(4.2節; 後ほど追記)

上の表のような結果となった。この結果は、
- DeepSeekR1-DistilledをRLしてもSFTと比較したときに意味のあるほどのパフォーマンスの向上はないことから、スケーラブル、かつ信頼性のあるRL手法がまだ不足しており
- 大規模なパラメータのモデルのreasoning traceからSFTをする方法はさまざまなベンチマークでロバストな性能(=高い汎化性能)を持ち、RLと比べると現状はRLと比較してよりパラダイムとして成熟しており
- (AIME24,25を比較するとSFTと比べてRLの場合performanceの低下が著しいので)RLはoverfittingしやすく、OODなベンチマークが必要

しっかりと評価の枠組みを標準化してfair comparisonしていかないと、RecSys業界の二の舞になりそう(というかもうなってる?)。

またこの研究で分析されているのは小規模なモデル(<=10B)に対する既存研究で用いられた一部のRL手法や設定の性能だけ(真に示したかったらPhisics of LLMのような完全にコントロール可能なサンドボックスで実験する必要があると思われる)なので、DeepSeek-R1のように、大規模なパラメータ(数百B)を持つモデルに対するRLに関して同じことが言えるかは自明ではない点に注意。

openreview: https://openreview.net/forum?id=90UrTTxp5O#discussion

最近の以下のようなSFTはRLの一つのケースと見做せるという議論を踏まえるとどうなるだろうか

- [Paper Note] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification, Yongliang Wu+, arXiv'25
- [Paper Note] Towards a Unified View of Large Language Model Post-Training, Xingtai Lv+, arXiv'25



#Analysis #NLP #LanguageModel #Attention #AttentionSinks #Selected Papers/Blogs Issue Date: 2025-04-05 Why do LLMs attend to the first token?, Federico Barbero+, COLM'25 GPT Summary- LLMsは最初のトークンに強く注意を向ける「アテンションシンク」を示し、そのメカニズムが過剰混合を避ける方法を理論的・実証的に探求。コンテキストの長さやデータのパッキングがシンクの挙動に与える影響を実験で示し、アテンションパターンの理解を深めることを目指す。 Comment

元ポスト:

Loading…

Attention Sinkによって、トークンの情報がover-mixingされることが抑制され、Decoder-only LLMの深い層のrepresentationが均一化されることを抑制する(=promptの摂動にロバストになる)ことが示された模様。
image
Gemma7Bにおいて、prompt中のトークン一語を置換した後に、Attention Sink()の有無によって、tokenレベルのrepresentationに対してどのような摂動があるかをlayerごとにまとめた図が下記の模様。Attention Sinkによって、tokenの摂動が他のtoken, layerに対してmixingされるのが抑制されている。
image</p>

openreview: https://openreview.net/forum?id=tu4dFUsW5z#discussion

</span>

#NLP #LanguageModel #Supervised-FineTuning (SFT) #PostTraining Issue Date: 2025-03-25 Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate, Yubo Wang+, COLM'25 GPT Summary- 批評ファインチューニング(CFT)は、言語モデルがノイズのある応答を批評することを学ぶ新しい戦略で、従来の監視付きファインチューニング(SFT)に挑戦します。CFTは人間の学習プロセスにインスパイアを受け、深い分析を促進します。WebInstructから構築した50Kサンプルのデータセットを用いて、CFTは複数のベースモデルでSFTに対して4-10%の性能向上を示しました。特に、Qwen2.5-Math-CFTは少ないトレーニングで強力な競合と同等の性能を発揮し、CFTの堅牢性も確認されました。CFTは言語モデルの推論を進展させる効果的な手法であると主張します。 Comment

元ポスト:

Loading…

Critique Fine-Tuning (CFT) を提案。CFTでは、query x, noisy response y [^1] が与えられたときに、それに対する批評 cを学習する。cはgivenではないので、GPT4oのような強力なモデルによって合成する。

![Image](https://github.com/user-attachments/assets/f25babdd-63d6-4d3d-a9b0-3217db2bd07f)

目的関数は以下。[x; y] がgivenな時にcを生成する確率を最大化する。シンプル。
![Image](https://github.com/user-attachments/assets/ccdb8e42-e8b2-4ae1-99a6-a0b7c1d4bf2a)

RLを用いた手法との比較。1/10程度のデータ量、1/100程度のGPU時間で同等の性能を達成できる。
![Image](https://github.com/user-attachments/assets/848376ff-9965-485b-b8a0-7960d1d0e7b9)

[^1]: 本論文で利用しているWebInstructからサンプリングしたデータでは、たとえば約50%程度のyが正解, 残りは不正解(程度のnoisyデータを利用している)



#Pocket #NLP #LanguageModel #Chain-of-Thought #PostTraining #read-later #LatentReasoning #One-Line Notes Issue Date: 2024-12-12 [Paper Note] Training Large Language Models to Reason in a Continuous Latent Space, Shibo Hao+, COLM'25 GPT Summary- 新しい推論パラダイム「Coconut」を提案し、LLMの隠れ状態を連続的思考として利用。これにより、次の入力を連続空間でフィードバックし、複数の推論タスクでLLMを強化。Coconutは幅優先探索を可能にし、特定の論理推論タスクでCoTを上回る性能を示す。潜在的推論の可能性を探る重要な洞察を提供。 Comment

Chain of Continuous Thought

通常のCoTはRationaleをトークン列で生成するが、Coconutは最終的なhidden stateをそのまま次ステップの入力にすることで、トークンに制限されずにCoTさせるということらしい。あとでしっかり読む
image

おそらく学習の際に工夫が必要なので既存モデルのデコーディングを工夫してできます系の話ではないかも

OpenReview: https://openreview.net/forum?id=tG4SgayTtk

ICLR'25にrejectされている。
ざっと最初のレビューに書かれているWeaknessを読んだ感じ
- 評価データが合成データしかなく、よりrealisticなデータで評価した方が良い
- CoTら非常に一般的に適用可能な技術なので、もっと広範なデータで評価すべき
- GSM8Kでは大幅にCOCONUTはCoTに性能が負けていて、ProsQAでのみにしかCoTに勝てていない
- 特定のデータセットでの追加の学習が必要で、そこで身につけたreasoning能力が汎化可能か明らかでない

といった感じに見える

COLM'25 openreview:
https://openreview.net/forum?id=Itxz7S4Ip3#discussion

COLM'25にAccept



#Pocket #NLP #LanguageModel #Evaluation #Hallucination #Factuality Issue Date: 2023-07-27 [Paper Note] FacTool: Factuality Detection in Generative AI -- A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios, I-Chun Chern+, COLM'25, 2023.07 GPT Summary- 生成的事前学習モデルによるテキスト合成は進展したが、事実誤認の特定には課題が残る。特に、生成モデルによる事実誤認のリスク増加、長文化による粒度の欠如、明示的証拠の不足が問題である。これらを解決するために、タスクやドメインに依存しない事実誤認検出フレームワークFacToolを提案。知識ベースのQA、コード生成、数学的推論、科学文献レビューの4つのタスクで有効性を実証し、コードは公開されている。 Comment

openreview: https://openreview.net/forum?id=hJkQL9VtWT#discussion



#Pocket #NLP #Dataset #LanguageModel #QuestionAnswering Issue Date: 2023-11-22 GPQA: A Graduate-Level Google-Proof Q&A Benchmark, David Rein+, N_A, COLM'24 GPT Summary- 私たちは、高品質で非常に困難な多肢選択問題からなるGPQAデータセットを提案します。このデータセットは、専門家でも高い正答率を達成できず、最先端のAIシステムでも困難であることが示されています。将来のAIシステムの開発において、スケーラブルな監督方法を開発する必要があります。これにより、スキルを持つ監督者がAIシステムから信頼性のある情報を得ることができるようになります。GPQAデータセットは、スケーラブルな監督実験を可能にし、人間の専門家がAIシステムから真実の情報を確実に得る方法を考案するのに役立つことが期待されています。 Comment

該当領域のPh.D所有者でも74%、高いスキルを持つ非専門家(Googleへアクセスして良い環境)で34%しか正答できないQAデータセット。
元ツイート:

Loading…

OpenReview: https://openreview.net/forum?id=Ti67584b98



#MachineLearning #NLP #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2023-08-08 LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA Composition, Chengsong Huang+, N_A, COLM'24 GPT Summary- 本研究では、大規模言語モデル(LLMs)を新しいタスクに適応させるための低ランク適応(LoRA)を検討し、LoraHubというフレームワークを提案します。LoraHubを使用すると、少数の例から複数のLoRAモジュールを組み合わせて柔軟に適応性のあるパフォーマンスを実現できます。また、追加のモデルパラメータや勾配は必要ありません。実験結果から、LoraHubが少数の例でのインコンテキスト学習のパフォーマンスを効果的に模倣できることが示されています。さらに、LoRAコミュニティの育成と共有リソースの提供にも貢献しています。 Comment

学習されたLoRAのパラメータをモジュールとして捉え、新たなタスクのinputが与えられた時に、LoRA Hub上の適切なモジュールをLLMに組み合わせることで、ICL無しで汎化を実現するというアイデア。few shotのexampleを人間が設計する必要なく、同等の性能を達成。
image

複数のLoRAモジュールは組み合わられるか?element wiseの線型結合で今回はやっているが、その疑問にこたえたのがcontribution

OpenReview: https://openreview.net/forum?id=TrloAXEJ2B



#Article #Survey #LanguageModel #Blog #Reasoning Issue Date: 2025-09-15 Large reasoning models research at COLM 2025 - State of research in scaling reasoning, the current paradigm for improving LLMs, PRAKASH KAGITHA, 2025.09 Comment

COLM'25における30個程度のReasoningに関わる論文をカバーしたブログらしい。

元ポスト:

Loading…

ここの論文のサマリのまとめといった感じなので、indexとして利用すると良さそう。



</div>