SmallModelに関する論文・技術記事メモの一覧

SmallModel

#Pocket #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #OpenWeight #OpenSource #read-later #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes
Issue Date: 2025-11-25 [Paper Note] OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe, Kaichen Zhang+, arXiv'25, 2025.11 GPT Summary- 本研究では、マルチモーダル推論のための透明な二段階トレーニングレシピ「OpenMMReasoner」を提案。監視付きファインチューニング（SFT）で874Kサンプルのデータセットを構築し、強化学習（RL）で74Kサンプルを活用して推論能力を向上。評価の結果、9つのベンチマークでQwen2.5-VL-7B-Instructに対し11.6%の性能向上を達成し、データの質とトレーニング設計の重要性を示した。すべてのリソースはオープンソースで公開。 Comment

pj page: https://evolvinglmms-lab.github.io/OpenMMReasoner/

SoTAなVLMを構築するためのオープンなデータとレシピらしい

#Analysis #Pocket #NLP #LanguageModel #read-later #Selected Papers/Blogs #EvolutionaryAlgorithm #Latency
Issue Date: 2025-11-25 [Paper Note] Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models, Yonggan Fu+, arXiv'25, 2025.11 GPT Summary- 本研究では、小型言語モデル（SLMs）の実デバイスにおけるレイテンシの主要な決定要因を特定し、SLM設計とトレーニングの原則を提供します。深さ-幅比とオペレーター選択がレイテンシに影響を与えることを示し、深く細いモデルが一般的に良好な精度を達成する一方で、必ずしも精度-レイテンシのトレードオフの最前線に位置しないことを発見しました。効率的なアテンションの代替手段を評価し、ハイブリッドSLM内での最適なオペレーターの組み合わせを進化的探索フレームワークで発見。これにより、Nemotron-Flashという新しいSLMファミリーを導入し、精度が平均+5.5%向上し、レイテンシが1.3倍/1.9倍低下、スループットが18.7倍/45.6倍向上しました。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #OpenWeight #read-later
Issue Date: 2025-11-20 [Paper Note] Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B, Sen Xu+, arXiv'25, 2025.11 GPT Summary- VibeThinker-1.5Bは、Spectrum-to-Signal Principle（SSP）を用いて開発された1.5Bパラメータのモデルで、小型モデルの推論能力を向上させることを目指す。Two-Stage Diversity-Exploring DistillationとMaxEnt-Guided Policy Optimizationを組み合わせ、低コストで優れた推論性能を実現。数学ベンチマークで大規模モデルを上回る結果を示し、小型モデルが大規模モデルに匹敵する能力を持つことを証明。これにより、AI研究の民主化が促進される。 Comment

元ポスト: https://github.com/WeiboAI/VibeThinker

元ポスト:

Loading…

オフィシャル: https://huggingface.co/WeiboAI/VibeThinker-1.5B
GGUF版: https://huggingface.co/MaziyarPanahi/VibeThinker-1.5B-GGUF

1.5Bのモデルでここまでできるようになったのか

#ComputerVision #EfficiencyImprovement #Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #FoundationModel #DiffusionModel #TextToImageGeneration #VideoGeneration/Understandings #VisionLanguageModel Issue Date: 2025-11-20 [Paper Note] Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation, Vladimir Arkhipkin+, arXiv'25, 2025.11 GPT Summary- Kandinsky 5.0は、高解像度画像と10秒動画合成のための最先端モデルで、3つのコアモデル（Image Lite、Video Lite、Video Pro）から構成される。データキュレーションライフサイクルのレビューや、自己教師ありファインチューニングや強化学習を用いた品質向上技術を取り入れ、高い生成速度とパフォーマンスを実現。オープンソースコードとトレーニングチェックポイントの提供により、研究コミュニティの発展に寄与することを目指す。 Comment

HF: https://huggingface.co/kandinskylab

元ポスト:

Loading…

#Pocket #NLP #AIAgents #MultiModal #Reasoning #VisionLanguageModel #KeyPoint Notes Issue Date: 2025-11-10 [Paper Note] DeepEyesV2: Toward Agentic Multimodal Model, Jack Hong+, arXiv'25, 2025.11 GPT Summary- DeepEyesV2は、テキストや画像の理解に加え、外部ツールを活用するエージェント的なマルチモーダルモデルを構築する方法を探求。二段階のトレーニングパイプラインを用いてツール使用行動を強化し、多様なトレーニングデータセットをキュレーション。RealX-Benchという新たなベンチマークを導入し、実世界のマルチモーダル推論を評価。DeepEyesV2は、タスクに応じたツール呼び出しを行い、強化学習により文脈に基づくツール選択を実現。コミュニティへの指針提供を目指す。 Comment

pj page: https://visual-agent.github.io/

元ポスト:

Loading…

ポイント解説:

Loading…

VLM(Qwen2.5-VL-7B)をバックボーンとしSFT（tooluseに関するcoldstart)→RL(RLVR+format reward)で学習することで、VLMによるAI Agentを構築。画像をcropしcropした画像に対するマルチモーダルな検索や、適切なtooluseの選択などに基づいて応答できる。

事前の実験によってまずQwen2.5-VL-7Bに対してRLのみでtooluse能力（コーディング能力）を身につけられるかを試したところ、Reward Hackingによって適切なtooluse能力が獲得されなかった（3.2節; 実行可能ではないコードが生成されたり、ダミーコードだったりなど）。
このためこのcoldstartを解消するためにSFTのための学習データを収集（3.3節）。これには、
- 多様なタスクと画像が含まれており
- verifiableで構造化されたOpen-endなQAに変換でき
- ベースモデルにとって簡単すぎず（8回のattemptで最大3回以上正解したものは除外）
- ツールの利用が正解に寄与するかどうかに基づきサンプルを分類する。tooluseをしても解答できないケースをSFTに、追加のtooluseで解答できるサンプルをRL用に割り当て

ようなデータを収集。さらに、trajectoryはGemini2.5, GPT4o, Claude Sonnet4などのstrong modelから収集した。

RealX-Benchと呼ばれるベンチマークも作成しているようだがまだ読めていない。

proprietary modelの比較対象が少し古め。ベースモデルと比較してSFT-RLによって性能は向上。Human Performanceも掲載されているのは印象的である。

ただ、汎用モデルでこの性能が出るのであれば、DeepSearchに特化したモデルや？GPT5, Claude-4.5-Sonnetなどではこのベンチマーク上ではHuman Performanceと同等かそれ以上の性能が出るのではないか？という気がする。

#ComputerVision #EfficiencyImprovement #Pocket #ImageSegmentation #OpenWeight #Video #2D (Image) Issue Date: 2025-11-09 [Paper Note] EdgeTAM: On-Device Track Anything Model, Chong Zhou+, arXiv'25, 2025.01 GPT Summary- SAM 2は動画セグメンテーションの基盤モデルであり、メモリバンクメカニズムを通じて性能を向上させています。本研究では、モバイルデバイス上での効率を高めるために、EdgeTAMを提案し、2D空間パーセプターを用いて計算コストを削減します。これにより、メモリの空間構造を保持しつつ、推論オーバーヘッドなしで性能を向上させる蒸留パイプラインも導入。EdgeTAMは複数のデータセットで高いJ&Fスコアを達成し、iPhone 15 Pro Maxで16 FPSで動作します。 Comment

元ポスト:

Loading…

SAM2より性能は少し劣るが、edge-deviceてわ動作可能で非常に高速なモデル（promptによって制御可能なsegmentation)とのこと
- [Paper Note] SAM 2: Segment Anything in Images and Videos, Nikhila Ravi+, ICLR'25, 2024.08

#EfficiencyImprovement #Pocket #NLP #LanguageModel #Personalization #PostTraining Issue Date: 2025-10-30 [Paper Note] Memory-Efficient Backpropagation for Fine-Tuning LLMs on Resource-Constrained Mobile Devices, Congzheng Song+, arXiv'25, 2025.10 GPT Summary- モバイルデバイス向けに、メモリ効率の良いバックプロパゲーション実装（MeBP）を提案。これにより、メモリ使用量と計算時間のトレードオフを改善し、ゼロ次最適化よりも速く収束し、優れたパフォーマンスを実現。iPhone 15 Pro Maxでの検証により、0.5Bから4Bのパラメータを持つLLMが1GB未満のメモリでファインチューニング可能であることを示した。実装例は公開済み。 Comment

元ポスト:

Loading…

iPhone上で4BモデルまでFinetuningができるようになった模様。

#ComputerVision #Pocket #ReinforcementLearning #VisionLanguageModel #Robotics #VisionLanguageActionModel Issue Date: 2025-10-18 [Paper Note] ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning, Hanyang Chen+, arXiv'25, 2025.10 GPT Summary- Embodied Reasoning Agent (ERA)は、事前知識学習とオンライン強化学習を統合した二段階のフレームワークで、視覚言語モデルの性能向上を目指す。第一段階では、軌道拡張、環境固定、外部知識から基礎知識を抽出し、第二段階でオンラインRLを用いてエージェントのパフォーマンスを向上させる。自己要約、密な報酬形成、ターンレベルのポリシー最適化を導入し、EB-ALFREDとEB-Manipulationタスクで大規模モデルを上回る成果を示した。ERAは具現化知能の実用的な道を提供する。 Comment

pj page: https://embodied-reasoning-agent.github.io

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Reasoning Issue Date: 2025-10-16 [Paper Note] LightReasoner: Can Small Language Models Teach Large Language Models Reasoning?, Jingyuan Wang+, arXiv'25, 2025.10 GPT Summary- LightReasonerは、SLMがLLMの強みを活かして高価値の推論を明らかにする新しいフレームワーク。重要な推論瞬間を特定し、専門家モデルを調整する2段階のプロセスを経て、数学的ベンチマークで精度を最大28.1%向上、時間消費を90%削減、サンプリング問題を80%減少させた。リソース効率の良いアプローチで、真のラベルに依存せずにLLMの推論を進展させる。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Selected Papers/Blogs #LatentReasoning #RecursiveModels Issue Date: 2025-10-09 [Paper Note] Less is More: Recursive Reasoning with Tiny Networks, Alexia Jolicoeur-Martineau, arXiv'25, 2025.10 GPT Summary- 階層的推論モデル（HRM）は、2つの小さなニューラルネットワークを用いた新しいアプローチで、数独や迷路などのパズルタスクで大規模言語モデル（LLMs）を上回る性能を示す。しかし、HRMは最適ではない可能性があるため、我々はTiny Recursive Model（TRM）を提案。TRMはよりシンプルで高い一般化能力を持ち、700万パラメータでARC-AGI-1で45%、ARC-AGI-2で8%の精度を達成し、ほとんどのLLMを上回る性能を示した。 Comment

元ポスト:

Loading…

所見:

Loading…

ポイント解説:

Loading…

ARC-AGI公式による検証が終わり報告されている結果が信頼できることが確認された模様:

Loading…

続報:

Loading…

Sudoku Benchでも性能改善する模様？

#Pretraining #Pocket #NLP #LanguageModel #Transformer #memory Issue Date: 2025-10-07 [Paper Note] Pretraining with hierarchical memories: separating long-tail and common knowledge, Hadi Pouransari+, arXiv'25, 2025.09 GPT Summary- 現代の言語モデルはパラメータのスケーリングに依存しているが、すべての世界知識を圧縮するのは非現実的である。これに対処するため、メモリ拡張アーキテクチャを提案し、小型言語モデルが階層的なメモリバンクにアクセスする仕組みを導入。実験により、160Mパラメータのモデルに18Mパラメータのメモリを追加することで、通常のモデルと同等の性能を達成。トランスフォーマーにおけるメモリの最適なタイプとサイズを研究し、提案したメモリが堅牢に機能することを確認。 Comment

元ポスト:

Loading…

#ComputerVision #Embeddings #InformationRetrieval #Pocket #NLP #MultiModal #Encoder Issue Date: 2025-10-03 [Paper Note] ModernVBERT: Towards Smaller Visual Document Retrievers, Paul Teiletche+, arXiv'25, 2025.10 GPT Summary- マルチモーダル埋め込みモデルは文書検索において効率的な代替手段として普及しているが、再利用アプローチが検索性能のボトルネックとなることがある。本研究では、視覚文書検索モデルを改善するための原則的なレシピを確立し、注意マスキングや画像解像度などが性能に影響を与える要因であることを示した。これに基づき、250Mパラメータのコンパクトな視覚-言語エンコーダーModernVBERTを開発し、文書検索タスクで大規模モデルを上回る性能を達成した。モデルとコードは公開されている。 Comment

元ポスト:

Loading…

MIT Licence
HF: https://huggingface.co/ModernVBERT

ポイント解説:

Loading…

#Pocket #NLP #LanguageModel #Hallucination #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-10-02 [Paper Note] HalluGuard: Evidence-Grounded Small Reasoning Models to Mitigate Hallucinations in Retrieval-Augmented Generation, Loris Bergeron+, arXiv'25, 2025.10 GPT Summary- HalluGuardは、LLMsの幻覚を軽減するための4Bパラメータの小型推論モデルで、文書-主張ペアを分類し、証拠に基づいた正当化を生成します。FineWebから派生した合成データセットと、好みベースのファインチューニングを用いて、RAGTruthサブセットで84.0%のバランス精度を達成し、MiniCheckやGranite Guardianと同等の性能を示します。全体のベンチマークでは75.7%のバランス精度を達成し、GPT-4oと同等の性能を持ちます。HalluGuardとデータセットは公開予定です。 Comment

元ポスト:

Loading…

Document xとclaim cがgivenなときに、それがgroundingされているか否かを判定し、justificationをするテキストをxを参照しながら生成するようなSLMな模様。モデルとデータはまだ未公開とのこと。

#Pocket #NLP #LanguageModel #ReinforcementLearning #Reasoning Issue Date: 2025-10-01 [Paper Note] QuestA: Expanding Reasoning Capacity in LLMs via Question Augmentation, Jiazheng Li+, arXiv'25, 2025.07 GPT Summary- 強化学習（RL）を用いて、難しい推論問題を効果的に解決するための手法QuestAを提案。質問の拡張を通じて部分的な解決策を導入し、学習信号を改善。数学的推論タスクでのRLトレーニングにおいて、pass@1とpass@kの両方を向上させ、DeepScaleRやOpenMath Nemotronの推論能力を強化。1.5Bパラメータモデルで新たな最先端結果を達成。 Comment

元ポスト:

Loading…

RLにおいて、簡単な問題はすぐにoverfitし、かつより困難な問題を学習する妨げになる一方で、困難な問題はサンプル効率が悪く、かつrewardがsparseな場合学習が非常に遅いという問題があったが、困難な問題に対してヒントを与えて学習させる（かつ、モデルがヒントに依存せずとも解けるようになってきたら徐々にヒントを減らしヒントに過剰に依存することを防ぐ）ことで、簡単な問題に対してoverfitせずに困難な問題に対する学習効率も上がり、reasoning能力もブーストしました。困難な問題はベースラインモデルが解くのに苦労するもの（pass rateがゼロのもの)から見つけます、（そしてpromptでhintを与えた上でさらにpass rateが低いものを使う模様？）といった話な模様。

ヒントを使ってなる問題の難易度を調整しながらRLする研究は以下も存在する:
- [Paper Note] Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding, Ziheng Li+, arXiv'25

#ComputerVision #Pocket #NLP #ImageCaptioning #OpenWeight #VisionLanguageModel Issue Date: 2025-09-29 [Paper Note] CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning, Long Xing+, arXiv'25, 2025.09 GPT Summary- 画像キャプショニングにおいて、従来の監視型ファインチューニング（SFT）の限界を克服するため、検証可能な報酬を用いた強化学習（RLVR）を提案。新しいトレーニングフレームワーク「キャプショニング強化学習（CapRL）」を導入し、キャプションの質をその有用性で再定義。CapRLは、視覚非依存のLLMの精度に基づく客観的な報酬を得る二段階のパイプラインを採用。CapRL-3Bによる事前学習は、12のベンチマークで大幅な性能向上を実現し、Qwen2.5-VL-72Bと同等のパフォーマンスを達成。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/collections/long-xing1/caprl-68d64ac32ded31596c36e189

公式ポスト:

Loading…

#Embeddings #Pocket #NLP #RepresentationLearning #MultiLingual #OpenWeight Issue Date: 2025-09-25 [Paper Note] EmbeddingGemma: Powerful and Lightweight Text Representations, Henrique Schechter Vera+, arXiv'25, 2025.09 GPT Summary- EmbeddingGemmaは、Gemma 3言語モデルに基づく軽量なオープンテキスト埋め込みモデルで、エンコーダ-デコーダの初期化と幾何学的埋め込み蒸留を用いて大規模モデルの知識を活用。分散正則化器を使用し、異なるチェックポイントを統合することで一般化能力を向上。300Mのパラメータで、MTEBで最先端の結果を達成し、従来のトップモデルを上回る性能を示す。量子化や出力の切り詰めにも耐え、低遅延かつ高スループットのアプリケーションに適している。EmbeddingGemmaはコミュニティに公開され、さらなる研究を促進する。 Comment

公式モデル概要: https://ai.google.dev/gemma/docs/embeddinggemma?hl=ja

元ポスト:

Loading…

100以上の言語で訓練されマトリョーシカ表現なのでベクトルのサイズを調整可能な模様

マトリョーシカ表現:
- [Paper Note] Matryoshka Representation Learning, Aditya Kusupati+, NeurIPS'22

公式による解説ブログ:

Loading…

#Analysis #EfficiencyImprovement #MachineLearning #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #NeurIPS #PostTraining #On-Policy Issue Date: 2025-09-19 [Paper Note] BREAD: Branched Rollouts from Expert Anchors Bridge SFT & RL for Reasoning, Xuechen Zhang+, NeurIPS'25 GPT Summary- 小型言語モデル（SLMs）は、トレースが不足している場合に複雑な推論を学ぶのが難しい。本研究では、SFT + RLの限界を調査し、BREADという新しい手法を提案。BREADは、専門家のガイダンスを用いてSFTとRLを統合し、失敗したトレースに対して短いヒントを挿入することで成功を促進。これにより、トレーニングが約3倍速くなり、標準的なGRPOを上回る性能を示す。BREADは、SLMの推論能力を大幅に向上させることが確認された。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #OpenWeight #ACL #VisionLanguageModel Issue Date: 2025-09-16 [Paper Note] Scalable Vision Language Model Training via High Quality Data Curation, Hongyuan Dong+, ACL'25 GPT Summary- SAIL-VLは、2Bおよび8Bパラメータのオープンソースビジョン言語モデルで、最先端の性能を達成。主な改善点は、(1) 高品質な視覚理解データの構築、(2) 拡大した事前学習データによる性能向上、(3) 複雑さのスケーリングによる効果的なSFTデータセットのキュレーション。SAIL-VLは18のVLMベンチマークで最高スコアを達成し、2Bモデルは同等のVLMの中でトップの位置を占める。モデルはHuggingFaceで公開。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/BytedanceDouyinContent

#Pretraining #Pocket #NLP #LanguageModel #mid-training #PostTraining #read-later #Selected Papers/Blogs #DataMixture Issue Date: 2025-09-13 [Paper Note] MobileLLM-R1: Exploring the Limits of Sub-Billion Language Model Reasoners with Open Training Recipes, Changsheng Zhao+, arXiv'25, 2025.09 GPT Summary- 本研究では、推論能力の出現に必要なデータ量について再検討し、約2Tトークンの高品質データで強力な推論モデルが構築できることを示した。MobileLLM-R1というサブビリオンパラメータのモデルは、従来のモデルを大幅に上回る性能を発揮し、特にAIMEスコアで優れた結果を示した。さらに、Qwen3の36Tトークンコーパスに対しても、わずか11.7%のトークンでトレーニングされたMobileLLM-R1-950Mは、複数の推論ベンチマークで競争力を持つ。研究の詳細な情報は公開されている。 Comment

元ポスト:

Loading…

モデルカードを見ると、optimizerやスケジューリング、ハイパーパラメータの設定、pre/mid/post trainingにおける学習データとDavaMixについて簡潔に記述されており、レシピが公開されているように見える。素晴らしい。

#RecommenderSystems #InformationRetrieval #Pocket #LanguageModel #Reranking Issue Date: 2025-09-03 [Paper Note] ProRank: Prompt Warmup via Reinforcement Learning for Small Language Models Reranking, Xianming Li+, arXiv'25 GPT Summary- 再ランキングにおいて、SLMを用いた新しい二段階トレーニングアプローチProRankを提案。まず、強化学習を用いてSLMがタスクプロンプトを理解し、粗い関連スコアを生成。次に、ファインチューニングを行い再ランキングの質を向上。実験結果では、ProRankが先進的な再ランキングモデルを上回り、特にProRank-0.5Bモデルが32B LLMを超える性能を示した。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #ReinforcementLearning #AIAgents #ComputerUse #On-Policy Issue Date: 2025-08-29 [Paper Note] Mobile-Agent-v3: Foundamental Agents for GUI Automation, Jiabo Ye+, arXiv'25 GPT Summary- 本論文では、GUI-OwlというGUIエージェントモデルを提案し、デスクトップおよびモバイル環境での最先端性能を達成したことを報告しています。特に、Mobile-Agent-v3フレームワークを導入し、性能を向上させました。GUI-Owlは、クラウドベースの仮想環境を利用した自己進化するデータ生成、エンドツーエンドの意思決定を支援する多様な機能、スケーラブルな強化学習フレームワークを特徴としています。これらの成果は、オープンソースとして公開されています。 Comment

github: https://github.com/X-PLUG/MobileAgent?tab=readme-ov-file

元ポスト:

Loading…

ベンチマーク:
- AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents, Christopher Rawles+, ICLR'25
- [Paper Note] OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments, Tianbao Xie+, arXiv'24

Trajectory-aware Relative Policy Optimization
(TRPO)

#EfficiencyImprovement #Pocket #NLP #LanguageModel #NeuralArchitectureSearch #Reference Collection Issue Date: 2025-08-26 [Paper Note] Jet-Nemotron: Efficient Language Model with Post Neural Architecture Search, Yuxian Gu+, arXiv'25 GPT Summary- Jet-Nemotronは新しいハイブリッドアーキテクチャの言語モデルで、フルアテンションモデルと同等以上の精度を持ちながら生成スループットを大幅に改善します。Post Neural Architecture Search（PostNAS）を用いて開発され、事前トレーニングされたモデルから効率的にアテンションブロックを探索します。Jet-Nemotron-2Bモデルは、他の先進モデルに対して高い精度を達成し、生成スループットを最大53.6倍向上させました。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

解説:

Loading…

所見:

Loading…

解説:

Loading…

続報:

Loading…

コードとチェックポイントがリリース

code: https://github.com/NVlabs/Jet-Nemotron
HF: https://huggingface.co/collections/jet-ai/jet-nemotron-68ac76e8356b5399ef83ac9c

#MachineTranslation #NLP #LanguageModel #Supervised-FineTuning (SFT) #Japanese #DPO #Selected Papers/Blogs #ModelMerge Issue Date: 2025-08-22 PLaMo Translate: 翻訳特化大規模言語モデルの開発,今城+, Jxiv'25 Comment

元ポスト:

Loading…

SFT->Iterative DPO->Model Mergeのパイプライン。SFTでは青空文庫などのオープンなデータから指示追従性能の高いDeepSeek-V3-0324によって元データ→翻訳, 翻訳→再翻訳データを合成し活用。また、翻訳の指示がprompt中に存在せずとも（本モデルを利用するのは翻訳用途であることが自明であるからと推察される）翻訳を適切に実行できるよう、独自のテンプレートを学習。文体指定、常体、敬体の指定、文脈考慮、語彙指定それぞれにういて独自のタグを設けてフォーマットを形成し翻訳に特化したテンプレートを学習。

IterativeDPOでは、DeepSeekV3に基づくLLM-as-a-Judgeと、MetricX([Paper Note] MetricX-24: The Google Submission to the WMT 2024 Metrics Shared Task, Juraj Juraska+, arXiv'24 )に基づいてReward Modelをそれぞれ学習し、1つの入力に対して100個の翻訳を作成しそれぞれのRewardモデルのスコアの合計値に基づいてRejection Samplingを実施することでPreference dataを構築。3段階のDPOを実施し、段階ごとにRewardモデルのスコアに基づいて高品質なPreference Dataに絞ることで性能向上を実現。

モデルマージではDPOの各段階のモデルを重み付きでマージすることで各段階での長所を組み合わせたとのこと。

サービスリリース: https://prtimes.jp/main/html/rd/p/000000019.000156310.html?hm_ct=d17807e98595783ee6edfc7ae00fe95a&hm_cv=87e6d4e056b010261ecdc77d7ac8eb6c&hm_cs=1638145470668f4b36f218d2.35741174&hm_mid=m3hk6&hm_id=m3hk6&hm_h=a03.hm-f.jp

2025.1010配信の「岡野原大輔のランチタイムトーク Vol.52 番外編「なぜPLaMo翻訳は自然なのか？」において詳細が語られているので参照のこと。特になぜ日本語に強いLLMが大事なのか？という話が非常におもしろかった。

#Pretraining #Pocket #NLP #Dataset #LanguageModel #OpenWeight #SSM (StateSpaceModel) #Selected Papers/Blogs Issue Date: 2025-08-19 [Paper Note] NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model, NVIDIA+, arXiv'25, 2025.08 GPT Summary- Nemotron-Nano-9B-v2は、推論スループットを向上させつつ最先端の精度を達成するハイブリッドMamba-Transformerモデルである。自己注意層の一部をMamba-2層に置き換え、長い思考トレースの生成を高速化。12億パラメータのモデルを20兆トークンで事前トレーニングし、Minitron戦略で圧縮・蒸留。既存モデルと比較して、最大6倍の推論スループットを実現し、精度も同等以上。モデルのチェックポイントはHugging Faceで公開予定。 Comment

元ポスト:

Loading…

事前学習に利用されたデータも公開されているとのこと(Nemotron-CC):

Loading…

解説:

Loading…

サマリ:

Loading…

#Pocket #NLP #LanguageModel #Reasoning #OpenWeight Issue Date: 2025-07-10 [Paper Note] Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation, Liliang Ren+, arXiv'25 GPT Summary- 最近の言語モデルの進展により、状態空間モデル（SSM）の効率的なシーケンスモデリングが示されています。本研究では、ゲーテッドメモリユニット（GMU）を導入し、Sambaベースの自己デコーダーからメモリを共有する新しいデコーダーハイブリッドアーキテクチャSambaYを提案します。SambaYはデコーディング効率を向上させ、長文コンテキスト性能を改善し、位置エンコーディングの必要性を排除します。実験により、SambaYはYOCOベースラインに対して優れた性能を示し、特にPhi4-mini-Flash-Reasoningモデルは推論タスクで顕著な成果を上げました。トレーニングコードはオープンソースで公開されています。 Comment

HF: https://huggingface.co/microsoft/Phi-4-mini-flash-reasoning

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #NLP #ReinforcementLearning #Reasoning #PEFT(Adaptor/LoRA) #GRPO #read-later #Selected Papers/Blogs Issue Date: 2025-05-07 [Paper Note] Tina: Tiny Reasoning Models via LoRA, Shangshang Wang+, arXiv'25 GPT Summary- Tinaは、コスト効率よく強力な推論能力を実現する小型の推論モデルファミリーであり、1.5Bパラメータのベースモデルに強化学習を適用することで高い推論性能を示す。Tinaは、従来のSOTAモデルと競争力があり、AIME24で20%以上の性能向上を達成し、トレーニングコストはわずか9ドルで260倍のコスト削減を実現。LoRAを通じた効率的なRL推論の効果を検証し、すべてのコードとモデルをオープンソース化している。 Comment

元ポスト:

Loading…

（おそらく）Reasoningモデルに対して、LoRAとRLを組み合わせて、reasoning能力を向上させた初めての研究

#EfficiencyImprovement #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #Quantization Issue Date: 2025-04-19 BitNet b1.58 2B4T Technical Report, Shuming Ma+, arXiv'25 GPT Summary- BitNet b1.58 2B4Tは、20億パラメータを持つオープンソースの1ビット大規模言語モデルで、4兆トークンで訓練されました。言語理解や数学的推論などのベンチマークで評価され、同サイズのフルプレシジョンLLMと同等の性能を示しつつ、計算効率が向上しています。メモリ、エネルギー消費、デコーディングレイテンシが削減され、モデルの重みはHugging Faceで公開されています。 Comment

元ポスト:

Loading…

圧倒的省メモリかつcpuでのinference速度も早そう

- アーキテクチャはTransformerを利用
- Linear layerとしてBitLinear Layerを利用
- 重みは{1, 0, -1}の3値をとる
- activationは8bitのintegerに量子化
- Layer Normalizationはsubln normalization Foundation Transformers, Hongyu Wang+, PMLR'23 を利用

#Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #COLM #PostTraining #Selected Papers/Blogs #In-Depth Notes Issue Date: 2025-04-13 A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility, Andreas Hochlehnert+, COLM'25 GPT Summary- 推論は言語モデルの重要な課題であり、進展が見られるが、評価手法には透明性や堅牢性が欠けている。本研究では、数学的推論ベンチマークが実装の選択に敏感であることを発見し、標準化された評価フレームワークを提案。再評価の結果、強化学習アプローチは改善が少なく、教師ありファインチューニング手法は強い一般化を示した。再現性を高めるために、関連するコードやデータを公開し、今後の研究の基盤を築く。 Comment

元ポスト:

Loading…

SLMをmath reasoning向けにpost-trainingする場合、評価の条件をフェアにするための様々な工夫を施し評価をしなおした結果（Figure1のように性能が変化する様々な要因が存在する）、RL（既存研究で試されているもの）よりも（大規模モデルからrejection samplingしたreasoning traceを用いて）SFTをする方が同等か性能が良く(Table3)、結局のところ（おそらく汎化性能が低いという意味で）reliableではなく、かつ（おそらく小規模なモデルでうまくいかないという意味での）scalableではないので、reliableかつscalableなRL手法が不足しているとのこと。

※ 本論文で分析されているのは<=10B以下のSLMである点に注意。10B以上のモデルで同じことが言えるかは自明ではない。
※ DAPO, VAPOなどについても同じことが言えるかも自明ではない。
※ DeepSeek-R1のtechnical reportにおいて、小さいモデルにGRPOを適用してもあまり効果が無かったことが既に報告されている。

- DeepSeek-R1の論文読んだ？【勉強になるよ】 , asap, 2025.01
- DeepSeek-R1, DeepSeek, 2025.01

個々のpost-trainingされたRLモデルが具体的にどういう訓練をしたのかは追えていないが、DAPOやDr. GRPO, VAPOの場合はどうなるんだろうか？

- DAPO: An Open-Source LLM Reinforcement Learning System at Scale, Qiying Yu+, arXiv'25
- VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks, YuYue+, arXiv'25
- [Paper Note] Understanding R1-Zero-Like Training: A Critical Perspective, Zichen Liu+, arXiv'25, 2025.03

Rewardの設定の仕方はどのような影響があるのだろうか（verifiable rewardなのか、neuralモデルによるrewardなのかなど)？

学習のさせ方もどのような影響があるのだろうか（RLでカリキュラムlearningにした場合など）？

検証しているモデルがそれぞれどのような設定で学習されているかまでを見ないとこの辺はわからなそう。

ただなんとなーくの直感だと、SLMを賢くしたいという場合は何らかの賢いモデルの恩恵に預かると有利なケースが多く（SFTの場合はそれが大規模なモデルから蒸留したreasoning trace）、SLM+RLの場合はPRMのような思考プロセスを評価してRewardに反映させるようなものを利用しないと、少なくとも小規模なLLMをめちゃ賢くします〜というのはきついんじゃないかなあという感想ではある。
ただ、結局SLMという時点で多くの場合、より賢いパラメータ数の多いLLMが世の中には存在するあるはずなので、RLしないでSFTして蒸留すれば良いんじゃない…？と思ってしまう。
が、多くの場合その賢いLLMはProprietaryなLLMであり、出力を得て自分のモデルをpost-trainingすることは利用規約違反となるため、自前で賢くてパラメータ数の多いLLMを用意できない場合は困ってしまうので、SLMをクソデカパラメータのモデルの恩恵なしで超絶賢くできたら世の中の多くの人は嬉しいよね、とも思う。

（斜め読みだが）
サンプル数が少ない（数十件）AIMEやAMCなどのデータはseedの値にとてもsensitiveであり(Takeaway1, 2)、

https://github.com/user-attachments/assets/97581133-cf17-4635-b66c-442eaf8956d4" />

それらは10種類のseedを用いて結果を平均すると分散が非常に小さくなるので、seedは複数種類利用して平均の性能を見た方がreliableであり(Takeaway3)

https://github.com/user-attachments/assets/5065ef0e-de89-4b17-aa52-c90b7191e9b2" />

temperatureを高くするとピーク性能が上がるが分散も上がるため再現性の課題が増大するが、top-pを大きくすると再現性の問題は現れず性能向上に寄与し

https://github.com/user-attachments/assets/76d5c989-edbb-4d70-9080-d1d4b01de2ff" />

既存研究のモデルのtemperatureとtop-pを変化させ実験するとperformanceに非常に大きな変化が出るため、モデルごとに最適な値を選定して比較をしないとunfairであることを指摘 (Takeaway4)。

https://github.com/user-attachments/assets/d8b453d1-3d2e-4a80-b03d-c69ec1b2232e" />

また、ハードウェアの面では、vLLMのようなinference engineはGPU typeやmemoryのconfigurationに対してsensitiveでパフォーマンスが変わるだけでなく、

https://github.com/user-attachments/assets/a41891c7-072c-4c38-9ad6-beada4721bac" />

評価に利用するフレームワークごとにinference engineとprompt templateが異なるためこちらもパフォーマンスに影響が出るし (Takeaway5)、

https://github.com/user-attachments/assets/1f7d328c-0757-47b9-9961-630e2429fb3e" />

max output tokenの値を変化させると性能も変わり、prompt templateを利用しないと性能が劇的に低下する (Takeaway6)。

https://github.com/user-attachments/assets/dc0902d1-a5f2-47de-8df1-c28107e1da28" />

これらのことから著者らはreliableな評価のために下記を提案しており (4.1節; 後ほど追記)、

実際にさまざまな条件をfair comparisonとなるように標準化して評価したところ（4.2節; 後ほど追記）

上の表のような結果となった。この結果は、
- DeepSeekR1-DistilledをRLしてもSFTと比較したときに意味のあるほどのパフォーマンスの向上はないことから、スケーラブル、かつ信頼性のあるRL手法がまだ不足しており
- 大規模なパラメータのモデルのreasoning traceからSFTをする方法はさまざまなベンチマークでロバストな性能（＝高い汎化性能）を持ち、RLと比べると現状はRLと比較してよりパラダイムとして成熟しており
- （AIME24,25を比較するとSFTと比べてRLの場合performanceの低下が著しいので）RLはoverfittingしやすく、OODなベンチマークが必要

しっかりと評価の枠組みを標準化してfair comparisonしていかないと、RecSys業界の二の舞になりそう（というかもうなってる？）。

またこの研究で分析されているのは小規模なモデル（<=10B）に対する既存研究で用いられた一部のRL手法や設定の性能だけ（真に示したかったらPhisics of LLMのような完全にコントロール可能なサンドボックスで実験する必要があると思われる）なので、DeepSeek-R1のように、大規模なパラメータ（数百B）を持つモデルに対するRLに関して同じことが言えるかは自明ではない点に注意。

openreview: https://openreview.net/forum?id=90UrTTxp5O#discussion

最近の以下のようなSFTはRLの一つのケースと見做せるという議論を踏まえるとどうなるだろうか

- [Paper Note] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification, Yongliang Wu+, arXiv'25
- [Paper Note] Towards a Unified View of Large Language Model Post-Training, Xingtai Lv+, arXiv'25

#Pocket #NLP #LanguageModel #ICLR Issue Date: 2025-10-10 [Paper Note] MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases, Zechun Liu+, ICLR'24, 2024.02 GPT Summary- モバイルデバイス向けに10億未満のパラメータを持つ高品質な大規模言語モデル（LLM）の設計を提案。深くて細いアーキテクチャを活用し、MobileLLMという強力なモデルを構築し、従来のモデルに対して精度を向上。さらに、重み共有アプローチを導入し、MobileLLM-LSとしてさらなる精度向上を実現。MobileLLMモデルファミリーは、チャットベンチマークでの改善を示し、一般的なデバイスでの小型モデルの能力を強調。 #EfficiencyImprovement #Pocket #NLP #LanguageModel #Scheduler Issue Date: 2025-08-25 [Paper Note] MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies, Shengding Hu+, arXiv'24 GPT Summary- 急成長する大規模言語モデル（LLMs）の開発におけるコストの懸念から、小規模言語モデル（SLMs）の可能性が注目されている。本研究では、MiniCPMという1.2Bおよび2.4Bの非埋め込みパラメータバリアントを紹介し、これらが7B-13BのLLMsと同等の能力を持つことを示す。モデルのスケーリングには広範な実験を、データのスケーリングにはWarmup-Stable-Decay（WSD）学習率スケジューラを導入し、効率的なデータ-モデルスケーリング法を研究した。MiniCPMファミリーにはMiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kが含まれ、優れたパフォーマンスを発揮している。MiniCPMモデルは公開されている。 Comment

Warmup-Stable-Decay (WSD)

#Survey #NLP #LanguageModel Issue Date: 2024-11-07 A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness, Fali Wang+, arXiv'24 GPT Summary- 大規模言語モデル（LLM）は多様なタスクで能力を示すが、パラメータサイズや計算要求から制限を受け、プライバシーやリアルタイムアプリケーションに課題がある。これに対し、小型言語モデル（SLM）は低遅延、コスト効率、簡単なカスタマイズが可能で、特に専門的なドメインにおいて有用である。SLMの需要が高まる中、定義や応用に関する包括的な調査が不足しているため、SLMを専門的なタスクに適したモデルとして定義し、強化するためのフレームワークを提案する。 Comment

#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #Chain-of-Thought #OpenWeight #One-Line Notes Issue Date: 2023-11-21 Orca 2: Teaching Small Language Models How to Reason, Arindam Mitra+, N_A, arXiv'23 GPT Summary- Orca 1は、豊富なシグナルから学習し、従来のモデルを上回る性能を発揮します。Orca 2では、小さな言語モデルの推論能力を向上させるために異なる解決戦略を教えることを目指しています。Orca 2は、さまざまな推論技術を使用し、15のベンチマークで評価されました。Orca 2は、同じサイズのモデルを大幅に上回り、高度な推論能力を持つ複雑なタスクで優れた性能を発揮します。Orca 2はオープンソース化されており、小さな言語モデルの研究を促進します。 Comment

ポイント解説:

Loading…

HF: https://huggingface.co/microsoft/Orca-2-13b

論文を読むとChatGPTのデータを学習に利用しているが、現在は競合となるモデルを作ることは規約で禁止されているので注意

#Pocket #NLP #LanguageModel #NeurIPS Issue Date: 2023-11-14 Cappy: Outperforming and Boosting Large Multi-Task LMs with a Small Scorer, Bowen Tan+, N_A, NeurIPS'23 GPT Summary- 大規模言語モデル（LLMs）はマルチタスキングに優れた性能を示していますが、パラメータ数が多く計算リソースを必要とし、効率的ではありません。そこで、小規模なスコアラーであるCappyを導入し、独立して機能するかLLMsの補助として使用することでパフォーマンスを向上させました。Cappyはファインチューニングやパラメータへのアクセスを必要とせず、さまざまなタスクで高い性能を発揮します。実験結果では、Cappyは独立したタスクや複雑なタスクで大きなLLMsを上回り、他のLLMsとの連携も可能です。 Comment

360MパラメータでさまざまなタスクでLLMに勝つっぽいのでおもしろそうだし実用性もありそう

#EfficiencyImprovement #Pretraining #MachineLearning #NLP #LanguageModel #Selected Papers/Blogs Issue Date: 2023-06-25 Textbooks Are All You Need, Suriya Gunasekar+, N_A, arXiv'23 GPT Summary- 本研究では、小規模なphi-1という新しいコード用大規模言語モデルを紹介し、8つのA100で4日間トレーニングした結果、HumanEvalでpass@1の正解率50.6％、MBPPで55.5％を達成したことを報告しています。また、phi-1は、phi-1-baseやphi-1-smallと比較して、驚くべき新しい性質を示しています。phi-1-smallは、HumanEvalで45％を達成しています。 Comment

参考:

Loading…

教科書のような品質の良いテキストで事前学習すると性能が向上し（グラフ真ん中）、さらに良質なエクササイズでFinetuningするとより性能が向上する（グラフ右）

日本語解説: https://dalab.jp/archives/journal/introduction-textbooks-are-all-you-need/

ざっくり言うと、教科書で事前学習し、エクササイズでFinetuningすると性能が向上する（= より大きいモデルと同等の性能が得られる）。

#Article #AIAgents #Blog #OpenWeight #ComputerUse #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-25 Fara-7B: An Efficient Agentic Model for Computer Use, Microsoft, 2025.11 Comment

元ポスト:

Loading…

computer useに特化したMS初のSLM(CUA)

MIT Licence

著者ポスト:

Loading…

#Article #NLP #Blog #Japanese #VisionLanguageModel #Cultural Issue Date: 2025-11-25 Sarashina2.2-Vision-3B: コンパクトかつ性能が高いVLMの公開, SB Intuitions, 2025.11 Comment

元ポスト:

Loading…

HF: https://huggingface.co/sbintuitions/sarashina2.2-vision-3b

#Article #Pretraining #InstructionTuning #SpeechProcessing #Reasoning #OpenWeight #Zero/FewShotLearning #Selected Papers/Blogs #UMM #AudioLanguageModel Issue Date: 2025-10-25 Introducing MiMo-Audio, LLM-Core Xiaomi, 2025.10 Comment

HF: https://huggingface.co/collections/XiaomiMiMo/mimo-audio

元ポスト:

Loading…

text, audioを入力として受け取り、text, audioを出力するAudioLanguageModel

#Article #ComputerVision #NLP #MultiLingual #OpenWeight #VisionLanguageModel Issue Date: 2025-10-22 LFM2-VL-3B: A New Efficient Vision-Language for the Edge, LiquidAI, 2025.10 Comment

元ポスト:

Loading…

HF: https://huggingface.co/LiquidAI/LFM2-VL-3B

SigLIP2とLFM2がバックボーン
- Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07

#Article #ComputerVision #NLP #MultiLingual #OpenWeight #DocParser #VisionLanguageModel #OCR Issue Date: 2025-10-22 dots.ocr, rednote-hilab, 2025.07 Comment

100+言語のdots.ocr benchと呼ばれるものでの性能も報告されているが、日本語性能はどのくらいなのだろうか

MIT Licence

参考:VLMを使った多言語ドキュメントパーサ「dots.ocr」を試す, kun432, Zenn
https://zenn.dev/kun432/scraps/b91fce6fbeb30c

日本語もかなりいけてそう

#Article #NLP #LanguageModel #OpenWeight #Japanese #PII Issue Date: 2025-10-14 LFM2-350M-PII-Extract-JP, LiquidAI, 2025.10 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#Article #Embeddings #NLP #OpenWeight #Encoder Issue Date: 2025-10-09 colbert-muvera-femto, NeuML, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #OpenWeight #SSM (StateSpaceModel) Issue Date: 2025-10-09 Jamba Reasoning 3B, AI21Labs, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Blog #OpenWeight #MoE(Mixture-of-Experts) Issue Date: 2025-10-08 LFM2-8B-A1B: An Efficient On-device Mixture-of-Experts, LiquidAI, 2025.10 Comment

HF: https://huggingface.co/LiquidAI/LFM2-8B-A1B

元ポスト:

Loading…

日本語もサポートしているとのこと

#Article #NLP #LanguageModel #DiffusionModel #Coding #OpenWeight #OpenSource Issue Date: 2025-10-05 CODA: Coding LM via Diffusion Adaption, Chen+, 2025.10 Comment

元ポスト:

Loading…

HF: https://huggingface.co/Salesforce/CoDA-v0-Instruct

cc-by-nc-4.0

#Article #NLP #LanguageModel #Transformer #LongSequence #OpenWeight #SSM (StateSpaceModel) Issue Date: 2025-10-02 IBM Granite 4.0: hyper-efficient, high performance hybrid models for enterprise, IBM, 2025.10 Comment

元ポスト:

Loading…

Mamba2とtransformerのハイブリッドモデルで、比率は9:1とMamba2ブロックが多めらしい。Mamba2の恩恵によりlokg-context時のメモリ使用量が70パーセント削減されるとのこと。

#Article #ComputerVision #NLP #MultiModal #Reasoning #OpenWeight #VisionLanguageModel Issue Date: 2025-10-01 Apriel-1.5-15b-Thinker, ServiceNow-AI, 2025.09 Comment

元ポスト:

Loading…

Artificial Analysisによるベンチマーキングでは現状<20BでSoTAなReasoningモデルな模様。
MIT License

公式ポスト:

Loading…

Nvidiaによるポスト:

Loading…

#Article #MachineTranslation #NLP #LanguageModel #AIAgents #RAG(RetrievalAugmentedGeneration) #Mathematics #OpenWeight #Japanese #DocParser Issue Date: 2025-09-26 Liquid Nanos, LiquidAI, 2025.09 Comment

blog: https://www.liquid.ai/blog/introducing-liquid-nanos-frontier-grade-performance-on-everyday-devices

モデルファミリーに350Mの日英翻訳モデルが含まれている…だと！？

タスクスペシフィックなedgeデバイス向けのSLM群。

以下のようなモデルファミリー。非構造テキストからのデータ抽出、日英翻訳、RAG, tooluse, Math, フランス語のチャットモデル。これまでマルチリンガルに特化したMTとかはよく見受けられたが、色々なタスクのSLMが出てきた。

元ポスト:

Loading…

LFM2はこちら:
- Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07

#Article #NLP #LanguageModel #TTS Issue Date: 2025-09-17 VoxCPM-0.5B, openbmb, 2025.09 Comment

元ポスト:

Loading…

- [Paper Note] MiniCPM4: Ultra-Efficient LLMs on End Devices, MiniCPM Team+, arXiv'25

をバックボーンとするTTS

#Article #NLP #LanguageModel #OpenWeight Issue Date: 2025-09-12 Ring-mini-2.0, inclusionAI, 2025.09 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

- Ling V2, inclusionAI, 2025.09

をベースモデルとしてLong CoT SFT, RLVR, RLHFを実施した結果、code, math, logic, science関連のベンチでgpt-oss-20B(medium)を超えているらしい。

Joint Trainingと書かれているが詳細はなく、よくわからない。

#Article #NLP #LanguageModel #OpenWeight Issue Date: 2025-09-11 Ling V2, inclusionAI, 2025.09 Comment

元ポスト:

Loading…

所見:

Loading…

blog: https://huggingface.co/blog/im0qianqian/ling-mini-2-fp8-mixed-precision-training-solution

元ポスト:

Loading…

#Article #ComputerVision #EfficiencyImprovement #NLP #Blog #VisionLanguageModel Issue Date: 2025-08-30 fastvlm-webgpu, Apple, 2025.08 Comment

元ポスト:

Loading…

pj page: https://fastvlm.net

#Article #NLP #LanguageModel #OpenWeight #OpenSource Issue Date: 2025-08-20 OLMo-2-0425-1B-early-training, allenai, 2025.08 Comment

元ポスト:

Loading…

OLPO 2 1Bモデルの10000step/21B tokenごとの事前学習時のチェックポイント群。（0--40000step, 0--63B tokenizerの4つが存在している模様）。事前学習のearly stageの研究用にリリース。興味深い

たとえば
- [Paper Note] WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training, Changxin Tian+, arXiv'25
- Temporal Sampling for Forgotten Reasoning in LLMs, Yuetai Li+, arXiv'25

を試してみたりできるのだろうか。

#Article #NLP #LanguageModel #OpenWeight Issue Date: 2025-08-15 Introducing Gemma 3 270M: The compact model for hyper-efficient AI, Google, 2025.05 Comment

元ポスト:

Loading…

#Article #MachineTranslation #NLP #LanguageModel #MultiLingual #OpenWeight Issue Date: 2025-07-18 Seed-X-Instruct-7B, ByteDance-Seed, 2025.07 Comment

元ポスト:

Loading…

MTに特化したMultilingual SLM。7Bモデルだがベンチマーク上では他の大規模なモデルと同等以上。

テクニカルレポート: https://github.com/ByteDance-Seed/Seed-X-7B/blob/main/Technical_Report.pdf

#Article #Tutorial #NLP #LanguageModel #Reasoning #LongSequence #MultiLingual #OpenWeight #OpenSource #Selected Papers/Blogs Issue Date: 2025-07-09 SmolLM3: smol, multilingual, long-context reasoner, HuggingFace, 2025.07 Comment

元ポスト:

Loading…

SmolLM3を構築する際の詳細なレシピ(アーキテクチャ、データ、data mixture, 3 stageのpretraining(web, code, mathの割合と品質をステージごとに変え、stable->stable->decayで学習), midtraining(long context->reasoning, post training(sft->rl), ハイブリッドreasoningモデルの作り方、評価など)が説明されている

学習/評価スクリプトなどがリリース:

Loading…

#Article #NLP #LanguageModel #Slide Issue Date: 2025-05-28 SSII2025 [OS1-03] PFNにおけるSmall Language Modelの開発, 鈴木脩司, 画像センシングシンポジウム, 2025.05 Comment

元ポスト:

Loading…

先行研究を元に仮説を立てて、有望なアプローチを取る意思決定が非常に勉強になる。
Scaling Lawsが不確実性のある意思決定において非常に有用な知見となっている。

同じようにPruningとKnowledge Distilationを実施した事例として下記が挙げられる
- Llama-3_1-Nemotron-Ultra-253B-v1, Nvidia, 2025.04

#Article #Analysis #NLP #LanguageModel #Mathematics #RLVR Issue Date: 2025-05-27 Spurious Rewards: Rethinking Training Signals in RLVR, Shao+, 2025.05 Comment

元ポスト:

Loading…

参考（考察）:

Loading…

参考（考察）:

Loading…

こちらでもQwen2.5 MATH 7b を用いて検証しているが、コンタミネーションの問題が仮に本当だとしたら、どう影響するだろうか。スレッド中のグラフもMATH500（Qwen2.5においてコンタミの可能性がある）の性能を示している。

#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #OpenWeight #GRPO Issue Date: 2025-05-01 Phi-4-reasoning Technical Report, 2025.04 Comment

元ポスト:

Loading…

こちらの解説が非常によくまとまっている:

Loading…

が、元ポストでもテクニカルペーパー中でもo3-miniのreasoning traceをSFTに利用してCoTの能力を強化した旨が記述されているが、これはOpenAIの利用規約に違反しているのでは…？