OpenSource
[Paper Note] Bolmo: Byteifying the Next Generation of Language Models, Benjamin Minixhofer+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #OpenWeight #Selected Papers/Blogs #KeyPoint Notes #Byte-level Issue Date: 2025-12-17 GPT Summary- Bolmoは、1Bおよび7Bパラメータのバイトレベル言語モデルで、既存のサブワードレベルLMをバイト化することでトレーニングされ、サブワードトークン化の限界を克服しつつ同等のパフォーマンスを発揮します。特別に設計されたBolmoは、サブワードモデルとの間で効果的な蒸留を行い、低コストでバイトレベルLMに変換可能です。Bolmoは従来のバイトレベルLMを上回り、文字理解やコーディングタスクで優れた性能を示し、推論速度も競争力があります。結果として、バイトレベルLMはサブワードレベルLMに対する実用的な選択肢となることが示されました。 Comment
blog:
https://allenai.org/blog/bolmo
HF:
https://huggingface.co/allenai/Bolmo-7B
元ポスト:
テキストをbyte列の系列として解釈し入出力を行う言語モデル。アーキテクチャとしては、byte列をtoken化しbyte列単位でembedding化→mLSTMによってそれらがcontextに関する情報を持った状態でエンコードされ→1バイト先のcontextを用いて単語の境界を予測するモデル(この部分はcausalではなくbi-directional)によって境界を認識し、境界まで可変長でembeddingをpoolingしパッチを形成し、Olmo3の入力とする(デコーディングはその逆の操作をして最終的に言語モデルのheadを用いる)。
スクラッチからByte Latent Transformerのようなモデルを学習するのではなく、2-stageで学習される。まずOlmo3をfreezeし、他の local encoder, local decoder, boundary predictor, and language modeling headのみを学習する。これによりsubwordモデルと同様の挙動を学習できる。そのうえで、Olmo3のfreezeを解除し全体を学習する。これにより、Olmo3に事前学習された知識や挙動を最大限に活用する(=もともとsubwordで動作していたモデルをbyteレベルで動作するように継続学習する)。
>The Bolmo architecture. Tokenization & Embedding T transforms the input text into one representation per byte. The representations are contextualized with the local encoder E consisting of mLSTM blocks. The boundary predictor B decides where to place patch boundaries using one byte of future context. The representations are then Pooled,
[Paper Note] Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models, Boxin Wang+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#General #Pocket #NLP #LanguageModel #Alignment #ReinforcementLearning #Reasoning #OpenWeight #read-later #RLVR #Selected Papers/Blogs #CrossDomain #KeyPoint Notes Issue Date: 2025-12-17 GPT Summary- 一般目的の推論モデルを強化学習(RL)で構築する際の課題に対処するため、カスケードドメイン別強化学習(Cascade RL)を提案。Nemotron-Cascadeは、指示モードと深い思考モードで動作し、異なるドメインのプロンプトを順次調整することで、エンジニアリングの複雑さを軽減し、最先端のパフォーマンスを実現。RLHFを前段階として使用することで推論能力が向上し、ドメイン別RL段階でもパフォーマンスが改善される。14Bモデルは、LiveCodeBenchで優れた結果を示し、2025年国際情報オリンピックで銀メダルを獲得。トレーニングとデータのレシピも共有。 Comment
元ポスト:
従来のRLはすべてのドメインのデータをmixすることでおこなれてきたが、個々のドメインのデータを個別にRLし、cascading方式で適用 (Cascade RL) することを提案している(実際は著者らの先行研究でmath->codingのcascadingは実施されていたが、それをより広範なドメイン(RLHF -> instruction following -> math -> coding -> software engineering)に適用した、という研究)。
cascadingにはいくつかのメリットがありRLの学習速度を改善できる(あるいはRLのインフラの複雑性を緩和できる)
- ドメインごとのverificationの速度の違いによって学習速度を損なうことがない(e.g. 数学のrule-basedなverificationは早いがcodingは遅い)
- ドメインごとに出力長は異なるためオンポリシーRLを適用すると効率が落ちる(長いレスポンスの生成を待たなければらないため)
本研究で得られた利点としてはFigure 1を参考に言及されているが
- RLHF, instruction followingを事前に適用することによって、後段のreasoningの性能も向上する(reasoningのwarmupになる)
- 加えて応答の長さの削減につながる
- RLはcatastrophic forgettingに強く、前段で実施したドメインの性能が後段のドメインのRLによって性能が劣化しない
- といってもFigure 2を見ると、codingとsoftware engineeringは結構ドメイン近いのでは・・・?という気はするが・・・。
- RLにおけるカリキュラム学習やハイパーパラメータをドメインごとに最適なものを適用できる
他にもthinking/non-thinking に関することが言及されているが読めていない。
[Paper Note] NVIDIA Nemotron 3: Efficient and Open Intelligence, NVIDIA+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #OpenWeight #SSM (StateSpaceModel) #MoE(Mixture-of-Experts) Issue Date: 2025-12-17 GPT Summary- Nemotron 3ファミリーのモデル(Nano、Super、Ultra)は、強力なエージェント機能と推論能力を提供し、Mixture-of-ExpertsハイブリッドMamba-Transformerアーキテクチャを採用。SuperとUltraはLatentMoEを組み込み、MTPレイヤーでテキスト生成を高速化。全モデルはマルチ環境強化学習でポストトレーニングされ、Nanoはコスト効率が高く、Superは高ボリュームワークロードに最適化、Ultraは最先端の精度を提供。モデルの重みやデータはオープンにリリース予定。 Comment
元ポスト:
解説:
Artificial Intelligenceによるポイント解説&ベンチマーキング:
所見:
training data, RL environment, training codeも含めて公開されているとのこと。
ポイント解説:
所見:
[Paper Note] INTELLECT-3: Technical Report, Prime Intellect Team+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #OpenWeight #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs Issue Date: 2025-11-27 GPT Summary- 106BパラメータのMixture-of-ExpertsモデルINTELLECT-3を発表。強化学習インフラを用いて訓練され、数学や科学のベンチマークで最先端の性能を達成。オープンソースとして公開し、強化学習フレームワークや検証ライブラリを提供。prime-rlを導入し、大規模な非同期強化学習をサポート。GLM-4.5-Air-Baseモデル上での訓練により、高い効率を実現。 Comment
HF: https://huggingface.co/PrimeIntellect/INTELLECT-3
元ポスト:
著者ポスト:
完全にオープンソースでデータやフレームワーク、評価も含め公開されているとのこと。素晴らしい
in-flight weight updates が利用されている
- PipelineRL, Piche+, ServiceNow, 2025.04
[Paper Note] OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe, Kaichen Zhang+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#Pocket #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #SmallModel #OpenWeight #read-later #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-25 GPT Summary- 本研究では、マルチモーダル推論のための透明な二段階トレーニングレシピ「OpenMMReasoner」を提案。監視付きファインチューニング(SFT)で874Kサンプルのデータセットを構築し、強化学習(RL)で74Kサンプルを活用して推論能力を向上。評価の結果、9つのベンチマークでQwen2.5-VL-7B-Instructに対し11.6%の性能向上を達成し、データの質とトレーニング設計の重要性を示した。すべてのリソースはオープンソースで公開。 Comment
pj page: https://evolvinglmms-lab.github.io/OpenMMReasoner/
SoTAなVLMを構築するためのオープンなデータとレシピらしい
[Paper Note] Olmo 3, Team Olmo+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Reasoning #OpenWeight #read-later #Selected Papers/Blogs #Reference Collection Issue Date: 2025-11-20 GPT Summary- Olmo 3は、7Bおよび32Bパラメータの完全オープンな言語モデルファミリーで、長文コンテキスト推論やコーディングなどに対応。全ライフサイクルの情報が含まれ、特にOlmo 3 Think 32Bは最も強力な思考モデルとして注目される。 Comment
元ポスト:
解説:
post-LN transformer
OLMo2:
- OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini, AllenAI, 20250.3
ポイント解説:
official livestream video:
解説:
Qwen3-32Bと同等の性能を達成している。そしてそれがオープンソース、素晴らしい。読むべし!!
Olmo3のライセンスに関する以下のような懸念がある:
ポイント解説:
[Paper Note] LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training, Xiang An+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #MultiModal #OpenWeight #VisionLanguageModel #One-Line Notes Issue Date: 2025-10-04 GPT Summary- LLaVA-OneVision-1.5は、計算コストと財政コストを削減しつつ最先端のパフォーマンスを実現する新しい大規模マルチモーダルモデルです。オープンで効率的なフレームワークを提供し、85Mの事前学習データセットと26Mの指示データセットを含む大規模キュレーションデータセットを構築しました。効率的なトレーニングフレームワークにより、限られた予算内でのトレーニングが可能となり、幅広い下流タスクで競争力のある性能を示しています。特に、LLaVA-OneVision-1.5-8Bは18のベンチマークでQwen2.5-VL-7Bを上回り、4Bモデルは全ての27のベンチマークでQwen2.5-VL-3Bを超えています。今後、LLaVA-OneVision-1.5-RLのリリースも予定されています。 Comment
元ポスト:
各種ベンチでQwen2.5-VL超え
pj page: https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5
ポイント解説:
[Paper Note] OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning, Yanqing Liu+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Pretraining #Pocket #OpenWeight #Encoder #Backbone Issue Date: 2025-09-16 GPT Summary- 本論文では、OpenVisionのアーキテクチャを簡素化し、トレーニング効率を向上させる方法を提案。テキストエンコーダーと対照損失を削除し、キャプショニング損失のみを使用したOpenVision 2を導入。初期結果は、トレーニング時間を約1.5倍短縮し、メモリ使用量を約1.8倍削減することを示し、10億以上のパラメータにスケールアップ可能であることを強調。 Comment
元ポスト:
事前学習時にtext, image encoderのcontrastive lossで学習していたが、text encoderを無くしimage encoderに入力されたimageからcaptionを生成するcaption lossのみにすることで性能を落とすことなく効率を改善
[Paper Note] OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning, Xianhang Li+, ICCV'25
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Pretraining #Pocket #OpenWeight #Selected Papers/Blogs #ICCV #Encoder #Backbone Issue Date: 2025-06-26 GPT Summary- OpenVisionは、完全にオープンでコスト効果の高いビジョンエンコーダーのファミリーを提案し、CLIPと同等以上の性能を発揮します。既存の研究を基に構築され、マルチモーダルモデルの進展に実用的な利点を示します。5.9Mから632.1Mパラメータのエンコーダーを提供し、容量と効率の柔軟なトレードオフを実現します。 Comment
元ポスト:
v2へアップデート:
事前学習時にtext, image encoderのcontrastive lossで学習していたが、text encoderを無くしimage encoderに入力されたimageからcaptionを生成するcaption lossのみにすることで性能を落とすことなく効率を改善
テクニカルペーパーが出た模様
- [Paper Note] OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning, Yanqing Liu+, arXiv'25
HF:
https://huggingface.co/collections/UCSC-VLAA/openvision-681a4c27ee1f66411b4ae919
pj page:
https://ucsc-vlaa.github.io/OpenVision/
CLIP, SigLIPとは異なり完全にオープンなVision Encoder
v2の解説:
[Paper Note] AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy, Zihan Liu+, arXiv'25
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #OpenWeight #PostTraining Issue Date: 2025-06-18 GPT Summary- 本研究では、教師ありファインチューニング(SFT)と強化学習(RL)の相乗効果を探求し、SFTトレーニングデータの整備においてプロンプト数の増加が推論性能を向上させることを示しました。特に、サンプリング温度を適切に調整することで、RLトレーニングの効果を最大化できることが分かりました。最終的に、AceReason-Nemotron-1.1モデルは、前モデルを大きく上回り、数学およびコードベンチマークで新たな最先端性能を達成しました。 Comment
元ポスト:
様々なtakeawayがまとめられている。
SFT,RLに利用されたデータも公開
- Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23
において事前学習時に4 epochまでは性能の改善幅が大きいと報告されていたが、SFTでも5 epoch程度まで学習すると良い模様。
また、SFT dataをscalingさせる際は、promptの数だけでなく、prompt単位のresponse数を増やすのが効果的
Tulu 3: Pushing Frontiers in Open Language Model Post-Training, Nathan Lambert+, arXiv'24
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #PostTraining Issue Date: 2025-02-01 GPT Summary- Tulu 3は、オープンなポストトレーニングモデルのファミリーで、トレーニングデータやレシピを公開し、現代のポストトレーニング技術のガイドを提供します。Llama 3.1を基にし、他のクローズドモデルを上回る性能を達成。新しいトレーニング手法としてSFT、DPO、RLVRを採用し、マルチタスク評価スキームを導入。モデルウェイトやデモ、トレーニングコード、データセットなどを公開し、他のドメインへの適応も可能です。 Comment
元ポスト:
Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent, Xingwu Sun+, arXiv'24
Paper/Blog Link My Issue
#NLP #LanguageModel #SyntheticData #OpenWeight Issue Date: 2024-11-06 GPT Summary- Hunyuan-Largeは、3890億パラメータを持つオープンソースのTransformerベースの専門家混合モデルで、最大256Kトークンを処理可能。言語理解や生成、論理推論などのベンチマークでLLama3.1-70Bを上回り、LLama3.1-405Bと同等の性能を示す。主な特徴には大規模な合成データ、混合専門家ルーティング、キー・バリューキャッシュ圧縮、専門家特有の学習率戦略が含まれ、今後のモデル開発に向けた洞察も提供。コードとモデルは公開されている。 Comment
合計パラメータ数はLlama-3.1-405Bと同等の389Bだが、MoEによって52BのActive ParameterでSoTAを達成したTencentのOpenSource LLM。大量のSynthetia Dataを利用している。
OLMo: Accelerating the Science of Language Models, Dirk Groeneveld+, N_A, arXiv'24
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #OpenWeight Issue Date: 2024-03-05 GPT Summary- LMsの商業的重要性が高まる中、最も強力なモデルは閉鎖されており、その詳細が非公開になっている。そのため、本技術レポートでは、本当にオープンな言語モデルであるOLMoの初回リリースと、言語モデリングの科学を構築し研究するためのフレームワークについて詳細に説明している。OLMoはモデルの重みだけでなく、トレーニングデータ、トレーニングおよび評価コードを含むフレームワーク全体を公開しており、オープンな研究コミュニティを強化し、新しいイノベーションを促進することを目指している。 Comment
Model Weightsを公開するだけでなく、training/evaluation codeとそのデータも公開する真にOpenな言語モデル(truly Open Language Model)。AllenAI
Molmo 2: State-of-the-art video understanding, pointing, and tracking, Ai2, 2025.12
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #SmallModel #OpenWeight #Selected Papers/Blogs #VideoGeneration/Understandings #VisionLanguageModel #2D (Image) #4D (Video) #KeyPoint Notes Issue Date: 2025-12-17 Comment
テクニカルレポート:
https://www.datocms-assets.com/64837/1765901660-molmo_v2_2026-techreport-3.pdf
HF:
https://huggingface.co/collections/allenai/molmo2
関連:
- Molmo: A family of open state-of-the-art multimodal AI models, AI2, 2024.09
Qwen3とOlmoをベースにしたvariantsが存在し、Olmoの方はバックボーンのLLMも含めて全てがオープンになっている。MetaのPerceptionLMと比較して1/8の動画データ量で高い性能を達成できており、データのcurationの品質と、grounding basedな目的関数の工夫によって実現されているとのこと。
proprietaryなモデル群と比較すると、trackingは圧勝、そのほかはGPT5-miniと同様なものが多い。モデルによってタスクの優劣が結構分かれており、Video関連タスクをタスクをまたいで汎化させることにはclosedでも苦戦しているように見える。
オープンモデルとの比較で言うと圧勝で、LongVideoのQAに関してだけは、Eagle2.5-8Bと呼ばれるモデルが勝っている。
あとは全体を通じてLLMのバックボーンがQwen3の場合の性能が良いことが興味深い。バックボーンに採用するLLMに応じて性能が結構変わる。これはアーキテクチャがそもそもConnectorを利用するタイプのもので、Unifiedなアーキテクチャではないことが要因としては考えられる。
元ポスト:
Olmo 3.1, Ai2, 2025.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #OpenWeight #Selected Papers/Blogs Issue Date: 2025-12-13 Comment
元ポスト:
Instruction Followingのベンチマークスコアが、他モデルと比較して非常に高いように見える。
OpenThinker-Agent-v1, open-thoughts, 2025.12
Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #AIAgents #Evaluation #SmallModel #OpenWeight #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-12-07 Comment
元ポスト:
-
-
agenticなSLM(8Bモデル)で、モデル、データ(SFT, RL)、学習用のコードなど全て公開。同等規模のモデルQwen3-{8,32B}よりもSWE Bench Verified, Terminal Benchなどで上回る(ただし、Qwen3はgenericなモデルであり、コーディング特化のQwen3-coder-30Bには及ばない。しかしモデルサイズはこちらの方が大きいので何とも言えない。おそらく同等規模のコーディング特化Qwen3が存在しない)。また、SLMのコーディングエージェントの進化をより精緻に捉えるためのベンチマーク OpenThoughts-TB-Devも公開している。こちらでもQwen3-{8, 32B}に対しても高い性能を記録。
Improved accuracy in Smart Turn v3.1, Daily, 2025.12
Paper/Blog Link My Issue
#Article #NeuralNetwork #Transformer #AIAgents #SpeechProcessing #Blog #MultiLingual #OpenWeight #One-Line Notes #VAD Issue Date: 2025-12-04 Comment
dataset:
https://huggingface.co/pipecat-ai
code:
https://github.com/pipecat-ai/smart-turn
model:
https://huggingface.co/pipecat-ai/smart-turn-v3
オープンソースのVoice Activity Detection (VAD)モデル。本ブログのv3.1では、TTSデータだけでなく英語とスペイン語の人間によるaudio sampleも追加し学習し性能向上。23言語をサポートし、Accuracyは90%以上を達成。数msでのリアルタイムなlatencyを達成できる。
バックボーンはWhisper Tiny encoderで、headとしてshallow linear classifiesを利用しているとのこと。
DR Tulu: An open, end-to-end training recipe for long-form deep research, AI2, 2025.11
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #read-later #Selected Papers/Blogs #DeepResearch Issue Date: 2025-11-19 GPT Summary- RLERを用いて進化するルーブリックを構築し、長文深層研究モデルDR Tulu-8Bを開発。これにより、既存のモデルを大幅に上回る性能を実現し、クエリあたりのサイズとコストを削減。すべてのデータ、モデル、コードを公開し、深層研究システムの新しいインフラも提供。 Comment
元ポスト:
著者ポスト:
著者ポスト2:
著者ポスト3:
demoをほぼ無料で実施できるとのこと:
takeaway:
Marin 32B Retrospective, marin-community, 2025.10
Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #Blog #OpenWeight #Selected Papers/Blogs Issue Date: 2025-10-30 Comment
元ポスト:
CODA: Coding LM via Diffusion Adaption, Chen+, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #DiffusionModel #Coding #SmallModel #OpenWeight Issue Date: 2025-10-05 Comment
元ポスト:
HF:
https://huggingface.co/Salesforce/CoDA-v0-Instruct
cc-by-nc-4.0
OpenManus, Liang+, FoundationAgents, 2025.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Repository #DeepResearch Issue Date: 2025-09-13
OpenDeepResearch, LangChain, 2025.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Repository #DeepResearch Issue Date: 2025-09-13 Comment
[Paper Note] K2-Think: A Parameter-Efficient Reasoning System, Institute of Foundation Models, Mohamed bin Zayed University of Artificial Intelligence, 2025.09
Paper/Blog Link My Issue
#Article #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #OpenWeight #GRPO #read-later #RLVR #Selected Papers/Blogs Issue Date: 2025-09-10 Comment
HF:
https://huggingface.co/LLM360/K2-Think
code:
-
https://github.com/MBZUAI-IFM/K2-Think-SFT
-
https://github.com/MBZUAI-IFM/K2-Think-Inference
RLはverl+GRPOで実施したとテクニカルペーパーに記述されているが、当該部分のコードの公開はされるのだろうか?
RLで利用されたデータはこちら:
- [Paper Note] Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective, Zhoujun Cheng+, NeurIPS'25
元ポスト:
APERTUS: DEMOCRATIZING OPEN AND COMPLIANT LLMS FOR GLOBAL LANGUAGE ENVIRONMENTS, Apertus Team, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MultiLingual #OpenWeight Issue Date: 2025-09-03 Comment
HF: https://huggingface.co/collections/swiss-ai/apertus-llm-68b699e65415c231ace3b059
元ポスト:
1811カ国語に対応した、スイス発のOpenSource(=学習データ、学習のレシピ、学習データを再現するためのスクリプトも公開されている) LLM。8B / 70Bが存在。
Apache 2.0 + Apertus LLM Acceptable Use Policy
解説:
OLMoASR: A series of open speech recognition models, Ai2, 2025.08
Paper/Blog Link My Issue
#Article #SpeechProcessing #OpenWeight #AutomaticSpeechRecognition(ASR) Issue Date: 2025-08-29 Comment
元ポスト:
オープンソースのOLMOシリーズから英語のASRが登場
モデルとトークナイザはWhisperと同様な模様
technical report:
https://github.com/allenai/OLMoASR/blob/main/tech_report/olmoasr_tech_report.pdf
OLMo-2-0425-1B-early-training, allenai, 2025.08
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SmallModel #OpenWeight Issue Date: 2025-08-20 Comment
元ポスト:
OLPO 2 1Bモデルの10000step/21B tokenごとの事前学習時のチェックポイント群。(0--40000step, 0--63B tokenizerの4つが存在している模様)。事前学習のearly stageの研究用にリリース。興味深い
たとえば
- [Paper Note] WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM
Pre-training, Changxin Tian+, arXiv'25
- [Paper Note] Temporal Sampling for Forgotten Reasoning in LLMs, Yuetai Li+, arXiv'25, 2025.05
を試してみたりできるのだろうか。
関連:
- OLMo: Accelerating the Science of Language Models, Dirk Groeneveld+, N/A, arXiv'24
- OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini, AllenAI, 20250.3
OpenReasoning-Nemotron: A Family of State-of-the-Art Distilled Reasoning Models, Nvidia, 2025.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #Distillation #OpenWeight Issue Date: 2025-07-18 Comment
DeepSeek-R1-0528から応答を合成したデータでSFTのみを実施し、32BでQwe3-235B-A22Bと同等か上回る性能。アーキテクチャはQwen2.5。データはOpenCode/Math/Scienceを利用。
元ポスト:
データも公開予定
SmolLM3: smol, multilingual, long-context reasoner, HuggingFace, 2025.07
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Reasoning #LongSequence #SmallModel #MultiLingual #OpenWeight #Selected Papers/Blogs Issue Date: 2025-07-09 Comment
元ポスト:
SmolLM3を構築する際の詳細なレシピ(アーキテクチャ、データ、data mixture, 3 stageのpretraining(web, code, mathの割合と品質をステージごとに変え、stable->stable->decayで学習), midtraining(long context->reasoning, post training(sft->rl), ハイブリッドreasoningモデルの作り方、評価など)が説明されている
学習/評価スクリプトなどがリリース:
parakeet-tdt-0.6b-v2, Nvidia, 2025.05
Paper/Blog Link My Issue
#Article #SpeechProcessing #AutomaticSpeechRecognition(ASR) Issue Date: 2025-05-06 Comment
元ポスト:
2025.05.06時点でOpenASR Leaderboardでトップ:
https://huggingface.co/spaces/hf-audio/open_asr_leaderboard
Already supports Nvidia Parakeet
Simultaneously supporting Linux/Windows/macOS
https://github.com/patui/Nosub
OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini, AllenAI, 20250.3
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #Selected Papers/Blogs Issue Date: 2025-03-14 Comment
真なる完全なるオープンソース(に近い?)OLMOの最新作
学習が安定しやすいpre LNではなく性能が最大化されやすいPost LNを採用している模様。学習を安定化させるために、QKNormやRMSNormを採用するなどの工夫を実施しているらしい。
Open-source DeepResearch – Freeing our search agents, HuggingFace, 2025.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #DeepResearch Issue Date: 2025-03-12
Open R1, HuggingFace, 2025.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Repository Issue Date: 2025-01-26 Comment
HFによるDeepSeekR1を完全に再現する取り組み
Update1: https://huggingface.co/blog/open-r1/update-1
Update2:
https://huggingface.co/blog/open-r1/update-2
512機のH100を利用…
LLaMA-Omni: Seamless Speech Interaction with Large Language Models, Meta, 2024.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SpokenLanguageProcessing #OpenWeight Issue Date: 2024-12-13 Comment
音声とテキストのOpenSourceマルチモーダルモデル。inputは音声のみ?に見えるが、出力はテキストと音声の両方を実施できる。GPT-4oレベルのspeech capabilityを目指すとaboutに記載されている。興味深い。
installの説明に `Whisper-large-v3` をインストールする旨が記載されているので、Whisper-large-v3で認識した内容に特化したSpeech Encoder/Adapterが学習されていると考えられる。
- MM-LLMs: Recent Advances in MultiModal Large Language Models, Duzhen Zhang+, N/A, ACL'24 Findings
マルチモーダルなLLMの基本的な概念については上記参照のこと。
日本語LLMまとめ, LLM-jp, 2024.12
Paper/Blog Link My Issue
#Article #Survey #NLP #Dataset #LanguageModel #Evaluation #Repository #OpenWeight #Japanese Issue Date: 2024-12-02 Comment
LLM-jpによる日本語LLM(Encoder-Decoder系, BERT系, Bi-Encoders, Cross-Encodersを含む)のまとめ。
テキスト生成に使うモデル、入力テキスト処理に使うモデル、Embedding作成に特化したモデル、視覚言語モデル、音声言語モデル、日本語LLM評価ベンチマーク/データセットが、汎用とドメイン特化型に分けてまとめられている。
各モデルやアーキテクチャの原論文、学習手法の原論文もまとめられている。すごい量だ…。
ローカルLLMのリリース年表, npaka, 随時更新, 2024.11
Paper/Blog Link My Issue
#Article #Survey #NLP #LanguageModel #Blog #OpenWeight Issue Date: 2024-11-15 Comment
ローカルLLMを含むOpenLLMのリリース日が年表としてまとまっており、随時更新されている模様。すごい。
Molmo: A family of open state-of-the-art multimodal AI models, AI2, 2024.09
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #OpenWeight #VisionLanguageModel Issue Date: 2024-09-27 Comment
以下がベンチマーク結果(VLMのベンチマーク)。11 benchmarksと書かれているのは、VLMのベンチマークである点に注意。
Open Source Cookbook
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #GenerativeAI #Repository Issue Date: 2024-04-14 Comment
HuggingFaceによる様々な実用的なアプリケーションをオープンソースの実装やモデルで実現するノートブックがまとまったリポジトリ。LLM-as-a-judge, RAG, PEFTによるPrompt Tuning(Prefix Tuningとかそっち系の話だと思われる)など、現在16種類ほどあるらしい。
改めて見たら数がかなり増えていた