OpenSource

#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #OpenWeight #PostTraining
Issue Date: 2025-06-18 [Paper Note] AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy, Zihan Liu+, arXiv'25 Summary本研究では、教師ありファインチューニング(SFT)と強化学習(RL)の相乗効果を探求し、SFTトレーニングデータの整備においてプロンプト数の増加が推論性能を向上させることを示しました。特に、サンプリング温度を適切に調整することで、RLトレーニングの効果を最大化できることが分かりました。最終的に、AceReason-Nemotron-1.1モデルは、前モデルを大きく上回り、数学およびコードベンチマークで新たな最先端性能を達成しました。 Comment元ポスト:https://x.com/ychennlp/status/1935005283178492222?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q

様々なtakeawayがまとめられている。SFT,RLに利用されたデータも公開・1829

において事前学習時に4 epochまでは性能の改善幅が大きいと報告されていたが、SFTでも5 epoch程度まで学習すると良い模様。

また、SFT dataをscalingさせる際は、promptの数だけでなく、prompt単位のresponse数を増やすのが効果的
image
#Pocket #NLP #LanguageModel #PostTraining
Issue Date: 2025-02-01 Tulu 3: Pushing Frontiers in Open Language Model Post-Training, Nathan Lambert+, arXiv'24 SummaryTulu 3は、オープンなポストトレーニングモデルのファミリーで、トレーニングデータやレシピを公開し、現代のポストトレーニング技術のガイドを提供します。Llama 3.1を基にし、他のクローズドモデルを上回る性能を達成。新しいトレーニング手法としてSFT、DPO、RLVRを採用し、マルチタスク評価スキームを導入。モデルウェイトやデモ、トレーニングコード、データセットなどを公開し、他のドメインへの適応も可能です。 Comment元ポスト:https://x.com/icoxfog417/status/1885460713264775659?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #NLP #LanguageModel #SyntheticData #OpenWeight
Issue Date: 2024-11-06 Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent, Xingwu Sun+, arXiv'24 SummaryHunyuan-Largeは、3890億パラメータを持つオープンソースのTransformerベースの専門家混合モデルで、最大256Kトークンを処理可能。言語理解や生成、論理推論などのベンチマークでLLama3.1-70Bを上回り、LLama3.1-405Bと同等の性能を示す。主な特徴には大規模な合成データ、混合専門家ルーティング、キー・バリューキャッシュ圧縮、専門家特有の学習率戦略が含まれ、今後のモデル開発に向けた洞察も提供。コードとモデルは公開されている。 Comment合計パラメータ数はLlama-3.1-405Bと同等の389Bだが、MoEによって52BのActive ParameterでSoTAを達成したTencentのOpenSource LLM。大量のSynthetia Dataを利用している。

#Pocket #NLP #LanguageModel #OpenWeight Issue Date: 2024-03-05 OLMo: Accelerating the Science of Language Models, Dirk Groeneveld+, N_A, arXiv'24 SummaryLMsの商業的重要性が高まる中、最も強力なモデルは閉鎖されており、その詳細が非公開になっている。そのため、本技術レポートでは、本当にオープンな言語モデルであるOLMoの初回リリースと、言語モデリングの科学を構築し研究するためのフレームワークについて詳細に説明している。OLMoはモデルの重みだけでなく、トレーニングデータ、トレーニングおよび評価コードを含むフレームワーク全体を公開しており、オープンな研究コミュニティを強化し、新しいイノベーションを促進することを目指している。 CommentModel Weightsを公開するだけでなく、training/evaluation codeとそのデータも公開する真にOpenな言語モデル(truly Open Language Model)。AllenAI #Article #NLP #LanguageModel #SmallModel #OpenWeight Issue Date: 2025-08-20 OLMo-2-0425-1B-early-training, allenai, 2025.08 Comment元ポスト:https://x.com/allen_ai/status/1957518243045818432?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QOLPO 2 1Bモデルの10000step/21B tokenごとの事前学習時のチェックポイント群。(0--40000step, 0--63B tokenizerの4つが存在している模様)。事前学習のearly stageの研究用にリリース。興味深いたとえば
・2340
・1996

を試してみたりできるのだろうか。関連:
・1250
・1797
#Article #NLP #LanguageModel #Reasoning #Distillation #OpenWeight Issue Date: 2025-07-18 OpenReasoning-Nemotron: A Family of State-of-the-Art Distilled Reasoning Models, Nvidia, 2025.07 CommentDeepSeek-R1-0528から応答を合成したデータでSFTのみを実施し、32BでQwe3-235B-A22Bと同等か上回る性能。アーキテクチャはQwen2.5。データはOpenCode/Math/Scienceを利用。
image元ポスト:https://x.com/igtmn/status/1946291288170725617?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q

データも公開予定
#Article #Tutorial #NLP #LanguageModel #Reasoning #LongSequence #SmallModel #MultiLingual #OpenWeight Issue Date: 2025-07-09 SmolLM3: smol, multilingual, long-context reasoner, HuggingFace, 2025.07 Comment元ポスト:https://x.com/thom_wolf/status/1942670704278732978?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QSmolLM3を構築する際の詳細なレシピ(アーキテクチャ、データ、data mixture, 3 stageのpretraining(web, code, mathの割合と品質をステージごとに変え、stable->stable->decayで学習), midtraining(long context->reasoning, post training(sft->rl), ハイブリッドreasoningモデルの作り方、評価など)が説明されている学習/評価スクリプトなどがリリース:
https://x.com/_lewtun/status/1950209751066742982?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q
#Article #SpeechProcessing #AutomaticSpeechRecognition(ASR) Issue Date: 2025-05-06 parakeet-tdt-0.6b-v2, Nvidia, 2025.05 Comment元ポスト:https://x.com/reach_vb/status/1919422953256587376?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q2025.05.06時点でOpenASR Leaderboardでトップ:
https://huggingface.co/spaces/hf-audio/open_asr_leaderboardAlready supports Nvidia Parakeet

Simultaneously supporting Linux/Windows/macOS

https://github.com/patui/Nosub
#Article #NLP #LanguageModel #OpenWeight Issue Date: 2025-03-14 OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini, AllenAI, 20250.3 Comment真なる完全なるオープンソース(に近い?)OLMOの最新作 #Article #NLP #LanguageModel #Repository Issue Date: 2025-01-26 Open R1, HuggingFace, 2025.01 CommentHFによるDeepSeekR1を完全に再現する取り組みUpdate1: https://huggingface.co/blog/open-r1/update-1Update2: https://huggingface.co/blog/open-r1/update-2

512機のH100を利用…Update3:https://huggingface.co/blog/open-r1/update-3
#Article #NLP #LanguageModel #SpokenLanguageProcessing #OpenWeight Issue Date: 2024-12-13 LLaMA-Omni: Seamless Speech Interaction with Large Language Models, Meta, 2024.09 Comment音声とテキストのOpenSourceマルチモーダルモデル。inputは音声のみ?に見えるが、出力はテキストと音声の両方を実施できる。GPT-4oレベルのspeech capabilityを目指すとaboutに記載されている。興味深い。



installの説明に `Whisper-large-v3` をインストールする旨が記載されているので、Whisper-large-v3で認識した内容に特化したSpeech Encoder/Adapterが学習されていると考えられる。

image

・1225



マルチモーダルなLLMの基本的な概念については上記参照のこと。
#Article #Survey #NLP #Dataset #LanguageModel #Evaluation #Repository #OpenWeight #Japanese Issue Date: 2024-12-02 日本語LLMまとめ, LLM-jp, 2024.12 CommentLLM-jpによる日本語LLM(Encoder-Decoder系, BERT系, Bi-Encoders, Cross-Encodersを含む)のまとめ。
テキスト生成に使うモデル、入力テキスト処理に使うモデル、Embedding作成に特化したモデル、視覚言語モデル、音声言語モデル、日本語LLM評価ベンチマーク/データセットが、汎用とドメイン特化型に分けてまとめられている。
各モデルやアーキテクチャの原論文、学習手法の原論文もまとめられている。すごい量だ…。
#Article #Survey #NLP #LanguageModel #Blog #OpenWeight Issue Date: 2024-11-15 ローカルLLMのリリース年表, npaka, 随時更新, 2024.11 CommentローカルLLMを含むOpenLLMのリリース日が年表としてまとまっており、随時更新されている模様。すごい。