OpenWeight


Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #MultiModal #Reasoning #CrossDomain #Robotics #VisionLanguageActionModel #UMM #Physics Issue Date: 2026-01-22 GPT Summary- Being-H0.5は、クロスエンボディメント一般化のために設計されたVLAモデルであり、人間の相互作用を「母国語」として扱う学習パラダイムを提案。35,000時間以上のマルチモーダルデータを含むUniHand-2.0を用いて、多様なロボット制御を統一的なアクション空間にマッピングし、リソースの少ないロボットが他のプラットフォームからスキルを習得できるようにする。Being-H0.5はMixture-of-Transformersを採用し、現実世界での安定性のために多様体保存ゲーティングとユニバーサル非同期チャンクイングを導入。シミュレーションベンチマークで最先端の結果を達成し、5つのロボットプラットフォームで強力な能力を示す。 Comment

pj page: https://research.beingbeyond.com/being-h05
HF: https://huggingface.co/collections/BeingBeyond/being-h05

元ポスト:

Loading…



Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #read-later #Selected Papers/Blogs #VisionLanguageModel #UMM #Initial Impression Notes Issue Date: 2026-01-19 GPT Summary- STEP3-VL-10Bは、効率と最先端のマルチモーダル知能のトレードオフを再定義する軽量なオープンソース基盤モデル。言語に整合した知覚エンコーダとQwen3-8Bデコーダを統合し、1k回以上の強化学習を含むスケーラブルな後処理パイプラインを導入。並列協調推論を実装し、視覚推論の探索と統合を最適化。コンパクトながら、他の大規模モデルに匹敵する性能を発揮し、MMBenchで92.2%、AIME2025で94.43%などの成果を記録。再現可能な基準として全モデルスイートをコミュニティに提供。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/stepfun-ai/Step3-VL-10B

たったの10Bモデルにもかかわらず、100B, 200B級のベンチマーク性能を達成しており、unifiedなアーキテクチャで事前学習中に全てのパラメータをunfrozenな上で1.2Tマルチモーダルトークンで学習し、PaCoReと呼ばれるRLで学習されたtest time scaling手法や、GRPO系ではなくPPOをRLで採用するなど、ユニークな工夫が満載に見え、重要研究に見える。




Paper/Blog Link My Issue
#MachineTranslation #Pocket #NLP #LanguageModel #SmallModel #MultiLingual #One-Line Notes #Initial Impression Notes Issue Date: 2026-01-16 GPT Summary- TranslateGemmaは、Gemma 3モデルに基づく機械翻訳のオープンモデルセットで、二段階のファインチューニングプロセスを採用。初めに高品質な並行データで監視付きファインチューニングを行い、その後報酬モデルによる強化学習で翻訳品質を最適化。WMT25テストセットでの人間評価とWMT24++ベンチマークでの自動評価を通じて有効性を示し、自動指標では大幅な性能向上が確認される。特に小型モデルは大型モデルに匹敵する性能を持ちつつ効率が向上。さらに、マルチモーダル能力も保持し、画像翻訳ベンチマークでの性能向上が報告されている。TranslateGemmaの公開は、研究コミュニティに強力で適応可能な翻訳ツールを提供することを目指している。 Comment

元ポスト:

Loading…

10個の翻訳元言語→翻訳先言語対で評価されている。Japanese→Englishでも評価されているが、他の言語と比べて最も性能が悪いので、日本語では苦戦していそうに見える。English→Italianは(評価した言語ペアの中では)最も性能が良い。

ポイント解説:

Loading…

関連:
- PLaMo Translate: 翻訳特化大規模言語モデルの開発,今城+, Jxiv'25
- Hunyuan-MT-7B, Tencent, 2025.09




Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SyntheticData #MultiModal #Reasoning #SmallModel #ComputerUse #VisionLanguageModel #One-Line Notes #GUI Issue Date: 2026-01-19 GPT Summary- LightAgentは、モバイルプラットフォーム向けにデバイスとクラウドの協力を活用したGUIエージェントシステムを提案。これにより、オフライン性能とコスト効率を両立し、強化された二段階トレーニングを通じて高い意思決定能力を実現。実験を通じて大規模モデルに匹敵する性能を示し、クラウドコストを大幅に削減。 Comment

pj page: https://github.com/HKUDS/OpenPhone

3Bで10B級の性能を誇る低lavencyのedge device向けSVLM

元ポスト:

Loading…



Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #Transformer #MultiModal #DiffusionModel #VariationalAutoEncoder #read-later #Selected Papers/Blogs #VideoGeneration/Understandings #Editing Issue Date: 2026-01-09 GPT Summary- UniVideoは、動画ドメインにおけるマルチモーダルコンテンツの生成と編集を目的とした統一モデルで、MLLMとMMDiTを組み合わせたデュアルストリーム設計を採用。これにより、複雑な指示の解釈と視覚的一貫性を維持しつつ、動画生成や編集タスクを統一的に訓練。実験結果では、テキスト/画像から動画への生成や文脈内編集において最先端の性能を示し、編集とスタイル転送の統合や未見の指示への対応も可能。視覚プロンプトに基づく生成もサポートし、モデルとコードは公開されている。 Comment

pj page: https://congwei1230.github.io/UniVideo/

元ポスト:

Loading…

HF: https://huggingface.co/KlingTeam/UniVideo




Paper/Blog Link My Issue
#Pretraining #Pocket #NLP #LanguageModel #Transformer #Supervised-FineTuning (SFT) #ReinforcementLearning #SSM (StateSpaceModel) #MoE(Mixture-of-Experts) #Hybrid Issue Date: 2025-12-28 GPT Summary- Nemotron 3 Nano 30B-A3Bは、Mixture-of-ExpertsハイブリッドMamba-Transformer言語モデルであり、25兆のテキストトークンで事前学習され、監視付きファインチューニングと強化学習を経て精度を向上。前世代のNemotron 2 Nanoよりも高精度で、フォワードパスごとに半分未満のパラメータを活性化し、同サイズのオープンモデルと比較して最大3.3倍の推論スループットを達成。エージェント的、推論、チャット能力が向上し、最大1Mトークンのコンテキスト長をサポート。事前学習済みモデルはHugging Faceで公開。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #MultiModal #Reasoning #VideoGeneration/Understandings #VisionLanguageModel #KeyPoint Notes Issue Date: 2025-12-23 GPT Summary- MiMo-VL-Miloco-7Bとその量子化バリアントをオープンソース化し、家庭中心の視覚と言語モデルとして優れた性能を発揮。特にスマートホーム環境に特化し、ジェスチャー認識やマルチモーダル推論で高いF1スコアを達成。二段階のトレーニングパイプラインを設計し、効率的な推論を実現。家庭シナリオのトレーニングが活動理解を向上させ、テキスト推論にも効果を示す。モデルとツールキットは公開され、スマートホームアプリケーションの研究に貢献。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/collections/xiaomi-open-source/xiaomi-mimo-vl-miloco

モデル自体は11月から公開されている

home-scenario gesture recognitionとdaily activity recognitionでGemini-2.5-Proを上回る性能を達成している。特定のユースケースに特化しつつ、genericなユースケースの性能を損なわないようなモデルを学習したい場合は参考になるかもしれない。

image

まずSFTでhome-scenarioデータ[^1] + GeneralデータのDataMixでreasoning patternを学習させ、tokenのefficiencyを高めるためにCoTパターンを排除しdirect answerをするようなデータ(およびprompting)でも学習させる。これによりhome-scenarioでの推論能力が強化される。SFTはfull parameter tuningで実施され、optimizerはAdamW。バッチサイズ128, warmup ratio 0.03, learning rate 1 * 10^-5。スケジューラについては記述がないように見える。

その後、一般的なユースケース(Video Understanding (temporal groundingにフォーカス), GUI Grounding, Multimodal Reasoning (特にSTEMデータ))データを用いてGRPOでRLをする。明らかに簡単・難しすぎるデータは除外。RLのrewardは `r_acc + r_format`の線形補完(係数はaccL: 0.9, format: 0.1)で定義される。r_accはデータごとに異なっている。Video Understandingでは予測したqueryに対してモデルが予測したtimespanとgoldのtimespanのoverlapがどの程度あるかをaccとし、GUI Groundingではbounding boxを予測しpred/goldのoverlapをaccとする。Multimodal ReasoninghはSTEMデータなので回答が一致するかをbinaryのaccとして与えている。

モデルのアーキテクチャは、アダプターでLLMと接続するタイプのもので、動画/画像のBackboneにはViTを用いて、MLPのアダプターを持ちいてLLMの入力としている。
image


[^1]: volunteerによるhome-scenarioでのデータ作成; ruleを規定しvolunteerに理解してもらいデータ収集。その後研究者が低品質なものを除外




Paper/Blog Link My Issue
#Pocket #NLP #MultiModal #SmallModel #MultiLingual #Encoder-Decoder #KeyPoint Notes Issue Date: 2025-12-19 GPT Summary- T5Gemma 2は、軽量なオープンエンコーダーデコーダーモデルで、多言語・多モーダル・長文コンテキスト能力を備えています。T5Gemmaの適応レシピに基づき、デコーダー専用モデルをエンコーダーデコーダーモデルに拡張し、効率向上のために埋め込みの共有とマージドアテンションを導入しました。実験により、長文コンテキストモデリングにおける強みが確認され、事前学習性能はGemma 3と同等以上、事後学習性能は大幅に向上しました。今後、事前学習済みモデルをコミュニティに公開予定です。 Comment

初めてのマルチモーダル、long-context、かつ140言語に対応したencoder-decoderモデルとのこと。
事前学習済みのdecoder-only model (今回はGemma2)によってencoder/decoderをそれぞれ初期化し、UL2 (UL2: Unifying Language Learning Paradigms, Yi Tay+, N/A, ICLR'23 ) によって事前学習する。encoder / decoder側双方のword embeddingは共有し、encoder側のattentionはcausal attentionからbidirectional attentionに変更する。また、decoder側はself-attention/cross-attentionをマージする。
image

- UL2: Unifying Language Learning Paradigms, Yi Tay+, N/A, ICLR'23

merged attentionとは、式(1) -- (5)で表されるものであり、Qはdecoderのinput X を用いて、KVの計算する際には、単にdecoder側のinput X とencoder側の隠れ状態 H をconcatしてから、KVを算出する(K, Vのmatrixの次元がHの分大きくなる)というものである。また、マスクトークンの正方行列ではなくなりencoder次元分大きくなり、decoder/encoder部分の両方のvisibilityを制御する。(論文中の当該部分に明記されていないが、普通に考えると)encoder部分は常にvisibleな状態となる。self-/cross attentionは似たような機能を有する(=過去の情報から関連する情報を収集する)ことが先行研究で知られており、単一のモジュールで処理できるという気持ちのようである。H, Xがそれぞれconcatされるので、encoder側の情報とdecoderのこれまでのoutput tokenの情報の両方を同時に考慮することができる。
image

元ポスト:

Loading…

HF: https://huggingface.co/collections/google/t5gemma-2

ポイント解説:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #OpenSource #Selected Papers/Blogs #KeyPoint Notes #Byte-level Issue Date: 2025-12-17 GPT Summary- Bolmoは、1Bおよび7Bパラメータのバイトレベル言語モデルで、既存のサブワードレベルLMをバイト化することでトレーニングされ、サブワードトークン化の限界を克服しつつ同等のパフォーマンスを発揮します。特別に設計されたBolmoは、サブワードモデルとの間で効果的な蒸留を行い、低コストでバイトレベルLMに変換可能です。Bolmoは従来のバイトレベルLMを上回り、文字理解やコーディングタスクで優れた性能を示し、推論速度も競争力があります。結果として、バイトレベルLMはサブワードレベルLMに対する実用的な選択肢となることが示されました。 Comment

blog: https://allenai.org/blog/bolmo
HF: https://huggingface.co/allenai/Bolmo-7B

元ポスト:

Loading…

テキストをbyte列の系列として解釈し入出力を行う言語モデル。アーキテクチャとしては、byte列をtoken化しbyte列単位でembedding化→mLSTMによってそれらがcontextに関する情報を持った状態でエンコードされ→1バイト先のcontextを用いて単語の境界を予測するモデル(この部分はcausalではなくbi-directional)によって境界を認識し、境界まで可変長でembeddingをpoolingしパッチを形成し、Olmo3の入力とする(デコーディングはその逆の操作をして最終的に言語モデルのheadを用いる)。

スクラッチからByte Latent Transformerのようなモデルを学習するのではなく、2-stageで学習される。まずOlmo3をfreezeし、他の local encoder, local decoder, boundary predictor, and language modeling headのみを学習する。これによりsubwordモデルと同様の挙動を学習できる。そのうえで、Olmo3のfreezeを解除し全体を学習する。これにより、Olmo3に事前学習された知識や挙動を最大限に活用する(=もともとsubwordで動作していたモデルをbyteレベルで動作するように継続学習する)。

image

>The Bolmo architecture. Tokenization & Embedding T transforms the input text into one representation per byte. The representations are contextualized with the local encoder E consisting of mLSTM blocks. The boundary predictor B decides where to place patch boundaries using one byte of future context. The representations are then Pooled,

関連:
- [Paper Note] MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers, Lili Yu+, NeurIPS'23, 2023.05




Paper/Blog Link My Issue
#General #Pocket #NLP #LanguageModel #Alignment #ReinforcementLearning #Reasoning #OpenSource #read-later #RLVR #Selected Papers/Blogs #CrossDomain #KeyPoint Notes Issue Date: 2025-12-17 GPT Summary- 一般目的の推論モデルを強化学習(RL)で構築する際の課題に対処するため、カスケードドメイン別強化学習(Cascade RL)を提案。Nemotron-Cascadeは、指示モードと深い思考モードで動作し、異なるドメインのプロンプトを順次調整することで、エンジニアリングの複雑さを軽減し、最先端のパフォーマンスを実現。RLHFを前段階として使用することで推論能力が向上し、ドメイン別RL段階でもパフォーマンスが改善される。14Bモデルは、LiveCodeBenchで優れた結果を示し、2025年国際情報オリンピックで銀メダルを獲得。トレーニングとデータのレシピも共有。 Comment

元ポスト:

Loading…

従来のRLはすべてのドメインのデータをmixすることでおこなれてきたが、個々のドメインのデータを個別にRLし、cascading方式で適用 (Cascade RL) することを提案している(実際は著者らの先行研究でmath->codingのcascadingは実施されていたが、それをより広範なドメイン(RLHF -> instruction following -> math -> coding -> software engineering)に適用した、という研究)。
cascadingにはいくつかのメリットがありRLの学習速度を改善できる(あるいはRLのインフラの複雑性を緩和できる)
- ドメインごとのverificationの速度の違いによって学習速度を損なうことがない(e.g. 数学のrule-basedなverificationは早いがcodingは遅い)
- ドメインごとに出力長は異なるためオンポリシーRLを適用すると効率が落ちる(長いレスポンスの生成を待たなければらないため)

image

本研究で得られた利点としてはFigure 1を参考に言及されているが
- RLHF, instruction followingを事前に適用することによって、後段のreasoningの性能も向上する(reasoningのwarmupになる)
- 加えて応答の長さの削減につながる
- RLはcatastrophic forgettingに強く、前段で実施したドメインの性能が後段のドメインのRLによって性能が劣化しない
- といってもFigure 2を見ると、codingとsoftware engineeringは結構ドメイン近いのでは・・・?という気はするが・・・。
- RLにおけるカリキュラム学習やハイパーパラメータをドメインごとに最適なものを適用できる

image

他にもthinking/non-thinking に関することが言及されているが読めていない。




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #SSM (StateSpaceModel) #OpenSource #MoE(Mixture-of-Experts) Issue Date: 2025-12-17 GPT Summary- Nemotron 3ファミリーのモデル(Nano、Super、Ultra)は、強力なエージェント機能と推論能力を提供し、Mixture-of-ExpertsハイブリッドMamba-Transformerアーキテクチャを採用。SuperとUltraはLatentMoEを組み込み、MTPレイヤーでテキスト生成を高速化。全モデルはマルチ環境強化学習でポストトレーニングされ、Nanoはコスト効率が高く、Superは高ボリュームワークロードに最適化、Ultraは最先端の精度を提供。モデルの重みやデータはオープンにリリース予定。 Comment

元ポスト:

Loading…

解説:

Loading…

Artificial Intelligenceによるポイント解説&ベンチマーキング:

Loading…

所見:

Loading…


training data, RL environment, training codeも含めて公開されているとのこと。

ポイント解説:

Loading…

所見:

Loading…



Paper/Blog Link My Issue
#Pretraining #Pocket #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #Distillation #mid-training #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2025-12-13 GPT Summary- Nanbeige4-3Bは、23兆の高品質トークンで事前学習し、3000万以上の指示でファインチューニングされた高性能な小規模言語モデルです。FG-WSDトレーニングスケジューラを用いて段階的にデータを洗練し、SFTデータの質向上のために共同メカニズムを設計しました。さらに、DPDメソッドを通じてモデルを蒸留し、強化学習フェーズで推論能力を強化しました。評価結果は、同等のパラメータスケールのモデルを大幅に上回り、より大きなモデルにも匹敵することを示しています。モデルのチェックポイントは、https://huggingface.co/Nanbeige で入手可能です。 Comment

元ポスト:

Loading…

3Bモデルにも関わらず10倍以上大きいモデルと同等以上の性能を発揮し、trainingのstrategyが非常に重要ということが伺える。元ポストにも各学習方法の概要が記載されているが、読みたい。




Paper/Blog Link My Issue
#Pocket #SpeechProcessing #TTS Issue Date: 2025-12-10 GPT Summary- 音声合成の生成モデルは、安定性と表現力のトレードオフに直面している。これを解決するために、半離散残差表現を用いた新しいトークナイザー不要のTTSモデルVoxCPMを提案。テキスト-セマンティック言語モデル(TSLM)が意味的計画を生成し、残差音響モデル(RALM)が音響の詳細を復元。180万時間のデータで訓練されたVoxCPM-0.5Bモデルは、最先端のゼロショットTTSパフォーマンスを達成し、文脈に応じた自然な音声を生成する能力を示す。VoxCPMはApache 2.0の下で公開され、コミュニティの研究開発を促進する。 Comment

HF: https://huggingface.co/openbmb/VoxCPM1.5

元ポスト:

Loading…



Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #ReinforcementLearning #MultiModal #Reasoning #VisionLanguageModel #2D (Image) #UMM #4D (Video) #One-Line Notes #text Issue Date: 2025-12-06 GPT Summary- OneThinkerは、視覚的推論を統一するオールインワンの強化学習モデルであり、質問応答やキャプショニングなどの多様なタスクに対応。OneThinker-600kトレーニングコーパスを用いて訓練され、報酬の異質性に対処するEMA-GRPOを提案。広範な実験により、10の視覚理解タスクで強力なパフォーマンスを示し、タスク間の知識移転とゼロショット一般化能力を実証。全てのコード、モデル、データは公開。 Comment

pj page: https://github.com/tulerfeng/OneThinker
HF: https://huggingface.co/OneThink

元ポスト:

Loading…

image/videoに関するreasoningタスクをunifiedなアーキテクチャで実施するVLM
image

Qwen3-VL-Instruct-8Bに対するgain。様々なタスクで大幅なgainを得ている。特にTracking, segmentation, groundingのgainが大きいように見える。
image




Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #SmallModel #Selected Papers/Blogs #3D Reconstruction #VisionLanguageModel #Realtime Issue Date: 2025-12-04 GPT Summary- AutoNeuralは、NPU向けに最適化されたVLMアーキテクチャで、量子化の脆弱性とI/Oバウンドな注意メカニズムの問題を解決。MobileNetV5スタイルのバックボーンを採用し、量子化誤差を最大7倍削減、エンドツーエンドのレイテンシを14倍短縮。実世界の自動車ケーススタディでリアルタイム性能を実証し、NPU制約に特化したモデル設計の重要性を示した。 Comment

pj page: https://nexa.ai/solution/intelligent-cockpit

HF: https://huggingface.co/NexaAI/AutoNeural

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #AIAgents #SyntheticData #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #Reference Collection #SparseAttention Issue Date: 2025-12-01 GPT Summary- DeepSeek-V3.2は、計算効率と推論性能を両立させたモデルで、主な技術革新として(1) DSAによる効率的な注意メカニズム、(2) スケーラブルな強化学習フレームワークによりGPT-5と同等の性能を実現、(3) 大規模エージェントタスク合成パイプラインを用いてトレーニングデータを生成し、一般化能力と指示遵守を向上させた。特に、DeepSeek-V3.2-SpecialeはGPT-5を超える性能を示し、国際数学オリンピックで金メダルを獲得した。 Comment

HF: https://huggingface.co/deepseek-ai/DeepSeek-V3.2

GPT-5級のスコアを獲得している。なんということだ。

image

公式ポスト:

Loading…

関連:
- DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention, DeepSeek-AI, 2025.09

vLLM recipe:
https://docs.vllm.ai/projects/recipes/en/latest/DeepSeek/DeepSeek-V3_2-Exp.html

関連:
- Expert Parallel Deployment, vLLM, 2025.10

元ポスト:

Loading…

所見:

Loading…

事前学習にさらに計算機リソースを投下する見込みとのこと:

Loading…

解説:

Loading…

解説:

Loading…

関連:
- [Paper Note] On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning, Yifan Zhang+, arXiv'25, 2025.05

Loading…

所見:

Loading…

解説:
https://www.linkedin.com/posts/vinija_deepseek-v32-a-major-leap-for-open-reasoning-activity-7401524268850970624-eAvV?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

artificial analysisによる評価ではOpen Weightモデルの中ではKimi K2 Thinkingに次いで2番目の性能:

Loading…


- Introducing Kimi K2 Thinking, MoonshotAI, 2025.11

所見:

Loading…


関連:
- [Paper Note] DeepSeek-Math-V2, DeepSeekAI, 2025.11



Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #MultiModal #MoE(Mixture-of-Experts) #VisionLanguageModel Issue Date: 2025-11-27 GPT Summary- Qwen3-VLは、テキスト、画像、動画を統合した最先端のビジョン・ランゲージモデルで、256Kトークンの長文コンテキスト理解を実現。強化されたテキスト理解、堅牢なマルチモーダル推論、空間・時間モデリングのアップグレードを特徴とし、様々なベンチマークで優れたパフォーマンスを示す。密なアーキテクチャとエキスパート混合アーキテクチャの両方で高い性能を発揮し、実世界のマルチモーダルコードインテリジェンスの基盤エンジンとしての役割が期待される。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #OpenSource #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs Issue Date: 2025-11-27 GPT Summary- 106BパラメータのMixture-of-ExpertsモデルINTELLECT-3を発表。強化学習インフラを用いて訓練され、数学や科学のベンチマークで最先端の性能を達成。オープンソースとして公開し、強化学習フレームワークや検証ライブラリを提供。prime-rlを導入し、大規模な非同期強化学習をサポート。GLM-4.5-Air-Baseモデル上での訓練により、高い効率を実現。 Comment

HF: https://huggingface.co/PrimeIntellect/INTELLECT-3

元ポスト:

Loading…

著者ポスト:

Loading…


完全にオープンソースでデータやフレームワーク、評価も含め公開されているとのこと。素晴らしい

in-flight weight updates が利用されている
- PipelineRL, Piche+, ServiceNow, 2025.04




Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #VisionLanguageModel #OCR Issue Date: 2025-11-26 GPT Summary- HunyuanOCRは、OCRタスクに特化した軽量な商業グレードのオープンソースVision-Language Model(VLM)であり、優れた性能を示し、従来のソリューションを上回っています。主な特徴は、スポッティング、パース、情報抽出、翻訳などの機能を統一した軽量フレームワーク、エンドツーエンドのアーキテクチャによるエラー伝播の解消、強化学習戦略による性能向上です。HunyuanOCRはHuggingFaceでオープンソース化され、産業応用の基盤を提供することが期待されています。 Comment

元ポスト:

Loading…

公式ポスト:

Loading…

pj page: https://github.com/Tencent-Hunyuan/HunyuanOCR

HF: https://huggingface.co/tencent/HunyuanOCR

OmniDocBenchでSoTA
- [Paper Note] OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations, Linke Ouyang+, CVPR'25, 2024.12




Paper/Blog Link My Issue
#Pocket #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #SmallModel #OpenSource #read-later #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-25 GPT Summary- 本研究では、マルチモーダル推論のための透明な二段階トレーニングレシピ「OpenMMReasoner」を提案。監視付きファインチューニング(SFT)で874Kサンプルのデータセットを構築し、強化学習(RL)で74Kサンプルを活用して推論能力を向上。評価の結果、9つのベンチマークでQwen2.5-VL-7B-Instructに対し11.6%の性能向上を達成し、データの質とトレーニング設計の重要性を示した。すべてのリソースはオープンソースで公開。 Comment

pj page: https://evolvinglmms-lab.github.io/OpenMMReasoner/

SoTAなVLMを構築するためのオープンなデータとレシピらしい

関連:
- [Paper Note] LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training, Xiang An+, arXiv'25, 2025.09




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Reasoning #OpenSource #read-later #Selected Papers/Blogs #Reference Collection Issue Date: 2025-11-20 GPT Summary- Olmo 3は、7Bおよび32Bパラメータの完全オープンな言語モデルファミリーで、長文コンテキスト推論やコーディングなどに対応。全ライフサイクルの情報が含まれ、特にOlmo 3 Think 32Bは最も強力な思考モデルとして注目される。 Comment

元ポスト:

Loading…

解説:

Loading…


post-LN transformer

OLMo2:
- OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini, AllenAI, 20250.3

ポイント解説:

Loading…

official livestream video:

Loading…

解説:

Loading…

Qwen3-32Bと同等の性能を達成している。そしてそれがオープンソース、素晴らしい。読むべし!!

Olmo3のライセンスに関する以下のような懸念がある:

Loading…

ポイント解説:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #SmallModel #read-later Issue Date: 2025-11-20 GPT Summary- VibeThinker-1.5Bは、Spectrum-to-Signal Principle(SSP)を用いて開発された1.5Bパラメータのモデルで、小型モデルの推論能力を向上させることを目指す。Two-Stage Diversity-Exploring DistillationとMaxEnt-Guided Policy Optimizationを組み合わせ、低コストで優れた推論性能を実現。数学ベンチマークで大規模モデルを上回る結果を示し、小型モデルが大規模モデルに匹敵する能力を持つことを証明。これにより、AI研究の民主化が促進される。 Comment

元ポスト: https://github.com/WeiboAI/VibeThinker

元ポスト:

Loading…

オフィシャル: https://huggingface.co/WeiboAI/VibeThinker-1.5B
GGUF版: https://huggingface.co/MaziyarPanahi/VibeThinker-1.5B-GGUF

1.5Bのモデルでここまでできるようになったのか




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AIAgents #Reasoning #DeepResearch Issue Date: 2025-11-19 GPT Summary- MiroThinker v1.0は、ツール強化推論と情報探索能力を向上させるオープンソースの研究エージェントで、モデルと環境の相互作用を深めるインタラクションスケーリングを採用。256Kのコンテキストウィンドウを持ち、最大600回のツールコールを実行可能で、従来のエージェントを上回る精度を達成。インタラクションの深さがモデルの性能を向上させることを示し、次世代の研究エージェントにおける重要な要素として位置づけられる。 Comment

関連:
- DR Tulu: An open, end-to-end training recipe for long-form deep research, AI2, 2025.11

元ポスト:

Loading…

HF: https://huggingface.co/miromind-ai/MiroThinker-v1.0-72B

ポイント解説:

Loading…



Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #read-later Issue Date: 2025-11-14 GPT Summary- ローカルLMが実世界のクエリに正確に回答できるかを評価するため、タスクの精度を電力単位で割った「ワットあたりの知能(IPW)」を提案。20以上のローカルLMと8つのアクセラレーターを用いた実証研究により、ローカルLMは88.7%の精度でクエリに応答し、IPWは5.3倍改善、カバレッジは23.2%から71.3%に上昇。ローカルアクセラレーターはクラウドよりも低いIPWを達成し、ローカル推論が中央集権型インフラから需要を再分配できる可能性を示唆。IPWプロファイリングハーネスも公開。 Comment

pj page: https://hazyresearch.stanford.edu/blog/2025-11-11-ipw

元ポスト:

Loading…

この切り口は興味深い。




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Safety #read-later #Selected Papers/Blogs Issue Date: 2025-11-13 GPT Summary- オープンウェイトのフロンティアAIモデルは強力で広く採用されているが、リスク管理には新たな課題がある。これらのモデルはオープンな研究を促進する一方で、恣意的な変更や監視なしの使用がリスクを増大させる。安全性ツールに関する研究は限られており、16の技術的課題を提示。オープンな研究と評価がリスク管理の科学を構築する鍵であることを強調。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Pocket #ImageSegmentation #SmallModel #Video #2D (Image) Issue Date: 2025-11-09 GPT Summary- SAM 2は動画セグメンテーションの基盤モデルであり、メモリバンクメカニズムを通じて性能を向上させています。本研究では、モバイルデバイス上での効率を高めるために、EdgeTAMを提案し、2D空間パーセプターを用いて計算コストを削減します。これにより、メモリの空間構造を保持しつつ、推論オーバーヘッドなしで性能を向上させる蒸留パイプラインも導入。EdgeTAMは複数のデータセットで高いJ&Fスコアを達成し、iPhone 15 Pro Maxで16 FPSで動作します。 Comment

元ポスト:

Loading…

SAM2より性能は少し劣るが、edge-deviceてわ動作可能で非常に高速なモデル(promptによって制御可能なsegmentation)とのこと
- [Paper Note] SAM 2: Segment Anything in Images and Videos, Nikhila Ravi+, ICLR'25, 2024.08




Paper/Blog Link My Issue
#Pocket #LanguageModel #SpeechProcessing #Editing #TTS #AudioLanguageModel Issue Date: 2025-11-09 GPT Summary- 初のオープンソースLLMベースの音声モデル「Step-Audio-EditX」を発表。感情や話し方の編集に優れ、ゼロショットのテキスト音声合成機能も搭載。大きなマージンの合成データを活用し、従来のアプローチからの転換を実現。評価では、感情編集や細かい制御タスクで他のモデルを上回る性能を示した。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#ComputerVision #Pocket #DiffusionModel #VideoGeneration/Understandings #WorldModels #4D (Video) #TextToVideoGeneration #SparseAttention #Video Continuation #ImageToVideoGeneration Issue Date: 2025-11-02 GPT Summary- 「LongCat-Video」は、13.6Bパラメータを持つ動画生成モデルで、複数の動画生成タスクにおいて高いパフォーマンスを発揮します。Diffusion Transformerフレームワークに基づき、テキストや画像から動画を生成し、長時間動画の生成においても高品質と一貫性を維持します。効率的な推論を実現するために、粗から細への生成戦略とブロックスパースアテンションを採用し、720p、30fpsの動画を数分で生成可能です。マルチリワードRLHFによるトレーニングにより、最新のモデルと同等の性能を達成し、コードとモデルの重みは公開されています。 Comment

pj page: https://github.com/meituan-longcat/LongCat-Video

元ポスト:

Loading…



Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #read-later #Memorization Issue Date: 2025-10-26 GPT Summary- Hubbleは、LLMの記憶に関する研究のためのオープンソースモデルスイートで、標準モデルと変化モデルの2種類を提供。標準モデルは大規模な英語コーパスで事前学習され、変化モデルは特定のテキストを挿入して記憶リスクを模倣。8つのモデルが1Bまたは8Bのパラメータを持ち、100Bまたは500Bのトークンで訓練。研究により、敏感なデータの記憶はコーパスのサイズに依存し、データの露出が少ない場合は忘れられることが示された。Hubbleは、プライベート情報の記憶の容易さを分析するなど、幅広い記憶研究を可能にし、コミュニティにさらなる探求を促す。 Comment

pj page: https://allegro-lab.github.io/hubble/

元ポスト:

Loading…

HF: https://huggingface.co/allegrolab




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Alignment #InstructionTuning #SyntheticData Issue Date: 2025-10-23 GPT Summary- 本研究では、ポストトレーニングモデルからアライメントトレーニングデータを抽出する方法を示し、埋め込みモデルが特定の能力向上に適していると主張します。文字列マッチングに依存せず、意味的類似性を捉えることで、抽出可能なデータ量を過小評価するリスクを明らかにしました。また、モデルはポストトレーニングフェーズで使用されたデータを再生でき、元のパフォーマンスを回復可能であることを示しました。研究は蒸留手法の影響についても議論します。 Comment

元ポスト:

Loading…

Magpieのような話だろうか?

関連:
- [Paper Note] Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing, Zhangchen Xu+, ICLR'25




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #Reasoning #MoE(Mixture-of-Experts) Issue Date: 2025-10-17 GPT Summary- MiniMax-M1は、4560億パラメータを持つ世界初のオープンウェイトのハイブリッドアテンション推論モデルで、Mixture-of-Expertsアーキテクチャとライトニングアテンションを組み合わせています。1百万トークンのコンテキスト長をサポートし、複雑なタスクに適しています。新しいRLアルゴリズムCISPOを提案し、効率的な訓練を実現。標準ベンチマークで強力なオープンウェイトモデルと同等以上の性能を示し、特にソフトウェアエンジニアリングや長いコンテキストタスクで優れた結果を出しています。モデルは公開されています。 Comment

- MiniMax-M1, MiniMax, 2025.06

のテクニカルレポート。

- [Paper Note] The Art of Scaling Reinforcement Learning Compute for LLMs, Devvrit Khatri+, arXiv'25, 2025.10

でGSPO, DAPOよりも安定性と最終到達性能でより優れていることが示されたCISPOと呼ばれるRLアルゴリズムが提案されている。

関連:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Reasoning #One-Line Notes Issue Date: 2025-10-07 GPT Summary- Mistralの推論モデルMagistralと独自の強化学習パイプラインを紹介。ゼロからのアプローチで、LLMのRLトレーニングの限界を探り、テキストデータのみでのRLが能力を維持することを示す。Magistral MediumはRLのみで訓練され、Magistral Smallはオープンソース化。 Comment

元ポスト:

Loading…

関連:
- Magistral-Small-2509, MistralAI, 2025.09

MistralAIの初めてのreasoningモデル




Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #MultiModal #OpenSource #VisionLanguageModel #One-Line Notes Issue Date: 2025-10-04 GPT Summary- LLaVA-OneVision-1.5は、計算コストと財政コストを削減しつつ最先端のパフォーマンスを実現する新しい大規模マルチモーダルモデルです。オープンで効率的なフレームワークを提供し、85Mの事前学習データセットと26Mの指示データセットを含む大規模キュレーションデータセットを構築しました。効率的なトレーニングフレームワークにより、限られた予算内でのトレーニングが可能となり、幅広い下流タスクで競争力のある性能を示しています。特に、LLaVA-OneVision-1.5-8Bは18のベンチマークでQwen2.5-VL-7Bを上回り、4Bモデルは全ての27のベンチマークでQwen2.5-VL-3Bを超えています。今後、LLaVA-OneVision-1.5-RLのリリースも予定されています。 Comment

元ポスト:

Loading…

各種ベンチでQwen2.5-VL超え

pj page: https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5

ポイント解説:

Loading…



Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #ImageCaptioning #SmallModel #VisionLanguageModel Issue Date: 2025-09-29 GPT Summary- 画像キャプショニングにおいて、従来の監視型ファインチューニング(SFT)の限界を克服するため、検証可能な報酬を用いた強化学習(RLVR)を提案。新しいトレーニングフレームワーク「キャプショニング強化学習(CapRL)」を導入し、キャプションの質をその有用性で再定義。CapRLは、視覚非依存のLLMの精度に基づく客観的な報酬を得る二段階のパイプラインを採用。CapRL-3Bによる事前学習は、12のベンチマークで大幅な性能向上を実現し、Qwen2.5-VL-72Bと同等のパフォーマンスを達成。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/collections/long-xing1/caprl-68d64ac32ded31596c36e189

公式ポスト:

Loading…



Paper/Blog Link My Issue
#Embeddings #Pocket #NLP #RepresentationLearning #SmallModel #MultiLingual Issue Date: 2025-09-25 GPT Summary- EmbeddingGemmaは、Gemma 3言語モデルに基づく軽量なオープンテキスト埋め込みモデルで、エンコーダ-デコーダの初期化と幾何学的埋め込み蒸留を用いて大規模モデルの知識を活用。分散正則化器を使用し、異なるチェックポイントを統合することで一般化能力を向上。300Mのパラメータで、MTEBで最先端の結果を達成し、従来のトップモデルを上回る性能を示す。量子化や出力の切り詰めにも耐え、低遅延かつ高スループットのアプリケーションに適している。EmbeddingGemmaはコミュニティに公開され、さらなる研究を促進する。 Comment

公式モデル概要: https://ai.google.dev/gemma/docs/embeddinggemma?hl=ja

元ポスト:

Loading…

100以上の言語で訓練されマトリョーシカ表現なのでベクトルのサイズを調整可能な模様

マトリョーシカ表現:
- [Paper Note] Matryoshka Representation Learning, Aditya Kusupati+, NeurIPS'22

公式による解説ブログ:

Loading…



Paper/Blog Link My Issue
#NLP #LanguageModel #Coding #mid-training #PostTraining #Selected Papers/Blogs #WorldModels #One-Line Notes Issue Date: 2025-09-25 GPT Summary- 320億パラメータのCode World Model (CWM)をリリースし、コード生成のための世界モデルの研究を進める。静的コードだけでなく、PythonインタプリタやDocker環境から得た観測-行動トレジェクトリで中間トレーニングを実施し、マルチタスク推論RLによる広範な能力を評価。CWMは強力なテストベッドを提供し、世界モデルがエージェンティックコーディングに貢献できることを示す。主要なタスクで高いパフォーマンスを記録し、モデルチェックポイントも提供。 Comment

元ポスト:

Loading…

World Modelと銘打ってあるが、一般的なCV分野でのWorld Modelではなく、python やbash等の実行をトークン列として仮想的にトレースできるようにmid trainingされている(大量の実トレースデータが利用されている模様)ので、World Modelと銘打たれている模様?

image

GRPOに対するモダンなtweakがまとまっている模様:

Loading…


DeepSeek-R1で提案されてから細かな調整が重ねられて来た。



Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Pretraining #Pocket #OpenSource #Encoder #Backbone Issue Date: 2025-09-16 GPT Summary- 本論文では、OpenVisionのアーキテクチャを簡素化し、トレーニング効率を向上させる方法を提案。テキストエンコーダーと対照損失を削除し、キャプショニング損失のみを使用したOpenVision 2を導入。初期結果は、トレーニング時間を約1.5倍短縮し、メモリ使用量を約1.8倍削減することを示し、10億以上のパラメータにスケールアップ可能であることを強調。 Comment

元ポスト:

Loading…

事前学習時にtext, image encoderのcontrastive lossで学習していたが、text encoderを無くしimage encoderに入力されたimageからcaptionを生成するcaption lossのみにすることで性能を落とすことなく効率を改善




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #SmallModel #ACL #VisionLanguageModel Issue Date: 2025-09-16 GPT Summary- SAIL-VLは、2Bおよび8Bパラメータのオープンソースビジョン言語モデルで、最先端の性能を達成。主な改善点は、(1) 高品質な視覚理解データの構築、(2) 拡大した事前学習データによる性能向上、(3) 複雑さのスケーリングによる効果的なSFTデータセットのキュレーション。SAIL-VLは18のVLMベンチマークで最高スコアを達成し、2Bモデルは同等のVLMの中でトップの位置を占める。モデルはHuggingFaceで公開。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/BytedanceDouyinContent




Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #ReinforcementLearning #Reasoning #LongSequence #GRPO #VisionLanguageModel Issue Date: 2025-09-10 GPT Summary- Mini-o3システムは、数十ステップの深いマルチターン推論を実現し、視覚検索タスクで最先端の性能を達成。Visual Probe Datasetを構築し、多様な推論パターンを示すデータ収集パイプラインを開発。オーバーターンマスキング戦略により、ターン数が増えるほど精度が向上することを実証。 Comment

HF: https://huggingface.co/Mini-o3

pj page: https://mini-o3.github.io

元ポスト:

Loading…

既存のオープンなVLMはマルチターンのターン数を増やせないという課題があったがそれを克服するレシピに関する研究な模様。元ポストによると6ターンまでのマルチターンで学習しても、inference時には32ターンまでスケールするとか。




Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #ReinforcementLearning #Reasoning #SelfCorrection #VisionLanguageModel #Critic Issue Date: 2025-09-04 GPT Summary- 本研究では、視覚と言語のモデリングにおいて、批評モデルを強化学習を用いて再編成し、生成モデルに直接適用する新しいアプローチを提案します。これにより、マルチモーダル批評モデルLLaVA-Critic-R1を生成し、視覚的推論ベンチマークで高い性能を示しました。さらに、自己批評を用いることで、追加の訓練なしに推論タスクでの性能を向上させることができることを示しました。この結果は、評価と生成の両方に優れた統一モデルを実現する可能性を示唆しています。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/collections/lmms-lab/llava-critic-r1-68922484e5822b89fab4aca1




Paper/Blog Link My Issue
#ComputerVision #Pocket #Transformer #DiffusionModel #VideoGeneration/Understandings #WorldModels #Game Issue Date: 2025-08-28 GPT Summary- Matrix-Game 2.0を提案し、インタラクティブな世界モデルがリアルタイムで長いビデオを生成できるようにする。主なコンポーネントは、スケーラブルなデータ生成パイプライン、インタラクティブな条件を可能にするアクション注入モジュール、リアルタイム生成のための数ステップの蒸留。これにより、25 FPSで高品質な1分間のビデオを生成可能。モデルの重みとコードはオープンソース化。 Comment

元ポスト:

Loading…

pj page: https://matrix-game-v2.github.io

公式:

Loading…



Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #MultiModal #Reasoning #CurriculumLearning #VideoGeneration/Understandings #VisionLanguageModel Issue Date: 2025-08-28 GPT Summary- Ovis2.5は、ネイティブ解像度の視覚認識とマルチモーダル推論を強化するために設計されたモデルで、画像を可変解像度で処理し、複雑な視覚コンテンツの詳細を保持します。推論時には反省を行う「思考モード」を提供し、精度向上を図ります。5段階のカリキュラムで訓練され、マルチモーダルデータの効率的な処理を実現。Ovis2.5-9BはOpenCompassで平均78.3を記録し、Ovis2-8Bに対して大幅な改善を示しました。Ovis2.5-2Bも73.9を達成し、リソース制約のあるデバイスに最適です。STEMベンチマークや複雑なチャート分析においても優れた性能を発揮しています。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/AIDC-AI/Ovis2.5-9B

Apache2.0ライセンス

GLM-4.1V-9B-Thinkingと同等以上の性能な模様。
image

- [Paper Note] GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning, GLM-V Team+, arXiv'25




Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-08-26 GPT Summary- InternVL 3.5は、マルチモーダルモデルの新しいオープンソースファミリーで、Cascade Reinforcement Learningを用いて推論能力と効率を向上させる。粗から細へのトレーニング戦略により、MMMやMathVistaなどのタスクで大幅な改善を実現。Visual Resolution Routerを導入し、視覚トークンの解像度を動的に調整。Decoupled Vision-Language Deployment戦略により、計算負荷をバランスさせ、推論性能を最大16.0%向上させ、速度を4.05倍向上。最大モデルは、オープンソースのMLLMで最先端の結果を達成し、商業モデルとの性能ギャップを縮小。全てのモデルとコードは公開。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…



Paper/Blog Link My Issue
#Pretraining #Pocket #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #Architecture #PostTraining #Selected Papers/Blogs #DataMixture Issue Date: 2025-08-25 GPT Summary- Motif-2.6Bは、26億パラメータを持つ基盤LLMで、長文理解の向上や幻覚の減少を目指し、差分注意やポリノルム活性化関数を採用。広範な実験により、同サイズの最先端モデルを上回る性能を示し、効率的でスケーラブルな基盤LLMの発展に寄与する。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/Motif-Technologies/Motif-2.6B

- アーキテクチャ
- Differential Transformer, Tianzhu Ye+, N/A, ICLR'25
- [Paper Note] Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models, Zhijian Zhuo+, arXiv'24
- 学習手法
- Model Merging in Pre-training of Large Language Models, Yunshui Li+, arXiv'25
- 8B token学習するごとに直近6つのcheckpointのelement-wiseの平均をとりモデルマージ。当該モデルに対して学習を継続、ということを繰り返す。これにより、学習のノイズを低減し、突然パラメータがシフトすることを防ぐ
- Effective Long-Context Scaling of Foundation Models, Wenhan Xiong+, N/A, NAACL'24
- Adaptive Base Frequency (RoPEのbase frequencyを10000から500000にすることでlong contextのattention scoreが小さくなりすぎることを防ぐ)
- [Paper Note] MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies, Shengding Hu+, COLM'24
- 事前学習データ
- DataComp-LM: In search of the next generation of training sets for language models, Jeffrey Li+, arXiv'24
- TxT360, LLM360, 2024.10
- [Paper Note] FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language, Guilherme Penedo+, COLM'25

を利用したモデル。同程度のサイズのモデルとの比較ではかなりのgainを得ているように見える。興味深い。
DatasetのMixtureの比率などについても記述されている。

image




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #MoE(Mixture-of-Experts) #read-later #VisionLanguageModel #Science Issue Date: 2025-08-23 GPT Summary- Intern-S1は、科学専門分野に特化したオープンソースの専門家型モデルで、280億の活性化パラメータを持つマルチモーダルMixture-of-Experts(MoE)モデルです。5Tトークンで事前学習され、特に科学データに焦点を当てています。事後学習では、InternBootCampを通じて強化学習を行い、Mixture-of-Rewardsを提案。評価では、一般的な推論タスクで競争力を示し、科学分野の専門的なタスクでクローズドソースモデルを上回る性能を達成しました。モデルはHugging Faceで入手可能です。 Comment

元ポスト:

Loading…

scientific domainに特化したデータで継続事前学習+RL Finetuningしたドメイン特化言語モデルらしい。

HF: https://huggingface.co/internlm/Intern-S1

Apache 2.0ライセンス

ベースモデルはQwen3とInternViT
- InternViT: https://huggingface.co/OpenGVLab/InternViT-300M-448px-V2_5

関連:
- [Paper Note] InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks, Zhe Chen+, CVPR'24

解説:

Loading…

サマリ:

Loading…



Paper/Blog Link My Issue
#Pretraining #Pocket #NLP #Dataset #LanguageModel #SmallModel #SSM (StateSpaceModel) #Selected Papers/Blogs Issue Date: 2025-08-19 GPT Summary- Nemotron-Nano-9B-v2は、推論スループットを向上させつつ最先端の精度を達成するハイブリッドMamba-Transformerモデルである。自己注意層の一部をMamba-2層に置き換え、長い思考トレースの生成を高速化。12億パラメータのモデルを20兆トークンで事前トレーニングし、Minitron戦略で圧縮・蒸留。既存モデルと比較して、最大6倍の推論スループットを実現し、精度も同等以上。モデルのチェックポイントはHugging Faceで公開予定。 Comment

元ポスト:

Loading…

事前学習に利用されたデータも公開されているとのこと(Nemotron-CC):

Loading…

解説:

Loading…

サマリ:

Loading…



Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #MultiModal #SpeechProcessing #Reasoning #VisionLanguageActionModel Issue Date: 2025-08-12 GPT Summary- アクション推論モデル(ARMs)であるMolmoActは、知覚、計画、制御を三段階のパイプラインで統合し、説明可能で操作可能な行動を実現。シミュレーションと実世界で高いパフォーマンスを示し、特にSimplerEnv Visual Matchingタスクで70.5%のゼロショット精度を達成。MolmoAct Datasetを公開し、トレーニングによりベースモデルのパフォーマンスを平均5.5%向上。全てのモデルの重みやデータセットを公開し、ARMsの構築に向けたオープンな設計図を提供。 Comment

`Action Reasoning Models (ARMs)`

元ポスト:

Loading…

blog: https://allenai.org/blog/molmoact

関連:
- Molmo: A family of open state-of-the-art multimodal AI models, AI2, 2024.09

models:
- https://huggingface.co/allenai/MolmoAct-7B-D-Pretrain-0812
- https://huggingface.co/allenai/MolmoAct-7B-D-0812

datasets:
- https://huggingface.co/datasets/allenai/MolmoAct-Dataset
- https://huggingface.co/datasets/allenai/MolmoAct-Pretraining-Mixture
- https://huggingface.co/datasets/allenai/MolmoAct-Midtraining-Mixture

データは公開されているが、コードが見当たらない?

チェックポイントとコードも公開された模様:
-

Loading…

- https://github.com/allenai/MolmoAct



Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Reasoning #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs Issue Date: 2025-08-12 GPT Summary- 355Bパラメータを持つオープンソースのMixture-of-ExpertsモデルGLM-4.5を発表。ハイブリッド推論手法を採用し、エージェント的、推論、コーディングタスクで高いパフォーマンスを達成。競合モデルに比べて少ないパラメータ数で上位にランクイン。GLM-4.5とそのコンパクト版GLM-4.5-Airをリリースし、詳細はGitHubで公開。 Comment

元ポスト:

Loading…

- アーキテクチャ
- MoE / sigmoid gates
- DeepSeek-R1, DeepSeek, 2025.01
- Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity, William Fedus+, JMLR'22
- loss free balanced routing
- [Paper Note] Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts, Lean Wang+, arXiv'24
- widthを小さく、depthを増やすことでreasoning能力改善
- GQA w/ partial RoPE
- GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N/A, arXiv'23
- RoFormer: Enhanced Transformer with Rotary Position Embedding, Jianlin Su+, N/A, Neurocomputing, 2024
- Attention Headsの数を2.5倍(何に対して2.5倍なんだ、、?)(96個, 5120次元)にすることで(おそらく)事前学習のlossは改善しなかったがReasoning benchmarkの性能改善
- QK Normを導入しattentionのlogitsの値域を改善
- [Paper Note] Query-Key Normalization for Transformers, Alex Henry+, EMNLP'20 Findings
- Multi Token Prediction
- [Paper Note] Better & Faster Large Language Models via Multi-token Prediction, Fabian Gloeckle+, ICML'24
- Deep-seek-v3, deepseek-ai, 2024.12

他モデルとの比較
image

学習部分は後で追記する

- 事前学習データ
- web
- 英語と中国語のwebページを利用
- Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset, Dan Su+, ACL'25 と同様にquality scoreyをドキュメントに付与
- 最も低いquality scoreの文書群を排除し、quality scoreの高い文書群をup sampling
- 最もquality scoreyが大きい文書群は3.2 epoch分利用
- 多くのweb pageがテンプレートから自動生成されており高いquality scoreが付与されていたが、MinHashによってdeduplicationできなかったため、 [Paper Note] SemDeDup: Data-efficient learning at web-scale through semantic deduplication, Amro Abbas+, arXiv'23 を用いてdocument embeddingに基づいて類似した文書群を排除
- Multilingual
- 独自にクロールしたデータとFineWeb-2 [Paper Note] FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language, Guilherme Penedo+, COLM'25 から多言語の文書群を抽出し、quality classifierを適用することでeducational utilityを定量化し、高いスコアの文書群をupsamplingして利用
- code
- githubなどのソースコードhosting platformから収集
- ソースコードはルールベースのフィルタリングをかけ、その後言語ごとのquality modelsによって、high,middle, lowの3つに品質を分類
- high qualityなものはupsamplingし、low qualityなものは除外
- [Paper Note] Efficient Training of Language Models to Fill in the Middle, Mohammad Bavarian+, arXiv'22 で提案されているFill in the Middle objectiveをコードの事前学習では適用
- コードに関連するweb文書も事前学習で収集したテキスト群からルールベースとfasttextによる分類器で抽出し、ソースコードと同様のqualityの分類とサンプリング手法を適用。最終的にフィルタリングされた文書群はre-parseしてフォーマットと内容の品質を向上させた
- math & science
- web page, 本, 論文から、reasoning能力を向上させるために、数学と科学に関する文書を収集
- LLMを用いて文書中のeducational contentの比率に基づいて文書をスコアリングしスコアを予測するsmall-scaleな分類器を学習
- 最終的に事前学習コーパスの中の閾値以上のスコアを持つ文書をupsampling
- 事前学習は2 stageに分かれており、最初のステージでは、"大部分は"generalな文書で学習する。次のステージでは、ソースコード、数学、科学、コーディング関連の文書をupsamplingして学習する。

上記以上の細かい実装上の情報は記載されていない。

mid-training / post trainingについても後ほど追記する

以下も参照のこと
- GLM-4.5: Reasoning, Coding, and Agentic Abililties, Zhipu AI Inc., 2025.07




Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #MultiModal #SpeechProcessing #UMM Issue Date: 2025-07-26 GPT Summary- Ming-Omniは、画像、テキスト、音声、動画を処理できる統一マルチモーダルモデルで、音声生成と画像生成において優れた能力を示す。専用エンコーダを用いて異なるモダリティからトークンを抽出し、MoEアーキテクチャで処理することで、効率的にマルチモーダル入力を融合。音声デコーダと高品質な画像生成を統合し、コンテキストに応じたチャットやテキストから音声への変換、画像編集が可能。Ming-Omniは、GPT-4oに匹敵する初のオープンソースモデルであり、研究と開発を促進するためにコードとモデルの重みを公開。 Comment

image

元ポスト:

Loading…


現在はv1.5も公開されておりさらに性能が向上している模様?

HF: https://huggingface.co/inclusionAI/Ming-Lite-Omni




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Contamination-free Issue Date: 2025-07-16 GPT Summary- 大規模言語モデル(LLMs)の推論能力向上に関する研究が進展しており、特にQwen2.5モデルが強化学習(RL)を用いて顕著な改善を示している。しかし、他のモデルでは同様の成果が得られていないため、さらなる調査が必要である。Qwen2.5は数学的推論性能が高いが、データ汚染に脆弱であり、信頼性のある結果を得るためには、RandomCalculationというクリーンなデータセットを用いることが重要である。このデータセットを通じて、正確な報酬信号が性能向上に寄与することが示された。信頼性のある結論を得るためには、汚染のないベンチマークと多様なモデルでのRL手法の評価が推奨される。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…

関連:
- [Paper Note] Spurious Rewards: Rethinking Training Signals in RLVR, Shao+, 2025.05

こちらでQwen-mathに対して得られたRLでのgainは他モデルでは現れず汎化しないことも報告されている。




Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #MultiModal #Reasoning #VisionLanguageModel Issue Date: 2025-07-14 GPT Summary- Kimi-VLは、効率的なオープンソースのMixture-of-Expertsビジョン・ランゲージモデルであり、2.8Bパラメータの言語デコーダーを活性化して高度なマルチモーダル推論を実現。マルチターンエージェントタスクや大学レベルの画像・動画理解において優れた性能を示し、最先端のVLMと競争。128Kの拡張コンテキストウィンドウを持ち、長い入力を処理可能。Kimi-VL-Thinking-2506は、長期的推論能力を強化するために教師ありファインチューニングと強化学習を用いて開発され、堅牢な一般能力を獲得。コードは公開されている。 Comment

- [Paper Note] Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset, Ke Wang+, NeurIPS'24 Datasets and Benchmarks Track
での性能(Vision+テキストの数学の問題)。他の巨大なモデルと比べ2.8BのActivation paramsで高い性能を達成

image

その他のベンチマークでも高い性能を獲得

image

モデルのアーキテクチャ。MoonViT (Image Encoder, 1Dのpatchをinput, 様々な解像度のサポート, FlashAttention, SigLIP-SO-400Mを継続事前学習, RoPEを採用) + Linear Projector + MoE Language Decoderの構成
image

学習のパイプライン。ViTの事前学習ではSigLIP loss (contrastive lossの亜種)とcaption生成のcross-entropy lossを採用している。joint cooldown stageにおいては、高品質なQAデータを合成することで実験的に大幅に性能が向上することを確認したので、それを採用しているとのこと。optimizerは
- [Paper Note] Muon is Scalable for LLM Training, Jingyuan Liu+, arXiv'25

image

image

post-trainingにおけるRLでは以下の目的関数を用いており、RLVRを用いつつ、現在のポリシーモデルをreferenceとし更新をするような目的関数になっている。curriculum sampling, prioritize samplingをdifficulty labelに基づいて実施している。
image

image




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Reasoning #SmallModel Issue Date: 2025-07-10 GPT Summary- 最近の言語モデルの進展により、状態空間モデル(SSM)の効率的なシーケンスモデリングが示されています。本研究では、ゲーテッドメモリユニット(GMU)を導入し、Sambaベースの自己デコーダーからメモリを共有する新しいデコーダーハイブリッドアーキテクチャSambaYを提案します。SambaYはデコーディング効率を向上させ、長文コンテキスト性能を改善し、位置エンコーディングの必要性を排除します。実験により、SambaYはYOCOベースラインに対して優れた性能を示し、特にPhi4-mini-Flash-Reasoningモデルは推論タスクで顕著な成果を上げました。トレーニングコードはオープンソースで公開されています。 Comment

HF: https://huggingface.co/microsoft/Phi-4-mini-flash-reasoning

元ポスト:

Loading…



Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Pretraining #Pocket #OpenSource #Selected Papers/Blogs #ICCV #Encoder #Backbone Issue Date: 2025-06-26 GPT Summary- OpenVisionは、完全にオープンでコスト効果の高いビジョンエンコーダーのファミリーを提案し、CLIPと同等以上の性能を発揮します。既存の研究を基に構築され、マルチモーダルモデルの進展に実用的な利点を示します。5.9Mから632.1Mパラメータのエンコーダーを提供し、容量と効率の柔軟なトレードオフを実現します。 Comment

元ポスト:

Loading…

v2へアップデート:

Loading…


事前学習時にtext, image encoderのcontrastive lossで学習していたが、text encoderを無くしimage encoderに入力されたimageからcaptionを生成するcaption lossのみにすることで性能を落とすことなく効率を改善

テクニカルペーパーが出た模様

- [Paper Note] OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning, Yanqing Liu+, arXiv'25

HF: https://huggingface.co/collections/UCSC-VLAA/openvision-681a4c27ee1f66411b4ae919
pj page: https://ucsc-vlaa.github.io/OpenVision/

CLIP, SigLIPとは異なり完全にオープンなVision Encoder
image

v2の解説:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #OpenSource #PostTraining Issue Date: 2025-06-18 GPT Summary- 本研究では、教師ありファインチューニング(SFT)と強化学習(RL)の相乗効果を探求し、SFTトレーニングデータの整備においてプロンプト数の増加が推論性能を向上させることを示しました。特に、サンプリング温度を適切に調整することで、RLトレーニングの効果を最大化できることが分かりました。最終的に、AceReason-Nemotron-1.1モデルは、前モデルを大きく上回り、数学およびコードベンチマークで新たな最先端性能を達成しました。 Comment

元ポスト:

Loading…


様々なtakeawayがまとめられている。

SFT,RLに利用されたデータも公開

- Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23

において事前学習時に4 epochまでは性能の改善幅が大きいと報告されていたが、SFTでも5 epoch程度まで学習すると良い模様。

また、SFT dataをscalingさせる際は、promptの数だけでなく、prompt単位のresponse数を増やすのが効果的
image




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #LongSequence Issue Date: 2025-05-27 GPT Summary- QwenLong-CPRSは、長文コンテキスト最適化のための新しいフレームワークで、LLMsの性能低下を軽減します。自然言語指示に基づく多段階のコンテキスト圧縮を実現し、効率と性能を向上させる4つの革新を導入。5つのベンチマークで、他の手法に対して優位性を示し、主要なLLMとの統合で大幅なコンテキスト圧縮と性能向上を達成。QwenLong-CPRSは新たなSOTA性能を確立しました。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #LongSequence #read-later Issue Date: 2025-05-27 GPT Summary- 長いコンテキストの推論におけるLRMsの課題を解決するため、QwenLong-L1フレームワークを提案。ウォームアップ監視付きファインチューニングとカリキュラム指導型段階的RLを用いてポリシーの安定化を図り、難易度認識型の回顧的サンプリングで探索を促進。実験では、QwenLong-L1-32Bが他のLRMsを上回り、優れた性能を示した。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#ComputerVision #Pocket #Transformer #FoundationModel #CVPR Issue Date: 2025-04-11 GPT Summary- 視覚基盤モデル(VFM)をマルチティーチャー蒸留を通じて統合するアプローチAM-RADIOを提案。これにより、ゼロショットの視覚-言語理解やピクセルレベルの理解を向上させ、個々のモデルの性能を超える。新しいアーキテクチャE-RADIOは、ティーチャーモデルよりも少なくとも7倍速い。包括的なベンチマークで様々な下流タスクを評価。 Comment

元ポスト:

Loading…

vision系のfoundation modelはそれぞれ異なる目的関数で訓練されてきており(CLIPは対照学習 Learning Transferable Visual Models From Natural Language Supervision, Radford+, OpenAI, ICML'21 , DINOv2は自己教師あり学習 DINOv2: Learning Robust Visual Features without Supervision, Maxime Oquab+, TMLR'24 , SAMはsegmentation Segment Anything, Alexander Kirillov+, arXiv'23 )それぞれ別の能力を持ってたが、それらを一個のモデルに蒸留しました、という話らしい
image




Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #MultiModal #SpeechProcessing #Video Issue Date: 2025-03-31 GPT Summary- マルチモーダルモデル「Qwen2.5-Omni」は、テキスト、画像、音声、動画を認識し、ストリーミング方式で自然な音声応答を生成する。音声と視覚エンコーダはブロック処理を用い、TMRoPEによる新しい位置埋め込みで音声と動画の同期を実現。Thinker-Talkerアーキテクチャにより、テキスト生成と音声出力を干渉なく行う。Qwen2.5-Omniは、エンドツーエンドで訓練され、音声指示に対する性能がテキスト入力と同等で、ストリーミングTalkerは既存手法を上回る自然さを持つ。 Comment

Qwen TeamによるマルチモーダルLLM。テキスト、画像、動画音声をinputとして受け取り、テキスト、音声をoutputする。
image

weight: https://huggingface.co/collections/Qwen/qwen25-omni-67de1e5f0f9464dc6314b36e

元ポスト: https://www.linkedin.com/posts/niels-rogge-a3b7a3127_alibabas-qwen-team-has-done-it-again-this-activity-7311036679627132929-HUqy?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Alignment #ICLR Issue Date: 2024-10-17 GPT Summary- 報酬モデルの訓練にはBradley-Terryスタイルと回帰スタイルがあり、データの一致が重要だが、適切なデータセットが不足している。HelpSteer2データセットでは、Bradley-Terry訓練用の好みの注釈を公開し、初めて両モデルの直接比較を行った。これに基づき、両者を組み合わせた新アプローチを提案し、Llama-3.1-70B-InstructモデルがRewardBenchで94.1のスコアを達成。さらに、REINFORCEアルゴリズムを用いて指示モデルを調整し、Arena Hardで85.0を記録した。このデータセットはオープンソースとして公開されている。 Comment

MTBench, Arena HardでGPT4o-20240513,Claude-3.5-sonnet-20240620をoutperform。Response lengthの平均が長いこと模様
image

openreview: https://openreview.net/forum?id=MnfHxPP5gs




Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #Prompting #Evaluation #ICLR #Selected Papers/Blogs Issue Date: 2026-01-21 GPT Summary- LLMの性能特性化が重要であり、プロンプト設計がモデル挙動に強く影響することを示す。特に、プロンプトフォーマットに対するLLMの感度に注目し、微妙な変更で最大76ポイントの性能差が見られる。感度はモデルサイズや少数ショットの数に依存せず、プロンプトの多様なフォーマットにわたる性能範囲の報告が必要。モデル間のフォーマットパフォーマンスが弱く相関することから、固定されたプロンプトフォーマットでの比較の妥当性が疑問視される。迅速なフォーマット評価のための「FormatSpread」アルゴリズムを提案し、摂動の影響や内部表現も探る。 Comment

openreview: https://openreview.net/forum?id=RIu5lyNXjT




Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #MultiModal #MoE(Mixture-of-Experts) #VisionLanguageModel Issue Date: 2025-10-07 GPT Summary- Ariaは、オープンなマルチモーダルネイティブAIモデルであり、視覚とテキストのタスクにおいて高い性能を発揮します。3.9Bの視覚トークンと3.5Bのテキストトークンを持つエキスパートの混合モデルで、既存のプロプライエタリモデルを上回ります。言語理解やマルチモーダル理解を強化する4段階のパイプラインで事前トレーニングされ、モデルウェイトとコードベースはオープンソースとして提供されます。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/rhymes-ai/Aria

提案された当時2024年10月時点で、VisionとText Understanding双方でに強い初めてのモデルで、初のマルチモーダルMoEモデルで(当時まだ話題になっていなかったDeepSeek-V2アーキテクチャを採用)、LongVideoのUnderstanidinpで当時の最高性能であったとのこと。




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel Issue Date: 2024-12-15 GPT Summary- 140億パラメータの言語モデル「phi-4」は、合成データを取り入れたトレーニングにより、STEMに特化したQA能力で教師モデルを大幅に上回る性能を示す。phi-3のアーキテクチャを最小限に変更しただけで、推論ベンチマークにおいても改善されたデータとトレーニング手法により強力なパフォーマンスを達成。 Comment

現状Azureでのみ利用可能かも。Huggingfaceにアップロードされても非商用ライセンスになるという噂も

MITライセンス
HuggingFace:
https://huggingface.co/microsoft/phi-4




Paper/Blog Link My Issue
#NLP #LanguageModel #SyntheticData #OpenSource Issue Date: 2024-11-06 GPT Summary- Hunyuan-Largeは、3890億パラメータを持つオープンソースのTransformerベースの専門家混合モデルで、最大256Kトークンを処理可能。言語理解や生成、論理推論などのベンチマークでLLama3.1-70Bを上回り、LLama3.1-405Bと同等の性能を示す。主な特徴には大規模な合成データ、混合専門家ルーティング、キー・バリューキャッシュ圧縮、専門家特有の学習率戦略が含まれ、今後のモデル開発に向けた洞察も提供。コードとモデルは公開されている。 Comment

合計パラメータ数はLlama-3.1-405Bと同等の389Bだが、MoEによって52BのActive ParameterでSoTAを達成したTencentのOpenSource LLM。大量のSynthetia Dataを利用している。




Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel Issue Date: 2024-04-23 GPT Summary- phi-3-miniは38億パラメータの言語モデルであり、3.3兆トークンで訓練されています。Mixtral 8x7BやGPT-3.5などの大規模モデルに匹敵する総合的なパフォーマンスを持ちながら、スマートフォンにデプロイ可能なサイズです。このモデルは、厳密にフィルタリングされたWebデータと合成データで構成されており、堅牢性、安全性、およびチャット形式に適合しています。また、phi-3-smallとphi-3-mediumというより大規模なモデルも紹介されています。 Comment

Textbooks Are All You Need II: phi-1.5 technical report, Yuanzhi Li+, N/A, arXiv'23 の次の次(Phi2.0についてはメモってなかった)。スマホにデプロイできるレベルのサイズで、GPT3.5Turbo程度の性能を実現したらしい

Llama2と同じブロックを利用しているため、アーキテクチャはLlama2と共通。




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #OpenSource Issue Date: 2024-03-05 GPT Summary- LMsの商業的重要性が高まる中、最も強力なモデルは閉鎖されており、その詳細が非公開になっている。そのため、本技術レポートでは、本当にオープンな言語モデルであるOLMoの初回リリースと、言語モデリングの科学を構築し研究するためのフレームワークについて詳細に説明している。OLMoはモデルの重みだけでなく、トレーニングデータ、トレーニングおよび評価コードを含むフレームワーク全体を公開しており、オープンな研究コミュニティを強化し、新しいイノベーションを促進することを目指している。 Comment

Model Weightsを公開するだけでなく、training/evaluation codeとそのデータも公開する真にOpenな言語モデル(truly Open Language Model)。AllenAI




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel Issue Date: 2024-01-09 GPT Summary- Mixtralは、Sparse Mixture of Experts(SMoE)言語モデルであり、各レイヤーが8つのフィードフォワードブロックで構成されています。Mixtralは、トークンごとに2つのエキスパートを選択し、それらの出力を組み合わせます。Mixtralは、Llama 2 70BとGPT-3.5を上回る性能を持ち、数学、コード生成、多言語のベンチマークで特に優れています。また、Mixtral 8x7B - Instructという指示に従うモデルも提供されており、人間のベンチマークを凌駕しています。 Comment

Mixture of experts Layer: inputを受け取ったrouterが、8つのexpertsのうち2つを選択し順伝搬。2つのexpertsのoutputを加重平均することで最終的なoutputとする。
image




Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #MultiModal Issue Date: 2025-04-11 GPT Summary- PaLI-3は、従来のモデルに比べて10倍小型で高速な視覚言語モデル(VLM)であり、特にローカリゼーションや視覚的テキスト理解において優れた性能を示す。SigLIPベースのPaLIは、20億パラメータにスケールアップされ、多言語クロスモーダル検索で新たな最先端を達成。50億パラメータのPaLI-3は、VLMの研究を再燃させることを期待されている。 Comment

OpenReview: https://openreview.net/forum?id=JpyWPfzu0b

実験的に素晴らしい性能が実現されていることは認められつつも
- 比較対象がSigLIPのみでより広範な比較実験と分析が必要なこと
- BackboneモデルをContrastive Learningすること自体の有用性は既に知られており、新規性に乏しいこと

としてICLR'24にRejectされている




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel Issue Date: 2024-05-24 GPT Summary- Mistral 7B v0.1は、70億パラメータの言語モデルであり、高速な推論のためにGQAを活用し、SWAを組み合わせている。また、Mistral 7B -- InstructはLlama 2 13B -- Chatモデルを上回っており、Apache 2.0ライセンスの下で公開されています。 Comment

Mistral Large Mixtral-8x22B-v0.1, 2024 などのモデルも参照のこと



モデルのスケールが大きくなると、inferenceのlatencyが遅くなり、計算コストが大きくなりすぎて実用的でないので、小さいパラメータで素早いinference実現したいよね、というモチベーション。

そのために、SlidingWindowAttentionとGroupQueryAttention GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N/A, arXiv'23 を活用している。

image



より小さいパラメータ数でLlama2を様々なタスクでoutperformし

image



Instruction Tuningを実施したモデルは、13BモデルよりもChatbotArenaで高いElo Rateを獲得した。

image

コンテキスト長は8192




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #Chain-of-Thought #SmallModel #One-Line Notes Issue Date: 2023-11-21 GPT Summary- Orca 1は、豊富なシグナルから学習し、従来のモデルを上回る性能を発揮します。Orca 2では、小さな言語モデルの推論能力を向上させるために異なる解決戦略を教えることを目指しています。Orca 2は、さまざまな推論技術を使用し、15のベンチマークで評価されました。Orca 2は、同じサイズのモデルを大幅に上回り、高度な推論能力を持つ複雑なタスクで優れた性能を発揮します。Orca 2はオープンソース化されており、小さな言語モデルの研究を促進します。 Comment

ポイント解説:

Loading…

HF: https://huggingface.co/microsoft/Orca-2-13b

論文を読むとChatGPTのデータを学習に利用しているが、現在は競合となるモデルを作ることは規約で禁止されているので注意




Paper/Blog Link My Issue
#NLP #LanguageModel #FoundationModel Issue Date: 2023-07-22 GPT Summary- この研究では、大規模な言語モデルであるLlama 2を開発し、微調整しています。Llama 2-Chatは対話に特化しており、オープンソースのチャットモデルを上回る性能を示しています。安全性の改善にも取り組んでおり、責任ある開発に貢献することを目指しています。 Comment

参考:

Loading…

Llama, およびLlama2では、一般的なTransformer Decoderとは異なり、linear layerの”前に”RMSPropをかませている点が異なる。

また、Llama2では、Llamaと比較して

- Group Query Attentionの利用 GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N/A, arXiv'23

- 活性化関数として、ReLUではなく、SwiGLU GLU Variants Improve Transformer, Noam Shazeer, N/A, arXiv'20 の活用

- Positional Embeddingとして、RoPE RoFormer: Enhanced Transformer with Rotary Position Embedding, Jianlin Su+, N/A, Neurocomputing, 2024 の活用

- より長いContext Windowsでの学習(4k)

を実施している。

image



出典: https://cameronrwolfe.substack.com/p/llama-2-from-the-ground-up




Paper/Blog Link My Issue
#Article #ComputerVision #Controllable #NLP #Transformer #MultiModal #DiffusionModel #WorldModels #interactive #4D (Video) #One-Line Notes #RectifiedFlow #Realtime Issue Date: 2026-01-22 Comment

blog: https://over.world/blog/the-path-to-real-time-worlds-and-why-it-matters
pj page: https://over.world/

元ポスト:

Loading…

リアルタイムにzero latencyでマウス(カメラも自由に動かせる)、キーボード、テキストでinteraction可能なworld model




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #MoE(Mixture-of-Experts) #One-Line Notes Issue Date: 2026-01-20 Comment

元ポスト:

Loading…

関連:
- GLM-4.7: Advancing the Coding Capability, Z.ai, 2025.12

30B-A3BのMoEモデルで、gpt-oss-20B, Qwen3-30B-A3B-Thinking-2507を、SWE Bench Verified, tau2_bench, BrowseComp(SWEタスク, tooluse, 検索)等で大幅にoutperform。AIME, GPQA, HLEなどの推論系のベンチマークも同等以上。つまり、agenticなタスクに適した能力を有することが示唆される。

ポイント解説:

Loading…



Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #MoE(Mixture-of-Experts) #Selected Papers/Blogs Issue Date: 2026-01-15 Comment

元ポスト:

Loading…

解説:

Loading…

coding, agentiaなベンチでTopTierを獲得した560B-27BのMoEモデル。MIT Licence

1MコンテキストウィンドウのZigzag attentionのモデルもcoming soon...だと...!?

Zigzag attentionはおそらく以下だろうか:
- [Paper Note] Efficient Context Scaling with LongCat ZigZag Attention, Chen Zhang+, arXiv'25, 2025.12




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Blog #SmallModel #Japanese #PostTraining #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes #AudioLanguageModel Issue Date: 2026-01-09 Comment

元ポスト:

Loading…

日本語に特化した言語モデルも存在し、Sarashina2.2-1b-instruct-v0.1, TinySwallow-1.5B-InstructよりもJMMLU, M-IFEval (ja), GSM8K (ja)においてより高い性能を発揮している。

image

LFM2.5-1.2B-Base: [Hugging Face]( https://huggingface.co/LiquidAI/LFM2.5-1.2B-Base)
LFM2.5-1.2B-Instruct: [Hugging Face]( https://huggingface.co/LiquidAI/LFM2.5-1.2B-Instruct), [LEAP]( https://leap.liquid.ai/models?model=lfm2.5-1.2b-instruct), [Playground]( https://playground.liquid.ai/chat?model=cmk1jyp8f000204i56yy76uwh)
LFM2.5-1.2B-JP: [Hugging Face]( https://huggingface.co/LiquidAI/LFM2.5-1.2B-JP), [LEAP]( https://leap.liquid.ai/models?model=lfm2.5-1.2b-jp)
LFM2.5-VL-1.6B: [Hugging Face]( https://huggingface.co/LiquidAI/LFM2.5-VL-1.6B), [LEAP]( https://leap.liquid.ai/models?model=lfm2.5-vl-1.6b), [Playground]( https://playground.liquid.ai/chat?model=cmk0wefde000204jp2knb2qr8), [Demo]( https://huggingface.co/spaces/LiquidAI/LFM2.5-VL-1.6B-WebGPU)
LFM2.5-Audio-1.5B: [Hugging Face]( https://huggingface.co/LiquidAI/LFM2.5-Audio-1.5B), [LEAP]( https://leap.liquid.ai/models?model=lfm2.5-audio-1.5b), [Playground]( http://playground.liquid.ai/talk)

LiquidAIのモデルは日本語に特化したモデルが多く存在するのが特徴的に感じる。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SmallModel #RecurrentModels Issue Date: 2025-12-25 Comment

元ポスト:

Loading…

関連:
- Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07

ポイント解説:

Loading…


LFM2にRLによるpost trainingを実施し、指示追従、知識、数学を伸ばしているとのこと。(ドキュメントにもこれは書かれている)

日本語もサポートされている。2.6Bモデルは、22 conv+8 attnと書かれている。

アーキテクチャは下記で、LIV Operatorは入力に応じて異なる線形変換をするオペレータだが、学習された結果convolutionするのが最適ということになったのだろうか?よくわからない。
>Architecture: Hybrid model with multiplicative gates and short convolutions: 10 double-gated short-range LIV convolution blocks and 6 grouped query attention (GQA) blocks.




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #Reasoning #SoftwareEngineering #One-Line Notes #Reference Collection Issue Date: 2025-12-25 Comment

元ポスト:

Loading…

HF: https://huggingface.co/zai-org/GLM-4.7

デザインアリーナでtop2:

Loading…

Artificial Intelligence Indexにおいて、OpenModelの中でトップ:

Loading…

GLM-4.6と比較して、コーディング/SWE, reasoning, tooluseなどの能力が大幅に向上

Interleaved Thinking, Preserved Thinking, Turn-level Thinkingの3つの特性がある。

Interleaved Thinkingは全てのレスポンスとtool callingの前にreasoningを挟むことで、IFや生成品質を向上。
Preserved Thinkingは過去のターンの全てのthinking blockのトークンを保持し、再計算もしないのでマルチターンでの一貫性が増す。
Turn-level Thinkingはターンごとにreasoningを実施するか否かをコントロールでき、latency/costを重視するか、品質を重視するかを選択できる、といった特徴がある模様。

モデルサイズは358B




Paper/Blog Link My Issue
#Article #ComputerVision #Transformer #DiffusionModel #VariationalAutoEncoder #VideoGeneration/Understandings #3D (Scene) #One-Line Notes #Audio-Text-to-Video #Audio-Text-Image-to-Video #Video Continuation Issue Date: 2025-12-17 Comment

元ポスト:

Loading…

アーキテクチャはDiTベースのDiffusion Modelで、3D Variational AutoencoderによってEncode/Decodeされ、3D RoPEによって位置情報が埋め込まれる。DiT Blockでは、テキストとaudio用のcross attentionが用いられてこれらのモーダルに関する情報が組み込まれる。audioはWav2Vecでエンコードされ、テキストはUMT5[^1]によってエンコードされる。

image

[^1]: multilingualなT5で100言語以上がサポートされている模様




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MoE(Mixture-of-Experts) #AttentionSinks #PostTraining #Selected Papers/Blogs #Reference Collection Issue Date: 2025-12-17 Comment

technical report: https://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf
HF: https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash

元ポスト:

Loading…

関連:

Loading…

ポイント解説:

Loading…

attention sink(というより恐らくsink token)により性能が向上している:

Loading…

言及されているpost trainingが有用らしい:

Loading…

所見:

Loading…


省パラメータでtop-tierのモデルに肉薄する方法のヒントがあるかもしれない。

解説:

Loading…



Paper/Blog Link My Issue
#Article #SpeechProcessing #TTS #One-Line Notes #Realtime Issue Date: 2025-12-17 Comment

元ポスト:

Loading…

realtime(最初の発話まで<150ms)のlatencyが実現されたOpenWeightなTTSで、multilingualモデルは日本語にも対応している模様。テクニカルレポートがないのでよくわからないが、githubがあるのでソースコードを見ればアーキテクチャがわかりそうではある。たとえばVoiceEncoderには(おそらく速度を重視するために)LSTMが利用されていた。

github: https://github.com/resemble-ai/chatterbox




Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #SmallModel #OpenSource #Selected Papers/Blogs #VideoGeneration/Understandings #VisionLanguageModel #2D (Image) #4D (Video) #KeyPoint Notes Issue Date: 2025-12-17 Comment

テクニカルレポート: https://www.datocms-assets.com/64837/1765901660-molmo_v2_2026-techreport-3.pdf
HF: https://huggingface.co/collections/allenai/molmo2

関連:
- Molmo: A family of open state-of-the-art multimodal AI models, AI2, 2024.09

Qwen3とOlmoをベースにしたvariantsが存在し、Olmoの方はバックボーンのLLMも含めて全てがオープンになっている。MetaのPerceptionLMと比較して1/8の動画データ量で高い性能を達成できており、データのcurationの品質と、grounding basedな目的関数の工夫によって実現されているとのこと。

proprietaryなモデル群と比較すると、trackingは圧勝、そのほかはGPT5-miniと同様なものが多い。モデルによってタスクの優劣が結構分かれており、Video関連タスクをタスクをまたいで汎化させることにはclosedでも苦戦しているように見える。

image

オープンモデルとの比較で言うと圧勝で、LongVideoのQAに関してだけは、Eagle2.5-8Bと呼ばれるモデルが勝っている。
image

あとは全体を通じてLLMのバックボーンがQwen3の場合の性能が良いことが興味深い。バックボーンに採用するLLMに応じて性能が結構変わる。これはアーキテクチャがそもそもConnectorを利用するタイプのもので、Unifiedなアーキテクチャではないことが要因としては考えられる。

image

元ポスト:

Loading…



Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #SoftwareEngineering Issue Date: 2025-12-10 Comment

SWE Bench VerifiedでOpenweightモデルの中ではSoTAと同等程度を達成。123B, 24Bの2種類がリリース。DeepSeekV3.2, Kimi K2よりも大幅に小さいパラメータで同等以上の性能。独自の人手評価(win, tie, loseのアリーナ形式)によるとSonnet 4.5には負けるがDeepSeekV3.2とは同等以上の割合で好まれた。

元ポスト:

Loading…

HF: https://huggingface.co/collections/mistralai/devstral-2




Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #AIAgents #Evaluation #SmallModel #OpenSource #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-12-07 Comment

元ポスト:
-

Loading…

-
Loading…

agenticなSLM(8Bモデル)で、モデル、データ(SFT, RL)、学習用のコードなど全て公開。同等規模のモデルQwen3-{8,32B}よりもSWE Bench Verified, Terminal Benchなどで上回る(ただし、Qwen3はgenericなモデルであり、コーディング特化のQwen3-coder-30Bには及ばない。しかしモデルサイズはこちらの方が大きいので何とも言えない。おそらく同等規模のコーディング特化Qwen3が存在しない)。また、SLMのコーディングエージェントの進化をより精緻に捉えるためのベンチマーク OpenThoughts-TB-Devも公開している。こちらでもQwen3-{8, 32B}に対しても高い性能を記録。




Paper/Blog Link My Issue
#Article #Pocket #Dataset #ReinforcementLearning #Reasoning #SmallModel #Robotics #VisionLanguageActionModel #Realtime #AutonomousVehicle Issue Date: 2025-12-06 GPT Summary- AR1は因果連鎖推論と軌道計画を統合した視覚–言語–行動モデルであり、自律運転の意思決定を強化します。主な革新は、因果連鎖データセットの構築、モジュラーVLAアーキテクチャの導入、強化学習を用いた多段階トレーニング戦略です。評価結果では、AR1は計画精度を最大12%向上させ、推論の質を45%改善しました。リアルタイムパフォーマンスも確認され、レベル4の自律運転に向けた実用的な道筋を示しています。 Comment

HF: https://huggingface.co/nvidia/Alpamayo-R1-10B

元ポスト:

Loading…



Paper/Blog Link My Issue
#Article #NeuralNetwork #Transformer #AIAgents #SpeechProcessing #Blog #MultiLingual #OpenSource #One-Line Notes #VAD Issue Date: 2025-12-04 Comment

dataset: https://huggingface.co/pipecat-ai
code: https://github.com/pipecat-ai/smart-turn
model: https://huggingface.co/pipecat-ai/smart-turn-v3

オープンソースのVoice Activity Detection (VAD)モデル。本ブログのv3.1では、TTSデータだけでなく英語とスペイン語の人間によるaudio sampleも追加し学習し性能向上。23言語をサポートし、Accuracyは90%以上を達成。数msでのリアルタイムなlatencyを達成できる。

バックボーンはWhisper Tiny encoderで、headとしてshallow linear classifiesを利用しているとのこと。

Whisper:
- [Paper Note] Robust Speech Recognition via Large-Scale Weak Supervision, Alec Radford+, ICML'23, 2022.12




Paper/Blog Link My Issue
#Article #ComputerVision #Analysis #NLP #LanguageModel #VisionLanguageModel Issue Date: 2025-11-30 Comment

元ポスト:

Loading…

MITとHuggingFaceの調査によると、open weightモデルのDLにおいて、米国のAI産業における中国のモデルDL数が米国のモデルを初めて抜いた模様。

ダッシュボード: https://huggingface.co/spaces/economies-open-ai/open-model-evolution




Paper/Blog Link My Issue
#Article #AIAgents #Blog #SmallModel #ComputerUse #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-25 Comment

元ポスト:

Loading…

computer useに特化したMS初のSLM(CUA)

関連:
- [Paper Note] AgentInstruct: Toward Generative Teaching with Agentic Flows, Arindam Mitra+, arXiv'24, 2024.07
- [Paper Note] Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasks, Adam Fourney+, arXiv'24, 2024.11
- [Paper Note] WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models, Hongliang He+, ACL'24, 2024.01
- [Paper Note] Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V, Jianwei Yang+, arXiv'23, 2023.10
- GPT-4V-Act, ddupont808, 2023.10

WebVoyagerでの評価によると、タスクに対するコスト性能比が非常に高いことがわかる。

image

MIT Licence

著者ポスト:

Loading…



Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenSource #read-later #Selected Papers/Blogs #DeepResearch Issue Date: 2025-11-19 GPT Summary- RLERを用いて進化するルーブリックを構築し、長文深層研究モデルDR Tulu-8Bを開発。これにより、既存のモデルを大幅に上回る性能を実現し、クエリあたりのサイズとコストを削減。すべてのデータ、モデル、コードを公開し、深層研究システムの新しいインフラも提供。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

著者ポスト2:

Loading…

著者ポスト3:

Loading…

demoをほぼ無料で実施できるとのこと:

Loading…

takeaway:

Loading…



Paper/Blog Link My Issue
#Article #Transformer #SpeechProcessing #MultiLingual #AutomaticSpeechRecognition(ASR) #Selected Papers/Blogs #AudioLanguageModel Issue Date: 2025-11-12 Comment

paper: https://scontent-nrt1-2.xx.fbcdn.net/v/t39.2365-6/581068541_867604242498398_5662399655411595851_n.pdf?_nc_cat=104&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=roRXUCWwUzgQ7kNvwGfUHdX&_nc_oc=Adk1jwJ3ikYa7-wjyoYuwAWxspuId2sUB5R3ZFF_nob0zB5jE6dql9wPt6OXGp9hJjE&_nc_zt=14&_nc_ht=scontent-nrt1-2.xx&_nc_gid=_HnDT1USFOsMkvlcwznXoQ&oh=00_AfjbS8ajtH_TlDsUoGJIPal9Vq0iq0BL4gKvBSdqHsZ3Sw&oe=6919E35F




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Reasoning #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-11-07 Comment

HF: https://huggingface.co/moonshotai

元ポスト:

Loading…

coding系ベンチマークでは少しGPT5,Claude Sonnet-4.5に劣るようだが、HLE, BrowseCompなどではoutperform

tooluseのベンチマークであるtau^2 Bench TelecomではSoTA

Loading…

モデルの図解:

Loading…

INT4-QATに関する解説:

Loading…

INT4-QATの解説:

Loading…

Kimi K2 DeepResearch:

Loading…

METRによる50% timehorizonの推定は54分:

Loading…


ただしサードパーティのinference providerによってこれは実施されており、(providerによって性能が大きく変化することがあるため)信頼性は低い可能性があるとのこと。

METRでの評価でClaude 3.7 Sonnetと同等のスコア:

Loading…


openweightモデルがproprietaryモデルに追いつくのはsoftwere engineeringタスク(agenticなlong horizon+reasoningタスク)9ヶ月程度を要しているとのこと



Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #Safety #One-Line Notes #Safeguard Issue Date: 2025-10-30 Comment

元ポスト:

Loading…

Loading…

blog: https://openai.com/index/introducing-gpt-oss-safeguard/

ポリシーとそのポリシーに従うべきコンテンツが与えられたときに、コンテンツを分類するタスクを実施できる汎用的なreasoningモデル。つまり、任意のポリシーを与えて追加の学習なしでpromptingによってコンテンツがポリシーのもとでsafe/unsafeなのかを分類できる。

gpt-ossをreinforcbment finetuningしているとのこと。




Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #TTS #Routing #UMM #Omni #Sparse #ImageSynthesis Issue Date: 2025-10-28 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25

過去一番多くのタグを付与した気がするが、果たして大規模、Omniモデルかつ、UMMにしたことによる恩恵(=様々なモダリティを統一された空間上に学習させる恩恵)はどの程度あるのだろうか?

アーキテクチャを見ると、モダリティごとに(モダリティ単位でのバイアスがかかった)Routerが用意されexpertにルーティングされるような構造になっている。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Selected Papers/Blogs #Reference Collection Issue Date: 2025-10-26 Comment

元ポスト:

Loading…

関連:
- [Paper Note] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention, MiniMax+, arXiv'25, 2025.06

CISPOを提案したMiniMax-M1の後続モデルと思われるMiniMax-M2-previewが中国製のモデルでArtificial Intelligenceでの評価でトップに立った模様。

所見:

Loading…

モデルが公開:
https://huggingface.co/MiniMaxAI/MiniMax-M2

proprietaryモデルになるもんだと思ってた、、、これを公開するの凄すぎでは、、、

公式ポスト:

Loading…

MITライセンス

vLLMでのserving方法:
https://docs.vllm.ai/projects/recipes/en/latest/MiniMax/MiniMax-M2.html

> You can use 4x H200/H20 or 4x A100/A800 GPUs to launch this model.

上記GPUにおいては--tensor-parallel-size 4で動作する模様。

SGLangでもサポートされている:

Loading…

AnthropicのAPIの利用をお勧めする理由:

Loading…


(以下管理人の補足を含みます)MiniMax-M2はAgenticなCoTをするモデルなので、contextの情報を正しく保持する必要がある。特に、マルチターンのやり取りをAPIを介してユーザが実行する場合、OpenAIのchatcompletionはCoTを返してくれず、マルチターンのやり取りをしても同じsessionで利用したとしても、前のターンと同じCoTが利用されないことがドキュメントに記述されている。このような使い方をサポートしているのはResponceAPIのみであるため、ResponceAPIでのみ適切なパフォーマンスが達成される。この点がconfusingなので、誤った使い方をするとMiniMaxの真価が発揮されず、しかもそれに気づけずに使い続けてしまう可能性がある。AnthropicのAPIではSonnet 4.5では全ての応答に明示的にCoTが含まれるため、その心配がない、だからAnthropicがおすすめ、みたいな話だと思われる。

アーキテクチャ解説:

Loading…

解説:

Loading…



Paper/Blog Link My Issue
#Article #ComputerVision #NLP #SmallModel #MultiLingual #DocParser #VisionLanguageModel #OCR Issue Date: 2025-10-22 Comment

100+言語のdots.ocr benchと呼ばれるものでの性能も報告されているが、日本語性能はどのくらいなのだろうか

MIT Licence

参考:VLMを使った多言語ドキュメントパーサ「dots.ocr」を試す, kun432, Zenn
https://zenn.dev/kun432/scraps/b91fce6fbeb30c

日本語もかなりいけてそう




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Japanese Issue Date: 2025-10-07 Comment

マルチターンのtool callingのベンチマーク のSimple, Multiple(それぞれ単一ツール呼び出し、複数のツールの中から適切なツールを呼び出す能力)でBFCVv3でGPT-5超え。ただしGPT-5はツール呼び出しではなくユーザと対話する傾向にあるため、chatアプリケーションではこちらの方が有用な場合があるので全てのユースケースでPLaMoが上回ることを示しているわけではない、という注釈がついている。より実験的な環境であるLive MultipleではGPT-5の方がスコアが高い模様。
- BFCLv2, UC Berkeley, 2024.08

単一呼び出し、複数定義されている中から適切なツールを呼び出すことで済むようなユースケースの場合は検討の余地があると思われる。ただし細かいreasoning_effortやverbosity等のパラメータ設定が記述されていないように見えるので、その辺はどうなんだろうか。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SpeechProcessing #Blog #Editing Issue Date: 2025-10-03 Comment

元ポスト:

Loading…

Ming-Omniの後継モデルで、スピーチに特化して書き起こし、理解、編集などができるモデル

- [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25

HF: https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B

公式ポスト:

Loading…



Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #MoE(Mixture-of-Experts) #read-later #VisionLanguageModel #One-Line Notes Issue Date: 2025-09-30 Comment

関連:
- [Paper Note] GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models, GLM-4. 5 Team+, arXiv'25

元ポスト:

Loading…

続報:

Loading…

Artificial Intelligenceによる評価:

Loading…


OpenWeightモデルの中でトップレベルのベンチスコア

HFにてモデルが公開された模様。ベンチマークのスコアを見て思ったが、106BA12Bのモデルと9Bモデルのスコア差がベンチマークによっては小さいので、場合によってはSLMの方でtest time scacingを効かせた方が、時間的な制約がきつい場合は現実的には高い性能が出るのでは?




Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #UMM #One-Line Notes Issue Date: 2025-09-29 Comment

元ポスト:

Loading…

所見:

Loading…

テキスト生成+画像理解・生成が可能なUnified Multimodal Models (UMMs)。テキストはtokenizer、画像は生成用エンコーダ、理解用エンコーダを用意してエンコードしDecoder-Only Tranformerに入力。auto-regressiveに生成し、テキストはDe-Tokenizerでテキスト化、画像の場合は専用のDecoderでデコードする。

image




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #FoundationModel #Blog #RecurrentModels Issue Date: 2025-09-26 Comment

元ポスト:

Loading…

LiquidAIによるedgeデバイス向けのFoundation Model。品質、スピード、メモリ、ハードウェアのバランスを最適にしておるとのこと。たとえばQwenと比較して2倍のデコードとprefill速度とのこと。また、同サイズのモデル群よりも高い性能を実現しているらしい。
下記グラフはMMLU, IFEval,IFBENCH,GSM8K,MMMLUでの評価の平均。他にもGPQA,MGSMでも評価しており、同サイズのモデルと比べて同等か少し劣るくらい。

image

アーキテクチャはRNNをベースにしており、従来の時間がstepごとに発展するRNNではなく、連続時間を扱えるようなRNNの変種なようでより柔軟に時間スケールを扱えるようなアーキテクチャらしい。また、LIV Operatorと呼ばれる入力に応じて動的に異なる線形変換を実施するOperatorを採用している模様。たとえば入力に応じて、convolution, attention, recurrenceなどのoperationが変化する。これに基づいて、さまざまなアーキテクチャのNNを定義できるようになったので、最適なアーキテクチャを模索するためにSTARと呼ばれるアルゴリズムでNeural Architecture Searchを実施した模様。

メモリに制約があるエッジデバイス向けにKVCache不要で現在の隠れ状態のみを保持すれば良いRNNベースのアーキテクチャを採用するのは理に適っている。




Paper/Blog Link My Issue
#Article #MachineTranslation #NLP #LanguageModel #AIAgents #RAG(RetrievalAugmentedGeneration) #Mathematics #SmallModel #Japanese #DocParser Issue Date: 2025-09-26 Comment

blog: https://www.liquid.ai/blog/introducing-liquid-nanos-frontier-grade-performance-on-everyday-devices

モデルファミリーに350Mの日英翻訳モデルが含まれている…だと!?

タスクスペシフィックなedgeデバイス向けのSLM群。

以下のようなモデルファミリー。非構造テキストからのデータ抽出、日英翻訳、RAG, tooluse, Math, フランス語のチャットモデル。これまでマルチリンガルに特化したMTとかはよく見受けられたが、色々なタスクのSLMが出てきた。
image

元ポスト:

Loading…

LFM2はこちら:
- Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #MoE(Mixture-of-Experts) Issue Date: 2025-09-20 Comment

元ポスト:

Loading…

- Ling-flash-2.0-baseをベースにしたモデルで、100B-A6.1 params
- 各種ベンチでgpt-oss-120Bと同等以上。denseな40Bモデル(Qwen-32B, Seed-OSS-36B-Instruct)やproprietary modelであるGemini-2.5-Flashと比較して同等以上の性能
image

- アーキテクチャ
- Multi Token Prediction [Paper Note] Multi-Token Prediction Needs Registers, Anastasios Gerontopoulos+, NeurIPS'25
- 1/32 experts activation ratio
- gpt-oss-120Bは4 expertsがactiveだが、こちらは1 shared + 8 experts
- attention head数はgpt-oss-120Bの64の1/2である32
- group size 4のGQA GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N/A, arXiv'23
- gpt-oss-120BのEmbed dim=2880に対して大きめのEmbed dim=4096
- 最初の1ブロックだけ、MoEの代わりにhidden_size=9216のFNNが利用されている

image




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #DeepResearch Issue Date: 2025-09-17 Comment

元ポスト:

Loading…

ベンチマーク:
- [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25
- [Paper Note] BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, Jason Wei+, arXiv'25
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23
- [Paper Note] xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations, Kaiyuan Chen+, arXiv'25
- [Paper Note] SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge, Lukas Haas+, arXiv'25
- [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25
- [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, NAACL'25
- [Paper Note] BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese, Peilin Zhou+, arXiv'25

関連研究:
- [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25
- [Paper Note] WebDancer: Towards Autonomous Information Seeking Agency, Jialong Wu+, arXiv'25
- [Paper Note] WebSailor: Navigating Super-human Reasoning for Web Agent, Kuan Li+, arXiv'25
- [Paper Note] WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization, Zhengwei Tao+, arXiv'25
- [Paper Note] WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent, Xinyu Geng+, arXiv'25
- [Paper Note] WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents, Zile Qiao+, arXiv'25
- [Paper Note] ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization, Xixi Wu+, arXiv'25
- [Paper Note] WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research, Zijian Li+, arXiv'25
- [Paper Note] WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning, Kuan Li+, arXiv'25
- [Paper Note] Scaling Agents via Continual Pre-training, Liangcai Su+, arXiv'25
- [Paper Note] Towards General Agentic Intelligence via Environment Scaling, Runnan Fang+, arXiv'25




Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #ComputerUse #GRPO #VisionLanguageModel Issue Date: 2025-09-16 Comment

7BのみApache 2.0ライセンス。3BはQwenのライセンスを継承し、72Bはnon-commercialライセンスらしい

モデルカードとブログによると下記モデル群とSonnet 4 よりもComputer Use関連ベンチマーク(GUI上での位置を特定するUI LocalizationとScreen Contentの理解およびQA関連のベンチマーク)で高性能とのこと:
- [Paper Note] UI-Venus Technical Report: Building High-performance UI Agents with RFT, Zhangxuan Gu+, arXiv'25
- Introducing UI-TARS-1.5, ByteDance, 2025.04
- Qwen2.5-VL-32B-Instruct, Qwen Team, 2025.03

モデルカードによるとopen sourceデータのmixと、合成データ、人手でアノテーションされたデータを用いて、SFT->GRPOによって学習されたとだけ書かれている。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SmallModel Issue Date: 2025-09-12 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

- Ling V2, inclusionAI, 2025.09

をベースモデルとしてLong CoT SFT, RLVR, RLHFを実施した結果、code, math, logic, science関連のベンチでgpt-oss-20B(medium)を超えているらしい。
image

Joint Trainingと書かれているが詳細はなく、よくわからない。




Paper/Blog Link My Issue
#Article #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #OpenSource #GRPO #read-later #RLVR #Selected Papers/Blogs Issue Date: 2025-09-10 Comment

HF: https://huggingface.co/LLM360/K2-Think
code:
- https://github.com/MBZUAI-IFM/K2-Think-SFT
- https://github.com/MBZUAI-IFM/K2-Think-Inference

RLはverl+GRPOで実施したとテクニカルペーパーに記述されているが、当該部分のコードの公開はされるのだろうか?
RLで利用されたデータはこちら:
- [Paper Note] Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective, Zhoujun Cheng+, NeurIPS'25

元ポスト:

Loading…



Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #MoE(Mixture-of-Experts) #read-later #VisionLanguageModel Issue Date: 2025-09-10 Comment

元ポスト:
-

Loading…

-
Loading…

テクニカルレポート: https://ernie.baidu.com/blog/publication/ERNIE_Technical_Report.pdf

logical reasoning, 数学、コーディング、科学、数学、テキスト生成などの分野で21B-A3Bパラメータにも関わらずDeepSeek-R1に高い性能を達成しているように見える。コンテキストウィンドウは128k。

何が決め手でこのやうな小規模モデルで高い性能が出るのだろう?テクニカルレポートを読んだらわかるんだろうか。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel Issue Date: 2025-09-05 Comment

以前と比較してSWE Bench系の性能が大幅に向上しているように見える

元ポスト:

Loading…

公式ポスト:

Loading…

Artificial Analysisによるベンチマーキング結果:

Loading…


Agenticな能力が顕著に改善している旨が記述されている。

Creative Short Story Benchmarkと呼ばれるでSoTA:

Loading…


ベンチマーク:
https://github.com/lechmazur/writing

キャラクター、object, tone, Attributeなどのストーリーを構成する要素のみを指定して、600-800程度のストーリーを記述させるベンチマークで、評価は18個のルーブリック(8こすのルーブリックでnarrativeとしての品質を評価し、残りで構成やrequirementsを満たしているかなどの評価をする)に基づく複数LLMによるLLM-as-a-Judgeによるスコアリング結果を集約することで実施している模様。
スコアリングに利用されているLLMは下記:

- Claude Opus 4.1 (no reasoning)
- DeepSeek V3.1 Reasoner
- Gemini 2.5 Pro
- GPT-5 (low reasoning)
- Grok 4
- Kimi K2
- Qwen 3 235B A22B 25-07 Think

複数LLMを利用しているとはいえ、評価対象のモデルもgradeで利用するモデルに含まれているのは気になるところ。あとはnarrativeの品質評価はLLMでどこまでできるのだろうか。



Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MultiLingual #OpenSource Issue Date: 2025-09-03 Comment

HF: https://huggingface.co/collections/swiss-ai/apertus-llm-68b699e65415c231ace3b059

元ポスト:

Loading…

1811カ国語に対応した、スイス発のOpenSource(=学習データ、学習のレシピ、学習データを再現するためのスクリプトも公開されている) LLM。8B / 70Bが存在。

Apache 2.0 + Apertus LLM Acceptable Use Policy

解説:

Loading…



Paper/Blog Link My Issue
#Article #MachineTranslation #NLP #LanguageModel #Catastrophic Forgetting #mid-training #Selected Papers/Blogs #In-Depth Notes #Surface-level Notes Issue Date: 2025-09-01 Comment

テクニカルレポート: https://github.com/Tencent-Hunyuan/Hunyuan-MT/blob/main/Hunyuan_MT_Technical_Report.pdf

元ポスト:

Loading…

Base Modelに対してまず一般的な事前学習を実施し、その後MTに特化した継続事前学習(モノリンガル/パラレルコーパスの利用)、事後学習(SFT, GRPO)を実施している模様。
継続事前学習では、最適なDataMixの比率を見つけるために、RegMixと呼ばれる手法を利用。Catastrophic Forgettingを防ぐために、事前学習データの20%を含めるといった施策を実施。

SFTでは2つのステージで構成されている。ステージ1は基礎的な翻訳力の強化と翻訳に関する指示追従能力の向上のために、Flores-200の開発データ(33言語の双方向の翻訳をカバー)、前年度のWMTのテストセット(English to XXをカバー)、Mandarin to Minority, Minority to Mandarinのcuratedな人手でのアノテーションデータ、DeepSeek-V3-0324での合成パラレルコーパス、general purpose/MT orientedな指示チューニングデータセットのうち20%を構成するデータで翻訳のinstructinoに関するモデルの凡化性能を高めるためキュレーションされたデータ、で学習している模様。パラレルコーパスはReference-freeな手法を用いてスコアを算出し閾値以下の低品質な翻訳対は除外している。ステージ2では、詳細が書かれていないが、少量でよりfidelityの高い約270kの翻訳対を利用した模様。また、先行研究に基づいて、many-shotのin-context learningを用いて、訓練データをさらに洗練させたとのこと(先行研究が引用されているのみで詳細な記述は無し)。また、複数の評価ラウンドでスコアの一貫性が無いサンプルは手動でアノテーション、あるいはverificationをして品質を担保している模様。

RLではGRPOを採用し、rewardとしてsemantic([Paper Note] xCOMET: Transparent Machine Translation Evaluation through Fine-grained Error Detection, Nuno M. Guerreiro+, TACL'24 ), terminology([Paper Note] TAT-R1: Terminology-Aware Translation with Reinforcement Learning and Word Alignment, Zheng Li+, arXiv'25 ; ドメイン特有のterminologyを捉える), repetitionに基づいたrewardを採用している。最終的にSFT->RLで学習されたHuayuan-MT-7Bに対して、下記プロンプトを用いて複数のoutputを統合してより高品質な翻訳を出力するキメラモデルを同様のrewardを用いて学習する、といったpipelineになっている。

image

image

関連:
- Large Language Models Are State-of-the-Art Evaluators of Translation Quality, EAMT'23
- [Paper Note] xCOMET: Transparent Machine Translation Evaluation through Fine-grained Error Detection, Nuno M. Guerreiro+, TACL'24
- [Paper Note] CometKiwi: IST-Unbabel 2022 Submission for the Quality Estimation Shared Task, Rei+, WMT'22
- [Paper Note] No Language Left Behind: Scaling Human-Centered Machine Translation, NLLB Team+, arXiv'22
- [Paper Note] Many-Shot In-Context Learning, Rishabh Agarwal+, NeurIPS'24
- [Paper Note] RegMix: Data Mixture as Regression for Language Model Pre-training, Qian Liu+, ICLR'25
- [Paper Note] TAT-R1: Terminology-Aware Translation with Reinforcement Learning and Word Alignment, Zheng Li+, arXiv'25

関連: PLaMo翻訳
- PLaMo Translate: 翻訳特化大規模言語モデルの開発,今城+, Jxiv'25

こちらはSFT->Iterative DPO->Model Mergeを実施し、翻訳に特化した継続事前学習はやっていないように見える。一方、SFT時点で独自のテンプレートを作成し、語彙の指定やスタイル、日本語特有の常体、敬体の指定などを実施できるように翻訳に特化したテンプレートを学習している点が異なるように見える。Hunyuanは多様な翻訳の指示に対応できるように学習しているが、PLaMo翻訳はユースケースを絞り込み、ユースケースに対する性能を高めるような特化型のアプローチをとるといった思想の違いが伺える。




Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-08-31 Comment

テクニカルレポート: https://github.com/meituan-longcat/LongCat-Flash-Chat/blob/main/tech_report.pdf

元ポスト:

Loading…

Agent周りのベンチで高性能なnon thinkingモデル。毎秒100+トークンの生成速度で、MITライセンス。Dynamic Activation...?

関連:
- [Paper Note] Shortcut-connected Expert Parallelism for Accelerating Mixture-of-Experts, Weilin Cai+, ICLR'25

Dynamic Activation (activation paramが入力に応じて変化(全てのトークンをMoEにおいて均一に扱わない)することで効率化)は、下記を利用することで実現している模様

- [Paper Note] MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts, Peng Jin+, ICLR'25

しかし中国は本当に次々に色々な企業から基盤モデルが出てくるなぁ…すごい

- [Paper Note] Scaling Exponents Across Parameterizations and Optimizers, Katie Everett+, ICML'24

解説:

Loading…

解説:

Loading…



Paper/Blog Link My Issue
#Article #ComputerVision #Transformer #VideoGeneration/Understandings #Encoder-Decoder Issue Date: 2025-08-27 Comment

元ポスト:

Loading…

関連:
- Wan2.2, Alibaba Wan, 2025.07

image+Audio-to-video generation

Audioモダリティ: wav2vec+AudioEncoder
Visionモダリティ: 3D VAE Encoder
Textモダリティ: T5 Encoder
モダリティ統合: DiT Block(おそらくT5 Encoderの出力を用いてprompt情報を条件付け)とAudio Block?
3D VAE Decoderでデコードというアーキテクチャ?詳細が書かれておらずよくわからない。




Paper/Blog Link My Issue
#Article #LanguageModel #SpeechProcessing #LongSequence #MultiLingual #TTS Issue Date: 2025-08-25 Comment

元ポスト:

Loading…

> Unsupported language – the model is trained only on English and Chinese data; outputs in other languages are unsupported and may be unintelligible or offensive.

日本語は対応していないので注意

outputできるspeechのlengthが先行研究より非常に長く、90分近く生成できる模様?

image




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning Issue Date: 2025-08-22 Comment

HF: https://huggingface.co/CohereLabs/command-a-reasoning-08-2025

元ポスト:

Loading…

Agent関連ベンチでR1, gptoss超え。DeepResearchベンチでプロプライエタリLLMと比べてSoTA。safety関連ベンチでR1, gptoss超え。
す、すごいのでは、、?

CC-BY-NC 4.0なので商用利用不可

サマリ:

Loading…



Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning Issue Date: 2025-08-21 Comment

元ポスト:

Loading…


数日前からモデル自体は公開されていたが、モデルカードが追加された

- hybrid thinking
- post-trainingによるtool calling capability向上
- token efficiencyの向上

解説:

Loading…

解説:

Loading…

サマリ:

Loading…



Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #Proprietary #Japanese #Selected Papers/Blogs Issue Date: 2025-08-20 Comment

元ポスト:

Loading…

LLMの性能を公平な条件で評価するために、従来のnon thinkingモデルで採用していた方法はthinkingモデルでは過小評価につながることが明らかになった(e.g., non thinkingモデルはzero shotを標準とするが、thinkingモデルではfewshot、chat templateの採用等)ため、日本語/英語ともに信頼の高い6つのベンチマークを採用し、thinkingモデルに対して公平な統一的な評価フレームワークを確立。主要なプロプライエタリ、OpenLLMに対して評価を実施し、リーダーボードとして公開。Reasoningモデルに対する最新の日本語性能を知りたい場合はこちらを参照するのが良いと思われる。

評価に用いられたフレームワークはこちら:
https://github.com/swallow-llm/swallow-evaluation-instruct

主要モデルの性能比較:

Loading…



Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SmallModel #OpenSource Issue Date: 2025-08-20 Comment

元ポスト:

Loading…

OLPO 2 1Bモデルの10000step/21B tokenごとの事前学習時のチェックポイント群。(0--40000step, 0--63B tokenizerの4つが存在している模様)。事前学習のearly stageの研究用にリリース。興味深い

たとえば
- [Paper Note] WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training, Changxin Tian+, arXiv'25
- [Paper Note] Temporal Sampling for Forgotten Reasoning in LLMs, Yuetai Li+, arXiv'25, 2025.05

を試してみたりできるのだろうか。

関連:
- OLMo: Accelerating the Science of Language Models, Dirk Groeneveld+, N/A, arXiv'24
- OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini, AllenAI, 20250.3




Paper/Blog Link My Issue
#Article #ComputerVision #NLP #VisionLanguageModel #Editing Issue Date: 2025-08-19 Comment

元ポスト:

Loading…

公式ポスト:

Loading…

Imageを入力して、テキストで条件づけることで編集できるOpenWeightモデル
image

参考:25/08/20 とりまQwenImageEditを試す
https://six-loganberry-ba7.notion.site/25-08-20-QwenImageEdit-255f7e7600e980f48e09cc7252ea1677

元ポスト:

Loading…

Image Edit Arenaで2位:

Loading…



Paper/Blog Link My Issue
#Article #NLP #Transformer #Blog #VariationalAutoEncoder #VideoGeneration/Understandings #Robotics #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-08-12 Comment

TL;DRは下記。

> We introduce RynnVLA-001, a vision-language-action model built upon large-scale video generative pre-training.
> - RynnVLA-001 is pretrained on ~12M ego-centric manipulation videos.
> - We unify next-frame prediction and next-action prediction into a single transformer.
> - We train a lightweight VAE to accurately compress action chunks into action embeddings.
> - Our RynnVLA-001 outperforms Pi-0 and GR00T-N1.5, in terms of both real-world task success rate and instruction-following capability.

まず、11.93Mの一人称視点での人間が操作(特に手の操作)をする動画と、244Kのrobotが操作をする動画でTransformerを事前学習する。このとき、actionラベルは一切用いず、pixelの情報から物理世界のダイナミクスを理解させる。続いて、Action Chunks(複数のアクションの少量のかたまり)を、dense embeddingにエンコードするVAEを学習する。チャンクを用いる理由は、ピクセルの変化が微小な場合、同じアクションが連続して予測されてしまいstuckしめしまう現象を防ぐこと、予測の効率が良いからとのこと。これによりVLAは単一のembedding vectorを予測するだけで、一貫性のあるアクション系列にデコードできる。最後に、step1で学習したvideo generationモデルと、step2で学習したVAEによるaction representationを統合する。具体的には、next frame prediction(visual tokenを予測; cross entropy loss)とnext action prediction(action edbeddingを予測する)を統合して学習する。action embeddingはcontinuousなベクトルなので異なるヘッドを用意して学習する(L1 Loss)。inference時はRGBのobservationと、テキストによるinstructionを入力として受け取り、action embeddingを予測する。action edbeddingはVAE decoderに渡され、low levelなaction系列に変換される。robotは予測されたアクションを実行し、observationが変化するのでまた予測する、といったiterationを実施する。visual tokenによる予測は不要なので、計算効率の観点から実施しない。

image

元ポスト:

Loading…

HF: https://huggingface.co/Alibaba-DAMO-Academy/RynnVLA-001-7B-Base




Paper/Blog Link My Issue
#Article #NLP #Blog #Reasoning Issue Date: 2025-08-11 Comment

元ポスト:

Loading…

中国初のOpenLLMについて、それぞれの強みとおすすめのユースケースがまとまっている

ポスト中で紹介されているのは下記
- Kimi K2: Open Agentic Intelligence, moonshotai, 2025.07
- GLM-4.5: Reasoning, Coding, and Agentic Abililties, Zhipu AI Inc., 2025.07
- DeepSeek-R1, DeepSeek, 2025.01
- Qwen3-235B-A22B-Instruct-2507, Qwen Team, 2025.08
- Qwen3-Coder-30B-A3B-Instruct, QwenTeam, 2025.08

以下のようなものもある:
- MiniMax-M1, MiniMax, 2025.06
- Hunyuan-A13B-Instruct, tencent, 2025.06




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #LongSequence #MoE(Mixture-of-Experts) Issue Date: 2025-08-08 Comment

image

性能向上した上に1M tokens を扱える。

元ポスト:

Loading…


Dual Chunk Attention (DCA), MInference...?という技術により品質を維持しながらinference速度アップとのこと、

DCAは全体の系列をmanageableなチャンクに分割して処理しながら全体のcoherenceを維持する手法で、MInferenceは鍵となるtokenの交互作用にのみフォーカスするsparse attentionとのこと。



Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #MoE(Mixture-of-Experts) #AttentionSinks #read-later #Selected Papers/Blogs #KeyPoint Notes #Reference Collection Issue Date: 2025-08-05 Comment

blog: https://openai.com/index/introducing-gpt-oss/

HF:
https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/apache-2.0.md

アーキテクチャで使われている技術まとめ:
-

Loading…

-
Loading…

-
Loading…

-
Loading…

- こちらにも詳細に論文がまとめられている

上記ポスト中のアーキテクチャの論文メモリンク(管理人が追加したものも含む)
- Sliding Window Attention
- [Paper Note] Longformer: The Long-Document Transformer, Iz Beltagy+, arXiv'20
- [Paper Note] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context, Zihang Dai+, ACL'19
- MoE
- Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity, William Fedus+, JMLR'22
- RoPE w/ YaRN
- RoFormer: Enhanced Transformer with Rotary Position Embedding, Jianlin Su+, N/A, Neurocomputing, 2024
- [Paper Note] YaRN: Efficient Context Window Extension of Large Language Models, Bowen Peng+, ICLR'24
- Attention Sinks
- Efficient Streaming Language Models with Attention Sinks, Guangxuan Xiao+, ICLR'24
- Attention Sinksの定義とその気持ち、Zero Sink, Softmaxの分母にバイアス項が存在する意義についてはこのメモを参照のこと。
- Why do LLMs attend to the first token?, Federico Barbero+, COLM'25
- Attention Sinksが実際にどのように効果的に作用しているか?についてはこちらのメモを参照。
- When Attention Sink Emerges in Language Models: An Empirical View, Xiangming Gu+, ICLR'25
-

Loading…

- Sink Token (or Zero Sink) が存在することで、decoder-onlyモデルの深い層でのrepresentationのover mixingを改善し、汎化性能を高め、promptに対するsensitivityを抑えることができる。
- (Attentionの計算に利用する) SoftmaxへのLearned bias の導入 (によるスケーリング)
- これはlearnable biasが導入されることで、attention scoreの和が1になることを防止できる(余剰なアテンションスコアを捨てられる)ので、Zero Sinkを導入しているとみなせる(と思われる)。
- GQA
- GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N/A, arXiv'23
- SwiGLU
- GLU Variants Improve Transformer, Noam Shazeer, N/A, arXiv'20 -

- group size 8でGQAを利用
- Context Windowは128k
- 学習データの大部分は英語のテキストのみのデータセット
- STEM, Coding, general knowledgeにフォーカス
- https://openai.com/index/gpt-oss-model-card/

あとで追記する

他Open Weight Modelとのベンチマークスコア比較:
-

Loading…

-
Loading…

-
Loading…

-
Loading…

- long context
-
Loading…

- Multihop QA

解説:

Loading…

learned attention sinks, MXFP4の解説:

Loading…

Sink Valueの分析:

Loading…

gpt-oss の使い方:
https://note.com/npaka/n/nf39f327c3bde?sub_rt=share_sb [Paper Note] Comments-Oriented Document Summarization: Understanding Documents with Reader’s Feedback, Hu+, SIGIR’08, 2008.07 fd064b2-338a-4f8d-953c-67e458658e39

Qwen3との深さと広さの比較:
- The Big LLM Architecture Comparison, Sebastian Laschka, 2025.07

Phi4と同じtokenizerを使っている?:

Loading…

post-training / pre-trainingの詳細はモデルカード中に言及なし:
-

Loading…

-
Loading…

ライセンスに関して:

> Apache 2.0 ライセンスおよび当社の gpt-oss 利用規約に基づくことで利用可能です。

引用元: https://openai.com/ja-JP/index/gpt-oss-model-card/

gpt-oss利用規約: https://github.com/openai/gpt-oss/blob/main/USAGE_POLICY

cookbook全体: https://cookbook.openai.com/topic/gpt-oss

gpt-oss-120bをpythonとvLLMで触りながら理解する: https://tech-blog.abeja.asia/entry/gpt-oss-vllm

指示追従能力(IFEVal)が低いという指摘:

Loading…



Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #Selected Papers/Blogs Issue Date: 2025-07-29 Comment

元ポスト:

Loading…

HF: https://huggingface.co/collections/zai-org/glm-45-687c621d34bda8c9e4bf503b

詳細なまとめ:

Loading…

関連:
- [Paper Note] GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning, GLM-V Team+, arXiv'25

こちらでもMuon Optimizerが使われており、アーキテクチャ的にはGQAやMulti Token Prediction, QK Normalization, MoE, 広さよりも深さを重視の構造、みたいな感じな模様?
- [Paper Note] Muon is Scalable for LLM Training, Jingyuan Liu+, arXiv'25




Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #MoE(Mixture-of-Experts) #VideoGeneration/Understandings Issue Date: 2025-07-29 Comment

元ポスト:

Loading…

初のMoEによるOpen WeightなVideo generationモデルで、直接的に明るさや、カラー、カメラの動きなどを制御でき、text to video, image to video, unified video generationをサポートしている模様

テクニカルペーパー:
https://arxiv.org/abs/2503.20314




Paper/Blog Link My Issue
#Article #NLP #LanguageModel Issue Date: 2025-07-22 Comment

Qwen3最新版。ベンチマーク画像は元ポストより引用。hybrid thinkingを廃止し、non-thinkingのみとした。non-thinkingだが性能が向上し、context長が256k (前回の2倍)になっている模様。

image
元ポスト:

Loading…

関連:
- Qwen3, Qwen Team, 2025.04

- [Paper Note] Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination, Mingqi Wu+, arXiv'25

において、Qwen2.5-math-7B, Qwen2.5-7Bに対して、Math500, AMC,
AIME2024データについてコンタミネーションの可能性が指摘されている点には留意したい。

- Kimi K2: Open Agentic Intelligence, moonshotai, 2025.07

ポストのベンチ上ではKimi-K2を超えているように見えるが、果たして…?




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #Distillation #OpenSource Issue Date: 2025-07-18 Comment

DeepSeek-R1-0528から応答を合成したデータでSFTのみを実施し、32BでQwe3-235B-A22Bと同等か上回る性能。アーキテクチャはQwen2.5。データはOpenCode/Math/Scienceを利用。
image

元ポスト:

Loading…


データも公開予定



Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Optimizer #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #Stability #KeyPoint Notes #Reference Collection Issue Date: 2025-07-12 Comment

元ポスト:

Loading…

1T-A32Bのモデル。さすがに高性能。

image

(追記) Reasoningモデルではないのにこの性能のようである。

1T-A32Bのモデルを15.5Tトークン訓練するのに一度もtraining instabilityがなかったらしい
元ポスト:

Loading…

関連:
- [Paper Note] Spike No More: Stabilizing the Pre-training of Large Language Models, Sho Takase+, COLM'25

量子化したモデルが出た模様:

Loading…


仕事早すぎる

DeepSeek V3/R1とのアーキテクチャの違い:

Loading…


MLAのヘッドの数が減り、エキスパートの数を増加させている

解説ポスト:

Loading…

利用されているOptimizer:
- [Paper Note] Muon is Scalable for LLM Training, Jingyuan Liu+, arXiv'25

2つほどバグがあり修正された模様:

Loading…

chatbot arenaでOpenLLMの中でトップのスコア
元ポスト:

Loading…

テクニカルペーパーが公開: https://github.com/MoonshotAI/Kimi-K2/blob/main/tech_report.pdf

元ポスト:

Loading…

テクニカルレポートまとめ:

Loading…

以下のような技術が使われている模様
- Rewriting Pre-Training Data Boosts LLM Performance in Math and Code, Kazuki Fujii+, arXiv'25
- MLA MHA vs MQA vs GQA vs MLA, Zain ul Abideen, 2024.07
- MuonCip
- MuonOptimizer [Paper Note] Muon is Scalable for LLM Training, Jingyuan Liu+, arXiv'25
- QK-Clip
- 参考(こちらはLayerNormを使っているが): Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action, Jiasen Lu+, N/A, CVPR'24
- RLVR
- DeepSeek-R1, DeepSeek, 2025.01
- Self-Critique
- 関連: [Paper Note] Inference-Time Scaling for Generalist Reward Modeling, Zijun Liu+, arXiv'25
- [Paper Note] Writing-Zero: Bridge the Gap Between Non-verifiable Problems and Verifiable Rewards, Xun Lu, arXiv'25
- Temperature Decay
- 最初はTemperatureを高めにした探索多めに、後半はTemperatureを低めにして効用多めになるようにスケジューリング
- Tool useのためのSynthetic Data

image

Reward Hackingに対処するため、RLVRではなくpairwise comparisonに基づくself judging w/ critique を利用きており、これが非常に効果的な可能性があるのでは、という意見がある:

Loading…



Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Reasoning #LongSequence #SmallModel #MultiLingual #OpenSource #Selected Papers/Blogs Issue Date: 2025-07-09 Comment

元ポスト:

Loading…

SmolLM3を構築する際の詳細なレシピ(アーキテクチャ、データ、data mixture, 3 stageのpretraining(web, code, mathの割合と品質をステージごとに変え、stable->stable->decayで学習), midtraining(long context->reasoning, post training(sft->rl), ハイブリッドreasoningモデルの作り方、評価など)が説明されている

学習/評価スクリプトなどがリリース:

Loading…



Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning Issue Date: 2025-06-27 Comment

元ポスト:

Loading…

- MoEアーキテクチャ, 80B-A13B
- fast, slow thinking mode
- 256k context window
- agenticタスクに特に特化
- Grouped Query Attention, 複数の量子化フォーマットをサポート

公式ポスト:

Loading…

画像は公式ポストより引用。Qwen3-235B-A22Bよりも少ないパラメータ数で、同等(agenticタスクはそれ以上)なようにベンチマーク上は見えるが、果たして。

image

果たして日本語の性能はどうだろうか。
TENCENT HUNYUAN COMMUNITY LICENSE
https://github.com/Tencent-Hunyuan/Hunyuan-A13B/blob/main/LICENSE




Paper/Blog Link My Issue
#Article #Tutorial #Pretraining #NLP #Dataset #LanguageModel #Evaluation #Blog #Japanese #PostTraining Issue Date: 2025-06-25 Comment

関連
- [Paper Note] Instruction Pre-Training: Language Models are Supervised Multitask Learners, Daixuan Cheng+, EMNLP'24
- [Paper Note] Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data, Fahim Tajwar+, ICML'24
- [Paper Note] AnswerCarefully: A Dataset for Improving the Safety of Japanese LLM Output, Hisami Suzuki+, arXiv'25




Paper/Blog Link My Issue
#Article #Embeddings #NLP #LanguageModel #RepresentationLearning Issue Date: 2025-06-06 Comment

8BモデルはMTEBでトップの性能を達成。context 32K。100以上の言語をサポート。32--2560次元にoutputの次元数をカスタマイズできる(嬉しい、が性能にどの程度影響が出るから気になる)。

元ポスト:

Loading…

QwenTeam post:

Loading…



Paper/Blog Link My Issue
#Article #NLP #Library #Supervised-FineTuning (SFT) #Blog #MoE(Mixture-of-Experts) #PostTraining Issue Date: 2025-05-11 Comment

元ポスト:

Loading…

Megatron-SWIFTというAlibaba製のライブラリを利用しQwen3の継続事前学習とSFTを実施する方法を、ベストプラクティスに則って記述し、かつ著者自身が学習したモデルも公開している。(おそらくインスタンス代は自腹なので)すごい...!!
Megatron-SWIFTはMoEアーキテクチャを採用したモデルであれば、DeepSpeed Zero3 [^1]と比べて10倍程度のスループットで学習できる模様(早い)。一方MoEアーキテクチャでないモデルの場合はそこまで大きな差はない。

[^1]: A100 80GB 2ノードでは、Qwen3-30B-A3Bは、DeepSpeed-Zero2ではOOMとなり載らないようだ…。なんとリソースに厳しいこと…(涙)




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #SmallModel #GRPO Issue Date: 2025-05-01 Comment

元ポスト:

Loading…

こちらの解説が非常によくまとまっている:

Loading…


が、元ポストでもテクニカルペーパー中でもo3-miniのreasoning traceをSFTに利用してCoTの能力を強化した旨が記述されているが、これはOpenAIの利用規約に違反しているのでは…?



Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #InstructionTuning #Blog #LongSequence #MultiLingual #MoE(Mixture-of-Experts) #PostTraining Issue Date: 2025-04-29 Comment

- 119言語をサポート
- MoEモデル Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer, Noam Shazeer+, ICLR'17
- 30B-A3B / 235B-A22N
- 128K context window
- Qwen2.5はMoEを採用していないので新たなアーキテクチャとなる
- Denseモデル(非MoEモデル)も公開
- 0.6B -- 32B
- 32K -- 128K context window
- Thinking/Non-thinking の切り替えが切り替えが可能
- スイッチは自動的に実施されるが、ユーザが明示的に `/think`, `/no_think` を user_promptの末尾に追加することで制御することも可能
- Pre-training
- データ
- 36 trillion tokensによって学習(Qwen-2.5の2倍)
- 学習データではwebデータに加えて、PDF-likeな文書群からQwen2.5-VL Qwen2.5-VL-32B-Instruct, Qwen Team, 2025.03 によってテキストを抽出し、Qwen2.5 で抽出された内容の品質を改善し利用
- また、math / code に関するデータを追加するために、Qwen2.5-Math / Qwen2.5-Coderを用いて合成データを作成(textbooks / QA pairs / code snippets Textbooks Are All You Need, Suriya Gunasekar+, N/A, arXiv'23
- 事前学習のステップ
- S1: context長が4kの30 trillion tokenで事前学習
- S2: STEM / coding / reasoning task などのknowledge-intensiveデータの比率を増やして継続事前学習 (これがおそらく 5 trillion token程度?)
- Final Stage: context長を32kに拡大し高品質なlong-context dataで継続事前学習
- これによりBaseモデルが完成し、Qwen3-235B全体のうち10%程度のActive Parameterの利用するだけで(i.e., 22Bで)、Qwen2.5-72B Baseと同等以上の性能達成
- Post-training
- S1: long-CoT cold start
- 数学/coding/logical reasoning/STEMなどの多様なlong CoTデータを用いてSFT s1: Simple test-time scaling, Niklas Muennighoff+, arXiv'25
- S2: reasoning-based RL
- rule-based (verifiable) rewards によるRL DeepSeek-R1, DeepSeek, 2025.01
- S1/S2の流れは [Paper Note] Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, arXiv'25 に有効性が示されている通り、long CoT DataによるSFT -> RLを実施
- S3: thinking mode fusion
- S2データを用いてlong CoTデータとinstruction tuningデータ(非Long CoT)を生成し、Thinking/Non-thinkingを自動的に選択し生成するように学習(SFT or RLは記述なし)
- S4: general RL
- 20以上の一般的なドメインのタスクを通じて一般的な能力の向上と、safetyに関するalignmentの実施(e.g., instruction following, format following, agent能力など)

BestPracticeに関するポスト:

Loading…

解説:

Loading…



Paper/Blog Link My Issue
#Article #ComputerVision #Pocket #NLP #LanguageModel #AIAgents #MultiModal #Blog #Reasoning #ComputerUse #VisionLanguageModel Issue Date: 2025-04-18 GPT Summary- UI-TARSは、スクリーンショットを入力として人間のようにインタラクションを行うネイティブGUIエージェントモデルであり、従来の商業モデルに依存せず、エンドツーエンドで優れた性能を発揮します。実験では、10以上のベンチマークでSOTA性能を達成し、特にOSWorldやAndroidWorldで他のモデルを上回るスコアを記録しました。UI-TARSは、強化された知覚、統一アクションモデリング、システム-2推論、反射的オンライントレースによる反復トレーニングなどの革新を取り入れ、最小限の人間の介入で適応し続ける能力を持っています。 Comment

paper: https://arxiv.org/abs/2501.12326

色々と書いてあるが、ざっくり言うとByteDanceによる、ImageとTextをinputとして受け取り、TextをoutputするマルチモーダルLLMによるComputer Use Agent (CUA)

関連
- OpenAI API での Computer use の使い方, npaka, 2025.03

元ポスト:

Loading…



Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning Issue Date: 2025-04-12 Comment

DeepSeek-R1を多くのベンチで上回る200B, 20B activated paramのreasoning model

最近のテキストのOpenWeightLLMはAlibaba, DeepSeek, ByteDance, Nvidiaの4強という感じかな…?(そのうちOpenAIがオープンにするReasoning Modelも入ってきそう)。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #InstructionTuning #Pruning #Reasoning Issue Date: 2025-04-08 Comment

DeepSeek-R1をGPQA Diamond GPQA: A Graduate-Level Google-Proof Q&A Benchmark, David Rein+, N/A, COLM'24 , AIME2024/2025, Llama4 Maverickを
BFCLv2(Tool Calling, BFCLv2, UC Berkeley, 2024.08 ), IFEVal Instruction-Following Evaluation for Large Language Models, Jeffrey Zhou+, N/A, arXiv'23 で上回り, そのほかはArenaHardを除きDeepSeekR1と同等
image

DeepSeekR1が671B(MoEで37B Activation Param)に対し、こちらは253B(ただし、Llama3.1がベースなのでMoEではない)で同等以上の性能となっている。
ReasoningをON/OFFする能力も備わっている。

モデルがどのように訓練されたかを示す全体図がとても興味深い:image

特に [Paper Note] Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, arXiv'25 でも有効性が示されているように、SFTをしてからReasoningを強化する(強化というより元々持っている能力を引き出す?)RLを実施している。

詳細は下記Blogとのこと:
https://developer.nvidia.com/blog/build-enterprise-ai-agents-with-advanced-open-nvidia-llama-nemotron-reasoning-models/

元ポスト:

Loading…



Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #Reference Collection Issue Date: 2025-04-05 Comment

Downloads: https://www.llama.com/?utm_source=twitter&utm_medium=organic_social&utm_content=image&utm_campaign=llama4

Huggingface:
https://huggingface.co/collections/meta-llama/llama-4-67f0c30d9fe03840bc9d0164

解説ポスト:

Loading…

Artificial Analysisによる性能検証:

Loading…


MaverickがGPT4oと同等、ScoutがGPT4o-miniと同等

Update:
Loading…

性能に関して不可解な点が多そうなので様子見をしても良いかも。

性能検証(Math-Perturb):

Loading…

日本語にあまり強くないという情報も
元ポスト:

Loading…

どうやらvLLMのLlama4のinferenceにバグがあったやうで、vLLMのIssue 16311にて、Llama4のinferenceに関するバグが修正され、性能が向上した模様。どのベンチを信じたら良いかまるでわからん。

2025.0413現在のchatbot arenaのランクは、32位となり(chatbot arena向けにtuningされていたであろうモデルは2位だった)GPT-4oが29位であることを考慮すると上記のArtificial Intelligenceの評価とも大体一致している。

https://lmarena.ai

関連ポスト:

Loading…



Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning Issue Date: 2025-03-19 Comment

Nvidiaによる初めてのreasoning model。
元ポスト:

Loading…

Artificial Analysisにやるベンチマーク:

Loading…


GPQA Diamond(大学院(Ph.D)レベルの生物学、物理学、化学の450問程度の難解なmultiple choice question)で、DeepSeekV3, GPT4o, QwQ-32Bをoutperform. Claude 3.7 sonnetより少しスコアが低い。
DeepSeekR1, o1, o3-mini(high), Claude 3.7 sonnet Thinkingなどには及んでいない。

image

(画像は元ポストより引用)

システムプロンプトを変えることでreasoningをon/offできる模様




Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal Issue Date: 2025-03-18 Comment

元ポスト: https://www.linkedin.com/posts/andimarafioti_we-just-dropped-%F0%9D%97%A6%F0%9D%97%BA%F0%9D%97%BC%F0%9D%97%B9%F0%9D%97%97%F0%9D%97%BC%F0%9D%97%B0%F0%9D%97%B9%F0%9D%97%B6%F0%9D%97%BB%F0%9D%97%B4-activity-7307415358427013121-wS8m?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

Apache-2.0ライセンス。言語はEnglishのみな模様

マルチモーダルなImage-To-Textモデル。サンプルはこちら
image




Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #VisionLanguageModel #KeyPoint Notes Issue Date: 2025-03-17 Comment

元ポスト:

Loading…

VLM。Xに散見される試行例を見ると日本語の読み取り性能は結構高そうに見える。

モデル構成、学習の詳細、および評価:

Loading…

LLM(sarashina2), Vision Encoder(Qwen2-VL), Projectorの3つで構成されており、3段階の学習を踏んでいる。
最初のステップでは、キャプションデータを用いてProjectorのみを学習しVision Encoderとテキストを対応づける。続いて、日本語を含む画像や日本特有の風景などをうまく扱えるように、これらを多く活用したデータ(内製日本語OCRデータ、図表キャプションデータ)を用いて、Vision EncoderとProjectorを学習。最後にLLMのAlignmentをとるために、プロジェクターとLLMを前段のデータに加えてVQAデータ(内製合成データを含む)や日本語の指示チューニングデータを用いて学習。

ProjectorやMMLLMを具体的にどのように学習するかは
- MM-LLMs: Recent Advances in MultiModal Large Language Models, Duzhen Zhang+, N/A, ACL'24 Findings

を参照のこと。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenSource #Selected Papers/Blogs Issue Date: 2025-03-14 Comment

真なる完全なるオープンソース(に近い?)OLMOの最新作

学習が安定しやすいpre LNではなく性能が最大化されやすいPost LNを採用している模様。学習を安定化させるために、QKNormやRMSNormを採用するなどの工夫を実施しているらしい。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel Issue Date: 2025-03-12 Comment

Googleの新たなSLMで、デバイスやラップトップでも動作可能な軽量モデル。テキストだけでなく画像とShortVideoの認識もできて、140言語をサポート。おまけに27BモデルでLlama3-405BとDeepSeek-V3とo3-miniをChatbotArenaのリーダーボードで上回り、128kのcontext window。えぇ…。

モデルの詳細: https://huggingface.co/blog/gemma3

1Bモデルは英語のみサポート、マルチモーダル不可など制約がある模様。
詳細までは書いていないが、128Kコンテキストまでcontext windowを広げる際の概要とRoPE(のような)Positional Embeddingを利用していること、SlideingWindow Attentionを用いておりウィンドウサイズが以前の4096から性能を維持したまま1024に小さくできたこと、ImageEncoderとして何を利用しているか(SigLIP)、896x896の画像サイズをサポートしており、正方形の画像はこのサイズにリサイズされ、正方形でない場合はcropされた上でリサイズされる(pan and scanアルゴリズムと呼ぶらしい)こと、事前学習時のマルチリンガルのデータを2倍にしたことなど、色々書いてある模様。

Gemmaライセンス

解説ポスト:

Loading…

解説ポスト:

Loading…



Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #UMM Issue Date: 2025-01-28 Comment

DeepSeekによる新たなUMM、Janus-Proが本日リリース。MIT License

Janus-Proのパフォーマンス。

github上でのパフォーマンスの図解から引用。マルチモーダル(テキスト+画像)の理解に関するベンチマークでLLaVA超え。GenEval, DPG Benchと呼ばれる画像生成ベンチマークでDALL-E 3超え。
image


テクニカルレポート中での詳細から引用。どのベンチマークでも基本的に最高性能なように見える。
image
image

テクニカルレポート: https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf

ベンチマーク:
- [Paper Note] GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment, Dhruba Ghosh+, NeurIPS'23
- [Paper Note] ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment, Xiwei Hu+, arXiv'24




Paper/Blog Link My Issue
#Article #Tools #NLP #Dataset #LanguageModel #Blog #Japanese Issue Date: 2024-12-24 Comment

GPT3.5と同程度のパラメータ数のコーパス、モデル、ツール、全てを公開。学習データまで含めてオープンなモデルとしては世界最大規模とのこと。

Instructionチューニング済みのモデルはライセンスを読むと、ライセンスに記述されている内容を遵守すれば、誰でも(日本人なら18歳以上とかはあるが)アクセス可能、用途の制限(商用・非商用問わず)なく利用でき、かつ再配布や派生物の生成などが許されているように見える。
が、baseモデルの方はコンタクト情報を提供のうえ承認を受けないと利用できない模様。また、再配布と一部の使途に制限がある模様。

SNSではオープンソースではないなどという言説も出ており、それはbaseモデルの方を指しているのだろうか?よくわからない。

実用上はinstructionチューニング済みのモデルの方がbaseモデルよりも使いやすいと思うので、問題ない気もする。

やはりbaseとinstructでライセンスは2種類あるとのこと:

Loading…



Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SpokenLanguageProcessing #OpenSource Issue Date: 2024-12-13 Comment

音声とテキストのOpenSourceマルチモーダルモデル。inputは音声のみ?に見えるが、出力はテキストと音声の両方を実施できる。GPT-4oレベルのspeech capabilityを目指すとaboutに記載されている。興味深い。



installの説明に `Whisper-large-v3` をインストールする旨が記載されているので、Whisper-large-v3で認識した内容に特化したSpeech Encoder/Adapterが学習されていると考えられる。

image

- MM-LLMs: Recent Advances in MultiModal Large Language Models, Duzhen Zhang+, N/A, ACL'24 Findings



マルチモーダルなLLMの基本的な概念については上記参照のこと。




Paper/Blog Link My Issue
#Article #Survey #NLP #Dataset #LanguageModel #Evaluation #Repository #Japanese #OpenSource Issue Date: 2024-12-02 Comment

LLM-jpによる日本語LLM(Encoder-Decoder系, BERT系, Bi-Encoders, Cross-Encodersを含む)のまとめ。
テキスト生成に使うモデル、入力テキスト処理に使うモデル、Embedding作成に特化したモデル、視覚言語モデル、音声言語モデル、日本語LLM評価ベンチマーク/データセットが、汎用とドメイン特化型に分けてまとめられている。
各モデルやアーキテクチャの原論文、学習手法の原論文もまとめられている。すごい量だ…。




Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #Japanese Issue Date: 2024-11-25 Comment

MoE Layerの説明、Sparse Upcyclingの説明、MoEモデルを学習する際に、学習時の学習率の設定が大きすぎると初期に損失が増大し、小さすぎると損失の増大は防げるがlong runで学習した際の性能向上が小さかったこと、元のモデルのパラメータを毀損しないように、Upcyclingをした元モデルの最終的な学習率を踏襲して学習をし、学習率をさらに減衰させていったこと、などが記載されている。

また、性能評価として同等のactivation parameter数を持つモデルと日本語のQAタスクで比較した結果も載っている。

- Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints, Aran Komatsuzaki+, ICLR'23

MoE Layerについては
- Mixtral of Experts, Albert Q. Jiang+, N/A, arXiv'24

も参照のこと




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Japanese Issue Date: 2024-11-09 Comment

プレスリリース: https://www.sbintuitions.co.jp/news/press/20241108_01/

- 商用利用不可な点には注意
- アーキテクチャは70Bモデルx8のMixture of Experts(MoE)
- モデルカードによると、inferenceにはBF16で、A100 80GB or H100が16基必要っぽい

MoEを利用したLLMについては、Mixtral of Experts, Albert Q. Jiang+, N/A, arXiv'24 を参照のこと。




Paper/Blog Link My Issue
#Article #NLP #MultiLingual Issue Date: 2024-10-24 Comment

CohereによるマルチリンガルLLM, 8B, 32Bのモデルが存在する。

8BモデルのArenaHardでの評価
image

32BモデルのArenaHardでの評価
image




Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #Blog Issue Date: 2024-09-25 Comment

11Bと90BのVLMと、エッジデバイス向けの1B, 3BのSLMを発表。
image
image
image

Llama3.2のVLMでは、事前学習されたimage encoderを事前学習された言語モデルに対して組み合わせるためのAdapterを複数学習することによって実現。

具体的には、Llama 3.1(text only model)に対して、image encoderとAdapterを追加し、大規模でノイジーな(image,text)ペアで事前学習。続いて、中規模のサイズの高品質なin-domain(i.e. 様々なドメインの)の知識を高めるような(image,text)ペアで学習した。

事後学習では、Llama3.1と同様にSFT, Rejection Sampling, DPOのラウンドを複数回繰り返した。Llama3.1を用いて、in-domainの画像に対するQAをData Augmentationし、フィルタリングすることで合成データを作成。さらに報酬モデルを活用して全ての回答候補をランクづけして高品質なSFTデータを取得。また、モデルの安全性が高まるようなデータも追加した。

Llama3.1の事後学習のプロセスについては 論文紹介 / The Llama 3 Herd of Models, 2024.08 も参照のこと。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Japanese Issue Date: 2024-09-25 Comment

LLM-JP-Evalでの評価結果はこちら: https://huggingface.co/llm-jp/llm-jp-3-1.8b

1.8Bのモデルが、モデルサイズに対して非常に性能が良いとのこと(確かに、3.8Bのモデルとの差があまりないように見える
元ポスト:

Loading…

アーキテクチャはLlama2とのことなので、vLLMでも動作させられる模様




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #InstructionTuning #SelfCorrection #PostTraining #KeyPoint Notes #Reference Collection Issue Date: 2024-09-06 Comment

ただまあ仮に同じInputを利用していたとして、promptingは同じ(モデルがどのようなテキストを生成し推論を実施するかはpromptingのスコープではない)なので、そもそも同じInputなのでfair comparisonですよ、という話に仮になるのだとしたら、そもそもどういう設定で比較実験すべきか?というのは検討した方が良い気はする。まあどこに焦点を置くか次第だと思うけど。

エンドユーザから見たら、reflectionのpromptingのやり方なんてわからないよ!という人もいると思うので、それを内部で自発的に実施するように学習して明示的にpromptingしなくても、高い性能を達成できるのであれば意味があると思う。

ただまあ少なくとも、参考でも良いから、他のモデルでもreflectionをするようなpromptingをした性能での比較結果も載せる方が親切かな、とは思う。

あと、70Bでこれほどの性能が出ているのはこれまでにないと思うので、コンタミネーションについてはディフェンスが必要に思う(他のモデルがそのようなディフェンスをしているかは知らないが)。

追記
→ 下記記事によると、LLM Decontaminatorを用いてコンタミネーションを防いでいるとのこと
https://github.com/lm-sys/llm-decontaminator

Reflection自体の有用性は以前から示されている。
参考: Self-Reflection in LLM Agents: Effects on Problem-Solving Performance, Matthew Renze+, N/A, arXiv'24 , Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection, Akari Asai+, N/A, ICLR'24 , AnyTool: Self-Reflective, Hierarchical Agents for Large-Scale API Calls, Yu Du+, N/A, arXiv'24 , Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies, Liangming Pan+, N/A, TACL'24

ollamaで実際に動かして日本語でのQAを試している記事。実際のアウトプットやreflectionの内容が確認でき、おもしろい。

システムプロンプトで< thinking >タグでInputに対して推論し、< output >タグ内で最終出力を行い、推論過程で誤りがある場合は< reflection >タグを用いて修正するように指示している。

おそらく、thinkingタグ内の思考過程でモデルが誤りに気づいた場合は、thinkingタグの途中でreflectionタグが出力され、その時点でCoTが修正されるようである(もしくはoutputとthinkingの中間)。このため、誤ったCoTに基づいてOutputが生成される頻度が減少すると考えられる。

このような挙動はおそらく、reflection用の学習データでSFTしないとできないと思うので

(たとえば、ReflectionタスクをするようなデータでSFTをしていない場合、出力の途中で誤りを検出し出力を修正するという挙動にはならず、回答として自然な文を最後までoutputすると思う。その後でreflectionしろと促すことはpromptingでできるかもしれないが、そもそもreflectionする能力があまり高くない可能性があり、うまく修正もしてくれないかも)

reflectionの能力を高めるようなデータでSFTをしていないモデルで似たようなpromptingをしても、うまくいかない可能性があるので注意が必要だと思われる。

参考: https://note.com/schroneko/n/nae86e5d487f1

開発者曰く、HFに記載の正しいシステムプロンプトを入れないと、適切に動作しないとのこと。
元ツイート:

Loading…

どうやら初期にアップロードされていたHFのモデルはweightに誤りがあり、挙動がおかしくなっていたようだ。
正しいモデルの挙動は下記ツイートのようである。thinking内でreflectionが実施されている。

実際にいくつかの例をブログをリリース当日に見た時に、reflectionタグがoutputの後に出力されている例などがあり、おや?という挙動をしていたので、問題が是正されたようだ。

Loading…

HFのモデルが修正された後もベンチマークの結果が再現されないなど、雲行きが色々と怪しいので注意した方が良い。

続報

Loading…

開発者ポスト:

Loading…

再現実験を全て終了し、当初報告していた結果が再現されなかったとCEOが声明:

Loading…



Paper/Blog Link My Issue
#Article #Analysis #LanguageModel #Slide #Japanese Issue Date: 2024-09-03 Comment

英日翻訳や日本特有の知識を問われるようなQAにおいて、日本語データによる学習の効果があることが示唆されている模様。
たとえば、論文紹介 / The Llama 3 Herd of Models, 2024.08 に示されている通り、Llama2における日本語データの割合は0.2%とかなので、英語圏のOpenLLMにおいて、日本語データの比率がどれだけ少ないかがわかる。




Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Slide Issue Date: 2024-08-26 Comment

Llama3の事前学習や事後学習のノウハウが詰まっており(安全性なども含む)、LLM学習に必要な要素が図解されており、非常に分かりやすい。



たとえば下記図(スライド中より引用)などは、LLMの学習過程を説明する際にわかりやすそう

image

LLMの事前・事後学習あたりは独自ノウハウが多すぎてもはや追従困難




Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Library #python #Blog #LLMServing Issue Date: 2024-08-05 Comment

[vllm]( https://github.com/vllm-project/vllm)を使うのが一番お手軽で、inference速度が速そう。PagedAttentionと呼ばれるキャッシュを利用して高速化しているっぽい。

(図はブログ中より引用)



image

こちらも参照のこと

vLLMの仕組みをざっくりと理解する: https://dalab.jp/archives/journal/vllm/#PagedAttention

vLLMでReasoning ModelをServingするときは、`--enable-reasoning`等の追加オプションを指定する必要がある点に注意
https://docs.vllm.ai/en/stable/features/reasoning_outputs.html




Paper/Blog Link My Issue
#Article #NLP #Library Issue Date: 2024-08-01 Comment

OpenLLMをself hostingする際に、OpenAIなどと同じインタフェースのAPIやChatを提供するライブラリ




Paper/Blog Link My Issue
#Article #NLP #LanguageModel Issue Date: 2024-07-09 Comment

>LLMの日本語能力を評価するNejumi LLM リーダーボード3においては、700億パラメータのMeta-Llama-3-70B-Instructと同等の性能となっており、スクラッチ開発のオープンな日本語LLMとしてはトップクラスの性能となります(2024年7月現在)。
モデルは商用利用可能なApache License 2.0で提供されており

これはすごい




Paper/Blog Link My Issue
#Article #NLP #LanguageModel Issue Date: 2024-04-18 Comment

ライセンスによると、LLaMA3を利用したモデルはどんな場合でもLlama3をprefixとして付与しないといけないらしい

元ツイート:

Loading…

LLaMA3がChatBot ArenaでTop 5になったとのこと。また、英語においては、GPT4-1106-preview, GPT-4-turbo-2024-0409と同等の性能を達成。これはすごい…

Loading…

nejumi-leaderboard Nejumi LLMリーダーボード にLLaMA3の評価結果が掲載された模様(画像は下記ツイートより引用)

image

Loading…

モデルアーキテクチャはTransformer Decoderをベースにしており、Llama2と比較して

- TokenizerのVocabサイズを128Kより効率的にテキストをエンコーディング可能に

- GQA GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N/A, arXiv'23 を利用しInferenceを高速化 (Llama2の時点でGQAを使っていたが、70Bモデルだけだった)

- self-attentionが、ドキュメントを跨がないように学習

context: 8192




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Proprietary Issue Date: 2024-04-10 Comment

Chatbot arenaでGPT-4-0314と同等の Elo Rate を獲得し(20240410時点)、日本語を含む10ヶ国語をサポート。コンテキストウィンドウサイズ128k。商用利用はAPIから、研究目的であればHuggingFaceから利用可能。

image




Paper/Blog Link My Issue
#Article #NLP #LanguageModel Issue Date: 2024-04-08 Comment

アーキテクチャはTransformer Decoderを利用。モデルのサイズは2Bと7B。

オリジナルのTransformer Decoderアーキテクチャから、下記改善を実施している:

- Multi Query Attention Fast Transformer Decoding: One Write-Head is All You Need, Noam Shazeer, N/A, arXiv'19 を利用

- RoPE Embedding RoFormer: Enhanced Transformer with Rotary Position Embedding, Jianlin Su+, N/A, Neurocomputing, 2024 を利用

- GeGLU GLU Variants Improve Transformer, Noam Shazeer, N/A, arXiv'20 の利用

- RMSNormの利用(学習を安定させるため; LLaMAと同様)



image

Mistral Mistral 7B, Albert Q. Jiang+, N/A, arXiv'23 よりも高い性能を示している:

image

image