OpenWeightに関する論文・技術記事メモの一覧

OpenWeight

#ComputerVision #Pocket #NLP #MultiModal #MoE(Mixture-of-Experts) #VisionLanguageModel
Issue Date: 2025-11-27 [Paper Note] Qwen3-VL Technical Report, Shuai Bai+, arXiv'25, 2025.11 GPT Summary- Qwen3-VLは、テキスト、画像、動画を統合した最先端のビジョン・ランゲージモデルで、256Kトークンの長文コンテキスト理解を実現。強化されたテキスト理解、堅牢なマルチモーダル推論、空間・時間モデリングのアップグレードを特徴とし、様々なベンチマークで優れたパフォーマンスを示す。密なアーキテクチャとエキスパート混合アーキテクチャの両方で高い性能を発揮し、実世界のマルチモーダルコードインテリジェンスの基盤エンジンとしての役割が期待される。 Comment

元ポスト:

Loading…

#Pocket #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #SmallModel #OpenSource #read-later #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes
Issue Date: 2025-11-25 [Paper Note] OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe, Kaichen Zhang+, arXiv'25, 2025.11 GPT Summary- 本研究では、マルチモーダル推論のための透明な二段階トレーニングレシピ「OpenMMReasoner」を提案。監視付きファインチューニング（SFT）で874Kサンプルのデータセットを構築し、強化学習（RL）で74Kサンプルを活用して推論能力を向上。評価の結果、9つのベンチマークでQwen2.5-VL-7B-Instructに対し11.6%の性能向上を達成し、データの質とトレーニング設計の重要性を示した。すべてのリソースはオープンソースで公開。 Comment

pj page: https://evolvinglmms-lab.github.io/OpenMMReasoner/

SoTAなVLMを構築するためのオープンなデータとレシピらしい

#Pocket #NLP #LanguageModel #SmallModel #read-later
Issue Date: 2025-11-20 [Paper Note] Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B, Sen Xu+, arXiv'25, 2025.11 GPT Summary- VibeThinker-1.5Bは、Spectrum-to-Signal Principle（SSP）を用いて開発された1.5Bパラメータのモデルで、小型モデルの推論能力を向上させることを目指す。Two-Stage Diversity-Exploring DistillationとMaxEnt-Guided Policy Optimizationを組み合わせ、低コストで優れた推論性能を実現。数学ベンチマークで大規模モデルを上回る結果を示し、小型モデルが大規模モデルに匹敵する能力を持つことを証明。これにより、AI研究の民主化が促進される。 Comment

元ポスト: https://github.com/WeiboAI/VibeThinker

元ポスト:

Loading…

オフィシャル: https://huggingface.co/WeiboAI/VibeThinker-1.5B
GGUF版: https://huggingface.co/MaziyarPanahi/VibeThinker-1.5B-GGUF

1.5Bのモデルでここまでできるようになったのか

#Pocket #NLP #LanguageModel #AIAgents #Reasoning #DeepResearch Issue Date: 2025-11-19 [Paper Note] MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling, MiroMind Team+, arXiv'25, 2025.11 GPT Summary- MiroThinker v1.0は、ツール強化推論と情報探索能力を向上させるオープンソースの研究エージェントで、モデルと環境の相互作用を深めるインタラクションスケーリングを採用。256Kのコンテキストウィンドウを持ち、最大600回のツールコールを実行可能で、従来のエージェントを上回る精度を達成。インタラクションの深さがモデルの性能を向上させることを示し、次世代の研究エージェントにおける重要な要素として位置づけられる。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/miromind-ai/MiroThinker-v1.0-72B

#Analysis #Pocket #NLP #LanguageModel #read-later Issue Date: 2025-11-14 [Paper Note] Intelligence per Watt: Measuring Intelligence Efficiency of Local AI, Jon Saad-Falcon+, arXiv'25, 2025.11 GPT Summary- ローカルLMが実世界のクエリに正確に回答できるかを評価するため、タスクの精度を電力単位で割った「ワットあたりの知能（IPW）」を提案。20以上のローカルLMと8つのアクセラレーターを用いた実証研究により、ローカルLMは88.7%の精度でクエリに応答し、IPWは5.3倍改善、カバレッジは23.2%から71.3%に上昇。ローカルアクセラレーターはクラウドよりも低いIPWを達成し、ローカル推論が中央集権型インフラから需要を再分配できる可能性を示唆。IPWプロファイリングハーネスも公開。 Comment

pj page: https://hazyresearch.stanford.edu/blog/2025-11-11-ipw

元ポスト:

Loading…

この切り口は興味深い。

#Pocket #NLP #LanguageModel #Safety #read-later #Selected Papers/Blogs Issue Date: 2025-11-13 Open Technical Problems in Open-Weight AI Model Risk Management, Casper+, SSRN'25, 2025.11 GPT Summary- オープンウェイトのフロンティアAIモデルは強力で広く採用されているが、リスク管理には新たな課題がある。これらのモデルはオープンな研究を促進する一方で、恣意的な変更や監視なしの使用がリスクを増大させる。安全性ツールに関する研究は限られており、16の技術的課題を提示。オープンな研究と評価がリスク管理の科学を構築する鍵であることを強調。 Comment

元ポスト:

Loading…

#ComputerVision #EfficiencyImprovement #Pocket #ImageSegmentation #SmallModel #Video #2D (Image) Issue Date: 2025-11-09 [Paper Note] EdgeTAM: On-Device Track Anything Model, Chong Zhou+, arXiv'25, 2025.01 GPT Summary- SAM 2は動画セグメンテーションの基盤モデルであり、メモリバンクメカニズムを通じて性能を向上させています。本研究では、モバイルデバイス上での効率を高めるために、EdgeTAMを提案し、2D空間パーセプターを用いて計算コストを削減します。これにより、メモリの空間構造を保持しつつ、推論オーバーヘッドなしで性能を向上させる蒸留パイプラインも導入。EdgeTAMは複数のデータセットで高いJ&Fスコアを達成し、iPhone 15 Pro Maxで16 FPSで動作します。 Comment

元ポスト:

Loading…

SAM2より性能は少し劣るが、edge-deviceてわ動作可能で非常に高速なモデル（promptによって制御可能なsegmentation)とのこと
- [Paper Note] SAM 2: Segment Anything in Images and Videos, Nikhila Ravi+, ICLR'25, 2024.08

#Pocket #LanguageModel #SpeechProcessing #Editing #TTS #AudioLanguageModel Issue Date: 2025-11-09 [Paper Note] Step-Audio-EditX Technical Report, Chao Yan+, arXiv'25, 2025.11 GPT Summary- 初のオープンソースLLMベースの音声モデル「Step-Audio-EditX」を発表。感情や話し方の編集に優れ、ゼロショットのテキスト音声合成機能も搭載。大きなマージンの合成データを活用し、従来のアプローチからの転換を実現。評価では、感情編集や細かい制御タスクで他のモデルを上回る性能を示した。 Comment

元ポスト:

Loading…

#Analysis #Pocket #NLP #LanguageModel #read-later #Memorization Issue Date: 2025-10-26 [Paper Note] Hubble: a Model Suite to Advance the Study of LLM Memorization, Johnny Tian-Zheng Wei+, arXiv'25, 2025.10 GPT Summary- Hubbleは、LLMの記憶に関する研究のためのオープンソースモデルスイートで、標準モデルと変化モデルの2種類を提供。標準モデルは大規模な英語コーパスで事前学習され、変化モデルは特定のテキストを挿入して記憶リスクを模倣。8つのモデルが1Bまたは8Bのパラメータを持ち、100Bまたは500Bのトークンで訓練。研究により、敏感なデータの記憶はコーパスのサイズに依存し、データの露出が少ない場合は忘れられることが示された。Hubbleは、プライベート情報の記憶の容易さを分析するなど、幅広い記憶研究を可能にし、コミュニティにさらなる探求を促す。 Comment

pj page: https://allegro-lab.github.io/hubble/

元ポスト:

Loading…

HF: https://huggingface.co/allegrolab

#Pocket #NLP #LanguageModel #Alignment #InstructionTuning #SyntheticData Issue Date: 2025-10-23 [Paper Note] Extracting alignment data in open models, Federico Barbero+, arXiv'25, 2025.10 GPT Summary- 本研究では、ポストトレーニングモデルからアライメントトレーニングデータを抽出する方法を示し、埋め込みモデルが特定の能力向上に適していると主張します。文字列マッチングに依存せず、意味的類似性を捉えることで、抽出可能なデータ量を過小評価するリスクを明らかにしました。また、モデルはポストトレーニングフェーズで使用されたデータを再生でき、元のパフォーマンスを回復可能であることを示しました。研究は蒸留手法の影響についても議論します。 Comment

元ポスト:

Loading…

Magpieのような話だろうか？

#Pocket #NLP #LanguageModel #ReinforcementLearning #Reasoning #MoE(Mixture-of-Experts) Issue Date: 2025-10-17 [Paper Note] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention, MiniMax+, arXiv'25, 2025.06 GPT Summary- MiniMax-M1は、4560億パラメータを持つ世界初のオープンウェイトのハイブリッドアテンション推論モデルで、Mixture-of-Expertsアーキテクチャとライトニングアテンションを組み合わせています。1百万トークンのコンテキスト長をサポートし、複雑なタスクに適しています。新しいRLアルゴリズムCISPOを提案し、効率的な訓練を実現。標準ベンチマークで強力なオープンウェイトモデルと同等以上の性能を示し、特にソフトウェアエンジニアリングや長いコンテキストタスクで優れた結果を出しています。モデルは公開されています。 Comment

- MiniMax-M1, MiniMax, 2025.06

のテクニカルレポート。

- [Paper Note] The Art of Scaling Reinforcement Learning Compute for LLMs, Devvrit Khatri+, arXiv'25, 2025.10

でGSPO, DAPOよりも安定性と最終到達性能でより優れていることが示されたCISPOと呼ばれるRLアルゴリズムが提案されている。

関連:
- Molmo, AI2, 2024.09

models:
- https://huggingface.co/allenai/MolmoAct-7B-D-Pretrain-0812
- https://huggingface.co/allenai/MolmoAct-7B-D-0812

datasets:
- https://huggingface.co/datasets/allenai/MolmoAct-Dataset
- https://huggingface.co/datasets/allenai/MolmoAct-Pretraining-Mixture
- https://huggingface.co/datasets/allenai/MolmoAct-Midtraining-Mixture

データは公開されているが、コードが見当たらない？

チェックポイントとコードも公開された模様:
-

Loading…

- https://github.com/allenai/MolmoAct

#Pocket #NLP #LanguageModel #Reasoning #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs Issue Date: 2025-08-12 [Paper Note] GLM-4.5: Agentic, Reasoning, and Coding （ARC） Foundation Models, GLM-4. 5 Team+, arXiv'25 GPT Summary- 355Bパラメータを持つオープンソースのMixture-of-ExpertsモデルGLM-4.5を発表。ハイブリッド推論手法を採用し、エージェント的、推論、コーディングタスクで高いパフォーマンスを達成。競合モデルに比べて少ないパラメータ数で上位にランクイン。GLM-4.5とそのコンパクト版GLM-4.5-Airをリリースし、詳細はGitHubで公開。 Comment

元ポスト:

Loading…

- アーキテクチャ
- MoE / sigmoid gates
- DeepSeek-R1, DeepSeek, 2025.01
- Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity, William Fedus+, JMLR'22
- loss free balanced routing
- [Paper Note] Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts, Lean Wang+, arXiv'24
- widthを小さく、depthを増やすことでreasoning能力改善
- GQA w/ partial RoPE
- GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N/A, arXiv'23
- RoFormer: Enhanced Transformer with Rotary Position Embedding, Jianlin Su+, N/A, Neurocomputing, 2024
- Attention Headsの数を2.5倍（何に対して2.5倍なんだ、、？）（96個, 5120次元）にすることで（おそらく）事前学習のlossは改善しなかったがReasoning benchmarkの性能改善
- QK Normを導入しattentionのlogitsの値域を改善
- [Paper Note] Query-Key Normalization for Transformers, Alex Henry+, EMNLP'20 Findings
- Multi Token Prediction
- [Paper Note] Better & Faster Large Language Models via Multi-token Prediction, Fabian Gloeckle+, ICML'24
- Deep-seek-v3, deepseek-ai, 2024.12

他モデルとの比較

学習部分は後で追記する

- 事前学習データ
- web
- 英語と中国語のwebページを利用
- Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset, Dan Su+, ACL'25 と同様にquality scoreyをドキュメントに付与
- 最も低いquality scoreの文書群を排除し、quality scoreの高い文書群をup sampling
- 最もquality scoreyが大きい文書群は3.2 epoch分利用
- 多くのweb pageがテンプレートから自動生成されており高いquality scoreが付与されていたが、MinHashによってdeduplicationできなかったため、 [Paper Note] SemDeDup: Data-efficient learning at web-scale through semantic deduplication, Amro Abbas+, arXiv'23 を用いてdocument embeddingに基づいて類似した文書群を排除
- Multilingual
- 独自にクロールしたデータとFineWeb-2 [Paper Note] FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language, Guilherme Penedo+, COLM'25 から多言語の文書群を抽出し、quality classifierを適用することでeducational utilityを定量化し、高いスコアの文書群をupsamplingして利用
- code
- githubなどのソースコードhosting platformから収集
- ソースコードはルールベースのフィルタリングをかけ、その後言語ごとのquality modelsによって、high,middle, lowの3つに品質を分類
- high qualityなものはupsamplingし、low qualityなものは除外
- [Paper Note] Efficient Training of Language Models to Fill in the Middle, Mohammad Bavarian+, arXiv'22 で提案されているFill in the Middle objectiveをコードの事前学習では適用
- コードに関連するweb文書も事前学習で収集したテキスト群からルールベースとfasttextによる分類器で抽出し、ソースコードと同様のqualityの分類とサンプリング手法を適用。最終的にフィルタリングされた文書群はre-parseしてフォーマットと内容の品質を向上させた
- math & science
- web page, 本, 論文から、reasoning能力を向上させるために、数学と科学に関する文書を収集
- LLMを用いて文書中のeducational contentの比率に基づいて文書をスコアリングしスコアを予測するsmall-scaleな分類器を学習
- 最終的に事前学習コーパスの中の閾値以上のスコアを持つ文書をupsampling
- 事前学習は2 stageに分かれており、最初のステージでは、"大部分は"generalな文書で学習する。次のステージでは、ソースコード、数学、科学、コーディング関連の文書をupsamplingして学習する。

上記以上の細かい実装上の情報は記載されていない。

mid-training / post trainingについても後ほど追記する

以下も参照のこと
- GLM-4.5: Reasoning, Coding, and Agentic Abililties, Zhipu AI Inc., 2025.07

#ComputerVision #Pocket #NLP #LanguageModel #MultiModal #SpeechProcessing #UMM Issue Date: 2025-07-26 [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25 GPT Summary- Ming-Omniは、画像、テキスト、音声、動画を処理できる統一マルチモーダルモデルで、音声生成と画像生成において優れた能力を示す。専用エンコーダを用いて異なるモダリティからトークンを抽出し、MoEアーキテクチャで処理することで、効率的にマルチモーダル入力を融合。音声デコーダと高品質な画像生成を統合し、コンテキストに応じたチャットやテキストから音声への変換、画像編集が可能。Ming-Omniは、GPT-4oに匹敵する初のオープンソースモデルであり、研究と開発を促進するためにコードとモデルの重みを公開。 Comment

元ポスト:

Loading…

現在はv1.5も公開されておりさらに性能が向上している模様？

HF: https://huggingface.co/inclusionAI/Ming-Lite-Omni

#Pocket #NLP #LanguageModel #Contamination-free Issue Date: 2025-07-16 [Paper Note] Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination, Mingqi Wu+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）の推論能力向上に関する研究が進展しており、特にQwen2.5モデルが強化学習（RL）を用いて顕著な改善を示している。しかし、他のモデルでは同様の成果が得られていないため、さらなる調査が必要である。Qwen2.5は数学的推論性能が高いが、データ汚染に脆弱であり、信頼性のある結果を得るためには、RandomCalculationというクリーンなデータセットを用いることが重要である。このデータセットを通じて、正確な報酬信号が性能向上に寄与することが示された。信頼性のある結論を得るためには、汚染のないベンチマークと多様なモデルでのRL手法の評価が推奨される。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…

関連:
- Spurious Rewards: Rethinking Training Signals in RLVR, Shao+, 2025.05

こちらでQwen-mathに対して得られたRLでのgainは他モデルでは現れず汎化しないことも報告されている。

#ComputerVision #Pocket #NLP #MultiModal #Reasoning #VisionLanguageModel Issue Date: 2025-07-14 [Paper Note] Kimi-VL Technical Report, Kimi Team+, arXiv'25 GPT Summary- Kimi-VLは、効率的なオープンソースのMixture-of-Expertsビジョン・ランゲージモデルであり、2.8Bパラメータの言語デコーダーを活性化して高度なマルチモーダル推論を実現。マルチターンエージェントタスクや大学レベルの画像・動画理解において優れた性能を示し、最先端のVLMと競争。128Kの拡張コンテキストウィンドウを持ち、長い入力を処理可能。Kimi-VL-Thinking-2506は、長期的推論能力を強化するために教師ありファインチューニングと強化学習を用いて開発され、堅牢な一般能力を獲得。コードは公開されている。 Comment

- [Paper Note] Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset, Ke Wang+, NeurIPS'24 Datasets and Benchmarks Track
での性能（Vision+テキストの数学の問題）。他の巨大なモデルと比べ2.8BのActivation paramsで高い性能を達成

https://github.com/user-attachments/assets/3ec08621-f269-4f1d-97bb-3ebca537f2ea" />

その他のベンチマークでも高い性能を獲得

https://github.com/user-attachments/assets/b30afc4f-efce-4206-b499-f4f089d97226" />

モデルのアーキテクチャ。MoonViT (Image Encoder, 1Dのpatchをinput, 様々な解像度のサポート, FlashAttention, SigLIP-SO-400Mを継続事前学習, RoPEを採用) + Linear Projector + MoE Language Decoderの構成
https://github.com/user-attachments/assets/f59d7655-c1c7-4284-b79c-9d62739da889" />

学習のパイプライン。ViTの事前学習ではSigLIP loss (contrastive lossの亜種)とcaption生成のcross-entropy lossを採用している。joint cooldown stageにおいては、高品質なQAデータを合成することで実験的に大幅に性能が向上することを確認したので、それを採用しているとのこと。optimizerは
- [Paper Note] Muon is Scalable for LLM Training, Jingyuan Liu+, arXiv'25

https://github.com/user-attachments/assets/720b02f7-a260-497f-85c5-04cf382c2f98" />

https://github.com/user-attachments/assets/bb78d799-5db4-4904-8669-540d2142c95c" />

post-trainingにおけるRLでは以下の目的関数を用いており、RLVRを用いつつ、現在のポリシーモデルをreferenceとし更新をするような目的関数になっている。curriculum sampling, prioritize samplingをdifficulty labelに基づいて実施している。
https://github.com/user-attachments/assets/298fdef8-9807-4511-96f6-02241393ab9f" />

https://github.com/user-attachments/assets/4ad0d815-ef1c-4945-ae08-ab2b072ec63f" />

#Pocket #NLP #LanguageModel #Reasoning #SmallModel Issue Date: 2025-07-10 [Paper Note] Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation, Liliang Ren+, arXiv'25 GPT Summary- 最近の言語モデルの進展により、状態空間モデル（SSM）の効率的なシーケンスモデリングが示されています。本研究では、ゲーテッドメモリユニット（GMU）を導入し、Sambaベースの自己デコーダーからメモリを共有する新しいデコーダーハイブリッドアーキテクチャSambaYを提案します。SambaYはデコーディング効率を向上させ、長文コンテキスト性能を改善し、位置エンコーディングの必要性を排除します。実験により、SambaYはYOCOベースラインに対して優れた性能を示し、特にPhi4-mini-Flash-Reasoningモデルは推論タスクで顕著な成果を上げました。トレーニングコードはオープンソースで公開されています。 Comment

HF: https://huggingface.co/microsoft/Phi-4-mini-flash-reasoning

元ポスト:

Loading…

#ComputerVision #EfficiencyImprovement #Pretraining #Pocket #OpenSource #Selected Papers/Blogs #ICCV #Encoder #Backbone Issue Date: 2025-06-26 [Paper Note] OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning, Xianhang Li+, ICCV'25 GPT Summary- OpenVisionは、完全にオープンでコスト効果の高いビジョンエンコーダーのファミリーを提案し、CLIPと同等以上の性能を発揮します。既存の研究を基に構築され、マルチモーダルモデルの進展に実用的な利点を示します。5.9Mから632.1Mパラメータのエンコーダーを提供し、容量と効率の柔軟なトレードオフを実現します。 Comment

元ポスト:

Loading…

v2へアップデート:

Loading…

事前学習時にtext, image encoderのcontrastive lossで学習していたが、text encoderを無くしimage encoderに入力されたimageからcaptionを生成するcaption lossのみにすることで性能を落とすことなく効率を改善

テクニカルペーパーが出た模様

- [Paper Note] OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning, Yanqing Liu+, arXiv'25

HF: https://huggingface.co/collections/UCSC-VLAA/openvision-681a4c27ee1f66411b4ae919
pj page: https://ucsc-vlaa.github.io/OpenVision/

CLIP, SigLIPとは異なり完全にオープンなVision Encoder

v2の解説:

Loading…

#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #OpenSource #PostTraining Issue Date: 2025-06-18 [Paper Note] AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy, Zihan Liu+, arXiv'25 GPT Summary- 本研究では、教師ありファインチューニング（SFT）と強化学習（RL）の相乗効果を探求し、SFTトレーニングデータの整備においてプロンプト数の増加が推論性能を向上させることを示しました。特に、サンプリング温度を適切に調整することで、RLトレーニングの効果を最大化できることが分かりました。最終的に、AceReason-Nemotron-1.1モデルは、前モデルを大きく上回り、数学およびコードベンチマークで新たな最先端性能を達成しました。 Comment

元ポスト:

Loading…

様々なtakeawayがまとめられている。

SFT,RLに利用されたデータも公開

- Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23

において事前学習時に4 epochまでは性能の改善幅が大きいと報告されていたが、SFTでも5 epoch程度まで学習すると良い模様。

また、SFT dataをscalingさせる際は、promptの数だけでなく、prompt単位のresponse数を増やすのが効果的

#Pocket #NLP #LanguageModel #LongSequence Issue Date: 2025-05-27 QwenLong-CPRS: Towards $\infty$-LLMs with Dynamic Context Optimization, Weizhou Shen+, arXiv'25 GPT Summary- QwenLong-CPRSは、長文コンテキスト最適化のための新しいフレームワークで、LLMsの性能低下を軽減します。自然言語指示に基づく多段階のコンテキスト圧縮を実現し、効率と性能を向上させる4つの革新を導入。5つのベンチマークで、他の手法に対して優位性を示し、主要なLLMとの統合で大幅なコンテキスト圧縮と性能向上を達成。QwenLong-CPRSは新たなSOTA性能を確立しました。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #LongSequence #read-later Issue Date: 2025-05-27 QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning, Fanqi Wan+, arXiv'25 GPT Summary- 長いコンテキストの推論におけるLRMsの課題を解決するため、QwenLong-L1フレームワークを提案。ウォームアップ監視付きファインチューニングとカリキュラム指導型段階的RLを用いてポリシーの安定化を図り、難易度認識型の回顧的サンプリングで探索を促進。実験では、QwenLong-L1-32Bが他のLRMsを上回り、優れた性能を示した。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #Transformer #FoundationModel #CVPR Issue Date: 2025-04-11 AM-RADIO: Agglomerative Vision Foundation Model -- Reduce All Domains Into One, Mike Ranzinger+, CVPR'25 GPT Summary- 視覚基盤モデル（VFM）をマルチティーチャー蒸留を通じて統合するアプローチAM-RADIOを提案。これにより、ゼロショットの視覚-言語理解やピクセルレベルの理解を向上させ、個々のモデルの性能を超える。新しいアーキテクチャE-RADIOは、ティーチャーモデルよりも少なくとも7倍速い。包括的なベンチマークで様々な下流タスクを評価。 Comment

元ポスト:

Loading…

vision系のfoundation modelはそれぞれ異なる目的関数で訓練されてきており（CLIPは対照学習 Learning Transferable Visual Models From Natural Language Supervision, Radford+, OpenAI, ICML'21 , DINOv2は自己教師あり学習 DINOv2: Learning Robust Visual Features without Supervision, Maxime Oquab+, TMLR'24 , SAMはsegmentation Segment Anything, Alexander Kirillov+, arXiv'23 )それぞれ別の能力を持ってたが、それらを一個のモデルに蒸留しました、という話らしい

#ComputerVision #Pocket #NLP #LanguageModel #MultiModal #SpeechProcessing #Video Issue Date: 2025-03-31 Qwen2.5-Omni Technical Report, Jin Xu+, arXiv'25 GPT Summary- マルチモーダルモデル「Qwen2.5-Omni」は、テキスト、画像、音声、動画を認識し、ストリーミング方式で自然な音声応答を生成する。音声と視覚エンコーダはブロック処理を用い、TMRoPEによる新しい位置埋め込みで音声と動画の同期を実現。Thinker-Talkerアーキテクチャにより、テキスト生成と音声出力を干渉なく行う。Qwen2.5-Omniは、エンドツーエンドで訓練され、音声指示に対する性能がテキスト入力と同等で、ストリーミングTalkerは既存手法を上回る自然さを持つ。 Comment

Qwen TeamによるマルチモーダルLLM。テキスト、画像、動画音声をinputとして受け取り、テキスト、音声をoutputする。

weight: https://huggingface.co/collections/Qwen/qwen25-omni-67de1e5f0f9464dc6314b36e

元ポスト: https://www.linkedin.com/posts/niels-rogge-a3b7a3127_alibabas-qwen-team-has-done-it-again-this-activity-7311036679627132929-HUqy?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

#NLP #Dataset #LanguageModel #Alignment #ICLR Issue Date: 2024-10-17 Llama-3.1-Nemotron-70B-Instruct, Nvidia, （ICLR'25）, 2024.10 GPT Summary- 報酬モデルの訓練にはBradley-Terryスタイルと回帰スタイルがあり、データの一致が重要だが、適切なデータセットが不足している。HelpSteer2データセットでは、Bradley-Terry訓練用の好みの注釈を公開し、初めて両モデルの直接比較を行った。これに基づき、両者を組み合わせた新アプローチを提案し、Llama-3.1-70B-InstructモデルがRewardBenchで94.1のスコアを達成。さらに、REINFORCEアルゴリズムを用いて指示モデルを調整し、Arena Hardで85.0を記録した。このデータセットはオープンソースとして公開されている。 Comment

MTBench, Arena HardでGPT4o-20240513,Claude-3.5-sonnet-20240620をoutperform。Response lengthの平均が長いこと模様

openreview: https://openreview.net/forum?id=MnfHxPP5gs

#ComputerVision #Pocket #NLP #LanguageModel #MultiModal #MoE(Mixture-of-Experts) #VisionLanguageModel Issue Date: 2025-10-07 [Paper Note] Aria: An Open Multimodal Native Mixture-of-Experts Model, Dongxu Li+, arXiv'24, 2024.10 GPT Summary- Ariaは、オープンなマルチモーダルネイティブAIモデルであり、視覚とテキストのタスクにおいて高い性能を発揮します。3.9Bの視覚トークンと3.5Bのテキストトークンを持つエキスパートの混合モデルで、既存のプロプライエタリモデルを上回ります。言語理解やマルチモーダル理解を強化する4段階のパイプラインで事前トレーニングされ、モデルウェイトとコードベースはオープンソースとして提供されます。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/rhymes-ai/Aria

提案された当時2024年10月時点で、VisionとText Understanding双方でに強い初めてのモデルで、初のマルチモーダルMoEモデルで（当時まだ話題になっていなかったDeepSeek-V2アーキテクチャを採用）、LongVideoのUnderstanidinpで当時の最高性能であったとのこと。

#Pocket #NLP #LanguageModel Issue Date: 2024-12-15 Phi-4 Technical Report, Marah Abdin+, arXiv'24 GPT Summary- 140億パラメータの言語モデル「phi-4」は、合成データを取り入れたトレーニングにより、STEMに特化したQA能力で教師モデルを大幅に上回る性能を示す。phi-3のアーキテクチャを最小限に変更しただけで、推論ベンチマークにおいても改善されたデータとトレーニング手法により強力なパフォーマンスを達成。 Comment

現状Azureでのみ利用可能かも。Huggingfaceにアップロードされても非商用ライセンスになるという噂も

MITライセンス
HuggingFace:
https://huggingface.co/microsoft/phi-4

#NLP #LanguageModel #SyntheticData #OpenSource Issue Date: 2024-11-06 Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent, Xingwu Sun+, arXiv'24 GPT Summary- Hunyuan-Largeは、3890億パラメータを持つオープンソースのTransformerベースの専門家混合モデルで、最大256Kトークンを処理可能。言語理解や生成、論理推論などのベンチマークでLLama3.1-70Bを上回り、LLama3.1-405Bと同等の性能を示す。主な特徴には大規模な合成データ、混合専門家ルーティング、キー・バリューキャッシュ圧縮、専門家特有の学習率戦略が含まれ、今後のモデル開発に向けた洞察も提供。コードとモデルは公開されている。 Comment

合計パラメータ数はLlama-3.1-405Bと同等の389Bだが、MoEによって52BのActive ParameterでSoTAを達成したTencentのOpenSource LLM。大量のSynthetia Dataを利用している。

#EfficiencyImprovement #Pocket #NLP #LanguageModel Issue Date: 2024-04-23 Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone, Marah Abdin+, N_A, arXiv'24 GPT Summary- phi-3-miniは38億パラメータの言語モデルであり、3.3兆トークンで訓練されています。Mixtral 8x7BやGPT-3.5などの大規模モデルに匹敵する総合的なパフォーマンスを持ちながら、スマートフォンにデプロイ可能なサイズです。このモデルは、厳密にフィルタリングされたWebデータと合成データで構成されており、堅牢性、安全性、およびチャット形式に適合しています。また、phi-3-smallとphi-3-mediumというより大規模なモデルも紹介されています。 Comment

Textbooks Are All You Need II: phi-1.5 technical report, Yuanzhi Li+, N/A, arXiv'23 の次の次（Phi2.0についてはメモってなかった）。スマホにデプロイできるレベルのサイズで、GPT3.5Turbo程度の性能を実現したらしい

Llama2と同じブロックを利用しているため、アーキテクチャはLlama2と共通。

#Pocket #NLP #LanguageModel #OpenSource Issue Date: 2024-03-05 OLMo: Accelerating the Science of Language Models, Dirk Groeneveld+, N_A, arXiv'24 GPT Summary- LMsの商業的重要性が高まる中、最も強力なモデルは閉鎖されており、その詳細が非公開になっている。そのため、本技術レポートでは、本当にオープンな言語モデルであるOLMoの初回リリースと、言語モデリングの科学を構築し研究するためのフレームワークについて詳細に説明している。OLMoはモデルの重みだけでなく、トレーニングデータ、トレーニングおよび評価コードを含むフレームワーク全体を公開しており、オープンな研究コミュニティを強化し、新しいイノベーションを促進することを目指している。 Comment

Model Weightsを公開するだけでなく、training/evaluation codeとそのデータも公開する真にOpenな言語モデル（truly Open Language Model）。AllenAI

#Pocket #NLP #LanguageModel Issue Date: 2024-01-09 Mixtral of Experts, Albert Q. Jiang+, N_A, arXiv'24 GPT Summary- Mixtralは、Sparse Mixture of Experts（SMoE）言語モデルであり、各レイヤーが8つのフィードフォワードブロックで構成されています。Mixtralは、トークンごとに2つのエキスパートを選択し、それらの出力を組み合わせます。Mixtralは、Llama 2 70BとGPT-3.5を上回る性能を持ち、数学、コード生成、多言語のベンチマークで特に優れています。また、Mixtral 8x7B - Instructという指示に従うモデルも提供されており、人間のベンチマークを凌駕しています。 Comment

Mixture of experts Layer: inputを受け取ったrouterが、8つのexpertsのうち2つを選択し順伝搬。2つのexpertsのoutputを加重平均することで最終的なoutputとする。

#ComputerVision #Pocket #NLP #LanguageModel #MultiModal Issue Date: 2025-04-11 PaLI-3 Vision Language Models: Smaller, Faster, Stronger, Xi Chen+, arXiv'23 GPT Summary- PaLI-3は、従来のモデルに比べて10倍小型で高速な視覚言語モデル（VLM）であり、特にローカリゼーションや視覚的テキスト理解において優れた性能を示す。SigLIPベースのPaLIは、20億パラメータにスケールアップされ、多言語クロスモーダル検索で新たな最先端を達成。50億パラメータのPaLI-3は、VLMの研究を再燃させることを期待されている。 Comment

OpenReview: https://openreview.net/forum?id=JpyWPfzu0b

実験的に素晴らしい性能が実現されていることは認められつつも
- 比較対象がSigLIPのみでより広範な比較実験と分析が必要なこと
- BackboneモデルをContrastive Learningすること自体の有用性は既に知られており、新規性に乏しいこと

としてICLR'24にRejectされている

#Pocket #NLP #LanguageModel Issue Date: 2024-05-24 Mistral 7B, Albert Q. Jiang+, N_A, arXiv'23 GPT Summary- Mistral 7B v0.1は、70億パラメータの言語モデルであり、高速な推論のためにGQAを活用し、SWAを組み合わせている。また、Mistral 7B -- InstructはLlama 2 13B -- Chatモデルを上回っており、Apache 2.0ライセンスの下で公開されています。 Comment

Mistral Large Mixtral-8x22B-v0.1, 2024 などのモデルも参照のこと

モデルのスケールが大きくなると、inferenceのlatencyが遅くなり、計算コストが大きくなりすぎて実用的でないので、小さいパラメータで素早いinference実現したいよね、というモチベーション。

そのために、SlidingWindowAttentionとGroupQueryAttention GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N/A, arXiv'23 を活用している。

より小さいパラメータ数でLlama2を様々なタスクでoutperformし

Instruction Tuningを実施したモデルは、13BモデルよりもChatbotArenaで高いElo Rateを獲得した。

コンテキスト長は8192

#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #Chain-of-Thought #SmallModel #One-Line Notes Issue Date: 2023-11-21 Orca 2: Teaching Small Language Models How to Reason, Arindam Mitra+, N_A, arXiv'23 GPT Summary- Orca 1は、豊富なシグナルから学習し、従来のモデルを上回る性能を発揮します。Orca 2では、小さな言語モデルの推論能力を向上させるために異なる解決戦略を教えることを目指しています。Orca 2は、さまざまな推論技術を使用し、15のベンチマークで評価されました。Orca 2は、同じサイズのモデルを大幅に上回り、高度な推論能力を持つ複雑なタスクで優れた性能を発揮します。Orca 2はオープンソース化されており、小さな言語モデルの研究を促進します。 Comment

ポイント解説:

Loading…

HF: https://huggingface.co/microsoft/Orca-2-13b

論文を読むとChatGPTのデータを学習に利用しているが、現在は競合となるモデルを作ることは規約で禁止されているので注意

#NLP #LanguageModel #FoundationModel Issue Date: 2023-07-22 Llama 2: Open Foundation and Fine-Tuned Chat Models, Hugo Touvron+, N_A, arXiv'23 GPT Summary- この研究では、大規模な言語モデルであるLlama 2を開発し、微調整しています。Llama 2-Chatは対話に特化しており、オープンソースのチャットモデルを上回る性能を示しています。安全性の改善にも取り組んでおり、責任ある開発に貢献することを目指しています。 Comment

参考:

Loading…

Llama, およびLlama2では、一般的なTransformer Decoderとは異なり、linear layerの”前に”RMSPropをかませている点が異なる。

また、Llama2では、Llamaと比較して

- Group Query Attentionの利用 GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N/A, arXiv'23

- 活性化関数として、ReLUではなく、SwiGLU GLU Variants Improve Transformer, Noam Shazeer, N/A, arXiv'20 の活用

- Positional Embeddingとして、RoPE RoFormer: Enhanced Transformer with Rotary Position Embedding, Jianlin Su+, N/A, Neurocomputing, 2024 の活用

- より長いContext Windowsでの学習（4k）

を実施している。

出典： https://cameronrwolfe.substack.com/p/llama-2-from-the-ground-up

#Article #Pocket Issue Date: 2025-11-27 [Paper Note] Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer, Alibaba, 2025.11 Comment

HF: https://huggingface.co/Tongyi-MAI/Z-Image-Turbo

元ポスト:

Loading…

ポイント解説:

Loading…

公式ポスト:

Loading…

#Article #NLP #LanguageModel #ReinforcementLearning #OpenSource #read-later #Selected Papers/Blogs Issue Date: 2025-11-27 [Paper Note] INTELLECT-3: Technical Report, Prime Intellect Team, 2025.11 Comment

HF: https://huggingface.co/PrimeIntellect/INTELLECT-3

元ポスト:

Loading…

著者ポスト:

Loading…

完全にオープンソースでデータやフレームワーク、評価も含め公開されているとのこと。素晴らしい

#Article #AIAgents #Blog #SmallModel #ComputerUse #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-25 Fara-7B: An Efficient Agentic Model for Computer Use, Microsoft, 2025.11 Comment

元ポスト:

Loading…

computer useに特化したMS初のSLM(CUA)

MIT Licence

著者ポスト:

Loading…

#Article #ComputerVision #Transformer #DiffusionModel #VideoGeneration/Understandings Issue Date: 2025-11-21 Hunyuan Video 1.5 Technical Report, Tencent, 2025.11 Comment

pj page: https://hunyuan.tencent.com/video/zh?tabIndex=0
HF: https://huggingface.co/tencent/HunyuanVideo-1.5

元ポスト:

Loading…

#Article #NLP #LanguageModel #Reasoning #OpenSource #read-later #Selected Papers/Blogs Issue Date: 2025-11-20 Olmo 3: Charting a path through the model flow to lead open-source AI, Ai2, 2025.11 Comment

元ポスト:

Loading…

解説:

Loading…

post-LN transformer

OLMo2:
- OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini, AllenAI, 20250.3

ポイント解説:

Loading…

official livestream video:

Loading…

解説:

Loading…

Qwen3-32Bと同等の性能を達成している。そしてそれがオープンソース、素晴らしい。読むべし！！

Olmo3のライセンスに関する以下のような懸念がある:

Loading…

#Article #ComputerVision #NLP #TabularData #read-later #DocParser #VisionLanguageModel #OCR Issue Date: 2025-11-20 NVIDIA-Nemotron-Parse-v1.1, NVIDIA, 2025.11 Comment

元ポスト:

Loading…

olmocr2と比較して性能はどうだろうか、特に日本語
- olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10

#Article #RecommenderSystems #Embeddings #InformationRetrieval #NLP #Blog #Reranking Issue Date: 2025-11-20 Introducing zerank-2: The Most Accurate Multilingual Instruction-Following Reranker, ZeroEntropy, 2025.11 Comment

HF: https://huggingface.co/zeroentropy/zerank-2

SoTA reranker

関連:
- zerank-1, zeroentropy, 2025.07

#Article #NLP #LanguageModel #OpenSource #read-later #Selected Papers/Blogs #DeepResearch Issue Date: 2025-11-19 DR Tulu: An open, end-to-end training recipe for long-form deep research, AI2, 2025.11 GPT Summary- RLERを用いて進化するルーブリックを構築し、長文深層研究モデルDR Tulu-8Bを開発。これにより、既存のモデルを大幅に上回る性能を実現し、クエリあたりのサイズとコストを削減。すべてのデータ、モデル、コードを公開し、深層研究システムの新しいインフラも提供。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

著者ポスト2:

Loading…

著者ポスト3:

Loading…

demoをほぼ無料で実施できるとのこと:

Loading…

#Article #NLP #AIAgents #Blog #ComputerUse #VisionLanguageModel Issue Date: 2025-11-14 Holo2: Cost-Efficient Models for Cross-Platform Computer-Use Agents, H Company, 2025.11 Comment

HF: https://huggingface.co/collections/Hcompany/holo2

元ポスト:

Loading…

#Article #Transformer #SpeechProcessing #MultiLingual #AutomaticSpeechRecognition(ASR) #Selected Papers/Blogs #AudioLanguageModel Issue Date: 2025-11-12 Omnilingual ASR: Advancing Automatic Speech Recognition for 1,600+ Languages, Meta, 2025.11 Comment

paper: https://scontent-nrt1-2.xx.fbcdn.net/v/t39.2365-6/581068541_867604242498398_5662399655411595851_n.pdf?_nc_cat=104&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=roRXUCWwUzgQ7kNvwGfUHdX&_nc_oc=Adk1jwJ3ikYa7-wjyoYuwAWxspuId2sUB5R3ZFF_nob0zB5jE6dql9wPt6OXGp9hJjE&_nc_zt=14&_nc_ht=scontent-nrt1-2.xx&_nc_gid=_HnDT1USFOsMkvlcwznXoQ&oh=00_AfjbS8ajtH_TlDsUoGJIPal9Vq0iq0BL4gKvBSdqHsZ3Sw&oe=6919E35F

#Article #NLP #LanguageModel #Blog #Reasoning #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-11-07 Introducing Kimi K2 Thinking, MoonshotAI, 2025.11 Comment

HF: https://huggingface.co/moonshotai

元ポスト:

Loading…

coding系ベンチマークでは少しGPT5,Claude Sonnet-4.5に劣るようだが、HLE, BrowseCompなどではoutperform

tooluseのベンチマークであるtau^2 Bench TelecomではSoTA

Loading…

モデルの図解:

Loading…

INT4-QATに関する解説:

Loading…

INT4-QATの解説:

Loading…

Kimi K2 DeepResearch:

Loading…

METRによる50% timehorizonの推定は54分:

Loading…

ただしサードパーティのinference providerによってこれは実施されており、（providerによって性能が大きく変化することがあるため）信頼性は低い可能性があるとのこと。

METRでの評価でClaude 3.7 Sonnetと同等のスコア:

Loading…

openweightモデルがproprietaryモデルに追いつくのはsoftwere engineeringタスク（agenticなlong horizon+reasoningタスク）9ヶ月程度を要しているとのこと

#Article #ComputerVision #NLP #FoundationModel #2D (Image) Issue Date: 2025-11-06 OlmoEarth-v1-Large, Ai2, 2025.11 Comment

元ポスト:

Loading…

衛星画像で学習されたモデルらしい

#Article #Analysis #NLP #LanguageModel #Blog Issue Date: 2025-11-01 Open-weight models lag state-of-the-art by around 3 months on average, EPOCH AI, 2025.10 Comment

タイトルの通りな模様

元ポスト:

Loading…

#Article #ComputerVision #NLP #LanguageModel #SpeechProcessing #MoE(Mixture-of-Experts) #2D (Image) #UMM #4D (Video) #Omni #audio #text Issue Date: 2025-11-01 LongCat-Flash-Omni Technical Report, 2025.10 Comment

元ポスト:

Loading…

HF: https://huggingface.co/meituan-longcat/LongCat-Flash-Omni

text, image/video, audioをinputし、audioを生成するomniモデル

#Article #EfficiencyImprovement #NLP #LanguageModel #Attention #Architecture #read-later #Hybrid Issue Date: 2025-10-31 [Paper Notes] KIMI LINEAR: AN EXPRESSIVE, EFFICIENT ATTENTION ARCHITECTURE, Kimi Team, 2025.10 Comment

HF: https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

元ポスト:

Loading…

所見:

Loading…

所見:

Loading…

アーキテクチャ解説:

Loading…

#Article #NLP #LanguageModel #Reasoning #Safety #One-Line Notes #Safeguard Issue Date: 2025-10-30 gpt-oss-safeguard, OpenAI, 2025.10 Comment

元ポスト:

Loading…

blog: https://openai.com/index/introducing-gpt-oss-safeguard/

ポリシーとそのポリシーに従うべきコンテンツが与えられたときに、コンテンツを分類するタスクを実施できる汎用的なreasoningモデル。つまり、任意のポリシーを与えて追加の学習なしでpromptingによってコンテンツがポリシーのもとでsafe/unsafeなのかを分類できる。

gpt-ossをreinforcbment finetuningしているとのこと。

#Article #Pretraining #NLP #LanguageModel #Blog #OpenSource #Selected Papers/Blogs Issue Date: 2025-10-30 Marin 32B Retrospective, marin-community, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #TTS #Routing #UMM #Omni #Sparse #ImageSynthesis Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

過去一番多くのタグを付与した気がするが、果たして大規模、Omniモデルかつ、UMMにしたことによる恩恵（＝様々なモダリティを統一された空間上に学習させる恩恵）はどの程度あるのだろうか？

アーキテクチャを見ると、モダリティごとに（モダリティ単位でのバイアスがかかった）Routerが用意されexpertにルーティングされるような構造になっている。

#Article #NLP #LanguageModel #DiffusionModel #MoE(Mixture-of-Experts) Issue Date: 2025-10-28 LLaDA 2.0, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Blog #Selected Papers/Blogs #Reference Collection Issue Date: 2025-10-26 MiniMax-M2: Intelligence, Performance & Price Analysis, Artificial Analysis, 2025.10 Comment

元ポスト:

Loading…

関連:
- [Paper Note] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention, MiniMax+, arXiv'25, 2025.06

CISPOを提案したMiniMax-M1の後続モデルと思われるMiniMax-M2-previewが中国製のモデルでArtificial Intelligenceでの評価でトップに立った模様。

所見:

Loading…

モデルが公開:
https://huggingface.co/MiniMaxAI/MiniMax-M2

proprietaryモデルになるもんだと思ってた、、、これを公開するの凄すぎでは、、、

公式ポスト:

Loading…

MITライセンス

vLLMでのserving方法:
https://docs.vllm.ai/projects/recipes/en/latest/MiniMax/MiniMax-M2.html

> You can use 4x H200/H20 or 4x A100/A800 GPUs to launch this model.

上記GPUにおいては--tensor-parallel-size 4で動作する模様。

SGLangでもサポートされている:

Loading…

AnthropicのAPIの利用をお勧めする理由:

Loading…

（以下管理人の補足を含みます）MiniMax-M2はAgenticなCoTをするモデルなので、contextの情報を正しく保持する必要がある。特に、マルチターンのやり取りをAPIを介してユーザが実行する場合、OpenAIのchatcompletionはCoTを返してくれず、マルチターンのやり取りをしても同じsessionで利用したとしても、前のターンと同じCoTが利用されないことがドキュメントに記述されている。このような使い方をサポートしているのはResponceAPIのみであるため、ResponceAPIでのみ適切なパフォーマンスが達成される。この点がconfusingなので、誤った使い方をするとMiniMaxの真価が発揮されず、しかもそれに気づけずに使い続けてしまう可能性がある。AnthropicのAPIではSonnet 4.5では全ての応答に明示的にCoTが含まれるため、その心配がない、だからAnthropicがおすすめ、みたいな話だと思われる。

アーキテクチャ解説:

Loading…

解説:

Loading…

#Article #ComputerVision #Transformer #DiffusionModel #TextToImageGeneration #LongSequence #VariationalAutoEncoder #VideoGeneration/Understandings Issue Date: 2025-10-26 LongCat-Video Techcal Report, Meituan LongCat Team, 2025.10 Comment

元ポスト:

Loading…

HF: https://huggingface.co/meituan-longcat/LongCat-Video

公式ポスト:

Loading…

#Article #Pretraining #InstructionTuning #SpeechProcessing #Reasoning #SmallModel #Zero/FewShotLearning #Selected Papers/Blogs #UMM #AudioLanguageModel Issue Date: 2025-10-25 Introducing MiMo-Audio, LLM-Core Xiaomi, 2025.10 Comment

HF: https://huggingface.co/collections/XiaomiMiMo/mimo-audio

元ポスト:

Loading…

text, audioを入力として受け取り、text, audioを出力するAudioLanguageModel

#Article #RecommenderSystems #InformationRetrieval #Encoder #Reranking Issue Date: 2025-10-23 zerank-1, zeroentropy, 2025.07 Comment

SoTAなcross-encoderに基づくreranker。おそらく英語にのみ対応。

zerank-1はcc-by-nc-4.0, smallはApache2.0ライセンス

#Article #ComputerVision #NLP #SmallModel #MultiLingual #VisionLanguageModel Issue Date: 2025-10-22 LFM2-VL-3B: A New Efficient Vision-Language for the Edge, LiquidAI, 2025.10 Comment

元ポスト:

Loading…

HF: https://huggingface.co/LiquidAI/LFM2-VL-3B

SigLIP2とLFM2がバックボーン
- Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07

#Article #ComputerVision #NLP #SmallModel #MultiLingual #DocParser #VisionLanguageModel #OCR Issue Date: 2025-10-22 dots.ocr, rednote-hilab, 2025.07 Comment

100+言語のdots.ocr benchと呼ばれるものでの性能も報告されているが、日本語性能はどのくらいなのだろうか

MIT Licence

参考:VLMを使った多言語ドキュメントパーサ「dots.ocr」を試す, kun432, Zenn
https://zenn.dev/kun432/scraps/b91fce6fbeb30c

日本語もかなりいけてそう

#Article #ComputerVision #NLP #LanguageModel #MultiLingual #DocParser #OCR Issue Date: 2025-10-22 Chandra, datalab-to, 2025.10 Comment

元ポスト:

Loading…

SoTA.だったdots.ocrというモデルをoutperformしている模様

40+ languagesをサポート

AI PUBS OpenRAIL-M Modifiedライセンス🤔
https://huggingface.co/datalab-to/chandra/blob/main/LICENSE

dots.ocrはMIT Licence
- dots.ocr, rednote-hilab, 2025.07

#Article #NLP #LanguageModel #SmallModel #Japanese #PII Issue Date: 2025-10-14 LFM2-350M-PII-Extract-JP, LiquidAI, 2025.10 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#Article #NLP #LanguageModel #Reasoning Issue Date: 2025-10-14 Ring-1T, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

inclusionAIから続々とfrontierなモデルが出てきている。

テクニカルレポートが公開:
- [Paper Note] Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model, Ling Team+, arXiv'25, 2025.10

#Article #NLP #LanguageModel #AIAgents #Evaluation Issue Date: 2025-10-12 K2 Vendor Verifier, MoonshotAI, 2025.09 Comment

Kimi K2のプロバイダー間でのツール呼び出しの性能の違いを確認できる

元ポスト:

Loading…

#Article #ComputerVision #Transformer #DiffusionModel #TextToImageGeneration #Blog #Selected Papers/Blogs Issue Date: 2025-10-10 Introducing Stable Diffusion 3.5, StabilityAI, 2024.10 Comment

SD3.5

#Article #SpeechProcessing #MultiLingual #TTS Issue Date: 2025-10-09 commonvoice22_sidon, sarulab-speech, 2025.10 Comment

元ポスト:

Loading…

134言語サポートのTTS

#Article #Embeddings #NLP #SmallModel #Encoder Issue Date: 2025-10-09 colbert-muvera-femto, NeuML, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #SmallModel #SSM (StateSpaceModel) Issue Date: 2025-10-09 Jamba Reasoning 3B, AI21Labs, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Blog #SmallModel #MoE(Mixture-of-Experts) Issue Date: 2025-10-08 LFM2-8B-A1B: An Efficient On-device Mixture-of-Experts, LiquidAI, 2025.10 Comment

HF: https://huggingface.co/LiquidAI/LFM2-8B-A1B

元ポスト:

Loading…

日本語もサポートしているとのこと

#Article #NLP #LanguageModel #AIAgents #Japanese Issue Date: 2025-10-07 エージェント機能が大幅に強化されたPLaMo 2.1 Primeの提供開始, PFN, 2025.10 Comment

マルチターンのtool callingのベンチマークのSimple, Multiple（それぞれ単一ツール呼び出し、複数のツールの中から適切なツールを呼び出す能力）でBFCVv3でGPT-5超え。ただしGPT-5はツール呼び出しではなくユーザと対話する傾向にあるため、chatアプリケーションではこちらの方が有用な場合があるので全てのユースケースでPLaMoが上回ることを示しているわけではない、という注釈がついている。より実験的な環境であるLive MultipleではGPT-5の方がスコアが高い模様。
- BFCLv2, UC Berkeley, 2024.08

単一呼び出し、複数定義されている中から適切なツールを呼び出すことで済むようなユースケースの場合は検討の余地があると思われる。ただし細かいreasoning_effortやverbosity等のパラメータ設定が記述されていないように見えるので、その辺はどうなんだろうか。

#Article #NLP #LanguageModel #DiffusionModel #Coding #SmallModel #OpenSource Issue Date: 2025-10-05 CODA: Coding LM via Diffusion Adaption, Chen+, 2025.10 Comment

元ポスト:

Loading…

HF: https://huggingface.co/Salesforce/CoDA-v0-Instruct

cc-by-nc-4.0

#Article #ComputerVision #NLP #LanguageModel #UMM Issue Date: 2025-10-03 Ming-UniVision: Joint Image Understanding and Generation via a Unified Continuous Tokenizer, inclusionAI, 2025.10 Comment

HF: https://huggingface.co/inclusionAI/Ming-UniVision-16B-A3B

元ポスト:

Loading…

#Article #NLP #LanguageModel #SpeechProcessing #Blog #Editing Issue Date: 2025-10-03 Ming-UniAudio: Speech LLM for Joint Understanding, Generation and Editing with Unified Representation, inclusionAI, 2025.07 Comment

元ポスト:

Loading…

Ming-Omniの後継モデルで、スピーチに特化して書き起こし、理解、編集などができるモデル

- [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25

HF: https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B

公式ポスト:

Loading…

#Article #NLP #LanguageModel #Transformer #LongSequence #SmallModel #SSM (StateSpaceModel) Issue Date: 2025-10-02 IBM Granite 4.0: hyper-efficient, high performance hybrid models for enterprise, IBM, 2025.10 Comment

元ポスト:

Loading…

Mamba2とtransformerのハイブリッドモデルで、比率は9:1とMamba2ブロックが多めらしい。Mamba2の恩恵によりlokg-context時のメモリ使用量が70パーセント削減されるとのこと。

#Article #ComputerVision #NLP #MultiModal #Reasoning #SmallModel #VisionLanguageModel Issue Date: 2025-10-01 Apriel-1.5-15b-Thinker, ServiceNow-AI, 2025.09 Comment

元ポスト:

Loading…

Artificial Analysisによるベンチマーキングでは現状<20BでSoTAなReasoningモデルな模様。
MIT License

公式ポスト:

Loading…

Nvidiaによるポスト:

Loading…

#Article #NLP #LanguageModel #read-later Issue Date: 2025-09-30 GLM-4.6: Advanced Agentic, Reasoning and Coding Capabilies, Zhipu AI, 2025.09 Comment

元ポスト:

Loading…

続報:

Loading…

Artificial Intelligenceによる評価:

Loading…

OpenWeightモデルの中でトップレベルのベンチスコア

#Article #ComputerVision #Reasoning #VisionLanguageModel Issue Date: 2025-09-29 InternVL3.5-Flash, OpenGVLab, 2025.09 Comment

元ポスト:

Loading…

#Article #LanguageModel Issue Date: 2025-09-29 Ring-1T-preview, inclusionAI, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Attention #Reference Collection #Sparse Issue Date: 2025-09-29 DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention, DeepSeek-AI, 2025.09 Comment

元ポスト:

Loading…

DeepSeek Sparse Attentionポイント解説:

Loading…

解説:

Loading…

DSA図解:

Loading…

ポイント解説:

Loading…

公式ポスト:

Loading…

#Article #ComputerVision #NLP #MultiModal #UMM #One-Line Notes Issue Date: 2025-09-29 HunyuanImage-3.0, Tencent, 2025.09 Comment

元ポスト:

Loading…

所見:

Loading…

テキスト生成+画像理解・生成が可能なUnified Multimodal Models (UMMs)。テキストはtokenizer、画像は生成用エンコーダ、理解用エンコーダを用意してエンコードしDecoder-Only Tranformerに入力。auto-regressiveに生成し、テキストはDe-Tokenizerでテキスト化、画像の場合は専用のDecoderでデコードする。

https://github.com/user-attachments/assets/8e06f188-3885-4eed-8837-eb560dcc6b67" />

#Article #NLP #LanguageModel #FoundationModel #Blog Issue Date: 2025-09-26 Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07 Comment

元ポスト:

Loading…

LiquidAIによるedgeデバイス向けのFoundation Model。品質、スピード、メモリ、ハードウェアのバランスを最適にしておるとのこと。たとえばQwenと比較して2倍のデコードとprefill速度とのこと。また、同サイズのモデル群よりも高い性能を実現しているらしい。
下記グラフはMMLU, IFEval,IFBENCH,GSM8K,MMMLUでの評価の平均。他にもGPQA,MGSMでも評価しており、同サイズのモデルと比べて同等か少し劣るくらい。

アーキテクチャはRNNをベースにしており、従来の時間がstepごとに発展するRNNではなく、連続時間を扱えるようなRNNの変種なようでより柔軟に時間スケールを扱えるようなアーキテクチャらしい。また、LIV Operatorと呼ばれる入力に応じて動的に異なる線形変換を実施するOperatorを採用している模様。たとえば入力に応じて、convolution, attention, recurrenceなどのoperationが変化する。これに基づいて、さまざまなアーキテクチャのNNを定義できるようになったので、最適なアーキテクチャを模索するためにSTARと呼ばれるアルゴリズムでNeural Architecture Searchを実施した模様。

メモリに制約があるエッジデバイス向けにKVCache不要で現在の隠れ状態のみを保持すれば良いRNNベースのアーキテクチャを採用するのは理に適っている。

#Article #MachineTranslation #NLP #LanguageModel #AIAgents #RAG(RetrievalAugmentedGeneration) #Mathematics #SmallModel #Japanese #DocParser Issue Date: 2025-09-26 Liquid Nanos, LiquidAI, 2025.09 Comment

blog: https://www.liquid.ai/blog/introducing-liquid-nanos-frontier-grade-performance-on-everyday-devices

モデルファミリーに350Mの日英翻訳モデルが含まれている…だと！？

タスクスペシフィックなedgeデバイス向けのSLM群。

以下のようなモデルファミリー。非構造テキストからのデータ抽出、日英翻訳、RAG, tooluse, Math, フランス語のチャットモデル。これまでマルチリンガルに特化したMTとかはよく見受けられたが、色々なタスクのSLMが出てきた。

元ポスト:

Loading…

LFM2はこちら:
- Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07

#Article #NLP #LanguageModel #Coding #mid-training #PostTraining #One-Line Notes Issue Date: 2025-09-25 CWM: An Open-Weights LLM for Research on Code Generation with World Models, Copet+, 2025.09 Comment

元ポスト:

Loading…

World Modelと銘打ってあるが、一般的なCV分野でのWorld Modelではなく、python やbash等の実行をトークン列として仮想的にトレースできるようにmid trainingされている（大量の実トレースデータが利用されている模様）ので、World Modelと銘打たれている模様？

GRPOに対するモダンなtweakがまとまっている模様:

Loading…

DeepSeek-R1で提案されてから細かな調整が重ねられて来た。

#Article #NLP #LanguageModel #Safety #Safeguard Issue Date: 2025-09-23 Qwen3-Guard, Qwen Team, 2025.09 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #VisionLanguageModel Issue Date: 2025-09-23 Qwen3-VL, Qwen Team, 2025.09 Comment

元ポスト:

Loading…

DocVQAのオラクルはラベルノイズと曖昧性の観点から94--95という主張:

Loading…

Qwen3 VL cookbook:
https://github.com/QwenLM/Qwen3-VL/tree/main/cookbooks

元ポスト:

Loading…

続報:

Loading…

#Article #NLP #LanguageModel #Omni #Reference Collection Issue Date: 2025-09-23 Qwen3-Omni, Qwen Team, 2025.09 Comment

テクニカルレポート: https://github.com/QwenLM/Qwen3-Omni/blob/main/assets/Qwen3_Omni.pdf

公式ポスト:

Loading…

元ポスト:

Loading…

ポイント解説:

Loading…

日本語で音声to音声可能:

Loading…

Artificial Analysisによる評価:

Loading…

#Article #NLP #LanguageModel #Quantization #Reasoning Issue Date: 2025-09-23 Qwen3-Next-series-FP8, Qwen Team, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Reasoning Issue Date: 2025-09-23 DeepSeek-V3.1-Terminus, deepseek-ai, 2025.09 Comment

元ポスト:

Loading…

vLLMでデプロイする時のtips:

Loading…

#Article #NLP #LanguageModel #Reasoning #read-later #Selected Papers/Blogs #ModelMerge Issue Date: 2025-09-22 LongCat-Flash-Thinking, meituan-longcat, 2025.09 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#Article #NLP #LanguageModel #Reasoning #MoE(Mixture-of-Experts) Issue Date: 2025-09-20 Ring-flash-2.0, inclusionAI, 2025.09 Comment

元ポスト:

Loading…

- Ling-flash-2.0-baseをベースにしたモデルで、100B-A6.1 params
- 各種ベンチでgpt-oss-120Bと同等以上。denseな40Bモデル（Qwen-32B, Seed-OSS-36B-Instruct）やproprietary modelであるGemini-2.5-Flashと比較して同等以上の性能
https://github.com/user-attachments/assets/f5aed972-e2f3-49e8-80fa-70e6ee110512" />

- アーキテクチャ
- Multi Token Prediction [Paper Note] Multi-Token Prediction Needs Registers, Anastasios Gerontopoulos+, NeurIPS'25
- 1/32 experts activation ratio
- gpt-oss-120Bは4 expertsがactiveだが、こちらは1 shared + 8 experts
- attention head数はgpt-oss-120Bの64の1/2である32
- group size 4のGQA GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N/A, arXiv'23
- gpt-oss-120BのEmbed dim=2880に対して大きめのEmbed dim=4096
- 最初の1ブロックだけ、MoEの代わりにhidden_size=9216のFNNが利用されている

https://github.com/user-attachments/assets/1f3bf7c9-7997-4fbb-95b5-d2f1d8b10b0a" />

#Article #ComputerVision #NLP #LanguageModel #MultiModal #Reasoning #VisionLanguageModel Issue Date: 2025-09-18 Magistral-Small-2509, MistralAI, 2025.09 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #MultiModal #DocParser #VisionLanguageModel Issue Date: 2025-09-18 granite-docling-258M, IBM, 2025.09 Comment

元ポスト:

Loading…

Apache 2.0, 言語は英語のみ

#Article #NLP #LanguageModel #MoE(Mixture-of-Experts) Issue Date: 2025-09-18 Ling-flash-2.0, inclusionAI, 2025.09 Comment

100B-A6.1B, 20Tトークンで学習, SFT+マルチステージRL, 40Bパラメータ以下のモデルの中でSoTA, 200+tokens/secのデコーディング速度

元ポスト:

Loading…

公式ポスト:

Loading…

#Article #NLP #LanguageModel #AIAgents #DeepResearch Issue Date: 2025-09-17 Tongyi DeepResearch: A New Era of Open-Source AI Researchers, Tongyi Lab, 2025.09 Comment

元ポスト:

Loading…

ベンチマーク:
- [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25
- [Paper Note] BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, Jason Wei+, arXiv'25
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23
- [Paper Note] xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations, Kaiyuan Chen+, arXiv'25
- [Paper Note] SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge, Lukas Haas+, arXiv'25
- [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25
- [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, NAACL'25
- [Paper Note] BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese, Peilin Zhou+, arXiv'25

#Article #ComputerVision #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #ComputerUse #GRPO #VisionLanguageModel Issue Date: 2025-09-16 Holo1.5 - Open Foundation Models for Computer Use Agents, H Company, 2025.09 Comment

7BのみApache 2.0ライセンス。3BはQwenのライセンスを継承し、72Bはnon-commercialライセンスらしい

モデルカードとブログによると下記モデル群とSonnet 4 よりもComputer Use関連ベンチマーク(GUI上での位置を特定するUI LocalizationとScreen Contentの理解およびQA関連のベンチマーク)で高性能とのこと:
- [Paper Note] UI-Venus Technical Report: Building High-performance UI Agents with RFT, Zhangxuan Gu+, arXiv'25
- Introducing UI-TARS-1.5, ByteDance, 2025.04
- Qwen2.5-VL-32B-Instruct, Qwen Team, 2025.03

モデルカードによるとopen sourceデータのmixと、合成データ、人手でアノテーションされたデータを用いて、SFT->GRPOによって学習されたとだけ書かれている。

#Article #NLP #LanguageModel #SmallModel Issue Date: 2025-09-12 Ring-mini-2.0, inclusionAI, 2025.09 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

- Ling V2, inclusionAI, 2025.09

をベースモデルとしてLong CoT SFT, RLVR, RLHFを実施した結果、code, math, logic, science関連のベンチでgpt-oss-20B(medium)を超えているらしい。

Joint Trainingと書かれているが詳細はなく、よくわからない。

#Article #NLP #LanguageModel #SmallModel Issue Date: 2025-09-11 Ling V2, inclusionAI, 2025.09 Comment

元ポスト:

Loading…

所見:

Loading…

blog: https://huggingface.co/blog/im0qianqian/ling-mini-2-fp8-mixed-precision-training-solution

元ポスト:

Loading…

#Article #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #OpenSource #GRPO #read-later #RLVR #Selected Papers/Blogs Issue Date: 2025-09-10 [Paper Note] K2-Think: A Parameter-Efficient Reasoning System, Institute of Foundation Models, Mohamed bin Zayed University of Artificial Intelligence, 2025.09 Comment

HF: https://huggingface.co/LLM360/K2-Think
code:
- https://github.com/MBZUAI-IFM/K2-Think-SFT
- https://github.com/MBZUAI-IFM/K2-Think-Inference

RLはverl+GRPOで実施したとテクニカルペーパーに記述されているが、当該部分のコードの公開はされるのだろうか？
RLで利用されたデータはこちら:
- [Paper Note] Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective, Zhoujun Cheng+, arXiv'25

元ポスト:

Loading…

#Article #NLP #LanguageModel #Reasoning #MoE(Mixture-of-Experts) #read-later #VisionLanguageModel Issue Date: 2025-09-10 ERNIE-4.5-21B-A3B-Thinking, Baidu, 2025.09 Comment

元ポスト:
-

Loading…

テクニカルレポート: https://ernie.baidu.com/blog/publication/ERNIE_Technical_Report.pdf

logical reasoning, 数学、コーディング、科学、数学、テキスト生成などの分野で21B-A3Bパラメータにも関わらずDeepSeek-R1に高い性能を達成しているように見える。コンテキストウィンドウは128k。

何が決め手でこのやうな小規模モデルで高い性能が出るのだろう？テクニカルレポートを読んだらわかるんだろうか。

#Article #NLP #LanguageModel Issue Date: 2025-09-05 Kimi-K2-Instruct-0905, MoonshotAI, 2025.09 Comment

以前と比較してSWE Bench系の性能が大幅に向上しているように見える

元ポスト:

Loading…

公式ポスト:

Loading…

Artificial Analysisによるベンチマーキング結果:

Loading…

Agenticな能力が顕著に改善している旨が記述されている。

Creative Short Story Benchmarkと呼ばれるでSoTA:

Loading…

ベンチマーク:
https://github.com/lechmazur/writing

キャラクター、object, tone, Attributeなどのストーリーを構成する要素のみを指定して、600-800程度のストーリーを記述させるベンチマークで、評価は18個のルーブリック（8こすのルーブリックでnarrativeとしての品質を評価し、残りで構成やrequirementsを満たしているかなどの評価をする）に基づく複数LLMによるLLM-as-a-Judgeによるスコアリング結果を集約することで実施している模様。
スコアリングに利用されているLLMは下記:

- Claude Opus 4.1 (no reasoning)
- DeepSeek V3.1 Reasoner
- Gemini 2.5 Pro
- GPT-5 (low reasoning)
- Grok 4
- Kimi K2
- Qwen 3 235B A22B 25-07 Think

複数LLMを利用しているとはいえ、評価対象のモデルもgradeで利用するモデルに含まれているのは気になるところ。あとはnarrativeの品質評価はLLMでどこまでできるのだろうか。

#Article #Embeddings #NLP #MultiLingual Issue Date: 2025-09-05 Introducing EmbeddingGemma: The Best-in-Class Open Model for On-Device Embeddings, Google, 2025.09 Comment

HF: https://huggingface.co/collections/google/embeddinggemma-68b9ae3a72a82f0562a80dc4

元ポスト:

Loading…

解説:

Loading…

解説:

Loading…

#Article #NLP #LanguageModel #MultiLingual #OpenSource Issue Date: 2025-09-03 APERTUS: DEMOCRATIZING OPEN AND COMPLIANT LLMS FOR GLOBAL LANGUAGE ENVIRONMENTS, Apertus Team, 2025.09 Comment

HF: https://huggingface.co/collections/swiss-ai/apertus-llm-68b699e65415c231ace3b059

元ポスト:

Loading…

1811カ国語に対応した、スイス発のOpenSource（=学習データ、学習のレシピ、学習データを再現するためのスクリプトも公開されている） LLM。8B / 70Bが存在。

Apache 2.0 + Apertus LLM Acceptable Use Policy

解説:

Loading…

#Article #ComputerVision #WorldModels Issue Date: 2025-09-02 HunyuanWorld-Voyager: Technical Report, Tencent, 2025.09 Comment

pj page: https://3d-models.hunyuan.tencent.com/world/

元ポスト:

Loading…

#Article #Survey #ComputerVision #NLP #LanguageModel #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-09-02 August 2025 - China Open Source Highlights, 2025.09 Comment

元ポスト:

Loading…

#Article #MachineTranslation #NLP #LanguageModel #Selected Papers/Blogs Issue Date: 2025-09-01 Hunyuan-MT-7B, Tencent, 2025.09 Comment

テクニカルレポート: https://github.com/Tencent-Hunyuan/Hunyuan-MT/blob/main/Hunyuan_MT_Technical_Report.pdf

元ポスト:

Loading…

Base Modelに対してまず一般的な事前学習を実施し、その後MTに特化した継続事前学習（モノリンガル/パラレルコーパスの利用）、事後学習（SFT, GRPO)を実施している模様。
継続事前学習では、最適なDataMixの比率を見つけるために、RegMixと呼ばれる手法を利用。Catastrophic Forgettingを防ぐために、事前学習データの20%を含めるといった施策を実施。

SFTでは2つのステージで構成されている。ステージ1は基礎的な翻訳力の強化と翻訳に関する指示追従能力の向上のために、Flores-200の開発データ(33言語の双方向の翻訳をカバー)、前年度のWMTのテストセット(English to XXをカバー）、Mandarin to Minority, Minority to Mandarinのcuratedな人手でのアノテーションデータ、DeepSeek-V3-0324での合成パラレルコーパス、general purpose/MT orientedな指示チューニングデータセットのうち20%を構成するデータで翻訳のinstructinoに関するモデルの凡化性能を高めるためキュレーションされたデータ、で学習している模様。パラレルコーパスはReference-freeな手法を用いてスコアを算出し閾値以下の低品質な翻訳対は除外している。ステージ2では、詳細が書かれていないが、少量でよりfidelityの高い約270kの翻訳対を利用した模様。また、先行研究に基づいて、many-shotのin-context learningを用いて、訓練データをさらに洗練させたとのこと（先行研究が引用されているのみで詳細な記述は無し）。また、複数の評価ラウンドでスコアの一貫性が無いサンプルは手動でアノテーション、あるいはverificationをして品質を担保している模様。

RLではGRPOを採用し、rewardとしてsemantic([Paper Note] xCOMET: Transparent Machine Translation Evaluation through Fine-grained Error Detection, Nuno M. Guerreiro+, TACL'24 ), terminology([Paper Note] TAT-R1: Terminology-Aware Translation with Reinforcement Learning and Word Alignment, Zheng Li+, arXiv'25 ; ドメイン特有のterminologyを捉える), repetitionに基づいたrewardを採用している。最終的にSFT->RLで学習されたHuayuan-MT-7Bに対して、下記プロンプトを用いて複数のoutputを統合してより高品質な翻訳を出力するキメラモデルを同様のrewardを用いて学習する、といったpipelineになっている。

https://github.com/user-attachments/assets/dbb7a799-6304-4cfa-b75c-74b44fe39a2e" />

https://github.com/user-attachments/assets/33b49ef7-b93b-4094-b83e-5931d2b411e5" />

関連: PLaMo翻訳
- PLaMo Translate: 翻訳特化大規模言語モデルの開発,今城+, Jxiv'25

こちらはSFT->Iterative DPO->Model Mergeを実施し、翻訳に特化した継続事前学習はやっていないように見える。一方、SFT時点で独自のテンプレートを作成し、語彙の指定やスタイル、日本語特有の常体、敬体の指定などを実施できるように翻訳に特化したテンプレートを学習している点が異なるように見える。Hunyuanは多様な翻訳の指示に対応できるように学習しているが、PLaMo翻訳はユースケースを絞り込み、ユースケースに対する性能を高めるような特化型のアプローチをとるといった思想の違いが伺える。

#Article #EfficiencyImprovement #NLP #LanguageModel #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-08-31 LongCat-Flash-Chat, meituan-longcat, 2025.08 Comment

テクニカルレポート: https://github.com/meituan-longcat/LongCat-Flash-Chat/blob/main/tech_report.pdf

元ポスト:

Loading…

Agent周りのベンチで高性能なnon thinkingモデル。毎秒100+トークンの生成速度で、MITライセンス。Dynamic Activation...?

Dynamic Activation (activation paramが入力に応じて変化(全てのトークンをMoEにおいて均一に扱わない）することで効率化）は、下記を利用することで実現している模様

- [Paper Note] MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts, Peng Jin+, ICLR'25

しかし中国は本当に次々に色々な企業から基盤モデルが出てくるなぁ…すごい

- [Paper Note] Scaling Exponents Across Parameterizations and Optimizers, Katie Everett+, ICML'24

解説:

Loading…

解説:

Loading…

#Article #SpeechProcessing #AutomaticSpeechRecognition(ASR) #OpenSource Issue Date: 2025-08-29 OLMoASR: A series of open speech recognition models, Ai2, 2025.08 Comment

元ポスト:

Loading…

オープンソースのOLMOシリーズから英語のASRが登場

モデルとトークナイザはWhisperと同様な模様

technical report: https://github.com/allenai/OLMoASR/blob/main/tech_report/olmoasr_tech_report.pdf

#Article #ComputerVision #Transformer #VideoGeneration/Understandings #Encoder-Decoder Issue Date: 2025-08-27 Wan-S2V: Audio-Driven Cinematic Video Generation, Alibaba, 2025.08 Comment

元ポスト:

Loading…

関連:
- Qwen3, Qwen Team, 2025.04

- [Paper Note] Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination, Mingqi Wu+, arXiv'25

において、Qwen2.5-math-7B, Qwen2.5-7Bに対して、Math500, AMC,
AIME2024データについてコンタミネーションの可能性が指摘されている点には留意したい。

- Kimi K2: Open Agentic Intelligence, moonshotai, 2025.07

ポストのベンチ上ではKimi-K2を超えているように見えるが、果たして…？

#Article #NLP #LanguageModel #Reasoning #Distillation #OpenSource Issue Date: 2025-07-18 OpenReasoning-Nemotron: A Family of State-of-the-Art Distilled Reasoning Models, Nvidia, 2025.07 Comment

DeepSeek-R1-0528から応答を合成したデータでSFTのみを実施し、32BでQwe3-235B-A22Bと同等か上回る性能。アーキテクチャはQwen2.5。データはOpenCode/Math/Scienceを利用。

元ポスト:

Loading…

データも公開予定

#Article #MachineTranslation #NLP #LanguageModel #SmallModel #MultiLingual Issue Date: 2025-07-18 Seed-X-Instruct-7B, ByteDance-Seed, 2025.07 Comment

元ポスト:

Loading…

MTに特化したMultilingual SLM。7Bモデルだがベンチマーク上では他の大規模なモデルと同等以上。

テクニカルレポート: https://github.com/ByteDance-Seed/Seed-X-7B/blob/main/Technical_Report.pdf

#Article #NLP #LanguageModel #Optimizer #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #Stability #KeyPoint Notes #Reference Collection Issue Date: 2025-07-12 Kimi K2: Open Agentic Intelligence, moonshotai, 2025.07 Comment

元ポスト:

Loading…

1T-A32Bのモデル。さすがに高性能。

（追記） Reasoningモデルではないのにこの性能のようである。

1T-A32Bのモデルを15.5Tトークン訓練するのに一度もtraining instabilityがなかったらしい
元ポスト:

Loading…

量子化したモデルが出た模様:

Loading…

仕事早すぎる

DeepSeek V3/R1とのアーキテクチャの違い:

Loading…

MLAのヘッドの数が減り、エキスパートの数を増加させている

解説ポスト:

Loading…

利用されているOptimizer:
- [Paper Note] Muon is Scalable for LLM Training, Jingyuan Liu+, arXiv'25

2つほどバグがあり修正された模様:

Loading…

chatbot arenaでOpenLLMの中でトップのスコア
元ポスト:

Loading…

テクニカルペーパーが公開: https://github.com/MoonshotAI/Kimi-K2/blob/main/tech_report.pdf

元ポスト:

Loading…

テクニカルレポートまとめ:

Loading…

以下のような技術が使われている模様
- Rewriting Pre-Training Data Boosts LLM Performance in Math and Code, Kazuki Fujii+, arXiv'25
- MLA MHA vs MQA vs GQA vs MLA, Zain ul Abideen, 2024.07
- MuonCip
- MuonOptimizer [Paper Note] Muon is Scalable for LLM Training, Jingyuan Liu+, arXiv'25
- QK-Clip
- 参考（こちらはLayerNormを使っているが）: Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action, Jiasen Lu+, N/A, CVPR'24
- RLVR
- DeepSeek-R1, DeepSeek, 2025.01
- Self-Critique
- 関連: [Paper Note] Inference-Time Scaling for Generalist Reward Modeling, Zijun Liu+, arXiv'25
- [Paper Note] Writing-Zero: Bridge the Gap Between Non-verifiable Problems and Verifiable Rewards, Xun Lu, arXiv'25
- Temperature Decay
- 最初はTemperatureを高めにした探索多めに、後半はTemperatureを低めにして効用多めになるようにスケジューリング
- Tool useのためのSynthetic Data

https://github.com/user-attachments/assets/74eacdb2-8f64-4d53-b2d0-66df770f2e8b" />

Reward Hackingに対処するため、RLVRではなくpairwise comparisonに基づくself judging w/ critique を利用きており、これが非常に効果的な可能性があるのでは、という意見がある:

Loading…

#Article #Tutorial #NLP #LanguageModel #Reasoning #LongSequence #SmallModel #MultiLingual #OpenSource #Selected Papers/Blogs Issue Date: 2025-07-09 SmolLM3: smol, multilingual, long-context reasoner, HuggingFace, 2025.07 Comment

元ポスト:

Loading…

SmolLM3を構築する際の詳細なレシピ(アーキテクチャ、データ、data mixture, 3 stageのpretraining(web, code, mathの割合と品質をステージごとに変え、stable->stable->decayで学習), midtraining(long context->reasoning, post training(sft->rl), ハイブリッドreasoningモデルの作り方、評価など)が説明されている

学習/評価スクリプトなどがリリース:

Loading…

#Article #ComputerVision #NLP #LanguageModel #MultiModal #MoE(Mixture-of-Experts) Issue Date: 2025-06-30 ERNIE 4.5 Series, ERNIE TEAM, 2025.06 Comment

Tech Report: https://yiyan.baidu.com/blog/publication/ERNIE_Technical_Report.pdf

元ポスト:

Loading…

解説ポスト:

Loading…

#Article #NLP #LanguageModel #Reasoning Issue Date: 2025-06-27 Hunyuan-A13B-Instruct, tencent, 2025.06 Comment

元ポスト:

Loading…

- MoEアーキテクチャ, 80B-A13B
- fast, slow thinking mode
- 256k context window
- agenticタスクに特に特化
- Grouped Query Attention, 複数の量子化フォーマットをサポート

公式ポスト:

Loading…

画像は公式ポストより引用。Qwen3-235B-A22Bよりも少ないパラメータ数で、同等（agenticタスクはそれ以上）なようにベンチマーク上は見えるが、果たして。

果たして日本語の性能はどうだろうか。
TENCENT HUNYUAN COMMUNITY LICENSE
https://github.com/Tencent-Hunyuan/Hunyuan-A13B/blob/main/LICENSE

#Article #NLP #LanguageModel #Japanese Issue Date: 2025-06-25 Swallow LLM Leaderboard, Swallow LLM Team Comment

#Article #Tutorial #Pretraining #NLP #Dataset #LanguageModel #Evaluation #Blog #Japanese #PostTraining Issue Date: 2025-06-25 LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05 Comment

#Article #ComputerVision #NLP #LanguageModel #MultiModal #Reasoning Issue Date: 2025-06-24 Kimi-VL-A3B-Thinking-2506, moonshotai, 2025.06 Comment

元ポスト:

Loading…

様々なベンチマークでSoTA(gpt4o, Qwen2.5-VL-7B)を達成したReasoning VLM

テクニカルペーパー:
- [Paper Note] Kimi-VL Technical Report, Kimi Team+, arXiv'25

#Article #NLP #LanguageModel #Reasoning #MoE(Mixture-of-Experts) Issue Date: 2025-06-17 MiniMax-M1, MiniMax, 2025.06 Comment

元ポスト:

Loading…

vLLMでのservingが推奨されており、コンテキストは1M、456BのMoEアーキテクチャでactivation weightは46B

公式ポスト:

Loading…

Agentもリリースした模様:

Loading…

#Article #ComputerVision #FoundationModel #Video Issue Date: 2025-06-12 V-JEPA 2, Meta, 2025.06 Comment

元ポスト:

Loading…

Physical Reasoning Leaderboardなるもので現在トップな模様。

https://huggingface.co/spaces/facebook/physical_reasoning_leaderboard

#Article #Embeddings #NLP #LanguageModel #RepresentationLearning Issue Date: 2025-06-06 Qwen_Qwen3-Embedding-4B-GGUF, QwenTeam, 2025.06 Comment

8BモデルはMTEBでトップの性能を達成。context 32K。100以上の言語をサポート。32--2560次元にoutputの次元数をカスタマイズできる（嬉しい、が性能にどの程度影響が出るから気になる）。

元ポスト:

Loading…

QwenTeam post:

Loading…

#Article #TimeSeriesDataProcessing #MachineLearning #Transformer #FoundationModel Issue Date: 2025-05-25 Datadog_Toto-Open-Base-1.0, Datadog, 2025.05 Comment

元ポスト:

Loading…

（あとでコメント追記する

#Article #NLP #Library #Supervised-FineTuning (SFT) #Blog #MoE(Mixture-of-Experts) #PostTraining Issue Date: 2025-05-11 ms-swiftによるMegatron-LMベースのQwen3のファインチューニング, Aratako, 2025.05 Comment

元ポスト:

Loading…

Megatron-SWIFTというAlibaba製のライブラリを利用しQwen3の継続事前学習とSFTを実施する方法を、ベストプラクティスに則って記述し、かつ著者自身が学習したモデルも公開している。（おそらくインスタンス代は自腹なので）すごい...!!
Megatron-SWIFTはMoEアーキテクチャを採用したモデルであれば、DeepSpeed Zero3 [^1]と比べて10倍程度のスループットで学習できる模様（早い）。一方MoEアーキテクチャでないモデルの場合はそこまで大きな差はない。

[^1]: A100 80GB 2ノードでは、Qwen3-30B-A3Bは、DeepSpeed-Zero2ではOOMとなり載らないようだ…。なんとリソースに厳しいこと…（涙）

#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #SmallModel #GRPO Issue Date: 2025-05-01 Phi-4-reasoning Technical Report, 2025.04 Comment

元ポスト:

Loading…

こちらの解説が非常によくまとまっている:

Loading…

が、元ポストでもテクニカルペーパー中でもo3-miniのreasoning traceをSFTに利用してCoTの能力を強化した旨が記述されているが、これはOpenAIの利用規約に違反しているのでは…？

#Article #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #InstructionTuning #Blog #LongSequence #MultiLingual #MoE(Mixture-of-Experts) #PostTraining Issue Date: 2025-04-29 Qwen3, Qwen Team, 2025.04 Comment

- 119言語をサポート
- MoEモデル Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer, Noam Shazeer+, ICLR'17
- 30B-A3B / 235B-A22N
- 128K context window
- Qwen2.5はMoEを採用していないので新たなアーキテクチャとなる
- Denseモデル（非MoEモデル）も公開
- 0.6B -- 32B
- 32K -- 128K context window
- Thinking/Non-thinking の切り替えが切り替えが可能
- スイッチは自動的に実施されるが、ユーザが明示的に `/think`, `/no_think` を user_promptの末尾に追加することで制御することも可能
- Pre-training
- データ
- 36 trillion tokensによって学習（Qwen-2.5の2倍）
- 学習データではwebデータに加えて、PDF-likeな文書群からQwen2.5-VL Qwen2.5-VL-32B-Instruct, Qwen Team, 2025.03 によってテキストを抽出し、Qwen2.5 で抽出された内容の品質を改善し利用
- また、math / code に関するデータを追加するために、Qwen2.5-Math / Qwen2.5-Coderを用いて合成データを作成（textbooks / QA pairs / code snippets Textbooks Are All You Need, Suriya Gunasekar+, N/A, arXiv'23 ）
- 事前学習のステップ
- S1: context長が4kの30 trillion tokenで事前学習
- S2: STEM / coding / reasoning task などのknowledge-intensiveデータの比率を増やして継続事前学習 (これがおそらく 5 trillion token程度？)
- Final Stage: context長を32kに拡大し高品質なlong-context dataで継続事前学習
- これによりBaseモデルが完成し、Qwen3-235B全体のうち10%程度のActive Parameterの利用するだけで（i.e., 22Bで）、Qwen2.5-72B Baseと同等以上の性能達成
- Post-training
- S1: long-CoT cold start
- 数学/coding/logical reasoning/STEMなどの多様なlong CoTデータを用いてSFT s1: Simple test-time scaling, Niklas Muennighoff+, arXiv'25
- S2: reasoning-based RL
- rule-based (verifiable) rewards によるRL DeepSeek-R1, DeepSeek, 2025.01
- S1/S2の流れは Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, arXiv'25 に有効性が示されている通り、long CoT DataによるSFT -> RLを実施
- S3: thinking mode fusion
- S2データを用いてlong CoTデータとinstruction tuningデータ（非Long CoT）を生成し、Thinking/Non-thinkingを自動的に選択し生成するように学習（SFT or RLは記述なし）
- S4: general RL
- 20以上の一般的なドメインのタスクを通じて一般的な能力の向上と、safetyに関するalignmentの実施（e.g., instruction following, format following, agent能力など）

BestPracticeに関するポスト:

Loading…

解説:

Loading…

#Article #ComputerVision #Pocket #NLP #LanguageModel #AIAgents #MultiModal #Blog #Reasoning #ComputerUse #VisionLanguageModel Issue Date: 2025-04-18 Introducing UI-TARS-1.5, ByteDance, 2025.04 GPT Summary- UI-TARSは、スクリーンショットを入力として人間のようにインタラクションを行うネイティブGUIエージェントモデルであり、従来の商業モデルに依存せず、エンドツーエンドで優れた性能を発揮します。実験では、10以上のベンチマークでSOTA性能を達成し、特にOSWorldやAndroidWorldで他のモデルを上回るスコアを記録しました。UI-TARSは、強化された知覚、統一アクションモデリング、システム-2推論、反射的オンライントレースによる反復トレーニングなどの革新を取り入れ、最小限の人間の介入で適応し続ける能力を持っています。 Comment

paper: https://arxiv.org/abs/2501.12326

色々と書いてあるが、ざっくり言うとByteDanceによる、ImageとTextをinputとして受け取り、TextをoutputするマルチモーダルLLMによるComputer Use Agent (CUA)

元ポスト:

Loading…

#Article #NLP #LanguageModel #Reasoning Issue Date: 2025-04-12 Seed-Thinking-v1.5, ByteDance, 2025.04 Comment

DeepSeek-R1を多くのベンチで上回る200B, 20B activated paramのreasoning model

最近のテキストのOpenWeightLLMはAlibaba, DeepSeek, ByteDance, Nvidiaの4強という感じかな…？（そのうちOpenAIがオープンにするReasoning Modelも入ってきそう）。

#Article #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #InstructionTuning #Pruning #Reasoning Issue Date: 2025-04-08 Llama-3_1-Nemotron-Ultra-253B-v1, Nvidia, 2025.04 Comment

DeepSeek-R1をGPQA Diamond GPQA: A Graduate-Level Google-Proof Q&A Benchmark, David Rein+, N/A, COLM'24 , AIME2024/2025, Llama4 Maverickを
BFCLv2（Tool Calling, BFCLv2, UC Berkeley, 2024.08 ), IFEVal Instruction-Following Evaluation for Large Language Models, Jeffrey Zhou+, N/A, arXiv'23 で上回り, そのほかはArenaHardを除きDeepSeekR1と同等

DeepSeekR1が671B（MoEで37B Activation Param）に対し、こちらは253B（ただし、Llama3.1がベースなのでMoEではない）で同等以上の性能となっている。
ReasoningをON/OFFする能力も備わっている。

モデルがどのように訓練されたかを示す全体図がとても興味深い:

特に Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, arXiv'25 でも有効性が示されているように、SFTをしてからReasoningを強化する（強化というより元々持っている能力を引き出す？）RLを実施している。

詳細は下記Blogとのこと:
https://developer.nvidia.com/blog/build-enterprise-ai-agents-with-advanced-open-nvidia-llama-nemotron-reasoning-models/

元ポスト:

Loading…

#Article #NLP #LanguageModel #DiffusionModel Issue Date: 2025-04-08 Dream-v0-Instruct-7B, Dream-org, 2025.04 Comment

OpenWeightな拡散言語モデル

元ポスト:

Loading…

#Article #ComputerVision #NLP #LanguageModel #MultiModal #Reference Collection Issue Date: 2025-04-05 Llama 4 Series, Meta, 2025.04 Comment

Downloads: https://www.llama.com/?utm_source=twitter&utm_medium=organic_social&utm_content=image&utm_campaign=llama4

Huggingface:
https://huggingface.co/collections/meta-llama/llama-4-67f0c30d9fe03840bc9d0164

解説ポスト:

Loading…

Artificial Analysisによる性能検証:

Loading…

MaverickがGPT4oと同等、ScoutがGPT4o-miniと同等

Update:

Loading…

性能に関して不可解な点が多そうなので様子見をしても良いかも。

性能検証（Math-Perturb):

Loading…

日本語にあまり強くないという情報も
元ポスト:

Loading…

どうやらvLLMのLlama4のinferenceにバグがあったやうで、vLLMのIssue 16311にて、Llama4のinferenceに関するバグが修正され、性能が向上した模様。どのベンチを信じたら良いかまるでわからん。

2025.0413現在のchatbot arenaのランクは、32位となり（chatbot arena向けにtuningされていたであろうモデルは2位だった）GPT-4oが29位であることを考慮すると上記のArtificial Intelligenceの評価とも大体一致している。

https://lmarena.ai

関連ポスト:

Loading…

#Article #NLP #LanguageModel #SoftwareEngineering Issue Date: 2025-04-02 openhands-lm-32b-v0.1, all-hands, 2025.03 Comment

Qwen Coder 2.5 Instruct 32Bに基づく最先端のSWEタスクが実行可能なモデル

#Article #ComputerVision #NLP #LanguageModel #MultiModal Issue Date: 2025-03-25 Qwen2.5-VL-32B-Instruct, Qwen Team, 2025.03 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Reasoning Issue Date: 2025-03-19 Llama Nemotron, Nvidia, 2025.03 Comment

Nvidiaによる初めてのreasoning model。
元ポスト:

Loading…

Artificial Analysisにやるベンチマーク:

Loading…

GPQA Diamond（大学院（Ph.D）レベルの生物学、物理学、化学の450問程度の難解なmultiple choice question）で、DeepSeekV3, GPT4o, QwQ-32Bをoutperform. Claude 3.7 sonnetより少しスコアが低い。
DeepSeekR1, o1, o3-mini（high）, Claude 3.7 sonnet Thinkingなどには及んでいない。

（画像は元ポストより引用）

システムプロンプトを変えることでreasoningをon/offできる模様

#Article #NLP #LanguageModel #Reasoning Issue Date: 2025-03-18 EXAONE-Deep-32B, LG AI Research, 2025.03 Comment

元ポスト:

Loading…

EXAONE AI Model License Agreement 1.1 - NC
商用利用不可

#Article #ComputerVision #NLP #LanguageModel #MultiModal Issue Date: 2025-03-18 SmolDocling-256M, IBM Research, 2025.03 Comment

元ポスト: https://www.linkedin.com/posts/andimarafioti_we-just-dropped-%F0%9D%97%A6%F0%9D%97%BA%F0%9D%97%BC%F0%9D%97%B9%F0%9D%97%97%F0%9D%97%BC%F0%9D%97%B0%F0%9D%97%B9%F0%9D%97%B6%F0%9D%97%BB%F0%9D%97%B4-activity-7307415358427013121-wS8m?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

Apache-2.0ライセンス。言語はEnglishのみな模様

マルチモーダルなImage-To-Textモデル。サンプルはこちら

#Article #ComputerVision #NLP #LanguageModel #MultiModal #VisionLanguageModel #KeyPoint Notes Issue Date: 2025-03-17 sarashina2-vision-{8b, 14b}, SB Intuitions, 2025.03 Comment

元ポスト:

Loading…

VLM。Xに散見される試行例を見ると日本語の読み取り性能は結構高そうに見える。

モデル構成、学習の詳細、および評価:

Loading…

LLM（sarashina2）, Vision Encoder（Qwen2-VL）, Projectorの3つで構成されており、3段階の学習を踏んでいる。
最初のステップでは、キャプションデータを用いてProjectorのみを学習しVision Encoderとテキストを対応づける。続いて、日本語を含む画像や日本特有の風景などをうまく扱えるように、これらを多く活用したデータ（内製日本語OCRデータ、図表キャプションデータ）を用いて、Vision EncoderとProjectorを学習。最後にLLMのAlignmentをとるために、プロジェクターとLLMを前段のデータに加えてVQAデータ（内製合成データを含む）や日本語の指示チューニングデータを用いて学習。

ProjectorやMMLLMを具体的にどのように学習するかは
- MM-LLMs: Recent Advances in MultiModal Large Language Models, Duzhen Zhang+, N/A, ACL'24 Findings

を参照のこと。

#Article #NLP #LanguageModel #OpenSource #Selected Papers/Blogs Issue Date: 2025-03-14 OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini, AllenAI, 20250.3 Comment

真なる完全なるオープンソース（に近い？）OLMOの最新作

学習が安定しやすいpre LNではなく性能が最大化されやすいPost LNを採用している模様。学習を安定化させるために、QKNormやRMSNormを採用するなどの工夫を実施しているらしい。

#Article #NLP #LanguageModel Issue Date: 2025-03-12 Introducing Gemma 3: The most capable model you can run on a single GPU or TPU, Google, 2025.03 Comment

Googleの新たなSLMで、デバイスやラップトップでも動作可能な軽量モデル。テキストだけでなく画像とShortVideoの認識もできて、140言語をサポート。おまけに27BモデルでLlama3-405BとDeepSeek-V3とo3-miniをChatbotArenaのリーダーボードで上回り、128kのcontext window。えぇ…。

モデルの詳細: https://huggingface.co/blog/gemma3

1Bモデルは英語のみサポート、マルチモーダル不可など制約がある模様。
詳細までは書いていないが、128Kコンテキストまでcontext windowを広げる際の概要とRoPE（のような）Positional Embeddingを利用していること、SlideingWindow Attentionを用いておりウィンドウサイズが以前の4096から性能を維持したまま1024に小さくできたこと、ImageEncoderとして何を利用しているか（SigLIP）、896x896の画像サイズをサポートしており、正方形の画像はこのサイズにリサイズされ、正方形でない場合はcropされた上でリサイズされる（pan and scanアルゴリズムと呼ぶらしい）こと、事前学習時のマルチリンガルのデータを2倍にしたことなど、色々書いてある模様。

Gemmaライセンス

解説ポスト:

Loading…

解説ポスト:

Loading…

#Article #NLP #LanguageModel #Reasoning #MultiLingual Issue Date: 2025-03-12 Reasoning with Reka Flash, Reka, 2025.03 Comment

Weights: https://huggingface.co/RekaAI/reka-flash-3

Apache-2.0

< /reasoning >を強制的にoutputさせることでreasoningを中断させることができ予算のコントロールが可能とのこと

#Article #NLP #LanguageModel #ReinforcementLearning #Reasoning Issue Date: 2025-03-06 QwQ-32B: Embracing the Power of Reinforcement Learning, Qwen Team, 2025.03 Comment

元ポスト:

Loading…

- START: Self-taught Reasoner with Tools, Chengpeng Li+, arXiv'25

Artificial Analysisによるベンチマークスコア:

Loading…

おそらく特定のタスクでDeepSeekR1とcomparable, 他タスクでは及ばない、という感じになりそうな予感

#Article #NLP #LanguageModel Issue Date: 2025-03-04 microsoft_Phi-4-multimodal-instruct, Microsoft, 2025.02 Comment

元ポスト: https://www.linkedin.com/posts/vaibhavs10_holy-shitt-microsoft-dropped-an-open-source-activity-7300755229635944449-mQP8?utm_medium=ios_app&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4&utm_source=social_share_send&utm_campaign=copy_link

MIT License

#Article #NLP #LanguageModel #Reasoning Issue Date: 2025-02-17 Mistral-24B-Reasoning, yentinglin, 2025.02 Comment

Apache-2.0

#Article #ComputerVision #NLP #LanguageModel #MultiModal #UMM Issue Date: 2025-01-28 Janus-Series: Unified Multimodal Understanding and Generation Models, DeepSeek, 2025.01 Comment

DeepSeekによる新たなUMM、Janus-Proが本日リリース。MIT License

Janus-Proのパフォーマンス。

github上でのパフォーマンスの図解から引用。マルチモーダル（テキスト+画像）の理解に関するベンチマークでLLaVA超え。GenEval, DPG Benchと呼ばれる画像生成ベンチマークでDALL-E 3超え。

テクニカルレポート中での詳細から引用。どのベンチマークでも基本的に最高性能なように見える。

テクニカルレポート: https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf

ベンチマーク:
- [Paper Note] GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment, Dhruba Ghosh+, NeurIPS'23
- [Paper Note] ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment, Xiwei Hu+, arXiv'24

#Article #NLP #LanguageModel Issue Date: 2025-01-21 DeepSeek-R1-Distill-Qwen, DeepSeek, 2025.01 Comment

MIT Licence

#Article #NLP #LanguageModel Issue Date: 2025-01-21 DeepSeek-R1, DeepSeek, 2025.01 Comment

参考:

Loading…

参考: https://horomary.hatenablog.com/entry/2025/01/26/204545

DeepSeek-R1の論文読んだ？【勉強になるよ】
, asap: https://zenn.dev/asap/articles/34237ad87f8511

こちらのポストの図解がわかりやすい:

Loading…

最新モデル: DeepSeek-R1-0528
https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

#Article #Survey #ComputerVision #NLP #LanguageModel #ProprietaryLLM Issue Date: 2025-01-02 2024-ai-timeline, reach-vb, 2025.01 Comment

月別で2024年にリリースされた主要なLLM（マルチモーダルなLLMも含む）のタイムラインがまとめられている。
API Only（プロプライエタリ）なのか、OpenWeightなのかもタグ付けされている。

#Article #Pocket #NLP #LanguageModel Issue Date: 2024-12-28 Deep-seek-v3, deepseek-ai, 2024.12 Comment

参考（モデルの図解）:

Loading…

参考:

Loading…

#Article #Tools #NLP #Dataset #LanguageModel #Blog #Japanese Issue Date: 2024-12-24 完全にオープンな約1,720億パラメータ（GPT-3級）の大規模言語モデル「llm-jp-3-172b-instruct3」を一般公開～GPT-3.5を超える性能を達成～ , NII, 2024.12 Comment

GPT3.5と同程度のパラメータ数のコーパス、モデル、ツール、全てを公開。学習データまで含めてオープンなモデルとしては世界最大規模とのこと。

Instructionチューニング済みのモデルはライセンスを読むと、ライセンスに記述されている内容を遵守すれば、誰でも（日本人なら18歳以上とかはあるが）アクセス可能、用途の制限（商用・非商用問わず）なく利用でき、かつ再配布や派生物の生成などが許されているように見える。
が、baseモデルの方はコンタクト情報を提供のうえ承認を受けないと利用できない模様。また、再配布と一部の使途に制限がある模様。

SNSではオープンソースではないなどという言説も出ており、それはbaseモデルの方を指しているのだろうか？よくわからない。

実用上はinstructionチューニング済みのモデルの方がbaseモデルよりも使いやすいと思うので、問題ない気もする。

やはりbaseとinstructでライセンスは2種類あるとのこと:

Loading…

#Article #NLP #LanguageModel #SpokenLanguageProcessing #OpenSource Issue Date: 2024-12-13 LLaMA-Omni: Seamless Speech Interaction with Large Language Models, Meta, 2024.09 Comment

音声とテキストのOpenSourceマルチモーダルモデル。inputは音声のみ？に見えるが、出力はテキストと音声の両方を実施できる。GPT-4oレベルのspeech capabilityを目指すとaboutに記載されている。興味深い。

installの説明に `Whisper-large-v3` をインストールする旨が記載されているので、Whisper-large-v3で認識した内容に特化したSpeech Encoder/Adapterが学習されていると考えられる。

https://github.com/user-attachments/assets/cea090e7-a42a-476d-85f6-50199d9ae180" />

- MM-LLMs: Recent Advances in MultiModal Large Language Models, Duzhen Zhang+, N/A, ACL'24 Findings

マルチモーダルなLLMの基本的な概念については上記参照のこと。

#Article #NLP #LanguageModel Issue Date: 2024-12-06 Llama3.3-70B, Meta, 2024.12 Comment

3.1-70Bよりも性能向上し、3.1-405Bの性能により近く。

（画像は元ポストより引用）

#Article #Survey #NLP #Dataset #LanguageModel #Evaluation #Repository #Japanese #OpenSource Issue Date: 2024-12-02 日本語LLMまとめ, LLM-jp, 2024.12 Comment

LLM-jpによる日本語LLM（Encoder-Decoder系, BERT系, Bi-Encoders, Cross-Encodersを含む）のまとめ。
テキスト生成に使うモデル、入力テキスト処理に使うモデル、Embedding作成に特化したモデル、視覚言語モデル、音声言語モデル、日本語LLM評価ベンチマーク/データセットが、汎用とドメイン特化型に分けてまとめられている。
各モデルやアーキテクチャの原論文、学習手法の原論文もまとめられている。すごい量だ…。

#Article #Pretraining #NLP #LanguageModel #Japanese Issue Date: 2024-11-25 Sarashina2-8x70Bの公開, SB Intuitions, 2024.11 Comment

MoE Layerの説明、Sparse Upcyclingの説明、MoEモデルを学習する際に、学習時の学習率の設定が大きすぎると初期に損失が増大し、小さすぎると損失の増大は防げるがlong runで学習した際の性能向上が小さかったこと、元のモデルのパラメータを毀損しないように、Upcyclingをした元モデルの最終的な学習率を踏襲して学習をし、学習率をさらに減衰させていったこと、などが記載されている。

また、性能評価として同等のactivation parameter数を持つモデルと日本語のQAタスクで比較した結果も載っている。

- Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints, Aran Komatsuzaki+, ICLR'23

MoE Layerについては
- Mixtral of Experts, Albert Q. Jiang+, N/A, arXiv'24

も参照のこと

#Article #Survey #NLP #LanguageModel #Blog #OpenSource Issue Date: 2024-11-15 ローカルLLMのリリース年表, npaka, 随時更新, 2024.11 Comment

ローカルLLMを含むOpenLLMのリリース日が年表としてまとまっており、随時更新されている模様。すごい。

#Article #NLP #LanguageModel #Japanese Issue Date: 2024-11-09 sarashina2-8x70B, SBIntuitions, 2024.11 Comment

プレスリリース: https://www.sbintuitions.co.jp/news/press/20241108_01/

- 商用利用不可な点には注意
- アーキテクチャは70Bモデルx8のMixture of Experts（MoE）
- モデルカードによると、inferenceにはBF16で、A100 80GB or H100が16基必要っぽい

MoEを利用したLLMについては、Mixtral of Experts, Albert Q. Jiang+, N/A, arXiv'24 を参照のこと。

#Article #NLP #MultiLingual Issue Date: 2024-10-24 Aya Expanse, Cohere, 2024.10 Comment

CohereによるマルチリンガルLLM, 8B, 32Bのモデルが存在する。

8BモデルのArenaHardでの評価

32BモデルのArenaHardでの評価

#Article #ComputerVision #GenerativeAI Issue Date: 2024-10-05 MovieGen, Meta, 2024.10 #Article #NLP #LanguageModel #Japanese Issue Date: 2024-10-04 Gemma-2-Baku, 2024.10 #Article #NLP #LanguageModel #Japanese Issue Date: 2024-10-04 Gemma-2-JPN, 2024.10 Comment

日本語データでfinetuningされてGemma2

#Article #ComputerVision #NLP #LanguageModel #MultiModal #VisionLanguageModel Issue Date: 2024-09-27 Molmo, AI2, 2024.09 GPT Summary- Molmoは、オープンデータを活用した最先端のマルチモーダルAIモデルであり、特に小型モデルが大規模モデルを上回る性能を示す。Molmoは、物理的および仮想的な世界とのインタラクションを可能にし、音声ベースの説明を用いた新しい画像キャプションデータセットを導入。ファインチューニング用の多様なデータセットを使用し、非言語的手がかりを活用して質問に答える能力を持つ。Molmoファミリーのモデルは、オープンウェイトでプロプライエタリシステムに対抗する性能を発揮し、今後すべてのモデルウェイトやデータを公開予定。 Comment

以下がベンチマーク結果（VLMのベンチマーク）。11 benchmarksと書かれているのは、VLMのベンチマークである点に注意。

https://github.com/user-attachments/assets/510204e5-4cfb-4ba3-a6db-fff717a637bc" >

https://github.com/user-attachments/assets/a4a77006-fcde-4c33-b6df-54dc5d8cbdfa" >

#Article #ComputerVision #NLP #LanguageModel #Blog Issue Date: 2024-09-25 Llama 3.2: Revolutionizing edge AI and vision with open, customizable models, Meta, 2024.09 Comment

11Bと90BのVLMと、エッジデバイス向けの1B, 3BのSLMを発表。

Llama3.2のVLMでは、事前学習されたimage encoderを事前学習された言語モデルに対して組み合わせるためのAdapterを複数学習することによって実現。

具体的には、Llama 3.1（text only model）に対して、image encoderとAdapterを追加し、大規模でノイジーな（image,text）ペアで事前学習。続いて、中規模のサイズの高品質なin-domain（i.e. 様々なドメインの）の知識を高めるような（image,text）ペアで学習した。

事後学習では、Llama3.1と同様にSFT, Rejection Sampling, DPOのラウンドを複数回繰り返した。Llama3.1を用いて、in-domainの画像に対するQAをData Augmentationし、フィルタリングすることで合成データを作成。さらに報酬モデルを活用して全ての回答候補をランクづけして高品質なSFTデータを取得。また、モデルの安全性が高まるようなデータも追加した。

Llama3.1の事後学習のプロセスについては論文紹介 / The Llama 3 Herd of Models, 2024.08 も参照のこと。

#Article #NLP #LanguageModel #Japanese Issue Date: 2024-09-25 LLM-jp-3 1.8B・3.7B・13B の公開, LLM.jp, 2024.09 Comment

LLM-JP-Evalでの評価結果はこちら: https://huggingface.co/llm-jp/llm-jp-3-1.8b

1.8Bのモデルが、モデルサイズに対して非常に性能が良いとのこと（確かに、3.8Bのモデルとの差があまりないように見える
元ポスト:

Loading…

アーキテクチャはLlama2とのことなので、vLLMでも動作させられる模様

#Article #NLP #LanguageModel #InstructionTuning #SelfCorrection #PostTraining #KeyPoint Notes #Reference Collection Issue Date: 2024-09-06 Reflection 70B, GlaiveAI, 2024.09 Comment

ただまあ仮に同じInputを利用していたとして、promptingは同じ（モデルがどのようなテキストを生成し推論を実施するかはpromptingのスコープではない）なので、そもそも同じInputなのでfair comparisonですよ、という話に仮になるのだとしたら、そもそもどういう設定で比較実験すべきか?というのは検討した方が良い気はする。まあどこに焦点を置くか次第だと思うけど。

エンドユーザから見たら、reflectionのpromptingのやり方なんてわからないよ！という人もいると思うので、それを内部で自発的に実施するように学習して明示的にpromptingしなくても、高い性能を達成できるのであれば意味があると思う。

ただまあ少なくとも、参考でも良いから、他のモデルでもreflectionをするようなpromptingをした性能での比較結果も載せる方が親切かな、とは思う。

あと、70Bでこれほどの性能が出ているのはこれまでにないと思うので、コンタミネーションについてはディフェンスが必要に思う（他のモデルがそのようなディフェンスをしているかは知らないが）。

追記
→ 下記記事によると、LLM Decontaminatorを用いてコンタミネーションを防いでいるとのこと
https://github.com/lm-sys/llm-decontaminator

Reflection自体の有用性は以前から示されている。
参考: Self-Reflection in LLM Agents: Effects on Problem-Solving Performance, Matthew Renze+, N/A, arXiv'24 , Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection, Akari Asai+, N/A, ICLR'24 , AnyTool: Self-Reflective, Hierarchical Agents for Large-Scale API Calls, Yu Du+, N/A, arXiv'24 , Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies, Liangming Pan+, N/A, TACL'24

ollamaで実際に動かして日本語でのQAを試している記事。実際のアウトプットやreflectionの内容が確認でき、おもしろい。

システムプロンプトで< thinking >タグでInputに対して推論し、< output >タグ内で最終出力を行い、推論過程で誤りがある場合は< reflection >タグを用いて修正するように指示している。

おそらく、thinkingタグ内の思考過程でモデルが誤りに気づいた場合は、thinkingタグの途中でreflectionタグが出力され、その時点でCoTが修正されるようである（もしくはoutputとthinkingの中間）。このため、誤ったCoTに基づいてOutputが生成される頻度が減少すると考えられる。

このような挙動はおそらく、reflection用の学習データでSFTしないとできないと思うので

（たとえば、ReflectionタスクをするようなデータでSFTをしていない場合、出力の途中で誤りを検出し出力を修正するという挙動にはならず、回答として自然な文を最後までoutputすると思う。その後でreflectionしろと促すことはpromptingでできるかもしれないが、そもそもreflectionする能力があまり高くない可能性があり、うまく修正もしてくれないかも）

reflectionの能力を高めるようなデータでSFTをしていないモデルで似たようなpromptingをしても、うまくいかない可能性があるので注意が必要だと思われる。

参考: https://note.com/schroneko/n/nae86e5d487f1

開発者曰く、HFに記載の正しいシステムプロンプトを入れないと、適切に動作しないとのこと。
元ツイート:

Loading…

どうやら初期にアップロードされていたHFのモデルはweightに誤りがあり、挙動がおかしくなっていたようだ。
正しいモデルの挙動は下記ツイートのようである。thinking内でreflectionが実施されている。

実際にいくつかの例をブログをリリース当日に見た時に、reflectionタグがoutputの後に出力されている例などがあり、おや？という挙動をしていたので、問題が是正されたようだ。

Loading…

HFのモデルが修正された後もベンチマークの結果が再現されないなど、雲行きが色々と怪しいので注意した方が良い。

続報

Loading…

開発者ポスト:

Loading…

再現実験を全て終了し、当初報告していた結果が再現されなかったとCEOが声明：

Loading…

#Article #Analysis #LanguageModel #Slide #Japanese Issue Date: 2024-09-03 LLMに日本語テキストを学習させる意義, Koshiro Saito+, 第261回自然言語処理研究発表会, 2024.08 Comment

英日翻訳や日本特有の知識を問われるようなQAにおいて、日本語データによる学習の効果があることが示唆されている模様。
たとえば、論文紹介 / The Llama 3 Herd of Models, 2024.08 に示されている通り、Llama2における日本語データの割合は0.2%とかなので、英語圏のOpenLLMにおいて、日本語データの比率がどれだけ少ないかがわかる。

#Article #Tutorial #NLP #LanguageModel #Slide Issue Date: 2024-08-26 論文紹介 _ The Llama 3 Herd of Models, 2024.08 Comment

Llama3の事前学習や事後学習のノウハウが詰まっており（安全性なども含む）、LLM学習に必要な要素が図解されており、非常に分かりやすい。

たとえば下記図（スライド中より引用）などは、LLMの学習過程を説明する際にわかりやすそう

LLMの事前・事後学習あたりは独自ノウハウが多すぎてもはや追従困難

#Article #NLP Issue Date: 2024-08-24 Phi 3.5, Microsoft, 2024.08 #Article #NLP #Quantization Issue Date: 2024-08-20 4-bit Llama 3.1, NeuralMagic, 2024.08 #Article #EfficiencyImprovement #Library #python #Blog #LLMServing Issue Date: 2024-08-05 DeepSpeed, vLLM, CTranslate2 で rinna 3.6b の生成速度を比較する, 2024.06 Comment

[vllm]( https://github.com/vllm-project/vllm)を使うのが一番お手軽で、inference速度が速そう。PagedAttentionと呼ばれるキャッシュを利用して高速化しているっぽい。

（図はブログ中より引用）

こちらも参照のこと

vLLMの仕組みをざっくりと理解する： https://dalab.jp/archives/journal/vllm/#PagedAttention

vLLMでReasoning ModelをServingするときは、`--enable-reasoning`等の追加オプションを指定する必要がある点に注意
https://docs.vllm.ai/en/stable/features/reasoning_outputs.html

#Article #NLP #Library Issue Date: 2024-08-01 OpenLLM: Self-Hosting LLMs Made Easy Comment

OpenLLMをself hostingする際に、OpenAIなどと同じインタフェースのAPIやChatを提供するライブラリ

#Article #NLP Issue Date: 2024-07-30 Gemma2, Google Deepmind, 2024 Comment

Reasoning, Math, CodeGenerationに強み

#Article #NLP #LanguageModel Issue Date: 2024-07-25 Llama 3.1, 2024.07 Comment

Llama系のモデルをFP8で学習する場合のレシピ

Loading…

#Article #NLP #LanguageModel Issue Date: 2024-07-11 大規模言語モデルの開発, 2024 #Article #NLP #LanguageModel Issue Date: 2024-07-09 calm3-22B, 2024 Comment

>LLMの日本語能力を評価するNejumi LLM リーダーボード3においては、700億パラメータのMeta-Llama-3-70B-Instructと同等の性能となっており、スクラッチ開発のオープンな日本語LLMとしてはトップクラスの性能となります（2024年7月現在）。
モデルは商用利用可能なApache License 2.0で提供されており

これはすごい

#Article #NLP #LanguageModel Issue Date: 2024-07-03 Llama 3 Swallow #Article #NLP #LanguageModel Issue Date: 2024-04-18 LLaMA3, Meta, 2024.04 Comment

ライセンスによると、LLaMA3を利用したモデルはどんな場合でもLlama3をprefixとして付与しないといけないらしい

元ツイート:

Loading…

LLaMA3がChatBot ArenaでTop 5になったとのこと。また、英語においては、GPT4-1106-preview, GPT-4-turbo-2024-0409と同等の性能を達成。これはすごい…

Loading…

nejumi-leaderboard Nejumi LLMリーダーボードにLLaMA3の評価結果が掲載された模様（画像は下記ツイートより引用）

Loading…

モデルアーキテクチャはTransformer Decoderをベースにしており、Llama2と比較して

- TokenizerのVocabサイズを128Kより効率的にテキストをエンコーディング可能に

- GQA GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N/A, arXiv'23 を利用しInferenceを高速化 (Llama2の時点でGQAを使っていたが、70Bモデルだけだった)

- self-attentionが、ドキュメントを跨がないように学習

context: 8192

#Article #NLP #LanguageModel Issue Date: 2024-04-10 Mixtral-8x22B-v0.1, 2024 Comment

Apache-2.0ライセンス, 日本語非対応

#Article #NLP #LanguageModel #ProprietaryLLM Issue Date: 2024-04-10 Command R+, Cohere, 2024 Comment

Chatbot arenaでGPT-4-0314と同等の Elo Rate を獲得し（20240410時点）、日本語を含む10ヶ国語をサポート。コンテキストウィンドウサイズ128k。商用利用はAPIから、研究目的であればHuggingFaceから利用可能。