OpenWeight
[Paper Note] RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time, Haozhe Wang+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#Multi #ComputerVision #NLP #TextToImageGeneration #Reasoning #Test-Time Scaling #read-later #Selected Papers/Blogs #RewardModel Issue Date: 2026-04-19 GPT Summary- 報酬モデルは、評価を単一のスコアに縮約するのではなく、明示的で多次元の批評を生成することで、生成物の改善を促進する。本研究では、構造化された合理根拠を用いて報酬を提供し、Generate-Critique-Refineループにより批評をプロンプト修正に変換する方法を示す。また、Preference-Anchored Rationalization(PARROT)を導入し、容易に得られるデータから高品質な合理根拠を回収するフレームワークを提供する。得られたRationalRewardsモデルは、オープンソースの中で最先端の予測精度を達成し、より少ない訓練データで優れた性能を発揮する。批評-修正ループは、既存モデルの潜在能力を引き出し、より良い生成結果を提供する。 Comment
pj page: https://tiger-ai-lab.github.io/RationalRewards/
元ポスト:
[Paper Note] Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning, NVIDIA+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs Issue Date: 2026-04-17 GPT Summary- Nemotron 3 Super は、1200億パラメータを持つ新しい Mixture-of-Experts モデルで、事前学習に NVFP4を使用。事後学習には SFT と RL を採用し、最大 1M のコンテキスト長をサポート。推論スループットは従来モデルと比べて最大 7.5 倍向上し、オープンソースのデータセットが提供されています。 Comment
元ポスト:
[Paper Note] Vero: An Open RL Recipe for General Visual Reasoning, Gabriel Sarch+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #ReinforcementLearning #Reasoning #OpenSource #PostTraining #read-later #Selected Papers/Blogs #VisionLanguageModel #Initial Impression Notes Issue Date: 2026-04-08 GPT Summary- Veroというオープンな視覚推論モデルを導入し、幅広いタスクで優れた性能を達成。600Kサンプルのデータセットを基に、異なる回答形式を扱える報酬設計を行い、最先端の結果を示す。Veroは既存モデルを超え、系統的なアブレーションを通じて広範なデータカバレージの重要性を明示。他の全データ、コード、モデルを公開。 Comment
元ポスト:
ベースモデルはgivenな上でRLを実施する際のopenなレシピ、データである点に注意。
[Paper Note] OmniVoice: Towards Omnilingual Zero-Shot Text-to-Speech with Diffusion Language Models, Han Zhu+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #SpeechProcessing #DiffusionModel #Speech #MultiLingual #TTS #Initial Impression Notes Issue Date: 2026-04-07 GPT Summary- OmniVoiceは、600言語以上対応した多言語ゼロショットTTSモデルで、離散的非自己回帰アーキテクチャを採用。従来の複雑なパイプラインを排除し、テキストを直接音響トークンにマッピング。全コードブックランダムマスキング戦略とLLMからの初期化が技術革新を支える。581,000時間のオープンソースデータセットに基づき、中国語・英語などで最先端の性能を示す。モデルはオープンソースとして公開。 Comment
元ポスト:
github: https://github.com/k2-fsa/OmniVoice
dLMアーキテクチャだからかなり早いのでは。600+言語をサポート。
[Paper Note] VOID: Video Object and Interaction Deletion, Saman Motamed+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#ComputerVision #VideoGeneration/Understandings #Editing #One-Line Notes Issue Date: 2026-04-05 GPT Summary- 動画オブジェクト除去での現行手法は、背景の修正や外観アーティファクトの処理には優れているが、オブジェクト間の衝突などの複雑な相互作用には対応できない。そこで、新たに提案するフレームワーク VOID は、物理的に妥当なインペインティングを実現する。Kubric と HUMOTO を使用して、相互作用を変更する反事実的データセットを生成し、ビジョン-言語モデルが影響を受けるシーンを特定。従来手法よりも一貫した動的挙動を保持することを実験で確認し、このフレームワークが動画編集モデルの進化に寄与すると期待される。 Comment
pj page: https://void-model.github.io/
元ポスト:
HF: https://huggingface.co/netflix/void-model
NetflixがHFに公開した初めてのモデルとのこと。動画中のobjectを削除することに特化したモデルのようで、単にobjectを削除し影や反射を無くすといった話だけでなく、そのobjectが消滅したことによって物理的な相互作用も反映させる(物体が落下するなど)ということらしい。
[Paper Note] daVinci-LLM:Towards the Science of Pretraining, Yiwei Qin+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #OpenSource #read-later #Selected Papers/Blogs #Reference Collection #Initial Impression Notes Issue Date: 2026-03-31 GPT Summary- 基盤となる事前学習はモデルの限界を決め、事後訓練で克服するのが難しい。daVinci-LLMは、産業規模の資源と研究の自由を結集し、透明性のある完全オープンなパラダイムで事前学習を進展させる。8兆トークンを用いた二段階適応カリキュラムを採用し、能力向上のプロセスを体系的に評価。処理の深さやドメイン特性が能力に与える影響を明らかにし、探索プロセスを公開することでコミュニティが知識を蓄積できる基盤を提供する。 Comment
元ポスト:
github: https://github.com/GAIR-NLP/daVinci-LLM
オープン"ソース" (=コード, データ, モデルが公開されている(さらに厳密にはライセンスに問題がない))な関連研究:
- OpenLLaMA, Xinyang+, 2023.05
- Introducing Marin: An Open Lab for Building Foundation Models, marin-community, 2025.05
- Marin 32B Retrospective, marin-community, 2025.10
- [Paper Note] Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling, Stella Biderman+, arXiv'23, 2023.04
- [Paper Note] Olmo 3, Team Olmo+, arXiv'25, 2025.12
- [Paper Note] K2-Think: A Parameter-Efficient Reasoning System, Zhoujun Cheng+, arXiv'25, 2025.09
- [Paper Note] DataComp-LM: In search of the next generation of training sets for language models, Jeffrey Li+, NeurIPS'25, 2024.07
- [Paper Note] LLM-jp: A Cross-organizational Project for the Research and Development of Fully Open Japanese LLMs, LLM-jp+, arXiv'24, 2024.07
- [Paper Note] TinyLlama: An Open-Source Small Language Model, Peiyuan Zhang+, arXiv'24, 2024.01
- [Paper Note] BLOOM: A 176B-Parameter Open-Access Multilingual Language Model, BigScience Workshop+, arXiv'22, 2022.11
- [Paper Note] OLMo: Accelerating the Science of Language Models, Dirk Groeneveld+, arXiv'24, 2024.02
- OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini, AllenAI, 20250.3
- [Paper Note] GPT-NeoX-20B: An Open-Source Autoregressive Language Model, Sid Black+, arXiv'22, 2022.04
- SmolLM2, 2024.11
- [Paper Note] LLM360: Towards Fully Transparent Open-Source LLMs, Zhengzhong Liu+, COLM'24, 2023.12
- SmolLM3: smol, multilingual, long-context reasoner, HuggingFace, 2025.07
- The Smol Training Playbook: The Secrets to Building World-Class LLMs, Allal+, HuggingFace, 2025.10
この辺の研究を全て紐解いていったらどのような変遷が起きているだろうか?
- RedPajama, a project to create leading open-source models, starts by reproducing LLaMA training dataset of over 1.2 trillion tokens, together.ai, 2023.04
- [Paper Note] Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model, Ahmet Üstün+, arXiv'24, 2024.02
- SmolLM - blazingly fast and remarkably powerful, Allal+, HuggingFace, 2024.07
この辺も関連はしているが、データはオープンだがソースコードがおそらく公開されていない。
事後学習なら
- [Paper Note] Tulu 3: Pushing Frontiers in Open Language Model Post-Training, Nathan Lambert+, COLM'25, 2024.11
[Paper Note] MolmoWeb: Open Visual Web Agent and Open Data for the Open Web, Tanmay Gupta+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #AIAgents #MultiModal #OpenSource #ComputerUse #PostTraining #read-later #Selected Papers/Blogs #VisionLanguageModel #GUI Issue Date: 2026-03-24 GPT Summary- MolmoWebは、ウェブエージェントをオープンな環境で構築するために、(1) 大規模な混合データセットMolmoWebMixと、(2) 完全オープンなマルチモーダルエージェントのMolmoWebを提案。MolmoWebMixは、10万超の合成タスクと3万件以上の人間デモを統合し、エージェントは視覚言語アクションポリシーを用いて次のブラウザ操作を予測。MolmoWebエージェントは同規模の他のモデルを上回る性能を示し、再現性とオープンな研究を促進するために関連リソースを公開。 Comment
元ポスト:
github:
https://github.com/allenai/MolmoWeb
学習、評価ハーネス、アノテーションツール、合成データパイプライン、デモのclient sideのコードがリリース
Molmo2をベースにしたオープンソースのBrowser Useエージェント。スクリーンショットを通じて次のアクション(クリック、文字入力、スクロール)を予測し実行する。
従来のBrowser Useエージェントの多くは非公開データを用いている中、MolmoWebMixと呼ばれる大規模なデータセットを公開。合成データ(タスクに成功したsingleエージェントのtrajectory, タスクをサブタスクに分解して実行するタイプのmulti-agent pipeline, 数百のwebsiteのリンク構造を体系的に探索して構築されたナビゲーションの経路等)と人間に寄る高品質なアノテーション(36k, 1100タスク, 623k件の個別のサブタスクのデモンストレーションで、過去最大規模)の2種類で構成されるとのこと。
また、BroserのGUIを認識するための学習データも含まれる。これはGUIのgrounding taskと、webページの内容を読み取りながら推論を実施するスクリーンショットがgivenなQAタスクのデータとsて構成され、400程度のサイトから収集した、2.2MのQAペアによって編成される。
4種類のベンチマークで評価した結果、プロプライエタリモデルには一部及ばないものもあるが、同等規模なOpenWeightモデルをoutperform。また、WebVoyager, Online-Mind2Webデータでみると、Pass@4のようなtest-time scaling手法を用いると、プロプライエタリも出るを上回る。
ただ注意点としては、比較しているOpenWeightモデルが少し古いように見えるが、何か理由があるのだろうか。
Holoであれば、既にHolo3がリリースされており
- Holo3: Breaking the Computer Use Frontier, H Company, 2026.03
GLMであれば、GLM-4.6Vが存在する。
- GLM-4.6: Advanced Agentic, Reasoning and Coding Capabilies, Zhipu AI, 2025.09
(UI-TARS-2 [Paper Note] UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn
Reinforcement Learning, Haoming Wang+, arXiv'25
はおそらくプロプライエタリなので対象外。あと使えるのかも不明。デモは公開されていた気がするが。)
いずれにせよHoloやUI-TARSなどはデータが公開されていなかったと思うので、全てを公開することによるcontributionは非常に大きいと思われる。
ベンチマーク関連:
- [Paper Note] WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models, Hongliang He+, ACL'24, 2024.01
- Online-Mind2Web
- [Paper Note] An Illusion of Progress? Assessing the Current State of Web Agents, Tianci Xue+, COLM'25, 2025.04
- [Paper Note] Mind2Web: Towards a Generalist Agent for the Web, Xiang Deng+, arXiv'23, 2023.06
とは異なるため注意
- [Paper Note] DeepShop: A Benchmark for Deep Research Shopping Agents, Yougang Lyu+, arXiv'25, 2025.06
- WebTailBench
- [Paper Note] Fara-7B: An Efficient Agentic Model for Computer Use, Ahmed Awadallah+, arXiv'25, 2025.11
[Paper Note] Qianfan-OCR: A Unified End-to-End Model for Document Intelligence, Daxiang Dong+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#ComputerVision #NLP #Selected Papers/Blogs #VisionLanguageModel #OCR #Initial Impression Notes Issue Date: 2026-03-18 GPT Summary- Qianfan-OCRは、文書解析と理解を統合した40億パラメータの視覚-言語モデルで、直接画像からMarkdownへの変換を実現。多様なタスクをサポートし、明示的なレイアウト分析を行うためにLayout-as-Thoughtを導入、複雑なレイアウトの精度を向上。OmniDocBenchやOlmOCR Benchでのパフォーマンスが優れており、他の一般的なモデルを上回る結果を示した。 Comment
HF: https://huggingface.co/baidu/Qianfan-OCR
元ポスト:
VLMでOCRするタイプのモデルで様々なベンチマークでSoTA、かつ192 languageをサポートととのこと。試したい
[Paper Note] Phi-4-reasoning-vision-15B Technical Report, Jyoti Aneja+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal #Reasoning #SmallModel #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2026-03-07 GPT Summary- Phi-4-reasoning-vision-15Bを提案。コンパクトなオープンウェイトのマルチモーダル推論モデルであり、効率的な設計選択や厳格なデータキュレーションを通じて競争力のある性能を実現。系統的なフィルタリングや誤り訂正によりデータ品質が重要であることを再確認し、高解像度エンコーダが性能向上に寄与。単一モデルで簡単なタスクに迅速な回答、複雑な問題には推論を提供するハイブリッドデータ構成を実現。 Comment
元ポスト:
[Paper Note] FireRed-OCR Technical Report, Hao Wu+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#ComputerVision #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #SyntheticData #read-later #VisionLanguageModel #OCR #One-Line Notes #Pixel-based Issue Date: 2026-03-03 GPT Summary- FireRed-OCRは、一般的なビジョン-ランゲージモデルを特化した高性能OCRモデルへ変換するフレームワークです。VLMは一般的には優れた能力を示すものの、文書処理では「構造的幻視」が問題となります。FireRed-OCRでは、高品質な構造データの不足に対処するため、「Geometry + Semantics」データファクトリを構築し、幾何特徴のクラスタリングを利用して多様な文書タイプに対応したデータセットを作成します。3段階の訓練戦略を導入し、文書構造理解、形式的出力の標準化、強化学習による構文的整合性の確保を行います。OmniDocBench v1.5での評価結果から、FireRed-OCRは92.94%の性能を達成し、他のベースラインを大きく上回ることを示しました。コードとモデル重みをオープンソース化し、一般VLMから専門的な構造エキスパートへの変容を促進します。 Comment
元ポスト:
github: https://github.com/FireRedTeam/FireRed-OCR
- [Paper Note] OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations, Linke Ouyang+, CVPR'25, 2024.12
においてSoTAとのこと。日本語はどのくらいいけるだろう。
[Paper Note] Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents, Haiyang Xu+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #NLP #AIAgents #ComputerUse #GUI Issue Date: 2026-02-28 GPT Summary- GUI-Owl-1.5は、指示型および思考型のGUIエージェントモデルで、幅広いプラットフォームをサポート。複数のサイズで提供され、20のGUIベンチマークで最先端の成果を達成。重要な革新には、ハイブリッドデータパイプライン、推論能力の統一的強化、マルチプラットフォーム環境の新アルゴリズムMRPOが含まれる。モデルはオープンソースで、オンラインデモが提供されている。 Comment
pj page: https://github.com/X-PLUG/MobileAgent/tree/main/Mobile-Agent-v3.5
[Paper Note] Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts, Chen Yang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #SmallModel Issue Date: 2026-02-21 GPT Summary- Nanbeige4.1-3Bは、3Bパラメータでエージェント的挙動、コード生成、推論を実現する初のオープンソースの小型言語モデルであり、報酬モデリングを活用して人間の価値観に整合した高品質な応答を提供します。複雑なコード生成には強化学習による報酬を設計し、最大600回のツール呼出しターンを信頼性高く実行可能です。実験結果は、同程度のモデルを超え、より大規模なモデルとも優れた性能を示しています。これにより、小型モデルが広範な能力と専門性を両立できることを実証しています。 Comment
HF: https://huggingface.co/Nanbeige/Nanbeige4.1-3B
元ポスト:
所見:
[Paper Note] Arcee Trinity Large Technical Report, Varun Singh+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #MoE(Mixture-of-Experts) #Selected Papers/Blogs #Stability #Sparse Issue Date: 2026-02-21 GPT Summary- Arcee Trinity Largeは4000億パラメータを持ち、130億のスパースMoEとして設計されている。Trinity Nano(60億パラメータ)とTrinity Mini(260億パラメータ)も報告されており、各モデルには局所的およびグローバルな注意機構、ゲート付き注意、深さスケールされた正規化、MoEのシグモイド・ルーティングが採用されている。Trinity Largeには新しいMoEロードバランシング戦略のSMEBUが導入され、Muonオプティマイザーで訓練された。すべてのモデルは損失のスパイクなしで訓練を完了し、Trinity NanoとTrinity Miniは10兆トークン、Trinity Largeは17兆トークンで事前学習された。モデルのチェックポイントはHugging Faceで利用可能。 Comment
[Paper Note] GLM-5: from Vibe Coding to Agentic Engineering, GLM-5 Team+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #LongSequence #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #SparseAttention Issue Date: 2026-02-18 GPT Summary- 次世代モデルGLM-5は、エージェント主導のエンジニアリングへ移行し、推論コストを削減しながら長い文脈の忠実度を維持する。新しい非同期強化学習インフラを実装することで、学習効率を向上させ、非同期エージェントRLアルゴリズムにより複雑な相互作用からの学習効果を高める。これによりGLM-5は最先端の性能を達成し、実世界のコーディングタスクでの能力が従来の基準を超えたことが示された。 Comment
関連:
- GLM-5: From Vibe Coding to Agentic Engineering, Z.ai, 2026.02
- DeepSeek Sparse Attention (DSA)
- [Paper Note] DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models, DeepSeek-AI+, arXiv'25, 2025.12
元ポスト:
解説:
ASync RLにおける工夫:
[Paper Note] Causal-JEPA: Learning World Models through Object-Level Latent Interventions, Heejeong Nam+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #Embeddings #EfficiencyImprovement #RepresentationLearning #Transformer #Self-SupervisedLearning #Encoder #WorldModels #KeyPoint Notes Issue Date: 2026-02-16 GPT Summary- C-JEPAは、オブジェクト中心の世界モデルで、画像パッチからの埋め込み予測を通じてオブジェクトの相互作用を捉えることを目的としている。オブジェクトレベルのマスキングを導入し、潜在的介入を誘発することで反事実的推論を強化し、ショートカット解法を防ぐ。実験結果では、視覚質問応答において約20%の性能向上を示し、エージェント制御タスクでは必要な潜在入力のわずか1%で同等の結果を達成した。さらに、因果的帰納的バイアスを誘発することも示している。 Comment
元ポスト:
pj page: https://hazel-heejeong-nam.github.io/cjepa/
(JEPAはあまり馴染みがなく、以下の私の解説はどこかに誤りがある可能性が高い)
video basedなシステムを前提、すなわちimageのsequenceが与えられる前提である。このとき、各タイムステップごとに選択されたobjectの状態をマスクし、マスクされたobjectのhistoryを予測し、予測された状態から将来の状態を予測する。objectは状態だけでなく、補足的な観測可能な情報を保持することができ(たとえばアクションと感覚に関するシグナルなど)状態遷移に利用される。また、マスク対象として選択されたオブジェクトの最初のステップの状態だけは、アンカーとして保持する。マスク処理はlatent levelはでのinteiventionとして解釈でき、これにより予測のためにobject間の相互作用を捉えることが誘発され、object centricな潜在表現が学習される。マスクされたオブジェクトの状態は、予測された一つ前のステップでの状態に対してlinearで変換しpositional embeddingを足し合わせることで求められ(式3)、これらの予測されたhistoryの状態がViTの入力となり(bidirectionalなattentionを通じて)将来の状態を予測する。lossは予測されたhistoryの状態と将来の状態が与えられたときに、freezeされたobjectのエンコーダから得られる潜在表現との距離が最小化されるように学習される(エンコーダ側はstop gradientする)。
解説:
[Paper Note] DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos, Shenyuan Gao+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #Pretraining #DiffusionModel #Robotics #WorldModels #4D (Video) #Realtime #Physics #EgocentricView #Author Thread-Post Issue Date: 2026-02-09 GPT Summary- DreamDojoは、エゴセントリックな人間のビデオから学習した世界モデルで、巧妙なロボットタスクのシミュレーションを可能にします。44,000時間のデータを使用し、多様なシナリオとオブジェクトをカバーしており、アクションラベルの不足を連続的な潜在アクションで解決。物理理解とアクション制御能力を向上させるポストトレーニング後、10.81 FPSでのリアルタイム処理を実現。これにより、生成的世界モデルを基にした新しいアプリケーションを実現し、オープンワールドでのタスクシミュレーションの可能性を示します。 Comment
pj page: https://dreamdojo-world.github.io/
元ポスト:
著者ポスト:
著者ポスト:
解説:
[Paper Note] World Action Models are Zero-shot Policies, Seonghyeon Ye+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #Pretraining #Zero/Few/ManyShotPrompting #TransferLearning #read-later #Selected Papers/Blogs #Generalization #Robotics #WorldModels #Backbone #4D (Video) #WorldActionModel Issue Date: 2026-02-05 GPT Summary- 最先端のVLAモデルは新環境での物理的動作の一般化に困難を抱えている。DreamZeroは、動画と行動を共同でモデル化するWorld Action Model(WAM)を導入し、物理的ダイナミクスを学習。これにより、繰り返しデモなしで多様なスキルを学び、タスクや環境への一般化を2倍以上向上。14Bの自己回帰型ビデオ拡散モデルがリアルタイム制御を実現。また、動画デモによって未見タスクの性能が42%以上改善され、少数ショットでの適応も可能に。 Comment
pj page: https://dreamzero0.github.io/
元ポスト:
[Paper Note] ACE-Step 1.5: Pushing the Boundaries of Open-Source Music Generation, Junmin Gong+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #Transformer #Chain-of-Thought #SpeechProcessing #DiffusionModel #Reasoning #SmallModel #PEFT(Adaptor/LoRA) #Music Issue Date: 2026-02-05 GPT Summary- ACE-Step v1.5は、高効率のオープンソース音楽基盤モデルで、商業音楽モデルを超える品質を持ちながら、非常に高速で動作します。ユーザーは少数の楽曲から個人のスタイルをトレーニング可能で、ハイブリッドアーキテクチャを用いてシンプルなクエリを包括的な楽曲に変換します。内因性強化学習により、スタイル制御と多様な編集機能を強化し、50以上の言語に対応。コンテンツクリエイターの創造的なワークフローに統合されるツールとして利用可能です。 Comment
元ポスト:
データは全て許可済みのもの、かつ合成データとポストされており商用利用も可らしいが、果たして。
[Paper Note] GLM-OCR Technical Report, Shuaiqi Duan+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#ComputerVision #NLP #read-later #VisionLanguageModel #OCR #Initial Impression Notes Issue Date: 2026-02-03 GPT Summary- GLM-OCRは、0.9Bパラメータの多模态モデルで、実世界の文書理解に最適化されている。CogViT視覚エンコーダとGLM言語デコーダを組み合わせ、計算効率と性能のバランスを高めている。Multi-Token Prediction (MTP)メカニズムにより、OCRタスクのデコード効率が向上し、低メモリオーバーヘッドを実現。二段階パイプラインでレイアウト分析と認識を行い、公開ベンチマークで競争力のある性能を達成。リソース制約のある環境でも適用可能な設計。 Comment
元ポスト:
GLMのOCRがリリース。DeepSeekもOCRをリリースしているが、tokenを圧縮する目的や、モデルの学習データを担保する目的などで最終目的としては自分たちのモデルの強化に必要であり、その道中での副産物としてリリースしているのだろうか。それとも、OCRタスクの需要がシンプルに高いからリリースしているのだろうか。
公式ポスト:
関連:
- [Paper Note] LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR, Said Taghadouini+, arXiv'26, 2026.01
- olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10
- DeepSeek-OCR: Contexts Optical Compression, DeepSeek, 2025.10
- DeepSeek-OCR-2, DeepSeek-AI, 2026.01
[Paper Note] Advancing Open-source World Models, Robbyant Team+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #NLP #DiffusionModel #WorldModels #interactive Issue Date: 2026-01-30 GPT Summary- LingBot-Worldは、リアルで多様な環境を持つオープンソースの世界シミュレーターで、高忠実度と堅牢なダイナミクスを提供。文脈の一貫性を保つ「長期記憶」機能や、1秒未満のレイテンシーでのリアルタイム生成を実現。オープンソースの技術提供により、コンテンツ制作やゲーム、ロボット学習に貢献することを目指す。 Comment
pj page: https://technology.robbyant.com/lingbot-world
元ポスト:
[Paper Note] Kimi K2.5: Visual Agentic Intelligence, Kimi Team+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #Blog #mid-training #PostTraining #read-later #Selected Papers/Blogs #VisionLanguageModel #UMM #KeyPoint Notes #Reference Collection #Initial Impression Notes #ContextFolding Issue Date: 2026-01-27 GPT Summary- Kimi K2.5は、テキストとビジョンの共同最適化を重視するオープンソースのマルチモーダルエージェンティックモデルです。共同プリアトレーニングや強化学習を用いて、エージェントが複雑なタスクをサブ問題に分解し同時に実行するAgent Swarmを導入。評価結果では、コーディングや推論タスクで最先端の成果を達成し、最大4.5倍のレイテンシ低減を実証しました。Kimi K2.5モデルのチェックポイントは、今後の研究や応用に活用可能です。 Comment
HF: https://huggingface.co/moonshotai/Kimi-K2.5
元ポスト:
テクニカルレポートを受けての所見:
Agenticなタスク(HLE, BrowsingによるQA, DeepSearch)に関するベンチでGPT-5.2(xhigh)などを超えてSoTAを達成。他のタスクではcodingではClaude-4.5-Opusの方が上、image関連のタスクではGemini 3 Proに軍配が上がっている。VideoではGeminiとcomparableという感じだろうか(GeminiはLong Contextに非常に強い印象があるがLongVideoBenchて上回っている)。この辺は各タスクごとに強いモデルの棲み分けが進んできた。
また、Kimi K2.5非常に美麗でinteractiveなフロントエンドのデモが掲載されている。
Agent Swarmは、タスクをサブタスクに分解して、複数のエージェントに並列に投げて実行(最大100 sub agent)できるような枠組みであり、それらが高性能かつ低latencyとなるように訓練れている模様。これにより性能を向上させつつlatencyを80%削減しているとのこと。
この話はContext Foldingに近い話と推察される:
- [Paper Note] Scaling Long-Horizon LLM Agent via Context-Folding, Weiwei Sun+, arXiv'25, 2025.10
How Kimi, Cursor, and Chroma Train Agentic Models with RL, PHILSCHMID, 2026.03
によると、AgentSwarmはサブタスクを実施するエージェントのパラメータはfreezeし、サブエージェントを作成し、その結果を集約する処理をOrchestratorと呼ばれるlearnableなモジュールが担っており、サブエージェントからの結果はある種環境からの観測結果として扱われ、タスクの成否はOrchestratorのみに委ねられているようである。
Context Foldingは、Context Managerとポリシーが同時にFoldGRPOを通じて学習されており、エージェントそのものがサブタスク実行、結果を受け取り圧縮、メインブランチに加えるという能力をContext Managerと協調しながら実施することを学習している点が異なるように感じる。
また、並列実行したCritical Stepと呼ばれる、各サブエージェントの最大ステップ数に関する指標が導入され、これらCritical Stepをすべてのステップで集約し、特定のサブエージェントにworkloadが集中しないようにOrchestratorが調整されるとのこと。
公式ポスト:
OpenWeightモデルの中でソフトウェアエンジニアリングスキルでSoTA:
日本語でのポスト:
ポイント解説:
- How Kimi, Cursor, and Chroma Train Agentic Models with RL, PHILSCHMID, 2026.03
[Paper Note] EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience, Taofeng Xue+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SyntheticData #SelfImprovement #ComputerUse #PostTraining #read-later #VisionLanguageModel #Scalability #Initial Impression Notes Issue Date: 2026-01-23 GPT Summary- EvoCUAは、ネイティブコンピュータ使用エージェントの新モデルで、静的模倣に頼らずデータ生成とポリシー最適化を統合。自律的にタスクを生成し、検証可能な合成エンジンでデータ不足を解消。スケーラブルなインフラにより多様な経験を収集し、反復進化学習でポリシーを動的に調整。OSWorldベンチマークで56.7%の成功率を達成し、従来のモデルを大幅に超えた。このアプローチは、さまざまな基盤モデルでの性能向上を実証し、ネイティブエージェントの機能強化に寄与することを示唆している。 Comment
HF: https://huggingface.co/meituan/EvoCUA-32B-20260105
元ポスト:
合成データ生成(タスク合成からVerifierの定義まで?)と学習のループを回すことでデータのスケーラビリティを向上し性能向上(これまでは事前に静的に合成されたtrajectoryでの学習が主流)。Rejection Samplingをして成功したtrajectoryでSFTしつつ、工夫されたDPOが用いられている模様。あとで読みたい。
[Paper Note] Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization, Hao Luo+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal #Reasoning #CrossDomain #Robotics #VisionLanguageActionModel #UMM #Physics Issue Date: 2026-01-22 GPT Summary- Being-H0.5は、クロスエンボディメント一般化のために設計されたVLAモデルであり、人間の相互作用を「母国語」として扱う学習パラダイムを提案。35,000時間以上のマルチモーダルデータを含むUniHand-2.0を用いて、多様なロボット制御を統一的なアクション空間にマッピングし、リソースの少ないロボットが他のプラットフォームからスキルを習得できるようにする。Being-H0.5はMixture-of-Transformersを採用し、現実世界での安定性のために多様体保存ゲーティングとユニバーサル非同期チャンクイングを導入。シミュレーションベンチマークで最先端の結果を達成し、5つのロボットプラットフォームで強力な能力を示す。 Comment
pj page:
https://research.beingbeyond.com/being-h05
HF:
https://huggingface.co/collections/BeingBeyond/being-h05
元ポスト:
[Paper Note] STEP3-VL-10B Technical Report, Ailin Huang+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #NLP #read-later #Selected Papers/Blogs #VisionLanguageModel #UMM #Initial Impression Notes Issue Date: 2026-01-19 GPT Summary- STEP3-VL-10Bは、効率と最先端のマルチモーダル知能のトレードオフを再定義する軽量なオープンソース基盤モデル。言語に整合した知覚エンコーダとQwen3-8Bデコーダを統合し、1k回以上の強化学習を含むスケーラブルな後処理パイプラインを導入。並列協調推論を実装し、視覚推論の探索と統合を最適化。コンパクトながら、他の大規模モデルに匹敵する性能を発揮し、MMBenchで92.2%、AIME2025で94.43%などの成果を記録。再現可能な基準として全モデルスイートをコミュニティに提供。 Comment
元ポスト:
HF: https://huggingface.co/stepfun-ai/Step3-VL-10B
たったの10Bモデルにもかかわらず、100B, 200B級のベンチマーク性能を達成しており、unifiedなアーキテクチャで事前学習中に全てのパラメータをunfrozenな上で1.2Tマルチモーダルトークンで学習し、PaCoReと呼ばれるRLで学習されたtest time scaling手法や、GRPO系ではなくPPOをRLで採用するなど、ユニークな工夫が満載に見え、重要研究に見える。
[Paper Note] HeartMuLa: A Family of Open Sourced Music Foundation Models, Dongchao Yang+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #MultiModal #FoundationModel #SpeechProcessing #AudioLanguageModel #Music Issue Date: 2026-01-17 GPT Summary- オープンソースの音楽基盤モデルファミリーを提案し、音楽理解と生成を促進する。主要な4つのコンポーネントは、音声・テキストアラインメント、堅牢な歌詞認識、高忠実度音楽コーデック、ユーザー制御可能な条件での歌生成を含む。特化モードでは、音楽属性の制御と短い魅力的な生成が可能。これにより、商業グレードのシステムを再現し、多モーダルコンテンツ制作を促進する基盤を構築。 Comment
pj page:
https://heartmula.github.io/
HF:
https://huggingface.co/HeartMuLa/HeartMuLa-oss-3B
元ポスト:
[Paper Note] TranslateGemma Technical Report, Mara Finkelstein+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#MachineTranslation #NLP #LanguageModel #SmallModel #MultiLingual #Selected Papers/Blogs #One-Line Notes #Initial Impression Notes Issue Date: 2026-01-16 GPT Summary- TranslateGemmaは、Gemma 3モデルに基づく機械翻訳のオープンモデルセットで、二段階のファインチューニングプロセスを採用。初めに高品質な並行データで監視付きファインチューニングを行い、その後報酬モデルによる強化学習で翻訳品質を最適化。WMT25テストセットでの人間評価とWMT24++ベンチマークでの自動評価を通じて有効性を示し、自動指標では大幅な性能向上が確認される。特に小型モデルは大型モデルに匹敵する性能を持ちつつ効率が向上。さらに、マルチモーダル能力も保持し、画像翻訳ベンチマークでの性能向上が報告されている。TranslateGemmaの公開は、研究コミュニティに強力で適応可能な翻訳ツールを提供することを目指している。 Comment
元ポスト:
10個の翻訳元言語→翻訳先言語対で評価されている。Japanese→Englishでも評価されているが、他の言語と比べて最も性能が悪いので、日本語では苦戦していそうに見える。English→Italianは(評価した言語ペアの中では)最も性能が良い。
ポイント解説:
関連:
- PLaMo Translate: 翻訳特化大規模言語モデルの開発,今城+, Jxiv'25, 2025.08
- [Paper Note] Hunyuan-MT Technical Report, Mao Zheng+, arXiv'25, 2025.09
続報:
ブラウザ上で100%ローカルでの翻訳が可能になったらしい。WebGPUってなんだろう、、、
https://huggingface.co/spaces/webml-community/TranslateGemma-WebGPU
[Paper Note] VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control, Sixiao Zheng+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #Controllable #WorldModels #4D (Video) #Geometric Issue Date: 2026-01-14 GPT Summary- VerseCrafterは、カメラとオブジェクトの動きを一貫して制御する4Dビデオワールドモデルを提案。静的な背景と3Dガウス軌跡を使用して、オブジェクトの確率的な3D占有を表現し、高忠実度なビデオ生成を可能にする。自動データエンジンにより、大規模な4Dアノテーションデータセットを野生のビデオから抽出し、モデルのトレーニングを支援。 Comment
pj page: https://sixiaozheng.github.io/VerseCrafter_page/
元ポスト:
[Paper Note] UniVideo: Unified Understanding, Generation, and Editing for Videos, Cong Wei+, ICLR'26, 2025.10
Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #Transformer #MultiModal #DiffusionModel #VariationalAutoEncoder #ICLR #read-later #Selected Papers/Blogs #VideoGeneration/Understandings #Editing Issue Date: 2026-01-09 GPT Summary- UniVideoは、動画ドメインにおけるマルチモーダルコンテンツの生成と編集を目的とした統一モデルで、MLLMとMMDiTを組み合わせたデュアルストリーム設計を採用。これにより、複雑な指示の解釈と視覚的一貫性を維持しつつ、動画生成や編集タスクを統一的に訓練。実験結果では、テキスト/画像から動画への生成や文脈内編集において最先端の性能を示し、編集とスタイル転送の統合や未見の指示への対応も可能。視覚プロンプトに基づく生成もサポートし、モデルとコードは公開されている。 Comment
pj page: https://congwei1230.github.io/UniVideo/
元ポスト:
[Paper Note] LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness, Chenming Zhu+, ICCV'25, 2024.09
Paper/Blog Link My Issue
#ComputerVision #NLP #Supervised-FineTuning (SFT) #InstructionTuning #MultiModal #Reasoning #PositionalEncoding #OpenSource #PostTraining #Selected Papers/Blogs #ICCV #VisionLanguageModel #3D (Scene) #SpatialUnderstanding #KeyPoint Notes #Grounding Issue Date: 2026-02-28 GPT Summary- LLaVA-3Dは、3Dシーン理解に対応する新たなフレームワークで、2D視覚理解の知識を活用しつつ、3D位置埋め込みを統合。2D CLIPパッチを3D空間情報で強化し、2Dと3Dの共同チューニングを行うことで、迅速かつ正確な3D認識を実現。実験では、既存の3Dモデルよりも3.5倍速く収束し、3Dタスクでの最先端性能を達成しながら、2D機能も保持している。 Comment
github:
https://github.com/ZCMax/LLaVA-3D
pj page:
https://zcmax.github.io/projects/LLaVA-3D/
3Dに関するspatial understandingの能力を持つVLMで、テキストの出力だけでなく、3Dのbounding boxを出力する専用のデコーダを持つ。
2DのCLIPベースのimage encoderによる情報を活用しつつ、2D patchに対して3Dに関する位置情報(depth)を3D positional encodingを通じて加えることで3D patchを作成し入力として活用。3Dのgrounding taskを扱うgrounding decoderを導入することで3D理解に関する能力を醸成する。学習は2stageで、最初のstageでは、2D, 3D双方の能力を同時に学習するために2D, 3Dのデータ両方を用いてモデルをSFTする。その後grounding decoderは前段のSFTでさ学習しきれないため、grounding decoder以外のモジュールはfreezeして、3D groundingタスクでdecoderとlocation tokenを学習するらしい。これにより、2D, 3Dシーンの理解力を損なわず、groundingに関する性能を高める。
[Paper Note] Epona: Autoregressive Diffusion World Model for Autonomous Driving, Kaiwen Zhang+, ICCV'25, 2025.06
Paper/Blog Link My Issue
#ComputerVision #NLP #Transformer #DiffusionModel #LongSequence #ICCV #WorldModels #4D (Video) Issue Date: 2026-02-08 GPT Summary- Eponaという自回帰型拡散世界モデルを提案し、長期予測と軌道計画の統合を実現。デカップル型因子分解により局所的な時空間分布をモデリングし、エンドツーエンドで動作計画と視覚モデリングを統合。実験により7.4%のFVD改善を達成し、数分間の長期予測が可能。学習したモデルはリアルタイム動作プランナーとしても優れた性能を示す。 Comment
元ポスト:
[Paper Note] Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models, Yonggan Fu+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Transformer #SmallModel #Architecture #read-later #Selected Papers/Blogs #EvolutionaryAlgorithm #Latency #Operator Issue Date: 2026-01-23 GPT Summary- SLMの効率的な展開はレイテンシ制約のあるアプリで重要。本研究は、SLMのレイテンシ決定要因を特定し、深さと幅の比率、オペレータ選択が鍵であることを示す。深く細いモデルが精度向上につながるが、トレードオフフロンティアからは外れることがある。新しい効率的アテンションの代替手段を評価し、最適なオペレータを用いた進化的検索フレームワークを開発。さらに重み正規化技術を用い、SLMの性能を向上。新ハイブリッドSLM「Nemotron-Flash」は、精度を平均+5.5%向上させ、レイテンシを大幅に低下、スループットを著しく改善。 Comment
解説:
[Paper Note] LightAgent: Mobile Agentic Foundation Models, Yangqin Jiang+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SyntheticData #MultiModal #Reasoning #SmallModel #ComputerUse #PostTraining #VisionLanguageModel #One-Line Notes #GUI #EdgeDevices Issue Date: 2026-01-19 GPT Summary- LightAgentは、モバイルプラットフォーム向けにデバイスとクラウドの協力を活用したGUIエージェントシステムを提案。これにより、オフライン性能とコスト効率を両立し、強化された二段階トレーニングを通じて高い意思決定能力を実現。実験を通じて大規模モデルに匹敵する性能を示し、クラウドコストを大幅に削減。 Comment
pj page: https://github.com/HKUDS/OpenPhone
3Bで10B級の性能を誇る低latencyのedge device向けSVLM
元ポスト:
[Paper Note] Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning, NVIDIA+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Transformer #Supervised-FineTuning (SFT) #ReinforcementLearning #SSM (StateSpaceModel) #MoE(Mixture-of-Experts) #PostTraining #Hybrid Issue Date: 2025-12-28 GPT Summary- Nemotron 3 Nano 30B-A3Bは、Mixture-of-ExpertsハイブリッドMamba-Transformer言語モデルであり、25兆のテキストトークンで事前学習され、監視付きファインチューニングと強化学習を経て精度を向上。前世代のNemotron 2 Nanoよりも高精度で、フォワードパスごとに半分未満のパラメータを活性化し、同サイズのオープンモデルと比較して最大3.3倍の推論スループットを達成。エージェント的、推論、チャット能力が向上し、最大1Mトークンのコンテキスト長をサポート。事前学習済みモデルはHugging Faceで公開。 Comment
元ポスト:
[Paper Note] Xiaomi MiMo-VL-Miloco Technical Report, Jiaze Li+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #Reasoning #VideoGeneration/Understandings #VisionLanguageModel #KeyPoint Notes Issue Date: 2025-12-23 GPT Summary- MiMo-VL-Miloco-7Bとその量子化バリアントをオープンソース化し、家庭中心の視覚と言語モデルとして優れた性能を発揮。特にスマートホーム環境に特化し、ジェスチャー認識やマルチモーダル推論で高いF1スコアを達成。二段階のトレーニングパイプラインを設計し、効率的な推論を実現。家庭シナリオのトレーニングが活動理解を向上させ、テキスト推論にも効果を示す。モデルとツールキットは公開され、スマートホームアプリケーションの研究に貢献。 Comment
元ポスト:
HF:
https://huggingface.co/collections/xiaomi-open-source/xiaomi-mimo-vl-miloco
モデル自体は11月から公開されている
home-scenario gesture recognitionとdaily activity recognitionでGemini-2.5-Proを上回る性能を達成している。特定のユースケースに特化しつつ、genericなユースケースの性能を損なわないようなモデルを学習したい場合は参考になるかもしれない。
まずSFTでhome-scenarioデータ[^1] + GeneralデータのDataMixでreasoning patternを学習させ、tokenのefficiencyを高めるためにCoTパターンを排除しdirect answerをするようなデータ(およびprompting)でも学習させる。これによりhome-scenarioでの推論能力が強化される。SFTはfull parameter tuningで実施され、optimizerはAdamW。バッチサイズ128, warmup ratio 0.03, learning rate 1 * 10^-5。スケジューラについては記述がないように見える。
その後、一般的なユースケース(Video Understanding (temporal groundingにフォーカス), GUI Grounding, Multimodal Reasoning (特にSTEMデータ))データを用いてGRPOでRLをする。明らかに簡単・難しすぎるデータは除外。RLのrewardは `r_acc + r_format`の線形補完(係数はaccL: 0.9, format: 0.1)で定義される。r_accはデータごとに異なっている。Video Understandingでは予測したqueryに対してモデルが予測したtimespanとgoldのtimespanのoverlapがどの程度あるかをaccとし、GUI Groundingではbounding boxを予測しpred/goldのoverlapをaccとする。Multimodal ReasoninghはSTEMデータなので回答が一致するかをbinaryのaccとして与えている。
モデルのアーキテクチャは、アダプターでLLMと接続するタイプのもので、動画/画像のBackboneにはViTを用いて、MLPのアダプターを持ちいてLLMの入力としている。
[^1]: volunteerによるhome-scenarioでのデータ作成; ruleを規定しvolunteerに理解してもらいデータ収集。その後研究者が低品質なものを除外
[Paper Note] T5Gemma 2: Seeing, Reading, and Understanding Longer, Biao Zhang+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#NLP #MultiModal #SmallModel #MultiLingual #Encoder-Decoder #KeyPoint Notes Issue Date: 2025-12-19 GPT Summary- T5Gemma 2は、軽量なオープンエンコーダーデコーダーモデルで、多言語・多モーダル・長文コンテキスト能力を備えています。T5Gemmaの適応レシピに基づき、デコーダー専用モデルをエンコーダーデコーダーモデルに拡張し、効率向上のために埋め込みの共有とマージドアテンションを導入しました。実験により、長文コンテキストモデリングにおける強みが確認され、事前学習性能はGemma 3と同等以上、事後学習性能は大幅に向上しました。今後、事前学習済みモデルをコミュニティに公開予定です。 Comment
初めてのマルチモーダル、long-context、かつ140言語に対応したencoder-decoderモデルとのこと。
事前学習済みのdecoder-only model (今回はGemma2)によってencoder/decoderをそれぞれ初期化し、UL2 (UL2: Unifying Language Learning Paradigms, Yi Tay+, N/A, ICLR'23
) によって事前学習する。encoder / decoder側双方のword embeddingは共有し、encoder側のattentionはcausal attentionからbidirectional attentionに変更する。また、decoder側はself-attention/cross-attentionをマージする。
- UL2: Unifying Language Learning Paradigms, Yi Tay+, N/A, ICLR'23
merged attentionとは、式(1) -- (5)で表されるものであり、Qはdecoderのinput X を用いて、KVの計算する際には、単にdecoder側のinput X とencoder側の隠れ状態 H をconcatしてから、KVを算出する(K, Vのmatrixの次元がHの分大きくなる)というものである。また、マスクトークンの正方行列ではなくなりencoder次元分大きくなり、decoder/encoder部分の両方のvisibilityを制御する。(論文中の当該部分に明記されていないが、普通に考えると)encoder部分は常にvisibleな状態となる。self-/cross attentionは似たような機能を有する(=過去の情報から関連する情報を収集する)ことが先行研究で知られており、単一のモジュールで処理できるという気持ちのようである。H, Xがそれぞれconcatされるので、encoder側の情報とdecoderのこれまでのoutput tokenの情報の両方を同時に考慮することができる。
元ポスト:
HF: https://huggingface.co/collections/google/t5gemma-2
ポイント解説:
[Paper Note] Bolmo: Byteifying the Next Generation of Language Models, Benjamin Minixhofer+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#NLP #LanguageModel #OpenSource #Selected Papers/Blogs #KeyPoint Notes #Byte-level Issue Date: 2025-12-17 GPT Summary- Bolmoは、1Bおよび7Bパラメータのバイトレベル言語モデルで、既存のサブワードレベルLMをバイト化することでトレーニングされ、サブワードトークン化の限界を克服しつつ同等のパフォーマンスを発揮します。特別に設計されたBolmoは、サブワードモデルとの間で効果的な蒸留を行い、低コストでバイトレベルLMに変換可能です。Bolmoは従来のバイトレベルLMを上回り、文字理解やコーディングタスクで優れた性能を示し、推論速度も競争力があります。結果として、バイトレベルLMはサブワードレベルLMに対する実用的な選択肢となることが示されました。 Comment
blog:
https://allenai.org/blog/bolmo
HF:
https://huggingface.co/allenai/Bolmo-7B
元ポスト:
テキストをbyte列の系列として解釈し入出力を行う言語モデル。アーキテクチャとしては、byte列をtoken化しbyte列単位でembedding化→mLSTMによってそれらがcontextに関する情報を持った状態でエンコードされ→1バイト先のcontextを用いて単語の境界を予測するモデル(この部分はcausalではなくbi-directional)によって境界を認識し、境界まで可変長でembeddingをpoolingしパッチを形成し、Olmo3の入力とする(デコーディングはその逆の操作をして最終的に言語モデルのheadを用いる)。
スクラッチからByte Latent Transformerのようなモデルを学習するのではなく、2-stageで学習される。まずOlmo3をfreezeし、他の local encoder, local decoder, boundary predictor, and language modeling headのみを学習する。これによりsubwordモデルと同様の挙動を学習できる。そのうえで、Olmo3のfreezeを解除し全体を学習する。これにより、Olmo3に事前学習された知識や挙動を最大限に活用する(=もともとsubwordで動作していたモデルをbyteレベルで動作するように継続学習する)。
>The Bolmo architecture. Tokenization & Embedding T transforms the input text into one representation per byte. The representations are contextualized with the local encoder E consisting of mLSTM blocks. The boundary predictor B decides where to place patch boundaries using one byte of future context. The representations are then Pooled,
[Paper Note] Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models, Boxin Wang+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#General #NLP #LanguageModel #Alignment #ReinforcementLearning #Reasoning #OpenSource #read-later #RLVR #Selected Papers/Blogs #CrossDomain #KeyPoint Notes #Author Thread-Post Issue Date: 2025-12-17 GPT Summary- 一般目的の推論モデルを強化学習(RL)で構築する際の課題に対処するため、カスケードドメイン別強化学習(Cascade RL)を提案。Nemotron-Cascadeは、指示モードと深い思考モードで動作し、異なるドメインのプロンプトを順次調整することで、エンジニアリングの複雑さを軽減し、最先端のパフォーマンスを実現。RLHFを前段階として使用することで推論能力が向上し、ドメイン別RL段階でもパフォーマンスが改善される。14Bモデルは、LiveCodeBenchで優れた結果を示し、2025年国際情報オリンピックで銀メダルを獲得。トレーニングとデータのレシピも共有。 Comment
元ポスト:
従来のRLはすべてのドメインのデータをmixすることでおこなれてきたが、個々のドメインのデータを個別にRLし、cascading方式で適用 (Cascade RL) することを提案している(実際は著者らの先行研究でmath->codingのcascadingは実施されていたが、それをより広範なドメイン(RLHF -> instruction following -> math -> coding -> software engineering)に適用した、という研究)。
cascadingにはいくつかのメリットがありRLの学習速度を改善できる(あるいはRLのインフラの複雑性を緩和できる)
- ドメインごとのverificationの速度の違いによって学習速度を損なうことがない(e.g. 数学のrule-basedなverificationは早いがcodingは遅い)
- ドメインごとに出力長は異なるためオンポリシーRLを適用すると効率が落ちる(長いレスポンスの生成を待たなければらないため)
本研究で得られた利点としてはFigure 1を参考に言及されているが
- RLHF, instruction followingを事前に適用することによって、後段のreasoningの性能も向上する(reasoningのwarmupになる)
- 加えて応答の長さの削減につながる
- RLはcatastrophic forgettingに強く、前段で実施したドメインの性能が後段のドメインのRLによって性能が劣化しない
- といってもFigure 2を見ると、codingとsoftware engineeringは結構ドメイン近いのでは・・・?という気はするが・・・。
- RLにおけるカリキュラム学習やハイパーパラメータをドメインごとに最適なものを適用できる
他にもthinking/non-thinking に関することが言及されているが読めていない。
[Paper Note] NVIDIA Nemotron 3: Efficient and Open Intelligence, NVIDIA+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#NLP #LanguageModel #SSM (StateSpaceModel) #OpenSource #MoE(Mixture-of-Experts) Issue Date: 2025-12-17 GPT Summary- Nemotron 3ファミリーのモデル(Nano、Super、Ultra)は、強力なエージェント機能と推論能力を提供し、Mixture-of-ExpertsハイブリッドMamba-Transformerアーキテクチャを採用。SuperとUltraはLatentMoEを組み込み、MTPレイヤーでテキスト生成を高速化。全モデルはマルチ環境強化学習でポストトレーニングされ、Nanoはコスト効率が高く、Superは高ボリュームワークロードに最適化、Ultraは最先端の精度を提供。モデルの重みやデータはオープンにリリース予定。 Comment
元ポスト:
解説:
Artificial Intelligenceによるポイント解説&ベンチマーキング:
所見:
training data, RL environment, training codeも含めて公開されているとのこと。
ポイント解説:
所見:
[Paper Note] Nanbeige4-3B Technical Report: Exploring the Frontier of Small Language Models, Chen Yang+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #Distillation #mid-training #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2025-12-13 GPT Summary- Nanbeige4-3Bは、23兆の高品質トークンで事前学習し、3000万以上の指示でファインチューニングされた高性能な小規模言語モデルです。FG-WSDトレーニングスケジューラを用いて段階的にデータを洗練し、SFTデータの質向上のために共同メカニズムを設計しました。さらに、DPDメソッドを通じてモデルを蒸留し、強化学習フェーズで推論能力を強化しました。評価結果は、同等のパラメータスケールのモデルを大幅に上回り、より大きなモデルにも匹敵することを示しています。モデルのチェックポイントは、https://huggingface.co/Nanbeige で入手可能です。 Comment
元ポスト:
3Bモデルにも関わらず10倍以上大きいモデルと同等以上の性能を発揮し、trainingのstrategyが非常に重要ということが伺える。元ポストにも各学習方法の概要が記載されているが、読みたい。
[Paper Note] VoxCPM: Tokenizer-Free TTS for Context-Aware Speech Generation and True-to-Life Voice Cloning, Yixuan Zhou+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#SpeechProcessing #SmallModel #TTS Issue Date: 2025-12-10 GPT Summary- 音声合成の生成モデルは、安定性と表現力のトレードオフに直面している。これを解決するために、半離散残差表現を用いた新しいトークナイザー不要のTTSモデルVoxCPMを提案。テキスト-セマンティック言語モデル(TSLM)が意味的計画を生成し、残差音響モデル(RALM)が音響の詳細を復元。180万時間のデータで訓練されたVoxCPM-0.5Bモデルは、最先端のゼロショットTTSパフォーマンスを達成し、文脈に応じた自然な音声を生成する能力を示す。VoxCPMはApache 2.0の下で公開され、コミュニティの研究開発を促進する。 Comment
HF: https://huggingface.co/openbmb/VoxCPM1.5
元ポスト:
[Paper Note] OneThinker: All-in-one Reasoning Model for Image and Video, Kaituo Feng+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #ReinforcementLearning #MultiModal #Reasoning #VisionLanguageModel #2D (Image) #UMM #4D (Video) #One-Line Notes #text Issue Date: 2025-12-06 GPT Summary- OneThinkerは、視覚的推論を統一するオールインワンの強化学習モデルであり、質問応答やキャプショニングなどの多様なタスクに対応。OneThinker-600kトレーニングコーパスを用いて訓練され、報酬の異質性に対処するEMA-GRPOを提案。広範な実験により、10の視覚理解タスクで強力なパフォーマンスを示し、タスク間の知識移転とゼロショット一般化能力を実証。全てのコード、モデル、データは公開。 Comment
pj page:
https://github.com/tulerfeng/OneThinker
HF:
https://huggingface.co/OneThink
元ポスト:
image/videoに関するreasoningタスクをunifiedなアーキテクチャで実施するVLM
Qwen3-VL-Instruct-8Bに対するgain。様々なタスクで大幅なgainを得ている。特にTracking, segmentation, groundingのgainが大きいように見える。
[Paper Note] AutoNeural: Co-Designing Vision-Language Models for NPU Inference, Wei Chen+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #NLP #SmallModel #Selected Papers/Blogs #3D Reconstruction #VisionLanguageModel #Realtime Issue Date: 2025-12-04 GPT Summary- AutoNeuralは、NPU向けに最適化されたVLMアーキテクチャで、量子化の脆弱性とI/Oバウンドな注意メカニズムの問題を解決。MobileNetV5スタイルのバックボーンを採用し、量子化誤差を最大7倍削減、エンドツーエンドのレイテンシを14倍短縮。実世界の自動車ケーススタディでリアルタイム性能を実証し、NPU制約に特化したモデル設計の重要性を示した。 Comment
pj page: https://nexa.ai/solution/intelligent-cockpit
HF: https://huggingface.co/NexaAI/AutoNeural
元ポスト:
[Paper Note] DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models, DeepSeek-AI+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #SyntheticData #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #KeyPoint Notes #Reference Collection #SparseAttention Issue Date: 2025-12-01 GPT Summary- DeepSeek-V3.2を紹介。主な技術革新は、(1) 効率的なアテンション機構DSAにより長い文脈での性能を維持しつつ計算複雑性を削減、(2) スケーラブルな強化学習によりGPT-5に匹敵する性能を達成、特にDeepSeek-V3.2-SpecialeはGPT-5を上回り、International Mathematics OlympiadおよびInternational Olympiad in Informaticsで金メダル級の性能を示す。(3) 新規合成パイプラインにより大規模な訓練データ生成を実現し、複雑な環境での一般化と指示遵守の向上を図る。 Comment
HF: https://huggingface.co/deepseek-ai/DeepSeek-V3.2
GPT-5級のスコアを獲得している。なんということだ。
公式ポスト:
vLLM recipe:
https://docs.vllm.ai/projects/recipes/en/latest/DeepSeek/DeepSeek-V3_2-Exp.html
関連:
- Expert Parallel Deployment, vLLM, 2025.10
元ポスト:
所見:
事前学習にさらに計算機リソースを投下する見込みとのこと:
解説:
解説:
所見:
artificial analysisによる評価ではOpen Weightモデルの中ではKimi K2 Thinkingに次いで2番目の性能:
- Introducing Kimi K2 Thinking, MoonshotAI, 2025.11
所見:
関連:
- [Paper Note] DeepSeek-Math-V2, DeepSeekAI, 2025.11
DeepSeek Sparse Attention (DSA)
DSAの図解:
要は、Lightning Indexerによって過去のkeyをキャッシュしておき、現在のtokenに関するQueryが与えられたときに、QueryとKe?からQueryにとって重要なKey Top-kを選択した上で、Top-kのKeyに対してMLAを実行する(Sparse Attentionの一種とみなせる)。
Top-kのtokenに対してのみAttentionの計算が走るので、計算量のオーダーが系列長をNとするとO(N^2)からO(Nk)となり、線形のオーダーとなり計算量が削減される。
また、MLAによって、すべてのKV Cacheをそのまま保持する必要がなく、個々のKV Cacheを圧縮した小さなtiny latent vectorを保持し、それを復元する重み行列を保持すれば良いので、メモリも効率化されている。
DSAは計算量を削減し、MLAはメモリを削減する。
MLAはこちら:
- [Paper Note] DeepSeek-V3 Technical Report, DeepSeek-AI+, arXiv'24, 2024.12
[Paper Note] Qwen3-VL Technical Report, Shuai Bai+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal #MoE(Mixture-of-Experts) #VisionLanguageModel Issue Date: 2025-11-27 GPT Summary- Qwen3-VLは、テキスト、画像、動画を統合した最先端のビジョン・ランゲージモデルで、256Kトークンの長文コンテキスト理解を実現。強化されたテキスト理解、堅牢なマルチモーダル推論、空間・時間モデリングのアップグレードを特徴とし、様々なベンチマークで優れたパフォーマンスを示す。密なアーキテクチャとエキスパート混合アーキテクチャの両方で高い性能を発揮し、実世界のマルチモーダルコードインテリジェンスの基盤エンジンとしての役割が期待される。 Comment
元ポスト:
[Paper Note] INTELLECT-3: Technical Report, Prime Intellect Team+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #OpenSource #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #Initial Impression Notes #Asynchronous #Author Thread-Post Issue Date: 2025-11-27 GPT Summary- INTELLECT-3は、1060億パラメータのMixture-of-Expertsモデルであり、強化学習を用いて高性能を達成。数学・コード・科学・推論のベンチマークで最先端の結果を示し、全インフラストラクチャがオープンソースとして公開される。prime-rlを利用した大規模RL環境は、多様なGPUに対応し、高効率な訓練を実現。 Comment
HF: https://huggingface.co/PrimeIntellect/INTELLECT-3
元ポスト:
著者ポスト:
完全にオープンソースでデータやフレームワーク、評価も含め公開されているとのこと。素晴らしい
in-flight weight updates が利用されている
- PipelineRL, Piche+, ServiceNow, 2025.04
[Paper Note] HunyuanOCR Technical Report, Hunyuan Vision Team+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#ComputerVision #NLP #VisionLanguageModel #OCR Issue Date: 2025-11-26 GPT Summary- HunyuanOCRは、OCRタスクに特化した軽量な商業グレードのオープンソースVision-Language Model(VLM)であり、優れた性能を示し、従来のソリューションを上回っています。主な特徴は、スポッティング、パース、情報抽出、翻訳などの機能を統一した軽量フレームワーク、エンドツーエンドのアーキテクチャによるエラー伝播の解消、強化学習戦略による性能向上です。HunyuanOCRはHuggingFaceでオープンソース化され、産業応用の基盤を提供することが期待されています。 Comment
元ポスト:
公式ポスト:
pj page: https://github.com/Tencent-Hunyuan/HunyuanOCR
HF: https://huggingface.co/tencent/HunyuanOCR
OmniDocBenchでSoTA
- [Paper Note] OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations, Linke Ouyang+, CVPR'25, 2024.12
[Paper Note] Fara-7B: An Efficient Agentic Model for Computer Use, Ahmed Awadallah+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#AIAgents #Blog #SmallModel #ComputerUse #read-later #Selected Papers/Blogs #One-Line Notes #Author Thread-Post Issue Date: 2025-11-25 GPT Summary- CUAの発展は高品質な相互作用データの欠如に制約されてきた。これに対処するため、FaraGenという多段階ウェブタスク用のデータ生成システムを提案。多様なタスクを生成し、成功した軌跡を検証しつつ高い効率を発揮。FaraGenを用いて、小型CUAモデルFara-7Bを訓練し、ウェブタスクにおいて優れた性能を発揮。Fara-7Bは他のモデルを上回り、競争力のある結果を示す。また、モデルとデータをオープンソース化し、さらなる研究を促進する。 Comment
元ポスト:
computer useに特化したMS初のSLM(CUA)
関連:
- [Paper Note] AgentInstruct: Toward Generative Teaching with Agentic Flows, Arindam Mitra+, arXiv'24, 2024.07
- [Paper Note] Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasks, Adam Fourney+, arXiv'24, 2024.11
- [Paper Note] WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models, Hongliang He+, ACL'24, 2024.01
- [Paper Note] Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V, Jianwei Yang+, arXiv'23, 2023.10
- GPT-4V-Act, ddupont808, 2023.10
WebVoyagerでの評価によると、タスクに対するコスト性能比が非常に高いことがわかる。
MIT Licence
著者ポスト:
WebTailBenchと呼ばれる新たなベンチマークも提案されている。既存データに加えて、より多様なドメイン(不動産, 求人, 複数ショップとの比較)などが含まれるようである。
[Paper Note] OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe, Kaichen Zhang+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #SmallModel #OpenSource #read-later #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-25 GPT Summary- 本研究では、マルチモーダル推論のための透明な二段階トレーニングレシピ「OpenMMReasoner」を提案。監視付きファインチューニング(SFT)で874Kサンプルのデータセットを構築し、強化学習(RL)で74Kサンプルを活用して推論能力を向上。評価の結果、9つのベンチマークでQwen2.5-VL-7B-Instructに対し11.6%の性能向上を達成し、データの質とトレーニング設計の重要性を示した。すべてのリソースはオープンソースで公開。 Comment
pj page: https://evolvinglmms-lab.github.io/OpenMMReasoner/
SoTAなVLMを構築するためのオープンなデータとレシピらしい
[Paper Note] Olmo 3, Team Olmo+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#NLP #LanguageModel #Reasoning #OpenSource #read-later #Selected Papers/Blogs #Reference Collection Issue Date: 2025-11-20 GPT Summary- Olmo 3は、7Bおよび32Bパラメータの完全オープンな言語モデルファミリーで、長文コンテキスト推論やコーディングなどに対応。全ライフサイクルの情報が含まれ、特にOlmo 3 Think 32Bは最も強力な思考モデルとして注目される。 Comment
元ポスト:
解説:
post-LN transformer
OLMo2:
- OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini, AllenAI, 20250.3
ポイント解説:
official livestream video:
解説:
Qwen3-32Bと同等の性能を達成している。そしてそれがオープンソース、素晴らしい。読むべし!!
Olmo3のライセンスに関する以下のような懸念がある:
ポイント解説:
[Paper Note] Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B, Sen Xu+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#NLP #LanguageModel #SmallModel #read-later Issue Date: 2025-11-20 GPT Summary- VibeThinker-1.5Bは、Spectrum-to-Signal Principle(SSP)を用いて開発された1.5Bパラメータのモデルで、小型モデルの推論能力を向上させることを目指す。Two-Stage Diversity-Exploring DistillationとMaxEnt-Guided Policy Optimizationを組み合わせ、低コストで優れた推論性能を実現。数学ベンチマークで大規模モデルを上回る結果を示し、小型モデルが大規模モデルに匹敵する能力を持つことを証明。これにより、AI研究の民主化が促進される。 Comment
元ポスト: https://github.com/WeiboAI/VibeThinker
元ポスト:
オフィシャル:
https://huggingface.co/WeiboAI/VibeThinker-1.5B
GGUF版:
https://huggingface.co/MaziyarPanahi/VibeThinker-1.5B-GGUF
1.5Bのモデルでここまでできるようになったのか
[Paper Note] MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling, MiroMind Team+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Reasoning #DeepResearch Issue Date: 2025-11-19 GPT Summary- MiroThinker v1.0は、ツール強化推論と情報探索能力を向上させるオープンソースの研究エージェントで、モデルと環境の相互作用を深めるインタラクションスケーリングを採用。256Kのコンテキストウィンドウを持ち、最大600回のツールコールを実行可能で、従来のエージェントを上回る精度を達成。インタラクションの深さがモデルの性能を向上させることを示し、次世代の研究エージェントにおける重要な要素として位置づけられる。 Comment
元ポスト:
HF: https://huggingface.co/miromind-ai/MiroThinker-v1.0-72B
ポイント解説:
[Paper Note] DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research, Rulin Shao+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #OpenSource #PostTraining #read-later #Selected Papers/Blogs #DeepResearch #Reference Collection #Rubric-based #Author Thread-Post Issue Date: 2025-11-19 GPT Summary- RLERを用いて、長文の出典付き回答を生成するためのディープリサーチモデル、DR Tulu-8Bを開発。進化するルーブリックにより、長文タスクにおいて既存モデルを大幅に上回る性能を発揮しつつ、コストを抑制。データ、モデル、コードを公開し、深層研究の進展を促進。 Comment
元ポスト:
著者ポスト:
著者ポスト2:
著者ポスト3:
demoをほぼ無料で実施できるとのこと:
takeaway:
デモが公開:
解説:
[Paper Note] Intelligence per Watt: Measuring Intelligence Efficiency of Local AI, Jon Saad-Falcon+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #read-later Issue Date: 2025-11-14 GPT Summary- ローカルLMが実世界のクエリに正確に回答できるかを評価するため、タスクの精度を電力単位で割った「ワットあたりの知能(IPW)」を提案。20以上のローカルLMと8つのアクセラレーターを用いた実証研究により、ローカルLMは88.7%の精度でクエリに応答し、IPWは5.3倍改善、カバレッジは23.2%から71.3%に上昇。ローカルアクセラレーターはクラウドよりも低いIPWを達成し、ローカル推論が中央集権型インフラから需要を再分配できる可能性を示唆。IPWプロファイリングハーネスも公開。 Comment
pj page: https://hazyresearch.stanford.edu/blog/2025-11-11-ipw
元ポスト:
この切り口は興味深い。
Open Technical Problems in Open-Weight AI Model Risk Management, Casper+, SSRN'25, 2025.11
Paper/Blog Link My Issue
#NLP #LanguageModel #Safety #read-later #Selected Papers/Blogs Issue Date: 2025-11-13 GPT Summary- オープンウェイトのフロンティアAIモデルは強力で広く採用されているが、リスク管理には新たな課題がある。これらのモデルはオープンな研究を促進する一方で、恣意的な変更や監視なしの使用がリスクを増大させる。安全性ツールに関する研究は限られており、16の技術的課題を提示。オープンな研究と評価がリスク管理の科学を構築する鍵であることを強調。 Comment
元ポスト:
[Paper Note] EdgeTAM: On-Device Track Anything Model, Chong Zhou+, arXiv'25, 2025.01
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #ImageSegmentation #SmallModel #Video #2D (Image) #EdgeDevices Issue Date: 2025-11-09 GPT Summary- SAM 2は動画セグメンテーションの基盤モデルであり、メモリバンクメカニズムを通じて性能を向上させています。本研究では、モバイルデバイス上での効率を高めるために、EdgeTAMを提案し、2D空間パーセプターを用いて計算コストを削減します。これにより、メモリの空間構造を保持しつつ、推論オーバーヘッドなしで性能を向上させる蒸留パイプラインも導入。EdgeTAMは複数のデータセットで高いJ&Fスコアを達成し、iPhone 15 Pro Maxで16 FPSで動作します。 Comment
元ポスト:
SAM2より性能は少し劣るが、edge-deviceてわ動作可能で非常に高速なモデル(promptによって制御可能なsegmentation)とのこと
- [Paper Note] SAM 2: Segment Anything in Images and Videos, Nikhila Ravi+, ICLR'25, 2024.08
[Paper Note] Step-Audio-EditX Technical Report, Chao Yan+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#LanguageModel #SpeechProcessing #Editing #TTS #AudioLanguageModel Issue Date: 2025-11-09 GPT Summary- 初のオープンソースLLMベースの音声モデル「Step-Audio-EditX」を発表。感情や話し方の編集に優れ、ゼロショットのテキスト音声合成機能も搭載。大きなマージンの合成データを活用し、従来のアプローチからの転換を実現。評価では、感情編集や細かい制御タスクで他のモデルを上回る性能を示した。 Comment
元ポスト:
[Paper Note] LongCat-Video Technical Report, Meituan LongCat Team+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #VideoGeneration/Understandings #WorldModels #4D (Video) #TextToVideoGeneration #SparseAttention #Video Continuation #ImageToVideoGeneration Issue Date: 2025-11-02 GPT Summary- 「LongCat-Video」は、13.6Bパラメータを持つ動画生成モデルで、複数の動画生成タスクにおいて高いパフォーマンスを発揮します。Diffusion Transformerフレームワークに基づき、テキストや画像から動画を生成し、長時間動画の生成においても高品質と一貫性を維持します。効率的な推論を実現するために、粗から細への生成戦略とブロックスパースアテンションを採用し、720p、30fpsの動画を数分で生成可能です。マルチリワードRLHFによるトレーニングにより、最新のモデルと同等の性能を達成し、コードとモデルの重みは公開されています。 Comment
pj page: https://github.com/meituan-longcat/LongCat-Video
元ポスト:
[Paper Note] Kimi Linear: An Expressive, Efficient Attention Architecture, Kimi Team+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Attention #LongSequence #Architecture #read-later #Selected Papers/Blogs #Reference Collection #Hybrid #LinearAttention Issue Date: 2025-10-31 GPT Summary- Kimi Linearは、短・長コンテキスト及び強化学習のシナリオにおいてフルアテンションを超えるハイブリッドな線形アテンションアーキテクチャです。Kimi Delta Attention(KDA)を核とし、ゲーティング機構を拡張した線形アテンションモジュールで、RNNのメモリをより有効利用します。特注のチャンク単位アルゴリズムにより、DPLR遷移行列の効率を向上させ、計算量を大幅に削減します。Kimi Linearモデルは48Bパラメータで事前学習され、評価タスクでMLAを大きく上回り、KVキャッシュ使用量を75%削減し、デコードスループットを6倍向上させました。これにより、フルアテンションアーキテクチャの優れた代替として機能し、長い入力・出力タスクに対応可能であることが示されています。 Comment
HF: https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
元ポスト:
所見:
所見:
アーキテクチャ解説:
KDAとFull Attention, Sliding Window Attentionの比較:
Full Attentionと同等の性能をより効率良く達成できる
[Paper Note] Hubble: a Model Suite to Advance the Study of LLM Memorization, Johnny Tian-Zheng Wei+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #read-later #Memorization Issue Date: 2025-10-26 GPT Summary- Hubbleは、LLMの記憶に関する研究のためのオープンソースモデルスイートで、標準モデルと変化モデルの2種類を提供。標準モデルは大規模な英語コーパスで事前学習され、変化モデルは特定のテキストを挿入して記憶リスクを模倣。8つのモデルが1Bまたは8Bのパラメータを持ち、100Bまたは500Bのトークンで訓練。研究により、敏感なデータの記憶はコーパスのサイズに依存し、データの露出が少ない場合は忘れられることが示された。Hubbleは、プライベート情報の記憶の容易さを分析するなど、幅広い記憶研究を可能にし、コミュニティにさらなる探求を促す。 Comment
pj page: https://allegro-lab.github.io/hubble/
元ポスト:
[Paper Note] Extracting alignment data in open models, Federico Barbero+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #InstructionTuning #SyntheticData Issue Date: 2025-10-23 GPT Summary- 本研究では、ポストトレーニングモデルからアライメントトレーニングデータを抽出する方法を示し、埋め込みモデルが特定の能力向上に適していると主張します。文字列マッチングに依存せず、意味的類似性を捉えることで、抽出可能なデータ量を過小評価するリスクを明らかにしました。また、モデルはポストトレーニングフェーズで使用されたデータを再生でき、元のパフォーマンスを回復可能であることを示しました。研究は蒸留手法の影響についても議論します。 Comment
元ポスト:
Magpieのような話だろうか?
[Paper Note] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention, MiniMax+, arXiv'25, 2025.06
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Reasoning #MoE(Mixture-of-Experts) Issue Date: 2025-10-17 GPT Summary- MiniMax-M1は、4560億パラメータを持つ世界初のオープンウェイトのハイブリッドアテンション推論モデルで、Mixture-of-Expertsアーキテクチャとライトニングアテンションを組み合わせています。1百万トークンのコンテキスト長をサポートし、複雑なタスクに適しています。新しいRLアルゴリズムCISPOを提案し、効率的な訓練を実現。標準ベンチマークで強力なオープンウェイトモデルと同等以上の性能を示し、特にソフトウェアエンジニアリングや長いコンテキストタスクで優れた結果を出しています。モデルは公開されています。 Comment
- MiniMax-M1, MiniMax, 2025.06
のテクニカルレポート。
- [Paper Note] The Art of Scaling Reinforcement Learning Compute for LLMs, Devvrit Khatri+, arXiv'25, 2025.10
でGSPO, DAPOよりも安定性と最終到達性能でより優れていることが示されたCISPOと呼ばれるRLアルゴリズムが提案されている。
関連:
[Paper Note] Magistral, Mistral-AI+, arXiv'25, 2025.06
Paper/Blog Link My Issue
#NLP #LanguageModel #Reasoning #One-Line Notes Issue Date: 2025-10-07 GPT Summary- Mistralの推論モデルMagistralと独自の強化学習パイプラインを紹介。ゼロからのアプローチで、LLMのRLトレーニングの限界を探り、テキストデータのみでのRLが能力を維持することを示す。Magistral MediumはRLのみで訓練され、Magistral Smallはオープンソース化。 Comment
元ポスト:
関連:
- Magistral-Small-2509, MistralAI, 2025.09
MistralAIの初めてのreasoningモデル
[Paper Note] LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training, Xiang An+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal #OpenSource #VisionLanguageModel #One-Line Notes Issue Date: 2025-10-04 GPT Summary- LLaVA-OneVision-1.5は、計算コストと財政コストを削減しつつ最先端のパフォーマンスを実現する新しい大規模マルチモーダルモデルです。オープンで効率的なフレームワークを提供し、85Mの事前学習データセットと26Mの指示データセットを含む大規模キュレーションデータセットを構築しました。効率的なトレーニングフレームワークにより、限られた予算内でのトレーニングが可能となり、幅広い下流タスクで競争力のある性能を示しています。特に、LLaVA-OneVision-1.5-8Bは18のベンチマークでQwen2.5-VL-7Bを上回り、4Bモデルは全ての27のベンチマークでQwen2.5-VL-3Bを超えています。今後、LLaVA-OneVision-1.5-RLのリリースも予定されています。 Comment
元ポスト:
各種ベンチでQwen2.5-VL超え
pj page: https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5
ポイント解説:
[Paper Note] CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning, Long Xing+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#ComputerVision #NLP #ImageCaptioning #SmallModel #VisionLanguageModel Issue Date: 2025-09-29 GPT Summary- 画像キャプショニングにおいて、従来の監視型ファインチューニング(SFT)の限界を克服するため、検証可能な報酬を用いた強化学習(RLVR)を提案。新しいトレーニングフレームワーク「キャプショニング強化学習(CapRL)」を導入し、キャプションの質をその有用性で再定義。CapRLは、視覚非依存のLLMの精度に基づく客観的な報酬を得る二段階のパイプラインを採用。CapRL-3Bによる事前学習は、12のベンチマークで大幅な性能向上を実現し、Qwen2.5-VL-72Bと同等のパフォーマンスを達成。 Comment
元ポスト:
HF: https://huggingface.co/collections/long-xing1/caprl-68d64ac32ded31596c36e189
公式ポスト:
[Paper Note] EmbeddingGemma: Powerful and Lightweight Text Representations, Henrique Schechter Vera+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#Embeddings #NLP #RepresentationLearning #SmallModel #MultiLingual Issue Date: 2025-09-25 GPT Summary- EmbeddingGemmaは、Gemma 3言語モデルに基づく軽量なオープンテキスト埋め込みモデルで、エンコーダ-デコーダの初期化と幾何学的埋め込み蒸留を用いて大規模モデルの知識を活用。分散正則化器を使用し、異なるチェックポイントを統合することで一般化能力を向上。300Mのパラメータで、MTEBで最先端の結果を達成し、従来のトップモデルを上回る性能を示す。量子化や出力の切り詰めにも耐え、低遅延かつ高スループットのアプリケーションに適している。EmbeddingGemmaはコミュニティに公開され、さらなる研究を促進する。 Comment
公式モデル概要: https://ai.google.dev/gemma/docs/embeddinggemma?hl=ja
元ポスト:
100以上の言語で訓練されマトリョーシカ表現なのでベクトルのサイズを調整可能な模様
マトリョーシカ表現:
- [Paper Note] Matryoshka Representation Learning, Aditya Kusupati+, NeurIPS'22
公式による解説ブログ:
[Paper Note] CWM: An Open-Weights LLM for Research on Code Generation with World Models, FAIR CodeGen team+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#NLP #LanguageModel #Coding #mid-training #PostTraining #Selected Papers/Blogs #WorldModels #One-Line Notes Issue Date: 2025-09-25 GPT Summary- 320億パラメータのCode World Model (CWM)をリリースし、コード生成のための世界モデルの研究を進める。静的コードだけでなく、PythonインタプリタやDocker環境から得た観測-行動トレジェクトリで中間トレーニングを実施し、マルチタスク推論RLによる広範な能力を評価。CWMは強力なテストベッドを提供し、世界モデルがエージェンティックコーディングに貢献できることを示す。主要なタスクで高いパフォーマンスを記録し、モデルチェックポイントも提供。 Comment
元ポスト:
World Modelと銘打ってあるが、一般的なCV分野でのWorld Modelではなく、python やbash等の実行をトークン列として仮想的にトレースできるようにmid trainingされている(大量の実トレースデータが利用されている模様)ので、World Modelと銘打たれている模様?
GRPOに対するモダンなtweakがまとまっている模様:
DeepSeek-R1で提案されてから細かな調整が重ねられて来た。
[Paper Note] OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning, Yanqing Liu+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Pretraining #OpenSource #Encoder #Backbone Issue Date: 2025-09-16 GPT Summary- 本論文では、OpenVisionのアーキテクチャを簡素化し、トレーニング効率を向上させる方法を提案。テキストエンコーダーと対照損失を削除し、キャプショニング損失のみを使用したOpenVision 2を導入。初期結果は、トレーニング時間を約1.5倍短縮し、メモリ使用量を約1.8倍削減することを示し、10億以上のパラメータにスケールアップ可能であることを強調。 Comment
元ポスト:
事前学習時にtext, image encoderのcontrastive lossで学習していたが、text encoderを無くしimage encoderに入力されたimageからcaptionを生成するcaption lossのみにすることで性能を落とすことなく効率を改善
[Paper Note] Scalable Vision Language Model Training via High Quality Data Curation, Hongyuan Dong+, ACL'25
Paper/Blog Link My Issue
#NLP #LanguageModel #SmallModel #ACL #VisionLanguageModel Issue Date: 2025-09-16 GPT Summary- SAIL-VLは、2Bおよび8Bパラメータのオープンソースビジョン言語モデルで、最先端の性能を達成。主な改善点は、(1) 高品質な視覚理解データの構築、(2) 拡大した事前学習データによる性能向上、(3) 複雑さのスケーリングによる効果的なSFTデータセットのキュレーション。SAIL-VLは18のVLMベンチマークで最高スコアを達成し、2Bモデルは同等のVLMの中でトップの位置を占める。モデルはHuggingFaceで公開。 Comment
元ポスト:
[Paper Note] K2-Think: A Parameter-Efficient Reasoning System, Zhoujun Cheng+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #OpenSource #GRPO #read-later #RLVR #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2025-09-10 GPT Summary- K2-Thinkは320億パラメータの推論システムで、GPT-OSS 120BやDeepSeek v3.1と同等かそれ以上の性能を示します。Qwen2.5ベースのモデルに先進的なポストトレーニングと推論技術を融合し、長いチェーン・オブ・ソート思考と強化学習を用いて数学的推論で卓越した成果を上げています。公開ベンチマークでも高得点を記録し、よりパラメータ効率の高いモデルが最先端システムと競争できることを明らかにしました。K2-Thinkは迅速な推論速度を提供し、オープンソースの推論システムをより利用しやすくしています。 Comment
HF:
https://huggingface.co/LLM360/K2-Think
code:
-
https://github.com/MBZUAI-IFM/K2-Think-SFT
-
https://github.com/MBZUAI-IFM/K2-Think-Inference
RLはverl+GRPOで実施したとテクニカルペーパーに記述されているが、当該部分のコードの公開はされるのだろうか?
RLで利用されたデータはこちら:
- [Paper Note] Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective, Zhoujun Cheng+, NeurIPS'25
元ポスト:
[Paper Note] Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search, Xin Lai+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #ReinforcementLearning #Reasoning #LongSequence #GRPO #VisionLanguageModel Issue Date: 2025-09-10 GPT Summary- Mini-o3システムは、数十ステップの深いマルチターン推論を実現し、視覚検索タスクで最先端の性能を達成。Visual Probe Datasetを構築し、多様な推論パターンを示すデータ収集パイプラインを開発。オーバーターンマスキング戦略により、ターン数が増えるほど精度が向上することを実証。 Comment
HF: https://huggingface.co/Mini-o3
pj page: https://mini-o3.github.io
元ポスト:
既存のオープンなVLMはマルチターンのターン数を増やせないという課題があったがそれを克服するレシピに関する研究な模様。元ポストによると6ターンまでのマルチターンで学習しても、inference時には32ターンまでスケールするとか。
[Paper Note] LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model, Xiyao Wang+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #ReinforcementLearning #Reasoning #SelfCorrection #VisionLanguageModel #Critic Issue Date: 2025-09-04 GPT Summary- 本研究では、視覚と言語のモデリングにおいて、批評モデルを強化学習を用いて再編成し、生成モデルに直接適用する新しいアプローチを提案します。これにより、マルチモーダル批評モデルLLaVA-Critic-R1を生成し、視覚的推論ベンチマークで高い性能を示しました。さらに、自己批評を用いることで、追加の訓練なしに推論タスクでの性能を向上させることができることを示しました。この結果は、評価と生成の両方に優れた統一モデルを実現する可能性を示唆しています。 Comment
元ポスト:
HF: https://huggingface.co/collections/lmms-lab/llava-critic-r1-68922484e5822b89fab4aca1
[Paper Note] Hunyuan-MT Technical Report, Mao Zheng+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#MachineTranslation #NLP #LanguageModel #Catastrophic Forgetting #mid-training #Selected Papers/Blogs #In-Depth Notes #Surface-level Notes Issue Date: 2025-09-01 GPT Summary- Hunyuan-MT-7Bは、33の主要言語間の双方向翻訳をサポートする初のオープンソースモデルであり、特に標準中国語と少数言語間の翻訳に焦点を当てています。スロースローチンキングに触発されたHunyuan-MT-Chimera-7Bを導入し、複数の出力を統合することで性能を向上させています。モデルは包括的なトレーニングプロセスを経ており、強化学習を用いた高度な整合性を実現。実験では、両モデルが同等のパラメータサイズの他の翻訳モデルを上回り、WMT2025共有タスクで30の言語ペアで1位を獲得しました。これにより、モデルの堅牢性が強調されています。 Comment
テクニカルレポート: https://github.com/Tencent-Hunyuan/Hunyuan-MT/blob/main/Hunyuan_MT_Technical_Report.pdf
元ポスト:
Base Modelに対してまず一般的な事前学習を実施し、その後MTに特化した継続事前学習(モノリンガル/パラレルコーパスの利用)、事後学習(SFT, GRPO)を実施している模様。
継続事前学習では、最適なDataMixの比率を見つけるために、RegMixと呼ばれる手法を利用。Catastrophic Forgettingを防ぐために、事前学習データの20%を含めるといった施策を実施。
SFTでは2つのステージで構成されている。ステージ1は基礎的な翻訳力の強化と翻訳に関する指示追従能力の向上のために、Flores-200の開発データ(33言語の双方向の翻訳をカバー)、前年度のWMTのテストセット(English to XXをカバー)、Mandarin to Minority, Minority to Mandarinのcuratedな人手でのアノテーションデータ、DeepSeek-V3-0324での合成パラレルコーパス、general purpose/MT orientedな指示チューニングデータセットのうち20%を構成するデータで翻訳のinstructinoに関するモデルの凡化性能を高めるためキュレーションされたデータ、で学習している模様。パラレルコーパスはReference-freeな手法を用いてスコアを算出し閾値以下の低品質な翻訳対は除外している。ステージ2では、詳細が書かれていないが、少量でよりfidelityの高い約270kの翻訳対を利用した模様。また、先行研究に基づいて、many-shotのin-context learningを用いて、訓練データをさらに洗練させたとのこと(先行研究が引用されているのみで詳細な記述は無し)。また、複数の評価ラウンドでスコアの一貫性が無いサンプルは手動でアノテーション、あるいはverificationをして品質を担保している模様。
RLではGRPOを採用し、rewardとしてsemantic([Paper Note] xCOMET: Transparent Machine Translation Evaluation through Fine-grained Error Detection, Nuno M. Guerreiro+, TACL'24
), terminology([Paper Note] TAT-R1: Terminology-Aware Translation with Reinforcement Learning and
Word Alignment, Zheng Li+, arXiv'25
; ドメイン特有のterminologyを捉える), repetitionに基づいたrewardを採用している。最終的にSFT->RLで学習されたHuayuan-MT-7Bに対して、下記プロンプトを用いて複数のoutputを統合してより高品質な翻訳を出力するキメラモデルを同様のrewardを用いて学習する、といったpipelineになっている。
関連:
- [Paper Note] Large Language Models Are State-of-the-Art Evaluators of Translation Quality, EAMT'23, 2023.06
- [Paper Note] xCOMET: Transparent Machine Translation Evaluation through Fine-grained Error Detection, Nuno M. Guerreiro+, TACL'24
- [Paper Note] CometKiwi: IST-Unbabel 2022 Submission for the Quality Estimation Shared Task, Rei+, WMT'22
- [Paper Note] No Language Left Behind: Scaling Human-Centered Machine Translation, NLLB Team+, arXiv'22, 2022.07
- [Paper Note] Many-Shot In-Context Learning, Rishabh Agarwal+, NeurIPS'24
- [Paper Note] RegMix: Data Mixture as Regression for Language Model Pre-training, Qian Liu+, ICLR'25
- [Paper Note] TAT-R1: Terminology-Aware Translation with Reinforcement Learning and
Word Alignment, Zheng Li+, arXiv'25
関連: PLaMo翻訳
- PLaMo Translate: 翻訳特化大規模言語モデルの開発,今城+, Jxiv'25, 2025.08
こちらはSFT->Iterative DPO->Model Mergeを実施し、翻訳に特化した継続事前学習はやっていないように見える。一方、SFT時点で独自のテンプレートを作成し、語彙の指定やスタイル、日本語特有の常体、敬体の指定などを実施できるように翻訳に特化したテンプレートを学習している点が異なるように見える。Hunyuanは多様な翻訳の指示に対応できるように学習しているが、PLaMo翻訳はユースケースを絞り込み、ユースケースに対する性能を高めるような特化型のアプローチをとるといった思想の違いが伺える。
[Paper Note] Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model, Xianglong He+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #Transformer #DiffusionModel #VideoGeneration/Understandings #WorldModels #Game Issue Date: 2025-08-28 GPT Summary- Matrix-Game 2.0を提案し、インタラクティブな世界モデルがリアルタイムで長いビデオを生成できるようにする。主なコンポーネントは、スケーラブルなデータ生成パイプライン、インタラクティブな条件を可能にするアクション注入モジュール、リアルタイム生成のための数ステップの蒸留。これにより、25 FPSで高品質な1分間のビデオを生成可能。モデルの重みとコードはオープンソース化。 Comment
元ポスト:
pj page: https://matrix-game-v2.github.io
公式:
[Paper Note] Ovis2.5 Technical Report, Shiyin Lu+, arXiv'25, 2025.08
Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #Reasoning #CurriculumLearning #VideoGeneration/Understandings #VisionLanguageModel #One-Line Notes Issue Date: 2025-08-28 GPT Summary- Ovis2.5は、ネイティブ解像度の視覚認識とマルチモーダル推論を強化するために設計されたモデルで、画像を可変解像度で処理し、複雑な視覚コンテンツの詳細を保持します。推論時には反省を行う「思考モード」を提供し、精度向上を図ります。5段階のカリキュラムで訓練され、マルチモーダルデータの効率的な処理を実現。Ovis2.5-9BはOpenCompassで平均78.3を記録し、Ovis2-8Bに対して大幅な改善を示しました。Ovis2.5-2Bも73.9を達成し、リソース制約のあるデバイスに最適です。STEMベンチマークや複雑なチャート分析においても優れた性能を発揮しています。 Comment
元ポスト:
HF:
https://huggingface.co/AIDC-AI/Ovis2.5-9B
Apache2.0ライセンス
GLM-4.1V-9B-Thinkingと同等以上の性能な模様。
- [Paper Note] GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning, GLM-V Team+, arXiv'25, 2025.07
[Paper Note] InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency, Weiyun Wang+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-08-26 GPT Summary- InternVL 3.5は、マルチモーダルモデルの新しいオープンソースファミリーで、Cascade Reinforcement Learningを用いて推論能力と効率を向上させる。粗から細へのトレーニング戦略により、MMMやMathVistaなどのタスクで大幅な改善を実現。Visual Resolution Routerを導入し、視覚トークンの解像度を動的に調整。Decoupled Vision-Language Deployment戦略により、計算負荷をバランスさせ、推論性能を最大16.0%向上させ、速度を4.05倍向上。最大モデルは、オープンソースのMLLMで最先端の結果を達成し、商業モデルとの性能ギャップを縮小。全てのモデルとコードは公開。 Comment
元ポスト:
ポイント解説:
[Paper Note] Motif 2.6B Technical Report, Junghwan Lim+, arXiv'25
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #Architecture #PostTraining #Selected Papers/Blogs #DataMixture Issue Date: 2025-08-25 GPT Summary- Motif-2.6Bは、26億パラメータを持つ基盤LLMで、長文理解の向上や幻覚の減少を目指し、差分注意やポリノルム活性化関数を採用。広範な実験により、同サイズの最先端モデルを上回る性能を示し、効率的でスケーラブルな基盤LLMの発展に寄与する。 Comment
元ポスト:
HF: https://huggingface.co/Motif-Technologies/Motif-2.6B
- アーキテクチャ
- [Paper Note] Differential Transformer, Tianzhu Ye+, N/A, ICLR'25
- [Paper Note] Polynomial Composition Activations: Unleashing the Dynamics of Large
Language Models, Zhijian Zhuo+, arXiv'24
- 学習手法
- [Paper Note] Model Merging in Pre-training of Large Language Models, Yunshui Li+, arXiv'25, 2025.05
- 8B token学習するごとに直近6つのcheckpointのelement-wiseの平均をとりモデルマージ。当該モデルに対して学習を継続、ということを繰り返す。これにより、学習のノイズを低減し、突然パラメータがシフトすることを防ぐ
- [Paper Note] Effective Long-Context Scaling of Foundation Models, Wenhan Xiong+, arXiv'23, 2023.09
- Adaptive Base Frequency (RoPEのbase frequencyを10000から500000にすることでlong contextのattention scoreが小さくなりすぎることを防ぐ)
- [Paper Note] MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies, Shengding Hu+, COLM'24
- 事前学習データ
- [Paper Note] DataComp-LM: In search of the next generation of training sets for language models, Jeffrey Li+, NeurIPS'25, 2024.07
- TxT360, LLM360, 2024.10
- [Paper Note] FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language, Guilherme Penedo+, COLM'25
を利用したモデル。同程度のサイズのモデルとの比較ではかなりのgainを得ているように見える。興味深い。
DatasetのMixtureの比率などについても記述されている。
[Paper Note] Intern-S1: A Scientific Multimodal Foundation Model, Lei Bai+, arXiv'25, 2025.08
Paper/Blog Link My Issue
#NLP #LanguageModel #MoE(Mixture-of-Experts) #read-later #VisionLanguageModel #Science Issue Date: 2025-08-23 GPT Summary- Intern-S1は、科学専門分野に特化したオープンソースの専門家型モデルで、280億の活性化パラメータを持つマルチモーダルMixture-of-Experts(MoE)モデルです。5Tトークンで事前学習され、特に科学データに焦点を当てています。事後学習では、InternBootCampを通じて強化学習を行い、Mixture-of-Rewardsを提案。評価では、一般的な推論タスクで競争力を示し、科学分野の専門的なタスクでクローズドソースモデルを上回る性能を達成しました。モデルはHugging Faceで入手可能です。 Comment
元ポスト:
scientific domainに特化したデータで継続事前学習+RL Finetuningしたドメイン特化言語モデルらしい。
HF:
https://huggingface.co/internlm/Intern-S1
Apache 2.0ライセンス
ベースモデルはQwen3とInternViT
- InternViT:
https://huggingface.co/OpenGVLab/InternViT-300M-448px-V2_5
関連:
- [Paper Note] InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks, Zhe Chen+, CVPR'24
解説:
サマリ:
[Paper Note] NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model, NVIDIA+, arXiv'25, 2025.08
Paper/Blog Link My Issue
#Pretraining #NLP #Dataset #LanguageModel #SmallModel #SSM (StateSpaceModel) #Selected Papers/Blogs Issue Date: 2025-08-19 GPT Summary- Nemotron-Nano-9B-v2は、推論スループットを向上させつつ最先端の精度を達成するハイブリッドMamba-Transformerモデルである。自己注意層の一部をMamba-2層に置き換え、長い思考トレースの生成を高速化。12億パラメータのモデルを20兆トークンで事前トレーニングし、Minitron戦略で圧縮・蒸留。既存モデルと比較して、最大6倍の推論スループットを実現し、精度も同等以上。モデルのチェックポイントはHugging Faceで公開予定。 Comment
元ポスト:
事前学習に利用されたデータも公開されているとのこと(Nemotron-CC):
解説:
サマリ:
[Paper Note] MolmoAct: Action Reasoning Models that can Reason in Space, Jason Lee+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal #SpeechProcessing #Reasoning #VisionLanguageActionModel Issue Date: 2025-08-12 GPT Summary- アクション推論モデル(ARMs)であるMolmoActは、知覚、計画、制御を三段階のパイプラインで統合し、説明可能で操作可能な行動を実現。シミュレーションと実世界で高いパフォーマンスを示し、特にSimplerEnv Visual Matchingタスクで70.5%のゼロショット精度を達成。MolmoAct Datasetを公開し、トレーニングによりベースモデルのパフォーマンスを平均5.5%向上。全てのモデルの重みやデータセットを公開し、ARMsの構築に向けたオープンな設計図を提供。 Comment
`Action Reasoning Models (ARMs)`
元ポスト:
blog: https://allenai.org/blog/molmoact
models:
-
https://huggingface.co/allenai/MolmoAct-7B-D-Pretrain-0812
-
https://huggingface.co/allenai/MolmoAct-7B-D-0812
datasets:
-
https://huggingface.co/datasets/allenai/MolmoAct-Dataset
-
https://huggingface.co/datasets/allenai/MolmoAct-Pretraining-Mixture
-
https://huggingface.co/datasets/allenai/MolmoAct-Midtraining-Mixture
データは公開されているが、コードが見当たらない?
チェックポイントとコードも公開された模様:
-
- https://github.com/allenai/MolmoAct
[Paper Note] GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models, GLM-4. 5 Team+, arXiv'25
Paper/Blog Link My Issue
#NLP #LanguageModel #Reasoning #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs Issue Date: 2025-08-12 GPT Summary- 355Bパラメータを持つオープンソースのMixture-of-ExpertsモデルGLM-4.5を発表。ハイブリッド推論手法を採用し、エージェント的、推論、コーディングタスクで高いパフォーマンスを達成。競合モデルに比べて少ないパラメータ数で上位にランクイン。GLM-4.5とそのコンパクト版GLM-4.5-Airをリリースし、詳細はGitHubで公開。 Comment
元ポスト:
- アーキテクチャ
- MoE / sigmoid gates
- DeepSeek-R1, DeepSeek, 2025.01
- [Paper Note] Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity, William Fedus+, JMLR'22
- loss free balanced routing
- [Paper Note] Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts, Lean Wang+, arXiv'24
- widthを小さく、depthを増やすことでreasoning能力改善
- GQA w/ partial RoPE
- [Paper Note] GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, arXiv'23, 2023.05
- [Paper Note] RoFormer: Enhanced Transformer with Rotary Position Embedding, Jianlin Su+, arXiv'21, 2021.04
- Attention Headsの数を2.5倍(何に対して2.5倍なんだ、、?)(96個, 5120次元)にすることで(おそらく)事前学習のlossは改善しなかったがReasoning benchmarkの性能改善
- QK Normを導入しattentionのlogitsの値域を改善
- [Paper Note] Query-Key Normalization for Transformers, Alex Henry+, EMNLP'20 Findings
- Multi Token Prediction
- [Paper Note] Better & Faster Large Language Models via Multi-token Prediction, Fabian Gloeckle+, ICML'24
- [Paper Note] DeepSeek-V3 Technical Report, DeepSeek-AI+, arXiv'24, 2024.12
他モデルとの比較
学習部分は後で追記する
- 事前学習データ
- web
- 英語と中国語のwebページを利用
- [Paper Note] Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset, Dan Su+, ACL'25
と同様にquality scoreyをドキュメントに付与
- 最も低いquality scoreの文書群を排除し、quality scoreの高い文書群をup sampling
- 最もquality scoreyが大きい文書群は3.2 epoch分利用
- 多くのweb pageがテンプレートから自動生成されており高いquality scoreが付与されていたが、MinHashによってdeduplicationできなかったため、 [Paper Note] SemDeDup: Data-efficient learning at web-scale through semantic
deduplication, Amro Abbas+, arXiv'23
を用いてdocument embeddingに基づいて類似した文書群を排除
- Multilingual
- 独自にクロールしたデータとFineWeb-2 [Paper Note] FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language, Guilherme Penedo+, COLM'25
から多言語の文書群を抽出し、quality classifierを適用することでeducational utilityを定量化し、高いスコアの文書群をupsamplingして利用
- code
- githubなどのソースコードhosting platformから収集
- ソースコードはルールベースのフィルタリングをかけ、その後言語ごとのquality modelsによって、high,middle, lowの3つに品質を分類
- high qualityなものはupsamplingし、low qualityなものは除外
- [Paper Note] Efficient Training of Language Models to Fill in the Middle, Mohammad Bavarian+, arXiv'22
で提案されているFill in the Middle objectiveをコードの事前学習では適用
- コードに関連するweb文書も事前学習で収集したテキスト群からルールベースとfasttextによる分類器で抽出し、ソースコードと同様のqualityの分類とサンプリング手法を適用。最終的にフィルタリングされた文書群はre-parseしてフォーマットと内容の品質を向上させた
- math & science
- web page, 本, 論文から、reasoning能力を向上させるために、数学と科学に関する文書を収集
- LLMを用いて文書中のeducational contentの比率に基づいて文書をスコアリングしスコアを予測するsmall-scaleな分類器を学習
- 最終的に事前学習コーパスの中の閾値以上のスコアを持つ文書をupsampling
- 事前学習は2 stageに分かれており、最初のステージでは、"大部分は"generalな文書で学習する。次のステージでは、ソースコード、数学、科学、コーディング関連の文書をupsamplingして学習する。
上記以上の細かい実装上の情報は記載されていない。
mid-training / post trainingについても後ほど追記する
以下も参照のこと
- GLM-4.5: Reasoning, Coding, and Agentic Abililties, Zhipu AI Inc., 2025.07
[Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25, 2025.06
Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #read-later #Selected Papers/Blogs #UMM #Omni Issue Date: 2025-07-26 GPT Summary- Ming-Omniは、画像、テキスト、音声、動画を処理できる統一マルチモーダルモデルで、音声生成と画像生成において優れた能力を示す。専用エンコーダを用いて異なるモダリティからトークンを抽出し、MoEアーキテクチャで処理することで、効率的にマルチモーダル入力を融合。音声デコーダと高品質な画像生成を統合し、コンテキストに応じたチャットやテキストから音声への変換、画像編集が可能。Ming-Omniは、GPT-4oに匹敵する初のオープンソースモデルであり、研究と開発を促進するためにコードとモデルの重みを公開。 Comment
元ポスト:
現在はv1.5も公開されておりさらに性能が向上している模様?
[Paper Note] Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination, Mingqi Wu+, arXiv'25
Paper/Blog Link My Issue
#NLP #LanguageModel #Contamination-free Issue Date: 2025-07-16 GPT Summary- 大規模言語モデル(LLMs)の推論能力向上に関する研究が進展しており、特にQwen2.5モデルが強化学習(RL)を用いて顕著な改善を示している。しかし、他のモデルでは同様の成果が得られていないため、さらなる調査が必要である。Qwen2.5は数学的推論性能が高いが、データ汚染に脆弱であり、信頼性のある結果を得るためには、RandomCalculationというクリーンなデータセットを用いることが重要である。このデータセットを通じて、正確な報酬信号が性能向上に寄与することが示された。信頼性のある結論を得るためには、汚染のないベンチマークと多様なモデルでのRL手法の評価が推奨される。 Comment
元ポスト:
解説ポスト:
関連:
- [Paper Note] Spurious Rewards: Rethinking Training Signals in RLVR, Shao+, 2025.05
こちらでQwen-mathに対して得られたRLでのgainは他モデルでは現れず汎化しないことも報告されている。
[Paper Note] Kimi-VL Technical Report, Kimi Team+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal #Reasoning #VisionLanguageModel Issue Date: 2025-07-14 GPT Summary- Kimi-VLは、効率的なオープンソースのMixture-of-Expertsビジョン・ランゲージモデルであり、2.8Bパラメータの言語デコーダーを活性化して高度なマルチモーダル推論を実現。マルチターンエージェントタスクや大学レベルの画像・動画理解において優れた性能を示し、最先端のVLMと競争。128Kの拡張コンテキストウィンドウを持ち、長い入力を処理可能。Kimi-VL-Thinking-2506は、長期的推論能力を強化するために教師ありファインチューニングと強化学習を用いて開発され、堅牢な一般能力を獲得。コードは公開されている。 Comment
- [Paper Note] Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset, Ke Wang+, NeurIPS'24 Datasets and Benchmarks Track
での性能(Vision+テキストの数学の問題)。他の巨大なモデルと比べ2.8BのActivation paramsで高い性能を達成
その他のベンチマークでも高い性能を獲得
モデルのアーキテクチャ。MoonViT (Image Encoder, 1Dのpatchをinput, 様々な解像度のサポート, FlashAttention, SigLIP-SO-400Mを継続事前学習, RoPEを採用) + Linear Projector + MoE Language Decoderの構成
学習のパイプライン。ViTの事前学習ではSigLIP loss (contrastive lossの亜種)とcaption生成のcross-entropy lossを採用している。joint cooldown stageにおいては、高品質なQAデータを合成することで実験的に大幅に性能が向上することを確認したので、それを採用しているとのこと。optimizerは
- [Paper Note] Muon is Scalable for LLM Training, Jingyuan Liu+, arXiv'25
post-trainingにおけるRLでは以下の目的関数を用いており、RLVRを用いつつ、現在のポリシーモデルをreferenceとし更新をするような目的関数になっている。curriculum sampling, prioritize samplingをdifficulty labelに基づいて実施している。
[Paper Note] Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation, Liliang Ren+, arXiv'25
Paper/Blog Link My Issue
#NLP #LanguageModel #Reasoning #SmallModel Issue Date: 2025-07-10 GPT Summary- 最近の言語モデルの進展により、状態空間モデル(SSM)の効率的なシーケンスモデリングが示されています。本研究では、ゲーテッドメモリユニット(GMU)を導入し、Sambaベースの自己デコーダーからメモリを共有する新しいデコーダーハイブリッドアーキテクチャSambaYを提案します。SambaYはデコーディング効率を向上させ、長文コンテキスト性能を改善し、位置エンコーディングの必要性を排除します。実験により、SambaYはYOCOベースラインに対して優れた性能を示し、特にPhi4-mini-Flash-Reasoningモデルは推論タスクで顕著な成果を上げました。トレーニングコードはオープンソースで公開されています。 Comment
HF: https://huggingface.co/microsoft/Phi-4-mini-flash-reasoning
元ポスト:
[Paper Note] SmolVLM: Redefining small and efficient multimodal models, Andrés Marafioti+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal #SmallModel #Architecture #COLM #read-later #Selected Papers/Blogs #VisionLanguageModel #EdgeDevices Issue Date: 2025-07-09 GPT Summary- SmolVLMは、リソース効率の良い推論のために設計されたコンパクトなマルチモーダルモデルシリーズであり、低い計算オーバーヘッドを持つアーキテクチャやトークン化戦略を採用。最小モデルのSmolVLM-256Mは、1GB未満のGPUメモリでIdefics-80Bモデルを上回る性能を発揮し、最大モデルは2.2Bパラメータで最先端のVLMに匹敵。これにより、エネルギー効率の良い実用的な展開が可能となる。 Comment
HFSpace: https://huggingface.co/blog/smolervlm
元ポスト:
openreview: https://openreview.net/forum?id=qMUbhGUFUb
[Paper Note] OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning, Xianhang Li+, ICCV'25
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Pretraining #OpenSource #Selected Papers/Blogs #ICCV #Encoder #Backbone Issue Date: 2025-06-26 GPT Summary- OpenVisionは、完全にオープンでコスト効果の高いビジョンエンコーダーのファミリーを提案し、CLIPと同等以上の性能を発揮します。既存の研究を基に構築され、マルチモーダルモデルの進展に実用的な利点を示します。5.9Mから632.1Mパラメータのエンコーダーを提供し、容量と効率の柔軟なトレードオフを実現します。 Comment
元ポスト:
v2へアップデート:
事前学習時にtext, image encoderのcontrastive lossで学習していたが、text encoderを無くしimage encoderに入力されたimageからcaptionを生成するcaption lossのみにすることで性能を落とすことなく効率を改善
テクニカルペーパーが出た模様
- [Paper Note] OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning, Yanqing Liu+, arXiv'25
HF:
https://huggingface.co/collections/UCSC-VLAA/openvision-681a4c27ee1f66411b4ae919
pj page:
https://ucsc-vlaa.github.io/OpenVision/
CLIP, SigLIPとは異なり完全にオープンなVision Encoder
v2の解説:
[Paper Note] AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy, Zihan Liu+, arXiv'25
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #OpenSource #PostTraining #One-Line Notes #Author Thread-Post Issue Date: 2025-06-18 GPT Summary- 本研究では、教師ありファインチューニング(SFT)と強化学習(RL)の相乗効果を探求し、SFTトレーニングデータの整備においてプロンプト数の増加が推論性能を向上させることを示しました。特に、サンプリング温度を適切に調整することで、RLトレーニングの効果を最大化できることが分かりました。最終的に、AceReason-Nemotron-1.1モデルは、前モデルを大きく上回り、数学およびコードベンチマークで新たな最先端性能を達成しました。 Comment
元ポスト:
様々なtakeawayがまとめられている。
SFT,RLに利用されたデータも公開
- [Paper Note] Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23
において事前学習時に4 epochまでは性能の改善幅が大きいと報告されていたが、SFTでも5 epoch程度まで学習すると良い模様。
また、SFT dataをscalingさせる際は、promptの数だけでなく、prompt単位のresponse数を増やすのが効果的
[Paper Note] QwenLong-CPRS: Towards $\infty$-LLMs with Dynamic Context Optimization, Weizhou Shen+, arXiv'25, 2025.05
Paper/Blog Link My Issue
#NLP #LanguageModel #LongSequence Issue Date: 2025-05-27 GPT Summary- QwenLong-CPRSは、長文コンテキスト最適化のための新しいフレームワークで、LLMsの性能低下を軽減します。自然言語指示に基づく多段階のコンテキスト圧縮を実現し、効率と性能を向上させる4つの革新を導入。5つのベンチマークで、他の手法に対して優位性を示し、主要なLLMとの統合で大幅なコンテキスト圧縮と性能向上を達成。QwenLong-CPRSは新たなSOTA性能を確立しました。 Comment
元ポスト:
[Paper Note] QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning, Fanqi Wan+, arXiv'25, 2025.05
Paper/Blog Link My Issue
#NLP #LanguageModel #LongSequence #read-later Issue Date: 2025-05-27 GPT Summary- 長いコンテキストの推論におけるLRMsの課題を解決するため、QwenLong-L1フレームワークを提案。ウォームアップ監視付きファインチューニングとカリキュラム指導型段階的RLを用いてポリシーの安定化を図り、難易度認識型の回顧的サンプリングで探索を促進。実験では、QwenLong-L1-32Bが他のLRMsを上回り、優れた性能を示した。 Comment
元ポスト:
[Paper Note] Phi-4-reasoning Technical Report, Marah Abdin+, arXiv'25, 2025.04
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #SmallModel #GRPO #One-Line Notes #Reference Collection #Author Thread-Post Issue Date: 2025-05-01 GPT Summary- 140億パラメータの推論モデルPhi-4-reasoningは、慎重に選ばれた「teachable」プロンプトセットと監視付きファインチューニングを通じて訓練され、詳細な推論チェーンを生成します。そのバリエーションであるPhi-4-reasoning-plusは、短期間の強化学習を経て、より長い推論トレースを生成し高性能を実現。これらのモデルは、DeepSeek-R1-Distill-Llama-70Bモデルを超え、完全版DeepSeek-R1に近い性能を示します。評価は数学的・科学的推論や一般目的のベンチマークを含み、データ精選の利点と強化学習の影響を示唆しています。 Comment
元ポスト:
こちらの解説が非常によくまとまっている:
が、元ポストでもテクニカルペーパー中でもo3-miniのreasoning traceをSFTに利用してCoTの能力を強化した旨が記述されているが、これはOpenAIの利用規約に違反しているのでは…?
[Paper Note] UI-TARS: Pioneering Automated GUI Interaction with Native Agents, Yujia Qin+, arXiv'25, 2025.01
Paper/Blog Link My Issue
#ComputerVision #NLP #AIAgents #MultiModal #Blog #Reasoning #ComputerUse #VisionLanguageModel #2D (Image) #One-Line Notes #text Issue Date: 2025-04-18 GPT Summary- UI-TARSは、スクリーンショットを入力として人間のような操作を行うエンドツーエンドのGUIエージェントモデルである。従来の商用モデルに依存せず、知覚、グラウンディング、GUIタスク実行において最先端の性能を発揮。OSWorldベンチマークでは、UI-TARSが高スコアを達成し、他のモデルを上回る。主要な革新には、強化された知覚、統一されたアクションモデリング、System-2推論、反省的オンライン・トレースによる反復的トレーニングが含まれる。これにより、UI-TARSは未知の状況にも適応可能な学習能力を持つ。GUIエージェントの進化経路も分析し、今後の発展を探る。 Comment
色々と書いてあるが、ざっくり言うとByteDanceによる、ImageとTextをinputとして受け取り、TextをoutputするマルチモーダルLLMによるComputer Use Agent (CUA)
関連
- OpenAI API での Computer use の使い方, npaka, 2025.03
元ポスト:
[Paper Note] Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning, ByteDance Seed+, arXiv'25, 2025.04
Paper/Blog Link My Issue
#NLP #LanguageModel #Reasoning #One-Line Notes #Initial Impression Notes Issue Date: 2025-04-12 GPT Summary- Seed1.5-Thinkingは、応答前に思考を経て推論する新しい手法で、AIME 2024で86.7、Codeforcesで55.0、GPQAで77.3といった性能を達成。非推論タスクでも優れた一般化能力を発揮し、DeepSeek R1を勝率で8%上回る。比較的小型の専門家の混成モデルで、200億の活性化パラメータと2000億の総パラメータを持つ。新たな内部ベンチマークBeyondAIMEとCodeforcesも公開予定。 Comment
DeepSeek-R1を多くのベンチで上回る200B, 20B activated paramのreasoning model
最近のテキストのOpenWeightLLMはAlibaba, DeepSeek, ByteDance, Nvidiaの4強という感じかな…?(そのうちOpenAIがオープンにするReasoning Modelも入ってきそう)。
[Paper Note] AM-RADIO: Agglomerative Vision Foundation Model -- Reduce All Domains Into One, Mike Ranzinger+, CVPR'25
Paper/Blog Link My Issue
#ComputerVision #Transformer #FoundationModel #CVPR #One-Line Notes #Author Thread-Post Issue Date: 2025-04-11 GPT Summary- 視覚基盤モデル(VFM)をマルチティーチャー蒸留を通じて統合するアプローチAM-RADIOを提案。これにより、ゼロショットの視覚-言語理解やピクセルレベルの理解を向上させ、個々のモデルの性能を超える。新しいアーキテクチャE-RADIOは、ティーチャーモデルよりも少なくとも7倍速い。包括的なベンチマークで様々な下流タスクを評価。 Comment
元ポスト:
vision系のfoundation modelはそれぞれ異なる目的関数で訓練されてきており(CLIPは対照学習 Learning Transferable Visual Models From Natural Language Supervision, Radford+, OpenAI, ICML'21
, DINOv2は自己教師あり学習 DINOv2: Learning Robust Visual Features without Supervision, Maxime Oquab+, TMLR'24
, SAMはsegmentation [Paper Note] Segment Anything, Alexander Kirillov+, arXiv'23, 2023.04
)それぞれ別の能力を持ってたが、それらを一個のモデルに蒸留しました、という話らしい
lossの文脈でいうと、SigLIPも広義の対照学習の一種である。
- [Paper Note] Sigmoid Loss for Language Image Pre-Training, Xiaohua Zhai+, ICCV'23
[Paper Note] Qwen2.5-Omni Technical Report, Jin Xu+, arXiv'25, 2025.03
Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #Speech #2D (Image) #4D (Video) #Omni #One-Line Notes #Reference Collection #audio #text Issue Date: 2025-03-31 GPT Summary- Qwen2.5-Omniは、テキスト、画像、音声、映像を同時に認識し、自然な音声応答をストリーミング生成するエンドツーエンドのマルチモーダルモデルです。音声と映像の同期には新しい位置埋め込み手法TMRoPEを導入し、Thinker-Talkerアーキテクチャにより干渉を避けつつ同時生成を実現。ストリーミング音声トークンのデコードにはスライディングウィンドウDiTを用いて初期遅延を削減。Qwen2.5-Omniは、マルチモーダルベンチマークで最先端の性能を示し、音声生成の自然さにおいて既存手段を上回ります。 Comment
Qwen TeamによるマルチモーダルLLM。テキスト、画像、動画音声をinputとして受け取り、テキスト、音声をoutputする。
weight:
https://huggingface.co/collections/Qwen/qwen25-omni-67de1e5f0f9464dc6314b36e
[Paper Note] Tulu 3: Pushing Frontiers in Open Language Model Post-Training, Nathan Lambert+, COLM'25, 2024.11
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #OpenSource #COLM #DPO #PostTraining #read-later #RLVR #Selected Papers/Blogs Issue Date: 2025-02-01 GPT Summary- Tulu 3は、オープンなポストトレーニングモデルのファミリーで、トレーニングデータやレシピを公開し、現代のポストトレーニング技術のガイドを提供します。Llama 3.1を基にし、他のクローズドモデルを上回る性能を達成。新しいトレーニング手法としてSFT、DPO、RLVRを採用し、マルチタスク評価スキームを導入。モデルウェイトやデモ、トレーニングコード、データセットなどを公開し、他のドメインへの適応も可能です。 Comment
元ポスト:
openreview: https://openreview.net/forum?id=i1uGbfHHpH#discussion
[Paper Note] Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling, Xiaokang Chen+, arXiv'25, 2025.01
Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal #TextToImageGeneration #VisionLanguageModel #2D (Image) #UMM #One-Line Notes #ImageSynthesis Issue Date: 2025-01-28 GPT Summary- Janus-Proは、最適化されたトレーニング戦略、拡張されたデータ、より大きなモデルサイズを取り入れたJanusの進化形。これにより、マルチモーダル理解と画像生成の安定性において顕著な進歩を実現。研究成果は公開されており、さらなる探究を促すことが期待される。 Comment
DeepSeekによる新たなUMM、Janus-Proが本日リリース。MIT License
Janus-Proのパフォーマンス。
github上でのパフォーマンスの図解から引用。マルチモーダル(テキスト+画像)の理解に関するベンチマークでLLaVA超え。GenEval, DPG Benchと呼ばれる画像生成ベンチマークでDALL-E 3超え。
テクニカルレポート中での詳細から引用。どのベンチマークでも基本的に最高性能なように見える。
テクニカルレポート:
https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf
ベンチマーク:
- [Paper Note] GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment, Dhruba Ghosh+, NeurIPS'23
- [Paper Note] ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment, Xiwei Hu+, arXiv'24
Llama-3.1-Nemotron-70B-Instruct, Nvidia, (ICLR'25), 2024.10
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Alignment #ICLR #One-Line Notes Issue Date: 2024-10-17 GPT Summary- 報酬モデルの訓練にはBradley-Terryスタイルと回帰スタイルがあり、データの一致が重要だが、適切なデータセットが不足している。HelpSteer2データセットでは、Bradley-Terry訓練用の好みの注釈を公開し、初めて両モデルの直接比較を行った。これに基づき、両者を組み合わせた新アプローチを提案し、Llama-3.1-70B-InstructモデルがRewardBenchで94.1のスコアを達成。さらに、REINFORCEアルゴリズムを用いて指示モデルを調整し、Arena Hardで85.0を記録した。このデータセットはオープンソースとして公開されている。 Comment
MTBench, Arena HardでGPT4o-20240513,Claude-3.5-sonnet-20240620をoutperform。Response lengthの平均が長いこと模様
openreview: https://openreview.net/forum?id=MnfHxPP5gs
[Paper Note] LLM360: Towards Fully Transparent Open-Source LLMs, Zhengzhong Liu+, COLM'24, 2023.12
Paper/Blog Link My Issue
#NLP #LanguageModel #OpenSource #COLM Issue Date: 2026-03-31 GPT Summary- LLMの透明性向上のため、LLM360を提唱し、訓練コードやデータ、チェックポイントを完全オープンソース化。これにより誰でも再現可能な設計を促進し、AI研究の協力を支援。7BパラメータのモデルAmberとCrystalCoderを公開し、将来的にさらに強力なモデルも計画中。 Comment
blog: https://www.llm360.ai
- Crystal:
https://huggingface.co/collections/LLM360/crystal
- Amber:
https://huggingface.co/collections/LLM360/amber
- code:
https://github.com/LLM360
[Paper Note] Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model, Ahmet Üstün+, arXiv'24, 2024.02
Paper/Blog Link My Issue
#NLP #LanguageModel #MultiLingual #Initial Impression Notes Issue Date: 2026-03-31 GPT Summary- Ayaは、101言語に対応する生成型多言語モデルで、50%以上が低資源言語。大半のタスクでmT0およびBLOOMZを上回り、取り扱える言語数が2倍に。99言語にわたる新評価スイートを導入し、識別・生成タスクや人間評価を含む。ファインチューニングや安全性についても調査し、モデルとデータセットをオープンソースとして公開。 Comment
blog: https://cohere.com/research/papers/aya-model-paper-2024-02-13
データは公開されているが、おそらくソースコードは公開されていない
[Paper Note] TinyLlama: An Open-Source Small Language Model, Peiyuan Zhang+, arXiv'24, 2024.01
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #SmallModel #OpenSource Issue Date: 2026-03-31 GPT Summary- TinyLlamaは、1.1Bパラメータのコンパクトな言語モデルで、約1兆トークンを用いて事前学習されている。Llama 2のアーキテクチャを基に、FlashAttentionやLit-GPTなどの進歩を活用し、計算効率を向上させている。小さいサイズにもかかわらず、TinyLlamaは下流タスクで顕著な性能を発揮し、同等のオープンソースモデルを大きく上回る。モデルのチェックポイントとコードはGitHubで公開されている。 Comment
日本語解説: https://qiita.com/sergicalsix/items/7cd7665ab90b9f3b343c
[Paper Note] Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting, Melanie Sclar+, ICLR'24, 2023.10
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Prompting #Evaluation #ICLR #Selected Papers/Blogs Issue Date: 2026-01-21 GPT Summary- LLMの性能特性化が重要であり、プロンプト設計がモデル挙動に強く影響することを示す。特に、プロンプトフォーマットに対するLLMの感度に注目し、微妙な変更で最大76ポイントの性能差が見られる。感度はモデルサイズや少数ショットの数に依存せず、プロンプトの多様なフォーマットにわたる性能範囲の報告が必要。モデル間のフォーマットパフォーマンスが弱く相関することから、固定されたプロンプトフォーマットでの比較の妥当性が疑問視される。迅速なフォーマット評価のための「FormatSpread」アルゴリズムを提案し、摂動の影響や内部表現も探る。 Comment
openreview: https://openreview.net/forum?id=RIu5lyNXjT
[Paper Note] Aria: An Open Multimodal Native Mixture-of-Experts Model, Dongxu Li+, arXiv'24, 2024.10
Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #MoE(Mixture-of-Experts) #VisionLanguageModel Issue Date: 2025-10-07 GPT Summary- Ariaは、オープンなマルチモーダルネイティブAIモデルであり、視覚とテキストのタスクにおいて高い性能を発揮します。3.9Bの視覚トークンと3.5Bのテキストトークンを持つエキスパートの混合モデルで、既存のプロプライエタリモデルを上回ります。言語理解やマルチモーダル理解を強化する4段階のパイプラインで事前トレーニングされ、モデルウェイトとコードベースはオープンソースとして提供されます。 Comment
元ポスト:
HF: https://huggingface.co/rhymes-ai/Aria
提案された当時2024年10月時点で、VisionとText Understanding双方でに強い初めてのモデルで、初のマルチモーダルMoEモデルで(当時まだ話題になっていなかったDeepSeek-V2アーキテクチャを採用)、LongVideoのUnderstanidinpで当時の最高性能であったとのこと。
[Paper Note] DeepSeek-V3 Technical Report, DeepSeek-AI+, arXiv'24, 2024.12
Paper/Blog Link My Issue
#NLP #LanguageModel #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2024-12-28 GPT Summary- DeepSeek-V3は671Bのパラメータを持つMixture-of-Experts (MoE)言語モデルで、各トークンに対して37Bが活性化される。効率的な推論とコスト削減のため、MLAおよびDeepSeekMoEアーキテクチャを採用し、補助損失を用いない戦略を導入。14.8兆トークンでプレトレーニング後、ファインチューニングと強化学習を経て、高性能を発揮。評価結果はオープンソースモデルを上回り、先端的なクローズドソースモデルとも同等。訓練にはわずか2,788,000時間のH800 GPU時間を要し、安定した訓練プロセスを実現。モデルのチェックポイントは提供されている。 Comment
参考(モデルの図解):
参考:
MLA(Multi-Head Latent Attention)を提案
解説:
- MHA vs MQA vs GQA vs MLA, Zain ul Abideen, 2024.07
- DeepSeek-V2のアーキテクチャを徹底解説:MLA と DeepSeekMoE, kernelian, 2024.05
MLAはKVを低ランクなlatentベクトルに圧縮して保持し、使う時に復元するといった操作をすることで、MHAのパフォーマンスを落とすことなくKV Cacheで利用するメモリを大幅に減らせるという手法。
MLAの図解:
[Paper Note] Phi-4 Technical Report, Marah Abdin+, arXiv'24, 2024.12
Paper/Blog Link My Issue
#NLP #LanguageModel #SmallModel #One-Line Notes Issue Date: 2024-12-15 GPT Summary- phi-4は140億パラメータを持つ言語モデルで、合成データを戦略的に組み込んだトレーニングを実施。STEM分野に特化したQA能力で従来の教師モデルを超える性能を示し、サイズに対して強力な推論性能を達成。データ品質とトレーニング手法の革新が特徴。 Comment
現状Azureでのみ利用可能かも。Huggingfaceにアップロードされても非商用ライセンスになるという噂も
MITライセンス
HuggingFace:
https://huggingface.co/microsoft/phi-4
[Paper Note] Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent, Xingwu Sun+, arXiv'24, 2024.11
Paper/Blog Link My Issue
#NLP #LanguageModel #SyntheticData #MoE(Mixture-of-Experts) #One-Line Notes Issue Date: 2024-11-06 GPT Summary- Hunyuan-Largeは、3890億の総パラメータと256,000トークンに対応する混合エキスパートモデルで、言語理解や論理的推論など多様なタスクで卓越した性能を示す。また、従来のモデルを上回り、革新的な技術を採用している。コードとモデルは公開され、研究と応用の発展が期待される。 Comment
合計パラメータ数はLlama-3.1-405Bと同等の389Bだが、MoEによって52BのActive ParameterでSoTAを達成したTencentのOpenWeight LLM。大量のSynthetia Dataを利用している。
[Paper Note] Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models, Matt Deitke+, arXiv'24, 2024.09
Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal #OpenSource #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes Issue Date: 2024-09-27 GPT Summary- Molmoは、オープンな視覚・言語モデル(VLM)ファミリーを提案し、高性能なVLM構築に必要な基盤知識の欠如を解消する。PixMoという新しいデータセットを収集し、詳細な画像キャプション、自由形式画像Q&A、2Dポインティングデータを含む。72Bモデルは、オープンウェイトモデルの中で最高性能を示し、特にClaude 3.5 SonnetやGemini 1.5 Proなどの独自モデルよりも優れ、学術ベンチマークでGPT-4oに次ぐ第2位となった。モデルの重みやデータセットは公開中。 Comment
dataset, training code, inference, weight, recipe, 全てがオープンなVLM(OlmoのVLM版)。
以下がベンチマーク結果(VLMのベンチマーク)。11 benchmarksと書かれているのは、VLMのベンチマークである点に注意。
当時のVLMは全てプロプライエタリモデルであり、どのようにすればSoTA性能に到達できるかは不明であったが、Molmoによって明らかになった(と認識している)。
[Paper Note] LLM-jp: A Cross-organizational Project for the Research and Development of Fully Open Japanese LLMs, LLM-jp+, arXiv'24, 2024.07
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Alignment #Evaluation #Safety #Japanese #OpenSource #mid-training #PostTraining #Selected Papers/Blogs #One-Line Notes #needs-revision Issue Date: 2024-07-10 GPT Summary- 日本語のLLMを開発するプロジェクト「LLM-jp」を紹介。1,500人以上が参加し、オープンソースの高性能モデルを目指す。設立背景、活動概要、および技術報告を示し、最新情報は公式サイトで確認可能。 Comment
llm.jpによるテクニカルレポート
[Paper Note] Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone, Marah Abdin+, arXiv'24, 2024.04
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #SmallModel #One-Line Notes Issue Date: 2024-04-23 GPT Summary- phi-3-miniは3.8十億パラメータの言語モデルで、3.3兆トークンを学習し、MMLUで69%、MT-benchで8.38を達成。スマートフォンでもデプロイ可能で、phi-2のデータセットをフィルタリングして作成。phi-3-smallとphi-3-mediumはそれぞれ75%、78%をMMLUで達成し、性能が向上。シリーズの新モデルphi-3.5-mini、phi-3.5-MoE、phi-3.5-Visionも導入。phi-3.5-MoEは優れた言語処理能力を発揮し、phi-3.5-Visionは複数画像とテキストのプロンプトに対応。 Comment
[Paper Note] Textbooks Are All You Need II: phi-1.5 technical report, Yuanzhi Li+, arXiv'23, 2023.09 の次の次(Phi2.0についてはメモってなかった)。スマホにデプロイできるレベルのサイズで、GPT3.5Turbo程度の性能を実現したらしい
Llama2と同じブロックを利用しているため、アーキテクチャはLlama2と共通。
[Paper Note] Gemma: Open Models Based on Gemini Research and Technology, Gemma Team+, arXiv'24, 2024.03
Paper/Blog Link My Issue
#NLP #LanguageModel #KeyPoint Notes Issue Date: 2024-04-08 GPT Summary- Gemmaは、軽量で最先端のオープンモデルで、言語理解や推論において強力な性能を発揮。2億および7億パラメータのモデルを提供し、事前学習済みとファインチューニング済みのチェックポイントを含む。Gemmaは、18のタスクのうち11で同サイズのオープンモデルを超え、安全性に関する詳細な評価とモデル開発の説明を提供。責任あるLLMのリリースが安全性向上に寄与し、次世代の革新を促進すると信じている。 Comment
アーキテクチャはTransformer Decoderを利用。モデルのサイズは2Bと7B。
オリジナルのTransformer Decoderアーキテクチャから、下記改善を実施している:
- Multi Query Attention [Paper Note] Fast Transformer Decoding: One Write-Head is All You Need, Noam Shazeer, arXiv'19, 2019.11
を利用
- RoPE Embedding [Paper Note] RoFormer: Enhanced Transformer with Rotary Position Embedding, Jianlin Su+, arXiv'21, 2021.04
を利用
- GeGLU [Paper Note] GLU Variants Improve Transformer, Noam Shazeer, arXiv'20, 2020.02
の利用
- RMSNormの利用(学習を安定させるため; LLaMAと同様)
Mistral Mistral 7B, Albert Q. Jiang+, N/A, arXiv'23
よりも高い性能を示している:
[Paper Note] OLMo: Accelerating the Science of Language Models, Dirk Groeneveld+, arXiv'24, 2024.02
Paper/Blog Link My Issue
#NLP #LanguageModel #OpenSource #Selected Papers/Blogs #One-Line Notes Issue Date: 2024-03-05 GPT Summary- OLMoは、市場での商業的重要性が高まる中、真にオープンな言語モデルを提供することでNLP研究の進展を目指す。従来のモデルが重みや推論コードのみを公開するのに対し、OLMoはトレーニングデータや評価コードも含めて公開し、科学的研究の基盤を確立することで、オープンな研究コミュニティの力を引き出し、新たなイノベーションを促進することを期待している。 Comment
Model Weightsを公開するだけでなく、training/evaluation codeとそのデータも公開する真にOpenな言語モデル(truly Open Language Model)。AllenAI
[Paper Note] Mixtral of Experts, Albert Q. Jiang+, arXiv'24, 2024.01
Paper/Blog Link My Issue
#NLP #LanguageModel #MoE(Mixture-of-Experts) #One-Line Notes Issue Date: 2024-01-09 GPT Summary- Mixtral 8x7Bは、8つのエキスパートを持つスパース・ミクスチャー・オブ・エキスパーツモデルで、470億パラメータにアクセスしつつ、推論時は130億パラメータのみが活性化される。32kトークンの文脈長で訓練され、Llama 2 70BおよびGPT-3.5を上回る性能を発揮。特に数学やコード生成で優れ、指示に従うよう微調整したモデルも提供され、複数の人間ベンチマークで競合モデルを超えた。 Comment
Mixture of experts Layer: inputを受け取ったrouterが、8つのexpertsのうち2つを選択し順伝搬。2つのexpertsのoutputを加重平均することで最終的なoutputとする。
Improved Baselines with Visual Instruction Tuning, Haotian Liu+, N_A, CVPR'24
Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #QuestionAnswering #CVPR #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes Issue Date: 2023-10-09 GPT Summary- LLaVAは、ビジョンと言語のクロスモーダルコネクタであり、データ効率が高く強力な性能を持つことが示されています。CLIP-ViT-L-336pxを使用し、学術タスク指向のVQAデータを追加することで、11のベンチマークで最先端のベースラインを確立しました。13Bのチェックポイントはわずか120万の公開データを使用し、1日で完全なトレーニングを終えます。コードとモデルは公開されます。 Comment
画像分析が可能なオープンソースLLMとのこと。
# Overview
画像生成をできるわけではなく、inputとして画像を扱えるのみ。
pj page: https://llava-vl.github.io
[Paper Note] Scaling Instruction-Finetuned Language Models, Hyung Won Chung+, JMLR'24, 2022.10
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #InstructionTuning #Selected Papers/Blogs #One-Line Notes #Scalability #JMLR Issue Date: 2023-04-26 GPT Summary- 指示に基づくファインチューニングは、言語モデルの性能と一般化を向上させる。特に、タスク数やモデルサイズのスケーリング、チェーン・オブ・思考データでの適用が効果的。Flan‑PaLM 540Bは1,800件のタスクでファインチューニングを行い、PaLM 540Bを平均+9.4%上回り、最先端の結果を出している。Flan‑T5も強力なFew-shot性能を示し、指示に基づくファインチューニングがモデルの性能向上に寄与することを確認した。 Comment
T5をinstruction tuningしたFlanT5の研究
HF: https://huggingface.co/docs/transformers/model_doc/flan-t5
先行研究:
- [Paper Note] Finetuned Language Models Are Zero-Shot Learners, Jason Wei+, ICLR'22, 2021.09
[Paper Note] LLaMA: Open and Efficient Foundation Language Models, Hugo Touvron+, arXiv'23, 2023.02
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel Issue Date: 2026-03-31 GPT Summary- LLaMAは、7Bから65Bパラメータまでの基盤言語モデルのコレクションを提供し、数兆のトークンを使用して訓練されました。公開可能なデータセットのみを用いて最先端モデルを実現し、特にLLaMA-13Bは多くのベンチマークでGPT-3を上回り、LLaMA-65BはChinchillaやPaLMと競争力を持つ。全てのモデルは研究コミュニティに公開されます。 Comment
初代LLaMAをメモっていなかったようなのでメモ
LLaMA series:
- [Paper Note] Llama 2: Open Foundation and Fine-Tuned Chat Models, Hugo Touvron+, arXiv'23, 2023.07
- LLaMA3, Meta, 2024.04
- Llama 3.1, 2024.07
- Llama 3.2: Revolutionizing edge AI and vision with open, customizable models, Meta, 2024.09
- Llama 4 Series, Meta, 2025.04
Llama 3.3もメモっていないようだ
[Paper Note] Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling, Stella Biderman+, arXiv'23, 2023.04
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #OpenSource #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-03-29 GPT Summary- Pythiaは、異なるスケールの16のLLMを対象にしたモデルセットで、トレーニングの進化や発展を探求する。154のチェックポイントを公開し、訓練データローダーの再構築ツールも提供する。記憶化、新規結果、few-shot性能への語頻度の影響、ジェンダーバイアスの低減を含むケーススタディを通じて、LLMsの訓練ダイナミクスに関する新たな洞察を提示する。モデルや分析コードは公開されている。 Comment
github: https://github.com/EleutherAI/pythia
pythiaもメモっていなかった。70M--12Bモデルまでの16個のLLM群で、全てのモデルが同じ順序で学習され、かつ中間チェックポイントも公開。
[Paper Note] PaLI-3 Vision Language Models: Smaller, Faster, Stronger, Xi Chen+, arXiv'23, 2023.10
Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal #VisionLanguageModel #One-Line Notes Issue Date: 2025-04-11 GPT Summary- PaLI-3は、10倍の規模のモデルに匹敵する、より小型で高速なビジョン・ランゲージモデル(VLM)です。SigLIPによって事前学習されたPaLIは、画像分類ベンチマークではわずかに劣るものの、マルチモーダルベンチマークでは優れた性能を発揮。20億パラメータのSigLIP画像エンコーダを用いて多言語間のクロスモーダル検索で新たな最先端を達成し、50億パラメータで複雑なVLMの研究を促進することが期待されています。 Comment
OpenReview:
https://openreview.net/forum?id=JpyWPfzu0b
実験的に素晴らしい性能が実現されていることは認められつつも
- 比較対象がSigLIPのみでより広範な比較実験と分析が必要なこと
- BackboneモデルをContrastive Learningすること自体の有用性は既に知られており、新規性に乏しいこと
としてICLR'24にRejectされている
Mistral 7B, Albert Q. Jiang+, N_A, arXiv'23
Paper/Blog Link My Issue
#NLP #LanguageModel #KeyPoint Notes Issue Date: 2024-05-24 GPT Summary- Mistral 7B v0.1は、70億パラメータの言語モデルであり、高速な推論のためにGQAを活用し、SWAを組み合わせている。また、Mistral 7B -- InstructはLlama 2 13B -- Chatモデルを上回っており、Apache 2.0ライセンスの下で公開されています。 Comment
Mistral Large
Mixtral-8x22B-v0.1, 2024
などのモデルも参照のこと
モデルのスケールが大きくなると、inferenceのlatencyが遅くなり、計算コストが大きくなりすぎて実用的でないので、小さいパラメータで素早いinference実現したいよね、というモチベーション。
そのために、SlidingWindowAttentionとGroupQueryAttention [Paper Note] GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, arXiv'23, 2023.05
を活用している。
より小さいパラメータ数でLlama2を様々なタスクでoutperformし
Instruction Tuningを実施したモデルは、13BモデルよりもChatbotArenaで高いElo Rateを獲得した。
コンテキスト長は8192
[Paper Note] Orca 2: Teaching Small Language Models How to Reason, Arindam Mitra+, arXiv'23, 2023.11
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #Chain-of-Thought #SmallModel #Reading Reflections Issue Date: 2023-11-21 GPT Summary- Orca 2 は小型 LM の推論能力を高めるために、異なるタスクごとに様々な解法戦略を学習させることを目指す。段階的推論や思い出し-推論-生成などを用いて、小型モデルの潜在能力を最大化し、約100のタスクで評価を行い、同規模モデルを大きく上回る性能を達成。重みは公開され、開発研究の支援が期待される。 Comment
ポイント解説:
HF: https://huggingface.co/microsoft/Orca-2-13b
論文を読むとChatGPTのデータを学習に利用しているが、現在は競合となるモデルを作ることは規約で禁止されているので注意
[Paper Note] Llama 2: Open Foundation and Fine-Tuned Chat Models, Hugo Touvron+, arXiv'23, 2023.07
Paper/Blog Link My Issue
#NLP #LanguageModel #FoundationModel #KeyPoint Notes Issue Date: 2023-07-22 GPT Summary- Llama 2という7億から700億パラメータの範囲の大規模言語モデルを開発・公開。対話に最適化されたファインチューニング済みモデルLlama 2-Chatは、多くのベンチマークでオープンソースモデルを上回り、人間による評価でもクローズドソースモデルの代替となる可能性を示す。ファインチューニングと安全性向上のアプローチを詳細に説明し、コミュニティへの貢献を促進。 Comment
参考:
Llama, およびLlama2では、一般的なTransformer Decoderとは異なり、linear layerの”前に”RMSPropをかませている点が異なる。
また、Llama2では、Llamaと比較して
- Group Query Attentionの利用 [Paper Note] GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, arXiv'23, 2023.05
- 活性化関数として、ReLUではなく、SwiGLU [Paper Note] GLU Variants Improve Transformer, Noam Shazeer, arXiv'20, 2020.02
の活用
- Positional Embeddingとして、RoPE [Paper Note] RoFormer: Enhanced Transformer with Rotary Position Embedding, Jianlin Su+, arXiv'21, 2021.04
の活用
- より長いContext Windowsでの学習(4k)
を実施している。
出典:
https://cameronrwolfe.substack.com/p/llama-2-from-the-ground-up
[Paper Note] PMC-LLaMA: Towards Building Open-source Language Models for Medicine, Chaoyi Wu+, arXiv'23, 2023.04
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #Medical #KeyPoint Notes Issue Date: 2023-05-01 GPT Summary- 医療向けに特化したオープンソース言語モデルPMC-LLaMAを構築。一般目的の基盤モデルを医療ドメインに適応させ、4.8百万件の生物医学論文と3万冊の医療教科書から知識を注入。指示チューニング用の大規模データセットも提供し、徹底したアブレーション研究でその有効性を確認。130億パラメータの軽量版PMCLLaMAは複数の医療質問応答ベンチマークで高い性能を示し、ChatGPTを凌駕する場面も確認。 Comment
LLaMAを4.8Mのmedical paperでfinetuningし、医療ドメインの能力を向上。このモデルはPMC-LLaMAと呼ばれ、biomedicalQAタスクで、高い性能を達成した。
GPT-4を利用した異なるモデル間の出力の比較も行なっている模様
[Paper Note] GPT-NeoX-20B: An Open-Source Autoregressive Language Model, Sid Black+, arXiv'22, 2022.04
Paper/Blog Link My Issue
#NLP #LanguageModel #OpenSource #Selected Papers/Blogs Issue Date: 2026-03-31 GPT Summary- GPT-NeoX-20Bは、200億パラメータを持つ自己回帰型言語モデルで、Pileで訓練され、寛容なライセンスの下で重みが一般公開される。言語理解や数学、知識ベースのタスクで高い性能を持ち、特に5ショット評価時に同規模のモデルより優れた結果を示す。訓練および評価コード、モデルの重みはオープンソースで提供される。 Comment
[Paper Note] BLOOM: A 176B-Parameter Open-Access Multilingual Language Model, BigScience Workshop+, arXiv'22, 2022.11
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #OpenSource #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-03-31 GPT Summary- 大規模言語モデル(LLMs)を使い、新しいタスクを少ないデモや指示で実行可能にしたBLOOMを紹介。これは1760億パラメータのオープンアクセス言語モデルで、46の自然言語と13のプログラミング言語をカバー。競争力のある性能を発揮し、マルチタスクのファインチューニングを通じてさらに向上。モデルとコードは責任あるAIライセンスで公開し、今後の研究と応用の促進を目指す。 Comment
HF: https://huggingface.co/bigscience/bloom
透明性を持ったLLMを構築し民主化を図る方向性のパイオニア的研究
Hy3-preview, tencent, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MoE(Mixture-of-Experts) #Author Thread-Post Issue Date: 2026-04-24 Comment
元ポスト:
DeepSeek-V4, DeepSeek, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #Reference Collection #Author Thread-Post Issue Date: 2026-04-24 Comment
HF: https://huggingface.co/collections/deepseek-ai/deepseek-v4
元ポスト:
とうとうでました
所見:
所見:
Xiaomi MiMo-V2.5-Pro: A leap in agentic and long horizon coherence, Xiaomi, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #Coding Issue Date: 2026-04-23 Comment
元ポスト:
いずれモデルをオープンにするとのこと
privacy-filter, openai, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Encoder #PII Issue Date: 2026-04-23 Comment
元ポスト:
Qwen3.6-27B: Flagship-Level Coding in a 27B Dense Model, Qwen Team, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #SoftwareEngineering #One-Line Notes Issue Date: 2026-04-23 Comment
HF: https://huggingface.co/Qwen/Qwen3.6-27B
元ポスト:
Qwen3.5-397B-A17Bを主要なcodingベンチマークで上回り、同等程度の規模感のdenseモデルを上回る。
Kimi K2.6: Advancing Open-Source Coding, Kimi, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Selected Papers/Blogs #KeyPoint Notes #Reference Collection Issue Date: 2026-04-21 Comment
ブログ中ではまずはAgenticな能力の評価が掲載されており、スコアとしてはOpus 4.6と同等程度の水準に達している。
Kimi-K2.5と同様Agent Swarmを採用している。
- [Paper Note] Kimi K2.5: Visual Agentic Intelligence, Kimi Team+, arXiv'26, 2026.02
推論・知識に関するベンチマーク(AIME, HMMT, GPQA-Diamond)などについては、Opus4.6と比較してスコアが高いのはIMO-AnswerBenchと呼ばれるものだけであり、他は同等かスコアが低くなっている。Vision系のベンチマークでは、全体的にOpus4.6よりもスコアが高い。ただし、Gemini-3.1-Pro, GPT-5.4の方がKimi K2.6よりもスコアが全体として高い。
他にも5日間にわたる監視システムのようなプロアクティブなエージェントとしても活用でき、独自ベンチマークのKimiClawBenchと呼ばれるものでK2.5を上回った旨が記述されているが、詳細不明。
元ポスト:
HF: https://huggingface.co/moonshotai/Kimi-K2.6
その他ベンチマーク情報:
HY-World-2.0, Tencent, 2026.04
Paper/Blog Link My Issue
#Article #ComputerVision #Transformer #DiffusionModel #WorldModels #Author Thread-Post Issue Date: 2026-04-16 Comment
元ポスト:
テクニカルレポート: https://3d-models.hunyuan.tencent.com/world/world2_0/HY_World_2_0.pdf
Qwen3.6-35B-A3B: Agentic Coding Power, Now Open to All, QwenTeam, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #MultiModal #MoE(Mixture-of-Experts) #Selected Papers/Blogs #Sparse #Initial Impression Notes #Author Thread-Post Issue Date: 2026-04-16 Comment
HF: https://huggingface.co/Qwen/Qwen3.6-35B-A3B
元ポスト:
ざっと見た感じ明言されていない気がするが、プロプライエタリとなったQwen3.6-Plusの廉価版(オープンなので廉価と言うのかはあれだが)だと思われる。
Introducing ERNIE‑Image, Baidu, 2026.04
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Transformer #DiffusionModel #TextToImageGeneration #Selected Papers/Blogs #2D (Image) #One-Line Notes #ImageSynthesis #Author Thread-Post Issue Date: 2026-04-15 Comment
HF: https://huggingface.co/baidu/ERNIE-Image
ERNIEからtext-to-imageモデルがOpenWeightモデルとしてリリース。ベンチマークとしては公式ブログ上ではOpenWeightモデルの中でトップで、nano banana 2.0に匹敵するようなスコアが出ているように見える
LLM-jp-4-VL 9B betaリリース, LLM-jp, 2026.04
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Japanese #OpenSource #VisionLanguageModel #Author Thread-Post Issue Date: 2026-04-14 Comment
元ポスト:
Marco-Mini-Instruct, AGDC-AI, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MultiLingual #MoE(Mixture-of-Experts) Issue Date: 2026-04-11 Comment
元ポスト:
The ATOM Report: Measuring the Open Language Model Ecosystem, Lambert+, 2026.04
Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #OpenSource #read-later #Data #Author Thread-Post Issue Date: 2026-04-11 Comment
著者ポスト:
元ポスト:
Unfolding Robotics: The Open-Source Recipe for Teaching a Robot to Fold Your Clothes, Hugging Face, 2026.04
Paper/Blog Link My Issue
#Article #Tutorial #ComputerVision #NLP #OpenSource #read-later #Selected Papers/Blogs #Robotics #VisionLanguageActionModel Issue Date: 2026-04-07 Comment
元ポスト:
Microsoft Open-Sources Industry-Leading Embedding Model, Microsoft Bing Blog, 2026.04
Paper/Blog Link My Issue
#Article #Embeddings #NLP #Blog #MultiLingual #read-later Issue Date: 2026-04-07 Comment
元ポスト:
GLM-5.1: Towards Long-Horizon Tasks, Z.ai, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Selected Papers/Blogs #Reference Collection Issue Date: 2026-04-07 Comment
元ポスト:
SWE Bench ProでSoTA...?!
HF: https://huggingface.co/zai-org/GLM-5.1
Artificial Analysis:
アーキテクチャ解説:
DeepSeekV3.2 likeなアーキテクチャで、MLA, DeepSeek Sparse Attentionを採用。Layer数がDeepSeekV3.2より多いとのこと。
Introducing WildDet3D: Open-world 3D detection from a single image, Ai2, 2026.04
Paper/Blog Link My Issue
#Article #ComputerVision #Dataset #OpenSource #read-later #Selected Papers/Blogs #4D (Video) #ObjectDetection #Initial Impression Notes Issue Date: 2026-04-07 Comment
元ポスト:
wildな環境においてzero shot(click, text, bounding boxで対象を指定)で動作する単眼の3D Object Detectionモデルとのこと。データセットもコードも公開
オープンソースAIの現状 | NVIDIA GTC, Nvidia, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Video #OpenSource #read-later #One-Line Notes Issue Date: 2026-04-07 Comment
元ポスト:
GTCのパネルディスカッション
VoxCPM2, OpenBMB, 2026.04
Paper/Blog Link My Issue
#Article #SpeechProcessing #SmallModel #MultiLingual #TTS Issue Date: 2026-04-07 Comment
github: https://github.com/OpenBMB/VoxCPM/?tab=readme-ov-file
元ポスト:
30+言語をサポート
ibm-granite_granite-4.0-3b-vision, ibm-granite, 2026.03
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #VisionLanguageModel Issue Date: 2026-04-04 Comment
元ポスト:
約12兆トークンの良質なコーパスで学習した新たな国産LLM「LLM-jp-4 8Bモデル」「LLM-jp-4 32B-A3Bモデル」をオープンソースライセンスで公開 ~一部ベンチマークでGPT-4oやQwen3-8Bを上回る性能を達成~, NII, 2026.04
Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #Reasoning #Japanese #OpenSource #mid-training #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-04-03 Comment
8BモデルはLlama-2アーキテクチャ、32B-A3.8BモデルはQwen3-MoEアーキテクチャで、フルスクラッチ学習をすることで実現[^1]。
19.5Tトークン(概算として、日本語0.7Tトークン、英語17.8Tトークン、中国語・韓国語0.85Tトークン、プログラムコード0.2Tトークン)のインターネット上の公開データや政府・国会の文書を収集し(LLM-jp-3.1のデータの6倍の規模)し事前学習データを構築、DataMixtureを最適化し10.5Tトークンを事前学習で利用。
中間学習では、事前学習データにInstruction Pretraining[^2]データを含む合成データを加え1.2Tトークンを利用。
その後最終的にInstruction Tuningを、日本語、英語合計22種類のデータで実施(元記事ではチューニングと呼称されているがおそらくInstruction Tuningだと思われる)。
MTBenchでは、GPT-4o, gpt-oss-20B, Qwen3-8Bと同等以上の性能、日本語MTBench[^3]では、GPT-4o, gpt-oss-20B, Qwen3-8Bを上回る性能とのこと。MTBenchで用いるLLM-as-a-JudgeのモデルとしてはGPT-5.4を利用とのこと。
[^1]: つまり、モデルのパラメータは完全に新規で学習されており、ベースとして既存OpenWeightモデルを利用していない点に注意。
[^2]: Instruction Pretrainingは、LLM-jp-3.1の頃から実施されている:
LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05
[Paper Note] Instruction Pre-Training: Language Models are Supervised Multitask Learners, Daixuan Cheng+, arXiv'24, 2024.06
[^3]: MT-Benchの概要については
[Paper Note] Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena, Lianmin Zheng+, NeurIPS'23, 2023.06
も参照のこと。
フルスクラッチモデル点に関する説明:
HF:
https://huggingface.co/collections/llm-jp/llm-jp-4-models
Reasoningモデルもある!!!
関連:
- PLaMo 3.0 Prime β版, PFN, 2026.03
上記PLaMo 3.0に続いて、国内でのフルスクラッチReasoningモデルは二例目だろうか。
Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory, Skywork AI, 2026.04
Paper/Blog Link My Issue
#Article #ComputerVision #Transformer #SyntheticData #DiffusionModel #VideoGeneration/Understandings #WorldModels #interactive #Game #4D (Video) #LongHorizon #Realtime #Initial Impression Notes Issue Date: 2026-04-02 Comment
元ポスト:
Unreal Engineで合成されたデータに基づいて学習されたDiTベースのWorld Modelらしい。
Acknowleagementから察するに、Wan2.2がベースモデルで、self-forcingが学習に用いられている。
- Wan2.2, Alibaba Wan, 2025.07
- [Paper Note] Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion, Xun Huang+, NeurIPS'25
また、action control moduleをアーキテクチャに導入することで、汎用的な動画生成モデルにキーボード、マウス等のアクションによるコントロールを実現している模様。
- [Paper Note] GameFactory: Creating New Games with Generative Interactive Videos, Jiwen Yu+, arXiv'25, 2025.01
デコードの高速化には量子化を利用しているとのこと。
Gemma 4: Byte for byte, the most capable open models, Google, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #MultiModal #Reasoning #MoE(Mixture-of-Experts) #Selected Papers/Blogs #2D (Image) #4D (Video) #One-Line Notes #Reference Collection #audio #text #Initial Impression Notes Issue Date: 2026-04-02 Comment
元ポスト:
2B, 4B, 26BのMoEモデルと31BのDenseモデルの4種類のモデルファミリーで、マルチモーダル(vision)対応。2B, 4Bはaudioも入力として扱える。
edgeデバイス向けのモデルは128k, 他は256kのコンテキストウィンドウ。140+の多言語サポート。
Apache 2.0ライセンス
arenaで同サイズのモデル群でSoTAといった話がブログ中に記述されている。
モデルカードには一般的なベンチマーク群とのスコアも記載されている。
https://ai.google.dev/gemma/docs/core/model_card_4?hl=ja
(そもそも既存のベンチマークにもコンタミネーションがあると思われるが、)arenaに関しては特定の企業に対してデータを提供し、複数のモデルの亜種をテストできるという慣行があり、リーダーボードにバイアスがあるであろう点には注意:
- [Paper Note] The Leaderboard Illusion, Shivalika Singh+, NeurIPS'25
artificial analysisによる評価:
Qwenがproprietaryになったことから、ライセンス的に使いやすく、日本語に強そうなモデルとしては筆頭ではなかろうか。日本語性能が気になる。
アーキテクチャ解説:
ポイント解説:
所見:
attentionのscaleをsqrt(d)でスケールさせる代わりに、QK-norm, V normを適用するなど。
NvidiaによるNVFP4へのpost-trainingによる量子化:
https://huggingface.co/nvidia/Gemma-4-31B-IT-NVFP4
量子化後の性能も比較されており、知識、数学、コーディング、terminac useなど6種類のベンチマークでオリジナルのモデルと遜色ない性能が出ている旨記載されている。
解説:
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4
Holo3: Breaking the Computer Use Frontier, H Company, 2026.03
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #AIAgents #MultiModal #MoE(Mixture-of-Experts) #ComputerUse #read-later #VisionLanguageModel #One-Line Notes #GUI #Environment Issue Date: 2026-04-02 Comment
元ポスト:
HF: https://huggingface.co/Hcompany/Holo3-35B-A3B
関連:
- Holo2: Cost-Efficient Models for Cross-Platform Computer-Use Agents, H Company, 2025.11
Qwen3.5をファインチューニングすることで実現。以前のシリーズもQwenベースだったが、新たなQwenのリリースに伴いより強力なベースモデルを得て、かつシナリオをベースにして自動でwebsiteを構築しverifiableが可能な独自のEnvironmentを保持しており、多様な合成データの活用とRLを実現することで、性能が向上していると思われる。
Trinity-Large-Thinking: Scaling an Open Source Frontier Agent, Arcee, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Reasoning #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs Issue Date: 2026-04-02 Comment
元ポスト:
HF: https://huggingface.co/collections/arcee-ai/trinity-large-thinking
LFM2.5-350M: No Size Left Behind, Liquid AI, 2026.04
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #SmallModel #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2026-04-01 Comment
元ポスト:
- LFM2のアーキテクチャを採用の350Mパラメータモデルで、CPUでも十分な速度で推論可能
- 追加の事前学習(10T -> 28T tokens)、および、large-scale RLを実施
- 同等規模のパラメータ数(あるいは2倍程度)のモデル群に対して、知識, 指示追従能力, ツール呼び出し、データ抽出などのベンチマークで上回る
- LFM2-350Mと比較して、指示追従能力, データ抽出, tool useの性能が大きく向上
- edgeデバイスでの軽量なデータ抽出パイプラインとして有用
- しかし、math, coding, creative writingなどでの利用は推奨されない
- CPU/GPUでの推論ともに同等規模、あるいは1B級のモデルよりも早く、省メモリ
LongCat-AudioDiT, Meituan LongCatTeam, 2026.03
Paper/Blog Link My Issue
#Article #NLP #SpeechProcessing #DiffusionModel #Architecture #read-later #Selected Papers/Blogs #TTS #Initial Impression Notes Issue Date: 2026-04-01 Comment
HF:
-
https://huggingface.co/meituan-longcat/LongCat-AudioDiT-1B
-
https://huggingface.co/meituan-longcat/LongCat-AudioDiT-3.5B
元ポスト:
デコード時に、メルスペクトログラム→Vocoderの場合細かい特徴が落ちてしまうことが懸念されるため、Waveformを直接デコードするWav-VAEによって、音声に直接変換する、というアーキテクチャの革新があるように見える。
SmolLM - blazingly fast and remarkably powerful, Allal+, HuggingFace, 2024.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel Issue Date: 2026-03-31 Comment
OpenSourceなLLMについて過去を遡ってみているが、SmolLMの最初の段階では、データのみがオープンでコードはオープンでないように見える。
次:
- SmolLM2, 2024.11
RedPajama, a project to create leading open-source models, starts by reproducing LLaMA training dataset of over 1.2 trillion tokens, together.ai, 2023.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenSource #One-Line Notes Issue Date: 2026-03-31 Comment
完全なオープンソースLLMの構築を目指すprojectで、LLaMAの学習データを再現する取り組み。
sarashina2.2-ocr, SBIntuitions, 2026.03
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Japanese #Selected Papers/Blogs #DocParser #OCR #Initial Impression Notes Issue Date: 2026-03-31 Comment
元ポスト:
縦書き文書に強いのは大変ありがたい
dots.ocrよりも日本語文書に対するCERとBLEUのスコアが良い。素晴らしい
Introducing Marin: An Open Lab for Building Foundation Models, marin-community, 2025.05
Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #Blog #OpenSource #Selected Papers/Blogs Issue Date: 2026-03-29 Comment
github:
https://github.com/marin-community/marin
issueのExperimentsが興味深い
関連:
- Marin 32B Retrospective, marin-community, 2025.10
Marin projectのアナウンスをメモっていなかったので今更ながらメモ
- open-weight, open-sourceを超えて、LLMのopen-developmentを実現するための完全な透明性を持ったopen lab
- すべての実験はgithub issueで管理され公開される
- marinのコードベースを使い誰でも実験をコード中に記述しpull repuestを送れ、誰でもレビューできる
- プルリクが承認されると実験が実際に実行され、誰でもWandB上の経過をリアルタイムで観察できる
Delphi[^1]の実験において、25Bパラメータモデルがweight decayフェーズに突入し、Marin-32Bでは以前はweight decayフェーズでloss spikeが頻発したが、Delphiでは安定していそうな見込み、という話がポストされている:
[^1]: 現代版のPythiaを構築しましょうという話で、Pythiaのモデルパラメータを70Bまでスケールアップし、学習に用いるトークン数もチンチラ則従いモデルサイズに応じてスケールアップ、The PileデータなどのデータセットをNemotron-CCなどのlarge scaleモデル用のデータセットに置換する、といった話が含まれる。Marin Issue 1337を参照のこと。
129B-A16Bの学習を開始したとのこと:
chandra-ocr-2, datalab-to, 2026.03
Paper/Blog Link My Issue
#Article #ComputerVision #MultiLingual #Selected Papers/Blogs #VisionLanguageModel #OCR #One-Line Notes Issue Date: 2026-03-21 Comment
元ポスト:
日本語の認識性能がGemini-2.5-Flashよりも高い。マルチリンガルでの認識性能がこらほど網羅的に列挙されているのはありがたい。
MiroThinker-1.7, MiroMindAI, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #DeepResearch #LongHorizon #Initial Impression Notes Issue Date: 2026-03-20 Comment
元ポスト:
ベンチマークに応じて、GPT-5, GPT-5.2, GPT-5.4など比較するGPTが恣意的に変わっているように見えるが、ベンチマーク上ではGPT-5と同等以上のAgenticなLLMっぽい?BrowseCompの性能がかなり良さそうに見える。
LLM Architecture Gallery, Sebastian Raschka, 2026.03
Paper/Blog Link My Issue
#Article #Survey #NLP #LanguageModel #Transformer #Blog #Architecture #Initial Impression Notes Issue Date: 2026-03-20 Comment
元ポスト:
Sebastian Raschka氏がいつもポストしているOpenWeight LLMのアーキテクチャ図のギャラリー。パラメータサイズ, head数などの細かい情報も含まれているので、全体を概観するのに良さそう。
MiniMax-M2.7, MiniMax, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Selected Papers/Blogs #Reference Collection Issue Date: 2026-03-19 Comment
所見:
所見:
Artificial Analysisによる評価:
GLM-5と同等の知能スコア、GDPvalでGPT-5.2(xhigh)超え。
modelがオープンに:
https://huggingface.co/MiniMaxAI/MiniMax-M2.7
元ポスト:
openになったが商用利用は許可を得ないとできないということで、リリース時のポストにはopennsourcedと銘打たれているが、open sourceではない。
中国系のOpenModelのライセンス、あるいはプロプライエタリ化が進んできている?
所見:
楽天、「GENIACプロジェクト」の一環として開発された国内最大規模の高性能AIモデル「Rakuten AI 3.0」を提供開始, 楽天グループ株式会社, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Japanese #MoE(Mixture-of-Experts) #Initial Impression Notes Issue Date: 2026-03-18 Comment
HF: https://huggingface.co/Rakuten/RakutenAI-3.0
公式アナウンス、HFのモデルカードの情報が少なすぎてよくわからない。
所見:
Mistral Small 4, MistralAI, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MoE(Mixture-of-Experts) #Initial Impression Notes Issue Date: 2026-03-17 Comment
元ポスト:
119Bでsmallと銘打たれる時代になってしまった
公式ポスト:
Reka Edge: Frontier-Level Edge Intelligence for Physical AI, Reka, 2026.03
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #VisionLanguageModel Issue Date: 2026-03-14 Comment
元ポスト:
NVIDIA Nemotron 3 Super, NVIDIA, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SSM (StateSpaceModel) #OpenSource #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #KeyPoint Notes #Reference Collection #Hybrid #LowPrecision #LinearAttention Issue Date: 2026-03-12 Comment
元ポスト:
解説:
artificial analysisによる評価:
Swallow LVM Leaderboardに性能が掲載:
解説:
アーキテクチャ:
- NVFP4で学習して gpt-ossより2.2倍高速だが性能も向上
- 88 Layer: 40 Latent MoE / 40 Mamba-2 / 8 GQA Attention
- GQA Attentiom Layerは非常に少なく、ほとんどがMamba-2 (linear attention)となっている
- Latent MoEは入力をそのまま変換するshared expertsと、入力を1/4のlatent vectorに変換した潜在空間上で処理をするLatext expertsの組み合わせによって出力を得る。
- 具体的には、RouterによってTop-22のexpertsを選択し、inputを1/4のlatent vectorに圧縮した上でExpertsに入力。Expertsの出力を加算して4倍のvectorに変換し次元を戻して、別ルートでshared expertsに元の入力次元から変換されたベクトルと組み合わせて出力するようなアーキテクチャ
Latent MoE解説:
要はMoEに必要なmatrixが、latent vectorを扱うことで小さくなるのでMoEのWeightのメモリロードのボトルネックが緩和されるだけでなく、
各MoE Laverは異なるGPUやマシンに分散されて配置されるため計算のためにはベクトルのバッチを通信しなければならないがそのコストが削減されスループットの向上につながるので嬉しい、ということだと思われる。
ポイント解説:
technical reportが出た:
- [Paper Note] Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning, NVIDIA+, arXiv'26, 2026.04
Moondream 3 Preview: Frontier-level reasoning at a blazing speed, Moondream, 2025.09
Paper/Blog Link My Issue
#Article #ComputerVision #EfficiencyImprovement #NLP #FoundationModel #Reasoning #SmallModel #Selected Papers/Blogs #VisionLanguageModel #KeyPoint Notes Issue Date: 2026-03-12 Comment
HF: https://huggingface.co/moondream/moondream3-preview
9B-A2Bの小規模なVLMで、
- visual reasoning: 小規模だが実タスクに適用可能なvisual reasoning性能
- trainable: Visual系のタスクは人間でもzero shotではできないことが多く、簡単にfinetuningできることが重要で
- fast: vision系のアプリケーションはリアルタイムのlavencyが求められることが多く
- inexpensive: 安くスケーラブルでなければならない
をテーマにしたモデルのようである。
object detection, pointing, 構造化された出力(犬の群の個々の犬の毛と首輪の色動画)、OCRなどの様々なタスクが実行可能で、GPT5, Gemini 2.5 Flash, Claude 4 Sonnetをこの規模感のモデルで、objec' detection, counting, document understanding, hallucinationに関するベンチマークで上回る。
前身のモデルであるmoondream2は、5Mダウンロードを達成したようだ
vikhyatk/moondream2
Open-Sourcing Sarvam 30B and 105B, sarvam, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning Issue Date: 2026-03-10 Comment
元ポスト:
Chinese Open Source: A Definitive History, Kevin Xu, 2026.03
Paper/Blog Link My Issue
#Article #Survey #NLP #LanguageModel #Blog #read-later Issue Date: 2026-03-07
Yuan3.0-Ultra, YuanLabAI, 2026.03
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #MoE(Mixture-of-Experts) #VisionLanguageModel #UMM #One-Line Notes #Initial Impression Notes Issue Date: 2026-03-07 Comment
元ポスト:
MoEのwarmupが終わり安定してきたタイミングでルーティングがされにくいExpertを枝刈りし、残ったexpertに対してバランスよくルーティングがされるようなrearrangeをするアルゴリズム Layer-Adaptive Expert Pruning (LAEP)によって、パラメータサイズを1515Bから1010Bまで削減し、49%程度事前学習の効率を改善したとのこと。
RAG, multimodal document understanding, tabular data analysis, content summarizationにおいて、非常に高い性能を獲得している。tool useに関してはGPT-5.2(effort不明)以外には負けているので、優秀ではあるが特に秀でているというわけではないよつに見える(BFCVv3)。
しかし他のベンチマークでこれらフロンティアモデル群をここまでPass@1やAccで抜くのは、驚きではあるが、実際にどのような評価をしているのかはテクニカルレポートを見た方が良いと思われる。
Introducing Olmo Hybrid: Combining transformers and linear RNNs for superior scaling, Ai2, 2026.03
Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #Attention #mid-training #read-later #Selected Papers/Blogs #One-Line Notes #RecurrentModels #Hybrid #LinearAttention Issue Date: 2026-03-06 Comment
元ポスト:
x1のFull Attention + x3のGated DeltaNetによるハイブリッドアーキテクチャで、75%のattentionをlinear attention (recurrent module)に置換。x3のSliding Window Attentionを用いているOlmo3と比較した結果
- 事前学習におけるデータ効率がより高く(約2倍)
- mid-training後の評価では、数学、コード、STEM, non-STEM, QA、long-contextなどの主要なドメインにおいてOlmo3と同と床それ以上の性能を達成。特に、long-contextにおけるベンチマでは大幅な性能向上(Recurrentなアーキテクチャの恩恵)
関連:
- [Paper Note] Gated Delta Networks: Improving Mamba2 with Delta Rule, Songlin Yang+, ICLR'25, 2024.12
元ポスト:
関連:
所見:
Qwen 3.5 small series, Qwen Team, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SmallModel #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-03-02 Comment
なんとSLMもリリース
元ポスト:
10 open-weight LLM releases in January and February 2026, Sebaschan Raschka, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Post #read-later #Selected Papers/Blogs Issue Date: 2026-02-28 Comment
- Trinity Large, Arcee, 2026.01
- [Paper Note] Kimi K2.5: Visual Agentic Intelligence, Kimi Team+, arXiv'26, 2026.02
- [Paper Note] Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters, Ailin Huang+, arXiv'26, 2026.02
- Qwen3-Coder-Next: Pushing Small Hybrid Models on Agentic Coding, QwenTeam, 2026.02
- [Paper Note] GLM-5: from Vibe Coding to Agentic Engineering, GLM-5 Team+, arXiv'26, 2026.02
- MiniMax M2.5: SOTA in Coding and Agent, designed for Agent Universe, MiniMax, 2026.02
- [Paper Note] Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts, Chen Yang+, arXiv'26, 2026.02
- Qwen3.5: Towards Native Multimodal Agents, Qwen Team, 2026.02
- Ling-2.5-1T, inclusionAI, 2026.02
- Ring-1T-2.5-FP8, inclusionAI, 2026.02
- Cohere Labs Launches Tiny Aya, Making Multilingual AI Accessible, COHERE LABS TEAM, 2026.02
元ポストには書かれていないがLLMというくくりで言うと以下もある:
- New ARENA material: 8 exercise sets on alignment science & interpretability, CallumMcDougall, 2026.02
- LFM2-24B-A2B: Scaling Up the LFM2 Architecture, LiquidAI, 2026.02
- Qwen3 Swallow, Swallow LLM, 2026.02
- Japanese
- GPT-OSS Swallow, Swallow LLM, 2026.02
- Japanese
- GLM-4.7-Flash, Z.ai, 2026.01
- LongCat-Flash-Thinking-2601, Meituan, 2026.01
- Introducing LFM2.5: The Next Generation of On-Device AI, LiquidAI, 2026.01
Omniモデルを含めると以下:
- Ming-omni-tts-0.5B, inclusionAI, 2026.02
- [Paper Note] Features as Rewards: Scalable Supervision for Open-Ended Tasks via Interpretability, Aaditya Vikram Prasad+, arXiv'26, 2026.02
- MiniCPM-o-4_5, OpenBMB, 2026.02
World Modelsを含めると以下?:
- [Paper Note] Causal-JEPA: Learning World Models through Object-Level Latent Interventions, Heejeong Nam+, arXiv'26, 2026.02
- [Paper Note] Code2World: A GUI World Model via Renderable Code Generation, Yuhao Zheng+, arXiv'26, 2026.02
- [Paper Note] DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos, Shenyuan Gao+, arXiv'26, 2026.02
- [Paper Note] World Action Models are Zero-shot Policies, Seonghyeon Ye+, arXiv'26, 2026.02
- [Paper Note] Advancing Open-source World Models, Robbyant Team+, arXiv'26, 2026.01
- Project Genie: Experimenting with infinite, interactive worlds, Google Deepmind, 2026.01
- Waypoint-1: Real-time Interactive Video Diffusion from Overworld, Overworld, 2026.01
確実に見落としがあるけど。
Qwen3.5 Medium Model Series, Qwen Team, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MultiLingual #MoE(Mixture-of-Experts) #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-02-28 Comment
元ポスト:
いずれのモデルもベンチマーク上はGPT-5 miniと同等以上の性能に見える。
また、Qwen3.5-35B-A3BはQwen3-235B-A22B-2507やQwen3-VL235B-A22Bを上回っており、アーキテクチャ、データの品質、RLによって実現されているとのこと。
27BモデルのHLEのスコアが非常に高いと話題:
FP8版もリリース:
日本語の医師国家試験(2026)において35B-A3Bが非常に高いスコアを記録:
Artificial Analysisによるベンチマーキング:
LFM2-24B-A2B: Scaling Up the LFM2 Architecture, LiquidAI, 2026.02
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #SmallModel #MoE(Mixture-of-Experts) #Initial Impression Notes #EdgeDevices Issue Date: 2026-02-27 Comment
元ポスト:
edge deviceにデプロイできる規模でLFM2をスケールさせた模様
Detecting and preventing distillation attacks, Anthropic, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Proprietary #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-02-24 Comment
元ポスト:
DeepSeek, Moonshot AI, MiniMax がDistillationを用いてClaude出力からモデルを改善するためのattackを特定したというAnthropicからのアナウンス
所見:
- [Paper Note] Extracting books from production language models, Ahmed Ahmed+, arXiv'26, 2026.01
で提案されている手法を用いてClaude Sonnetからハリーポッターと賢者の石の95.8%を抽出できた、との報告もある。
GPT-OSS Swallow, Swallow LLM, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #Japanese Issue Date: 2026-02-21 Comment
元ポスト:
第120回医師国家試験(2026)を解かせてみた結果:
Qwen3 Swallow, Swallow LLM, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #Japanese #MoE(Mixture-of-Experts) Issue Date: 2026-02-21 Comment
元ポスト:
Ming-omni-tts-0.5B, inclusionAI, 2026.02
Paper/Blog Link My Issue
#Article #Transformer #SpeechProcessing #DiffusionModel #Speech #read-later #TTS #UMM #Omni #One-Line Notes #AdversarialTraining #Music Issue Date: 2026-02-18 Comment
元ポスト:
TTSだけでなく、環境音や音楽の生成も可能な音声生成モデル。発話速度、ピッチ、音量、感情、訛りなどを正確にコントロール可能で、100+以上のビルトインのvoiceや、zeroshotでのvoice designが可能とのこと。また、speechだけでなく環境音や音楽の生成もできる産業界では初めてのモデルとのこと。また、3.1Hzごとのフレームレートでパッチ化されて入力され(これはこれまでと比べるとかなり低いフレームレートらしい)るため高速に処理が走り、テキスト入力として数式などのフォーマットも入力可能とのこと。
テクニカルレポートのリンクがまだ生きておらず詳細は不明。
Cohere Labs Launches Tiny Aya, Making Multilingual AI Accessible, COHERE LABS TEAM, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #SmallModel #MultiLingual #Selected Papers/Blogs #LowResource #KeyPoint Notes #Reference Collection Issue Date: 2026-02-18 Comment
元ポスト:
公式ポスト:
アーキテクチャ解説:
70程度の言語の性能をバランス良くサポートする3.35BのLLMで、Baseモデルと、マルチリンガルの性能は保ちつつも特定のregionに特化したinstruction tuningを実施したvariantを公開。また、multilingualでのベンチマークも公開。同程度の規模間のモデルについて、qwen3-4Bとの比較がわかりやすく、Europe, south asiaは同等、Asia-pacificはQwenよりも劣り、west asia, africa regionのようなこれまでlow resourceだと思われたregionではほか同規模のモデルと比較して突出した性能を誇るモデルに見える。CC上でのページ数と、言語モデルごとの性能を比較したグラフもあり、CCでのデータが少ない言語はこれまでのモデルは性能が低かったが、Tiny Ayaは非常に高い性能を達成している(このグラフで言うと日本語はかなりinformation richな言語にカテゴライズされているように見える)。
Qwen3.5: Towards Native Multimodal Agents, Qwen Team, 2026.02
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #ReinforcementLearning #MultiModal #MultiLingual #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #VisionLanguageModel #UMM #KeyPoint Notes #Scalability #Environment Issue Date: 2026-02-17 Comment
元ポスト:
最新のQwenがリリース・・・!!
- Vision+TextのUMMを採用。
- real-world agentsのために訓練
- hybrid linear attention + sparse MoE + 環境スケーリングに基づくlarge scale RLを実施
- decodingのスループットがQwen3-Maxと比較して8.6--19.0倍
- 201の言語と方言をサポート
- 397B-A17B
- Gated DeltaNet
- Gated Attention
- context length: 262k
- Multi token prediction
- 言語系タスクではGPT5.2と比較して少し劣る程度、agenticなベンチマークでは大きく上回るものも存在(ただし、Claude 4.5 Opusには届いていないベンチマークが多いように見える)
- Vision系タスクでは全体的にGPT5.2, Opus 4.5よりも優秀に見え、Gemini 3 Proと同等か少し劣る程度に見える。
世はlinear attention時代
所見:
INT4モデル:
dots.ocr-1.5, rednote-hilab, 2026.02
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #StructuredData #SmallModel #DocParser #OCR Issue Date: 2026-02-16 Comment
元ポスト:
Ling-2.5-1T, inclusionAI, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #MoE(Mixture-of-Experts) Issue Date: 2026-02-16 Comment
Ringに続いてLingもリリース
関連:
- Ring-1T-2.5-FP8, inclusionAI, 2026.02
元ポスト:
MiniMax M2.5: SOTA in Coding and Agent, designed for Agent Universe, MiniMax, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #Coding #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2026-02-13 Comment
元ポスト:
OsenHands IndexでClaude Sonnet 4.5超えの初めてのOpenWeightモデル:
コストパフォーマンスにおいては、低コストなモデル群の中では抜きん出た性能
まだHF上にWeightは公開されていないようだが後ほど公開されると思われる。
所見:
weightが公開:
https://huggingface.co/MiniMaxAI/MiniMax-M2.5
元ポスト:
UnslothがGGUF版を公開:
Ring-1T-2.5-FP8, inclusionAI, 2026.02
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #AIAgents #Attention #Reasoning #LongSequence #LongHorizon #LinearAttention Issue Date: 2026-02-12 Comment
元ポスト:
関連:
- Ring-1T, inclusionAI, 2025.10
MLA + lightning linear attentionのハイブリッド
- MHA vs MQA vs GQA vs MLA, Zain ul Abideen, 2024.07
- [Paper Note] Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention, Zhen Qin+, ICML'24, 2024.05
Ming-flash-omni-2.0, inclusionAI, 2026.02
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Transformer #MultiModal #SpeechProcessing #DiffusionModel #Speech #MoE(Mixture-of-Experts) #2D (Image) #Omni #text Issue Date: 2026-02-12 Comment
元ポスト:
関連:
- Ming-flash-omni-Preview, inclusionAI, 2025.10
- [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25, 2025.06
公式ポスト:
GLM-5: From Vibe Coding to Agentic Engineering, Z.ai, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #MoE(Mixture-of-Experts) #Selected Papers/Blogs #KeyPoint Notes #Reference Collection #LongHorizon #SparseAttention Issue Date: 2026-02-12 Comment
関連:
- GLM-4.7: Advancing the Coding Capability, Z.ai, 2025.12
GLMシリーズの最新モデルGLM-5がリリースされた
元ポスト:
- DeepSeek Sparse Attentionを採用:
- DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention, DeepSeek-AI, 2025.09
- [Paper Note] DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models, DeepSeek-AI+, arXiv'25, 2025.12
- 事前学習データを23Tから28.5Tトークンへ
- パラメータ数は4.5の355B-A32から744B-A40Bへ
- RLのインフラとして4.5から引き続きSlimeを採用
- slime, THUDM & Zhihu, 2025.09
- long-horizonなタスクに秀でており、reasoning, coding, agenticタスクにおける各種ベンチマークでOpus 4.5, GPT-5.2, Gemini 3 Proと同等程度の性能
FP8版も公開されている模様(Hopper以後のアーキテクチャでないとサポートされていない点に注意
所見:
元ポスト:
unslothがGGUF版をすでにリリースしている模様。早い:
https://unsloth.ai/docs/models/glm-5
アーキテクチャ解説:
アーキテクチャ解説:
所見:
Voxtral transcribes at the speed of sound, Mistral AI, 2026.02
Paper/Blog Link My Issue
#Article #SpeechProcessing #Blog #MultiLingual #Proprietary #AutomaticSpeechRecognition(ASR) #Realtime #Transcript Issue Date: 2026-02-05 Comment
元ポスト:
Voxtral Mini Transcribe V2はproprietaryモデルでAPI利用のみ、Vostraal RealtimeはOpenWeightで公開
mistralai/Voxtral-Mini-4B-Realtime-2602:
https://huggingface.co/mistralai/Voxtral-Mini-4B-Realtime-2602
Vostral Mini Transcrive V2に対するVoxtral Realtimeの性能の比較。Voxtral Realtimeは遅延を調整可能なようで、遅延が大きければ大きいほど高い性能が出るが、リアルタイムに近づけば近づくほど性能はその分劣化する。
Intern-S1-Pro, internlm, 2026.02
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #Reasoning #PositionalEncoding #MoE(Mixture-of-Experts) #VisionLanguageModel #Science Issue Date: 2026-02-05 Comment
元ポスト:
ポイント解説:
関連:
- [Paper Note] Intern-S1: A Scientific Multimodal Foundation Model, Lei Bai+, arXiv'25, 2025.08
Fourier Position Encoding (FoPE) + upgraded time-series modeling
MiniCPM-o-4_5, OpenBMB, 2026.02
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #SpeechProcessing #DiffusionModel #AutomaticSpeechRecognition(ASR) #VisionLanguageModel #TTS #Omni #AudioLanguageModel Issue Date: 2026-02-05 Comment
元ポスト:
New Holo2 model takes the lead in UI Localization, H Company, 2026.02
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #AIAgents #Blog #ComputerUse #Selected Papers/Blogs #VisionLanguageModel #Grounding #GUI Issue Date: 2026-02-05 Comment
HF: https://huggingface.co/Hcompany/Holo2-235B-A22B
元ポスト:
関連:
- Holo1.5 - Open Foundation Models for Computer Use Agents, H Company, 2025.09
Latest open artifacts (#18): Arcee's 400B MoE, LiquidAI's underrated 1B model, new Kimi, and anticipation of a busy month, Interconnects, 2026.02
Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #Blog Issue Date: 2026-02-03 Comment
paid userしか全文は閲覧できない
元ポスト:
Qwen3-ASR & Qwen3-ForcedAligner is Now Open Sourced: Robust, Streaming and Multilingual, Qwen Team, 2026.01
Paper/Blog Link My Issue
#Article #SpeechProcessing #LongSequence #MultiLingual #AutomaticSpeechRecognition(ASR) #AudioLanguageModel #Robustness Issue Date: 2026-01-30 Comment
HF:
https://huggingface.co/collections/Qwen/qwen3-asr
technical report:
https://github.com/QwenLM/Qwen3-ASR/blob/main/assets/Qwen3_ASR.pdf
元ポスト:
Trinity Large, Arcee, 2026.01
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Pretraining #NLP #LanguageModel #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #Stability #One-Line Notes #Reference Collection #Sparse #Initial Impression Notes Issue Date: 2026-01-29 Comment
テクニカルレポート:
https://github.com/arcee-ai/trinity-large-tech-report/
HF:
https://huggingface.co/arcee-ai
GLM4.7やDeepSeekV3と比較してスループットやTTFTが二倍以上。
非常にsparseなMoE(400B-A13B, 4/256のexpertsにルーティング)であるため学習を安定させるためにDense layerを増やし、モメンタムを考慮したexpertのバランシングや、z-lossと呼ばれるlogitのスケールをコントロールするような手法を導入することで安定した学習を実現。2048 Nvidia B300 GPUsで、17Tトークンの事前学習33日で完了
元ポスト:
これほどsparseなMoEをここまで安定させて学習できるのは非常に興味深いと思われる。
インタビュー:
やると決めてチームビルディングも含めて非常に短期間(6ヶ月)で達成したとのことだが、気になる。
解説:
所見(風刺):
ポイント解説:
アーキテクチャ解説:
Waypoint-1: Real-time Interactive Video Diffusion from Overworld, Overworld, 2026.01
Paper/Blog Link My Issue
#Article #ComputerVision #Controllable #NLP #Transformer #MultiModal #DiffusionModel #WorldModels #interactive #4D (Video) #One-Line Notes #RectifiedFlow #Realtime Issue Date: 2026-01-22 Comment
blog:
https://over.world/blog/the-path-to-real-time-worlds-and-why-it-matters
pj page:
https://over.world/
元ポスト:
リアルタイムにzero latencyでマウス(カメラも自由に動かせる)、キーボード、テキストでinteraction可能なworld model
GLM-4.7-Flash, Z.ai, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #MoE(Mixture-of-Experts) #One-Line Notes Issue Date: 2026-01-20 Comment
元ポスト:
関連:
- GLM-4.7: Advancing the Coding Capability, Z.ai, 2025.12
30B-A3BのMoEモデルで、gpt-oss-20B, Qwen3-30B-A3B-Thinking-2507を、SWE Bench Verified, tau2_bench, BrowseComp(SWEタスク, tooluse, 検索)等で大幅にoutperform。AIME, GPQA, HLEなどの推論系のベンチマークも同等以上。つまり、agenticなタスクに適した能力を有することが示唆される。
ポイント解説:
FrogMini-14B-2510, Microsoft, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #Coding #SoftwareEngineering #One-Line Notes Issue Date: 2026-01-16 Comment
元ポスト:
strong modelから合成されたbug fixのtrajectoryでSFTすることで小規模モデルでSWE Benchの性能改善
LongCat-Flash-Thinking-2601, Meituan, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #MoE(Mixture-of-Experts) #Selected Papers/Blogs Issue Date: 2026-01-15 Comment
元ポスト:
解説:
coding, agentiaなベンチでTopTierを獲得した560B-27BのMoEモデル。MIT Licence
1MコンテキストウィンドウのZigzag attentionのモデルもcoming soon...だと...!?
Zigzag attentionはおそらく以下だろうか:
- [Paper Note] Efficient Context Scaling with LongCat ZigZag Attention, Chen Zhang+, arXiv'25, 2025.12
Next generation medical image interpretation with MedGemma 1.5 and medical speech to text with MedASR, Google Research, 2026.01
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #SpeechProcessing #Blog #AutomaticSpeechRecognition(ASR) #VisionLanguageModel #Medical Issue Date: 2026-01-14 Comment
元ポスト:
ポイント解説:
GLM-Image: Auto-regressive for Dense-knowledge and High-fidelity Image Generation, Z.ai, 2026.01
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #DiffusionModel #TextToImageGeneration #Editing Issue Date: 2026-01-14 Comment
元ポスト:
NousCoder-14B: A Competitive Olympiad Programming Model, Joe Li, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Blog #Coding #PostTraining #read-later Issue Date: 2026-01-09 Comment
元ポスト:
HF:
https://huggingface.co/NousResearch/NousCoder-14B
Apache 2.0
PipelineRLを採用している模様。興味深い。
Introducing LFM2.5: The Next Generation of On-Device AI, LiquidAI, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Blog #SmallModel #Japanese #PostTraining #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes #AudioLanguageModel Issue Date: 2026-01-09 Comment
元ポスト:
日本語に特化した言語モデルも存在し、Sarashina2.2-1b-instruct-v0.1, TinySwallow-1.5B-InstructよりもJMMLU, M-IFEval (ja), GSM8K (ja)においてより高い性能を発揮している。
LFM2.5-1.2B-Base: [Hugging Face](
https://huggingface.co/LiquidAI/LFM2.5-1.2B-Base)
LFM2.5-1.2B-Instruct: [Hugging Face](
https://huggingface.co/LiquidAI/LFM2.5-1.2B-Instruct),
[LEAP](
https://leap.liquid.ai/models?model=lfm2.5-1.2b-instruct),
[Playground](
https://playground.liquid.ai/chat?model=cmk1jyp8f000204i56yy76uwh)
LFM2.5-1.2B-JP: [Hugging Face](
https://huggingface.co/LiquidAI/LFM2.5-1.2B-JP),
[LEAP](
https://leap.liquid.ai/models?model=lfm2.5-1.2b-jp)
LFM2.5-VL-1.6B: [Hugging Face](
https://huggingface.co/LiquidAI/LFM2.5-VL-1.6B),
[LEAP](
https://leap.liquid.ai/models?model=lfm2.5-vl-1.6b),
[Playground](
https://playground.liquid.ai/chat?model=cmk0wefde000204jp2knb2qr8),
[Demo](
https://huggingface.co/spaces/LiquidAI/LFM2.5-VL-1.6B-WebGPU)
LFM2.5-Audio-1.5B: [Hugging Face](
https://huggingface.co/LiquidAI/LFM2.5-Audio-1.5B),
[LEAP](
https://leap.liquid.ai/models?model=lfm2.5-audio-1.5b),
[Playground](
http://playground.liquid.ai/talk)
LiquidAIのモデルは日本語に特化したモデルが多く存在するのが特徴的に感じる。
LFM2-2.6B-Transcript, LiquidAI, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #RecurrentModels #Transcript Issue Date: 2026-01-09 Comment
関連:
- Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07
NVIDIA Cosmos Reason 2 Brings Advanced Reasoning To Physical AI, Nvidia, 2026.01
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Reasoning #LongSequence #SmallModel #ObjectLocalization #VisionLanguageModel #Robotics #SpatialUnderstanding #EmbodiedAI #Physics Issue Date: 2026-01-06 Comment
HF: https://huggingface.co/nvidia/Cosmos-Reason2-8B?linkId=100000401175768
元ポスト:
VAETKI, NC-AI-consortium, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #MultiLingual #MoE(Mixture-of-Experts) Issue Date: 2026-01-03 Comment
元ポスト:
Solar-Open-100B, upstage, 2025.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #MoE(Mixture-of-Experts) #Korean Issue Date: 2026-01-03 Comment
元ポスト:
ポイント解説:
K-EXAONE-236B-A23B, LG AI Research, 2025.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #MultiLingual #MoE(Mixture-of-Experts) Issue Date: 2026-01-03 Comment
関連:
- EXAONE-Deep-32B, LG AI Research, 2025.03
Multi Token Prediction
Sliding Window Attention
256k context length
MoE
元ポスト:
A.X-K1, SK Telecom, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #MoE(Mixture-of-Experts) #Korean Issue Date: 2026-01-03 Comment
元ポスト:
IQuest-Coder, IQuestLab, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Coding #SoftwareEngineering Issue Date: 2026-01-01 Comment
元ポスト:
LFM2-2.6B-Exp, LiquidAI, 2025.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SmallModel #RecurrentModels Issue Date: 2025-12-25 Comment
元ポスト:
関連:
- Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07
ポイント解説:
LFM2にRLによるpost trainingを実施し、指示追従、知識、数学を伸ばしているとのこと。(ドキュメントにもこれは書かれている)
日本語もサポートされている。2.6Bモデルは、22 conv+8 attnと書かれている。
アーキテクチャは下記で、LIV Operatorは入力に応じて異なる線形変換をするオペレータだが、学習された結果convolutionするのが最適ということになったのだろうか?よくわからない。
>Architecture: Hybrid model with multiplicative gates and short convolutions: 10 double-gated short-range LIV convolution blocks and 6 grouped query attention (GQA) blocks.
GLM-4.7: Advancing the Coding Capability, Z.ai, 2025.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #Reasoning #SoftwareEngineering #One-Line Notes #Reference Collection Issue Date: 2025-12-25 Comment
元ポスト:
HF: https://huggingface.co/zai-org/GLM-4.7
デザインアリーナでtop2:
Artificial Intelligence Indexにおいて、OpenModelの中でトップ:
GLM-4.6と比較して、コーディング/SWE, reasoning, tooluseなどの能力が大幅に向上
Interleaved Thinking, Preserved Thinking, Turn-level Thinkingの3つの特性がある。
Interleaved Thinkingは全てのレスポンスとtool callingの前にreasoningを挟むことで、IFや生成品質を向上。
Preserved Thinkingは過去のターンの全てのthinking blockのトークンを保持し、再計算もしないのでマルチターンでの一貫性が増す。
Turn-level Thinkingはターンごとにreasoningを実施するか否かをコントロールでき、latency/costを重視するか、品質を重視するかを選択できる、といった特徴がある模様。
モデルサイズは358B
Qwen3-TTS Steps Up: Voice Cloning and Voice Design, Qwen Team, 2025.12
Paper/Blog Link My Issue
#Article #SpeechProcessing #Blog #Proprietary #TTS Issue Date: 2025-12-25 Comment
元ポスト:
日本語のVoice Cloneもサポートされている
MiniMax M2.1: Significantly Enhanced Multi-Language Programming, Built for Real-World Complex Tasks, MiniMax, 2025.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Coding #Reasoning #SmallModel Issue Date: 2025-12-24 Comment
元ポスト:
解説:
LongCat-Video-Avatar, meituan-longcat, 2025.12
Paper/Blog Link My Issue
#Article #ComputerVision #Transformer #DiffusionModel #VariationalAutoEncoder #VideoGeneration/Understandings #3D (Scene) #One-Line Notes #Audio-Text-to-Video #Audio-Text-Image-to-Video #Video Continuation Issue Date: 2025-12-17 Comment
元ポスト:
アーキテクチャはDiTベースのDiffusion Modelで、3D Variational AutoencoderによってEncode/Decodeされ、3D RoPEによって位置情報が埋め込まれる。DiT Blockでは、テキストとaudio用のcross attentionが用いられてこれらのモーダルに関する情報が組み込まれる。audioはWav2Vecでエンコードされ、テキストはUMT5[^1]によってエンコードされる。
[^1]: multilingualなT5で100言語以上がサポートされている模様
bu-30b-a3b-preview: Meet BU-30B-A3B-Preview — bringing SoTA Browser Use capabilities in a small model that can be hosted on a single GPU., browser-use, 2025.12
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #ComputerUse #VisionLanguageModel Issue Date: 2025-12-17 Comment
元ポスト:
Introducing MiMo-V2-Flash, Xiaomi, 2025.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MoE(Mixture-of-Experts) #AttentionSinks #PostTraining #Selected Papers/Blogs #Reference Collection Issue Date: 2025-12-17 Comment
technical report:
https://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf
HF:
https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash
元ポスト:
関連:
ポイント解説:
attention sink(というより恐らくsink token)により性能が向上している:
言及されているpost trainingが有用らしい:
所見:
省パラメータでtop-tierのモデルに肉薄する方法のヒントがあるかもしれない。
解説:
chatterbox-turbo, ResembleAI, 2025.12
Paper/Blog Link My Issue
#Article #SpeechProcessing #TTS #One-Line Notes #Realtime Issue Date: 2025-12-17 Comment
元ポスト:
realtime(最初の発話まで<150ms)のlatencyが実現されたOpenWeightなTTSで、multilingualモデルは日本語にも対応している模様。テクニカルレポートがないのでよくわからないが、githubがあるのでソースコードを見ればアーキテクチャがわかりそうではある。たとえばVoiceEncoderには(おそらく速度を重視するために)LSTMが利用されていた。
github:
https://github.com/resemble-ai/chatterbox
Molmo 2: State-of-the-art video understanding, pointing, and tracking, Ai2, 2025.12
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #SmallModel #OpenSource #Selected Papers/Blogs #VideoGeneration/Understandings #VisionLanguageModel #2D (Image) #4D (Video) #KeyPoint Notes Issue Date: 2025-12-17 Comment
テクニカルレポート:
https://www.datocms-assets.com/64837/1765901660-molmo_v2_2026-techreport-3.pdf
HF:
https://huggingface.co/collections/allenai/molmo2
Qwen3とOlmoをベースにしたvariantsが存在し、Olmoの方はバックボーンのLLMも含めて全てがオープンになっている。MetaのPerceptionLMと比較して1/8の動画データ量で高い性能を達成できており、データのcurationの品質と、grounding basedな目的関数の工夫によって実現されているとのこと。
proprietaryなモデル群と比較すると、trackingは圧勝、そのほかはGPT5-miniと同様なものが多い。モデルによってタスクの優劣が結構分かれており、Video関連タスクをタスクをまたいで汎化させることにはclosedでも苦戦しているように見える。
オープンモデルとの比較で言うと圧勝で、LongVideoのQAに関してだけは、Eagle2.5-8Bと呼ばれるモデルが勝っている。
あとは全体を通じてLLMのバックボーンがQwen3の場合の性能が良いことが興味深い。バックボーンに採用するLLMに応じて性能が結構変わる。これはアーキテクチャがそもそもConnectorを利用するタイプのもので、Unifiedなアーキテクチャではないことが要因としては考えられる。
元ポスト:
demo:
コードベースが公開:
https://github.com/allenai/molmo2
Olmo 3.1, Ai2, 2025.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #OpenSource #Selected Papers/Blogs Issue Date: 2025-12-13 Comment
元ポスト:
Instruction Followingのベンチマークスコアが、他モデルと比較して非常に高いように見える。
nomos-1, NousResearch, 2025.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #Mathematics #One-Line Notes Issue Date: 2025-12-11 Comment
元ポスト:
30Bの強力な数学モデルで、(同じハーネスでテストした結果)Qwen3-30ba3b-Thinking-2507を大幅に上回る性能を持つとのこと。
GLM-ASR-Nano-2512, Zhipu AI, 2025.12
Paper/Blog Link My Issue
#Article #SpeechProcessing #SmallModel #AutomaticSpeechRecognition(ASR) Issue Date: 2025-12-10 Comment
元ポスト:
AutoGLM-Phone-9B, Zhipu AI, 2025.12
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #SmallModel #VisionLanguageModel Issue Date: 2025-12-10 Comment
元ポスト:
GLM-4.6V, Zhipu AI, 2025.12
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #VisionLanguageModel Issue Date: 2025-12-10 Comment
元ポスト:
Devstral2 Mistral Vibe CLI State-of-the-art, open-source agentic coding models and CLI agent., Mistral AI, 2025.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #SoftwareEngineering Issue Date: 2025-12-10 Comment
SWE Bench VerifiedでOpenweightモデルの中ではSoTAと同等程度を達成。123B, 24Bの2種類がリリース。DeepSeekV3.2, Kimi K2よりも大幅に小さいパラメータで同等以上の性能。独自の人手評価(win, tie, loseのアリーナ形式)によるとSonnet 4.5には負けるがDeepSeekV3.2とは同等以上の割合で好まれた。
元ポスト:
OpenThinker-Agent-v1, open-thoughts, 2025.12
Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #AIAgents #Evaluation #SmallModel #OpenSource #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-12-07 Comment
元ポスト:
-
-
agenticなSLM(8Bモデル)で、モデル、データ(SFT, RL)、学習用のコードなど全て公開。同等規模のモデルQwen3-{8,32B}よりもSWE Bench Verified, Terminal Benchなどで上回る(ただし、Qwen3はgenericなモデルであり、コーディング特化のQwen3-coder-30Bには及ばない。しかしモデルサイズはこちらの方が大きいので何とも言えない。おそらく同等規模のコーディング特化Qwen3が存在しない)。また、SLMのコーディングエージェントの進化をより精緻に捉えるためのベンチマーク OpenThoughts-TB-Devも公開している。こちらでもQwen3-{8, 32B}に対しても高い性能を記録。
[Paper Note] Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail, Pavone+, Nvidia, 2025.10
Paper/Blog Link My Issue
#Article #Dataset #ReinforcementLearning #Reasoning #SmallModel #Robotics #VisionLanguageActionModel #Realtime #AutonomousVehicle Issue Date: 2025-12-06 GPT Summary- AR1は因果連鎖推論と軌道計画を統合した視覚–言語–行動モデルであり、自律運転の意思決定を強化します。主な革新は、因果連鎖データセットの構築、モジュラーVLAアーキテクチャの導入、強化学習を用いた多段階トレーニング戦略です。評価結果では、AR1は計画精度を最大12%向上させ、推論の質を45%改善しました。リアルタイムパフォーマンスも確認され、レベル4の自律運転に向けた実用的な道筋を示しています。 Comment
HF: https://huggingface.co/nvidia/Alpamayo-R1-10B
元ポスト:
Improved accuracy in Smart Turn v3.1, Daily, 2025.12
Paper/Blog Link My Issue
#Article #NeuralNetwork #Transformer #AIAgents #SpeechProcessing #Blog #MultiLingual #OpenSource #One-Line Notes #VAD Issue Date: 2025-12-04 Comment
dataset:
https://huggingface.co/pipecat-ai
code:
https://github.com/pipecat-ai/smart-turn
model:
https://huggingface.co/pipecat-ai/smart-turn-v3
オープンソースのVoice Activity Detection (VAD)モデル。本ブログのv3.1では、TTSデータだけでなく英語とスペイン語の人間によるaudio sampleも追加し学習し性能向上。23言語をサポートし、Accuracyは90%以上を達成。数msでのリアルタイムなlatencyを達成できる。
バックボーンはWhisper Tiny encoderで、headとしてshallow linear classifiesを利用しているとのこと。
Nemotron-Content-Safety-Reasoning-4B, Nvidia, 2025.11
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #Conversation #SmallModel #Safety #Safeguard Issue Date: 2025-12-03 Comment
元ポスト:
Building Safer AI Browsers with BrowseSafe, Perplenity Team, 2025.12
Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #Prompting #Evaluation #Blog #Safety #Safeguard Issue Date: 2025-12-03 Comment
元ポスト:
prompt injectionをリアルタイムに検知するモデルとそのベンチマークとのこと
dataset:
https://huggingface.co/datasets/perplexity-ai/browsesafe-bench
model:
https://huggingface.co/perplexity-ai/browsesafe
Introducing Mistral 3 The next generation of open multimodal and multilingual AI, Mistral AI, 2025.12
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #Blog #MultiLingual #VisionLanguageModel #One-Line Notes Issue Date: 2025-12-03 Comment
元ポスト:
マルチモーダルなベンチマークがほとんどないように見えるMM-MT-Benchというもののみ?
[Paper Notes] Economies of Open Intelligence: Tracing Power & Participation in the Model Ecosystem, Longpre+, 2025.11
Paper/Blog Link My Issue
#Article #ComputerVision #Analysis #NLP #LanguageModel #VisionLanguageModel Issue Date: 2025-11-30 Comment
元ポスト:
MITとHuggingFaceの調査によると、open weightモデルのDLにおいて、米国のAI産業における中国のモデルDL数が米国のモデルを初めて抜いた模様。
ダッシュボード: https://huggingface.co/spaces/economies-open-ai/open-model-evolution
オープンウェイトモデル( gpt-oss )の日本語精度は? – AWS パートナー アクロクエストによる徹底検証, Yamamoto+, 2025.11
Paper/Blog Link My Issue
#Article #Analysis #NLP #Evaluation #Japanese Issue Date: 2025-11-29 Comment
元ポスト:
[Paper Note] Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer, Alibaba, 2025.11
Paper/Blog Link My Issue
#Article Issue Date: 2025-11-27 Comment
HF: https://huggingface.co/Tongyi-MAI/Z-Image-Turbo
元ポスト:
ポイント解説:
公式ポスト:
Hunyuan Video 1.5 Technical Report, Tencent, 2025.11
Paper/Blog Link My Issue
#Article #ComputerVision #Transformer #DiffusionModel #VideoGeneration/Understandings Issue Date: 2025-11-21 Comment
pj page:
https://hunyuan.tencent.com/video/zh?tabIndex=0
HF:
https://huggingface.co/tencent/HunyuanVideo-1.5
元ポスト:
NVIDIA-Nemotron-Parse-v1.1, NVIDIA, 2025.11
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #TabularData #read-later #DocParser #VisionLanguageModel #OCR Issue Date: 2025-11-20 Comment
元ポスト:
olmocr2と比較して性能はどうだろうか、特に日本語
- olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10
Introducing zerank-2: The Most Accurate Multilingual Instruction-Following Reranker, ZeroEntropy, 2025.11
Paper/Blog Link My Issue
#Article #RecommenderSystems #Embeddings #InformationRetrieval #NLP #Blog #Reranking Issue Date: 2025-11-20 Comment
HF: https://huggingface.co/zeroentropy/zerank-2
SoTA reranker
Holo2: Cost-Efficient Models for Cross-Platform Computer-Use Agents, H Company, 2025.11
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #AIAgents #Blog #ComputerUse #Selected Papers/Blogs #VisionLanguageModel #Grounding #GUI Issue Date: 2025-11-14 Comment
HF: https://huggingface.co/collections/Hcompany/holo2
元ポスト:
関連:
- Holo1.5 - Open Foundation Models for Computer Use Agents, H Company, 2025.09
Omnilingual ASR: Advancing Automatic Speech Recognition for 1,600+ Languages, Meta, 2025.11
Paper/Blog Link My Issue
#Article #Transformer #SpeechProcessing #MultiLingual #AutomaticSpeechRecognition(ASR) #Selected Papers/Blogs #AudioLanguageModel Issue Date: 2025-11-12 Comment
Introducing Kimi K2 Thinking, MoonshotAI, 2025.11
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Reasoning #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-11-07 Comment
HF: https://huggingface.co/moonshotai
元ポスト:
coding系ベンチマークでは少しGPT5,Claude Sonnet-4.5に劣るようだが、HLE, BrowseCompなどではoutperform
tooluseのベンチマークであるtau^2 Bench TelecomではSoTA
モデルの図解:
INT4-QATに関する解説:
INT4-QATの解説:
Kimi K2 DeepResearch:
METRによる50% timehorizonの推定は54分:
ただしサードパーティのinference providerによってこれは実施されており、(providerによって性能が大きく変化することがあるため)信頼性は低い可能性があるとのこと。
METRでの評価でClaude 3.7 Sonnetと同等のスコア:
openweightモデルがproprietaryモデルに追いつくのはsoftwere engineeringタスク(agenticなlong horizon+reasoningタスク)9ヶ月程度を要しているとのこと
OlmoEarth-v1-Large, Ai2, 2025.11
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #FoundationModel #2D (Image) Issue Date: 2025-11-06 Comment
元ポスト:
衛星画像で学習されたモデルらしい
Open-weight models lag state-of-the-art by around 3 months on average, EPOCH AI, 2025.10
Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #Blog Issue Date: 2025-11-01 Comment
タイトルの通りな模様
元ポスト:
LongCat-Flash-Omni Technical Report, 2025.10
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #SpeechProcessing #MoE(Mixture-of-Experts) #2D (Image) #UMM #4D (Video) #Omni #audio #text Issue Date: 2025-11-01 Comment
元ポスト:
HF: https://huggingface.co/meituan-longcat/LongCat-Flash-Omni
text, image/video, audioをinputし、audioを生成するomniモデル
gpt-oss-safeguard, OpenAI, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #Safety #One-Line Notes #Safeguard Issue Date: 2025-10-30 Comment
元ポスト:
blog: https://openai.com/index/introducing-gpt-oss-safeguard/
ポリシーとそのポリシーに従うべきコンテンツが与えられたときに、コンテンツを分類するタスクを実施できる汎用的なreasoningモデル。つまり、任意のポリシーを与えて追加の学習なしでpromptingによってコンテンツがポリシーのもとでsafe/unsafeなのかを分類できる。
gpt-ossをreinforcbment finetuningしているとのこと。
Marin 32B Retrospective, marin-community, 2025.10
Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #Blog #OpenSource #Selected Papers/Blogs Issue Date: 2025-10-30 Comment
元ポスト:
lossのスケーリング則に基づいた今後の見通し:
pj pageはこちら:
https://marin.community
Ming-flash-omni-Preview, inclusionAI, 2025.10
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #TTS #Routing #UMM #Omni #Sparse #ImageSynthesis #Initial Impression Notes Issue Date: 2025-10-28 Comment
元ポスト:
過去一番多くのタグを付与した気がするが、果たして大規模、Omniモーダルかつ、UMMにしたことによる恩恵(=様々なモダリティを統一された空間上に学習させる恩恵)はどの程度あるのだろうか?
アーキテクチャを見ると、モダリティごとに(モダリティ単位でのバイアスがかかった)Routerが用意されexpertにルーティングされるような構造になっている。
OmniモーダルでUMMを大規模にスクラッチから事前学習:
- [Paper Note] ERNIE 5.0 Technical Report, Haifeng Wang+, arXiv'26, 2026.02
LLaDA 2.0, inclusionAI, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #DiffusionModel #MoE(Mixture-of-Experts) Issue Date: 2025-10-28 Comment
元ポスト:
MiniMax-M2: Intelligence, Performance & Price Analysis, Artificial Analysis, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Selected Papers/Blogs #Reference Collection Issue Date: 2025-10-26 Comment
元ポスト:
関連:
- [Paper Note] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning
Attention, MiniMax+, arXiv'25, 2025.06
CISPOを提案したMiniMax-M1の後続モデルと思われるMiniMax-M2-previewが中国製のモデルでArtificial Intelligenceでの評価でトップに立った模様。
所見:
モデルが公開:
https://huggingface.co/MiniMaxAI/MiniMax-M2
proprietaryモデルになるもんだと思ってた、、、これを公開するの凄すぎでは、、、
公式ポスト:
MITライセンス
vLLMでのserving方法:
https://docs.vllm.ai/projects/recipes/en/latest/MiniMax/MiniMax-M2.html
> You can use 4x H200/H20 or 4x A100/A800 GPUs to launch this model.
上記GPUにおいては--tensor-parallel-size 4で動作する模様。
SGLangでもサポートされている:
AnthropicのAPIの利用をお勧めする理由:
(以下管理人の補足を含みます)MiniMax-M2はAgenticなCoTをするモデルなので、contextの情報を正しく保持する必要がある。特に、マルチターンのやり取りをAPIを介してユーザが実行する場合、OpenAIのchatcompletionはCoTを返してくれず、マルチターンのやり取りをしても同じsessionで利用したとしても、前のターンと同じCoTが利用されないことがドキュメントに記述されている。このような使い方をサポートしているのはResponceAPIのみであるため、ResponceAPIでのみ適切なパフォーマンスが達成される。この点がconfusingなので、誤った使い方をするとMiniMaxの真価が発揮されず、しかもそれに気づけずに使い続けてしまう可能性がある。AnthropicのAPIではSonnet 4.5では全ての応答に明示的にCoTが含まれるため、その心配がない、だからAnthropicがおすすめ、みたいな話だと思われる。
アーキテクチャ解説:
解説:
LongCat-Video Techcal Report, Meituan LongCat Team, 2025.10
Paper/Blog Link My Issue
#Article #ComputerVision #Transformer #DiffusionModel #TextToImageGeneration #LongSequence #VariationalAutoEncoder #VideoGeneration/Understandings Issue Date: 2025-10-26 Comment
元ポスト:
HF: https://huggingface.co/meituan-longcat/LongCat-Video
公式ポスト:
Introducing MiMo-Audio, LLM-Core Xiaomi, 2025.10
Paper/Blog Link My Issue
#Article #Pretraining #InstructionTuning #SpeechProcessing #Reasoning #SmallModel #Zero/FewShotLearning #Selected Papers/Blogs #UMM #AudioLanguageModel Issue Date: 2025-10-25 Comment
HF: https://huggingface.co/collections/XiaomiMiMo/mimo-audio
元ポスト:
text, audioを入力として受け取り、text, audioを出力するAudioLanguageModel
zerank-1, zeroentropy, 2025.07
Paper/Blog Link My Issue
#Article #RecommenderSystems #InformationRetrieval #Encoder #Reranking Issue Date: 2025-10-23 Comment
SoTAなcross-encoderに基づくreranker。おそらく英語にのみ対応。
zerank-1はcc-by-nc-4.0, smallはApache2.0ライセンス
LFM2-VL-3B: A New Efficient Vision-Language for the Edge, LiquidAI, 2025.10
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #SmallModel #MultiLingual #VisionLanguageModel Issue Date: 2025-10-22 Comment
元ポスト:
HF: https://huggingface.co/LiquidAI/LFM2-VL-3B
SigLIP2とLFM2がバックボーン
- Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07
dots.ocr, rednote-hilab, 2025.07
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #SmallModel #MultiLingual #DocParser #VisionLanguageModel #OCR Issue Date: 2025-10-22 Comment
100+言語のdots.ocr benchと呼ばれるものでの性能も報告されているが、日本語性能はどのくらいなのだろうか
MIT Licence
参考:VLMを使った多言語ドキュメントパーサ「dots.ocr」を試す, kun432, Zenn
https://zenn.dev/kun432/scraps/b91fce6fbeb30c
日本語もかなりいけてそう
Chandra, datalab-to, 2025.10
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiLingual #DocParser #OCR Issue Date: 2025-10-22 Comment
元ポスト:
SoTA.だったdots.ocrというモデルをoutperformしている模様
40+ languagesをサポート
AI PUBS OpenRAIL-M Modifiedライセンス🤔
https://huggingface.co/datalab-to/chandra/blob/main/LICENSE
dots.ocrはMIT Licence
- dots.ocr, rednote-hilab, 2025.07
LFM2-350M-PII-Extract-JP, LiquidAI, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SmallModel #Japanese #RecurrentModels #PII Issue Date: 2025-10-14 Comment
元ポスト:
ポイント解説:
関連:
- Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07
Ring-1T, inclusionAI, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning Issue Date: 2025-10-14 Comment
元ポスト:
inclusionAIから続々とfrontierなモデルが出てきている。
テクニカルレポートが公開:
- [Paper Note] Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale
Thinking Model, Ling Team+, arXiv'25, 2025.10
K2 Vendor Verifier, MoonshotAI, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Evaluation Issue Date: 2025-10-12 Comment
Kimi K2のプロバイダー間でのツール呼び出しの性能の違いを確認できる
元ポスト:
関連:
- Kimi-K2-Instruct-0905, MoonshotAI, 2025.09
- Kimi K2: Open Agentic Intelligence, moonshotai, 2025.07
Introducing Stable Diffusion 3.5, StabilityAI, 2024.10
Paper/Blog Link My Issue
#Article #ComputerVision #Transformer #DiffusionModel #TextToImageGeneration #Blog #Selected Papers/Blogs Issue Date: 2025-10-10 Comment
SD3.5
commonvoice22_sidon, sarulab-speech, 2025.10
Paper/Blog Link My Issue
#Article #SpeechProcessing #MultiLingual #TTS Issue Date: 2025-10-09 Comment
元ポスト:
134言語サポートのTTS
colbert-muvera-femto, NeuML, 2025.10
Paper/Blog Link My Issue
#Article #Embeddings #NLP #SmallModel #Encoder Issue Date: 2025-10-09 Comment
元ポスト:
Jamba Reasoning 3B, AI21Labs, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SmallModel #SSM (StateSpaceModel) Issue Date: 2025-10-09 Comment
元ポスト:
LFM2-8B-A1B: An Efficient On-device Mixture-of-Experts, LiquidAI, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #SmallModel #MoE(Mixture-of-Experts) #RecurrentModels Issue Date: 2025-10-08 Comment
HF: https://huggingface.co/LiquidAI/LFM2-8B-A1B
元ポスト:
日本語もサポートしているとのこと
関連:
- Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07
エージェント機能が大幅に強化されたPLaMo 2.1 Primeの提供開始, PFN, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Japanese Issue Date: 2025-10-07 Comment
マルチターンのtool callingのベンチマーク のSimple, Multiple(それぞれ単一ツール呼び出し、複数のツールの中から適切なツールを呼び出す能力)でBFCVv3でGPT-5超え。ただしGPT-5はツール呼び出しではなくユーザと対話する傾向にあるため、chatアプリケーションではこちらの方が有用な場合があるので全てのユースケースでPLaMoが上回ることを示しているわけではない、という注釈がついている。より実験的な環境であるLive MultipleではGPT-5の方がスコアが高い模様。
- BFCLv2, UC Berkeley, 2024.08
単一呼び出し、複数定義されている中から適切なツールを呼び出すことで済むようなユースケースの場合は検討の余地があると思われる。ただし細かいreasoning_effortやverbosity等のパラメータ設定が記述されていないように見えるので、その辺はどうなんだろうか。
CODA: Coding LM via Diffusion Adaption, Chen+, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #DiffusionModel #Coding #SmallModel #OpenSource Issue Date: 2025-10-05 Comment
元ポスト:
HF:
https://huggingface.co/Salesforce/CoDA-v0-Instruct
cc-by-nc-4.0
Ming-UniVision: Joint Image Understanding and Generation via a Unified Continuous Tokenizer, inclusionAI, 2025.10
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #UMM Issue Date: 2025-10-03 Comment
HF: https://huggingface.co/inclusionAI/Ming-UniVision-16B-A3B
元ポスト:
Ming-UniAudio: Speech LLM for Joint Understanding, Generation and Editing with Unified Representation, inclusionAI, 2025.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SpeechProcessing #Blog #Editing Issue Date: 2025-10-03 Comment
元ポスト:
Ming-Omniの後継モデルで、スピーチに特化して書き起こし、理解、編集などができるモデル
HF: https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B
公式ポスト:
IBM Granite 4.0: hyper-efficient, high performance hybrid models for enterprise, IBM, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Transformer #LongSequence #SmallModel #SSM (StateSpaceModel) Issue Date: 2025-10-02 Comment
元ポスト:
Mamba2とtransformerのハイブリッドモデルで、比率は9:1とMamba2ブロックが多めらしい。Mamba2の恩恵によりlokg-context時のメモリ使用量が70パーセント削減されるとのこと。
Apriel-1.5-15b-Thinker, ServiceNow-AI, 2025.09
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #Reasoning #SmallModel #VisionLanguageModel Issue Date: 2025-10-01 Comment
元ポスト:
Artificial Analysisによるベンチマーキングでは現状<20BでSoTAなReasoningモデルな模様。
MIT License
公式ポスト:
Nvidiaによるポスト:
GLM-4.6: Advanced Agentic, Reasoning and Coding Capabilies, Zhipu AI, 2025.09
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #MoE(Mixture-of-Experts) #read-later #VisionLanguageModel #One-Line Notes Issue Date: 2025-09-30 Comment
元ポスト:
続報:
Artificial Intelligenceによる評価:
OpenWeightモデルの中でトップレベルのベンチスコア
HFにてモデルが公開された模様。ベンチマークのスコアを見て思ったが、106BA12Bのモデルと9Bモデルのスコア差がベンチマークによっては小さいので、場合によってはSLMの方でtest time scacingを効かせた方が、時間的な制約がきつい場合は現実的には高い性能が出るのでは?
InternVL3.5-Flash, OpenGVLab, 2025.09
Paper/Blog Link My Issue
#Article #ComputerVision #Reasoning #VisionLanguageModel Issue Date: 2025-09-29 Comment
元ポスト:
Ring-1T-preview, inclusionAI, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning Issue Date: 2025-09-29 Comment
元ポスト:
DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention, DeepSeek-AI, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Attention #Reference Collection #Sparse #SparseAttention Issue Date: 2025-09-29 Comment
元ポスト:
DeepSeek Sparse Attentionポイント解説:
解説:
DSA図解:
ポイント解説:
公式ポスト:
HunyuanImage-3.0, Tencent, 2025.09
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #UMM #One-Line Notes Issue Date: 2025-09-29 Comment
元ポスト:
所見:
テキスト生成+画像理解・生成が可能なUnified Multimodal Models (UMMs)。テキストはtokenizer、画像は生成用エンコーダ、理解用エンコーダを用意してエンコードしDecoder-Only Tranformerに入力。auto-regressiveに生成し、テキストはDe-Tokenizerでテキスト化、画像の場合は専用のDecoderでデコードする。
Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #FoundationModel #Blog #RecurrentModels #Operator #EdgeDevices Issue Date: 2025-09-26 Comment
元ポスト:
LiquidAIによるedgeデバイス向けのFoundation Model。品質、スピード、メモリ、ハードウェアのバランスを最適にしておるとのこと。たとえばQwenと比較して2倍のデコードとprefill速度とのこと。また、同サイズのモデル群よりも高い性能を実現しているらしい。
下記グラフはMMLU, IFEval,IFBENCH,GSM8K,MMMLUでの評価の平均。他にもGPQA,MGSMでも評価しており、同サイズのモデルと比べて同等か少し劣るくらい。
アーキテクチャはRNNをベースにしており、従来の時間がstepごとに発展するRNNではなく、連続時間を扱えるようなRNNの変種なようでより柔軟に時間スケールを扱えるようなアーキテクチャらしい。また、LIV Operatorと呼ばれる入力に応じて動的に異なる線形変換を実施するOperatorを採用している模様。たとえば入力に応じて、convolution, attention, recurrenceなどのoperationが変化する。これに基づいて、さまざまなアーキテクチャのNNを定義できるようになったので、最適なアーキテクチャを模索するためにSTARと呼ばれるアルゴリズムでNeural Architecture Searchを実施した模様。
メモリに制約があるエッジデバイス向けにKVCache不要で現在の隠れ状態のみを保持すれば良いRNNベースのアーキテクチャを採用するのは理に適っている。
日本語解説: https://qiita.com/peony_snow/items/36fb856925c2d7beef26
Liquid Nanos, LiquidAI, 2025.09
Paper/Blog Link My Issue
#Article #MachineTranslation #NLP #LanguageModel #AIAgents #RAG(RetrievalAugmentedGeneration) #Mathematics #SmallModel #Japanese #DocParser #EdgeDevices Issue Date: 2025-09-26 Comment
blog: https://www.liquid.ai/blog/introducing-liquid-nanos-frontier-grade-performance-on-everyday-devices
モデルファミリーに350Mの日英翻訳モデルが含まれている…だと!?
タスクスペシフィックなedgeデバイス向けのSLM群。
以下のようなモデルファミリー。非構造テキストからのデータ抽出、日英翻訳、RAG, tooluse, Math, フランス語のチャットモデル。これまでマルチリンガルに特化したMTとかはよく見受けられたが、色々なタスクのSLMが出てきた。
元ポスト:
LFM2はこちら:
- Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07
Qwen3-Guard, Qwen Team, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Safety #Safeguard Issue Date: 2025-09-23 Comment
元ポスト:
Qwen3-VL, Qwen Team, 2025.09
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #VisionLanguageModel Issue Date: 2025-09-23 Comment
元ポスト:
DocVQAのオラクルはラベルノイズと曖昧性の観点から94--95という主張:
Qwen3 VL cookbook:
https://github.com/QwenLM/Qwen3-VL/tree/main/cookbooks
元ポスト:
続報:
Qwen3-Omni, Qwen Team, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Omni #Reference Collection Issue Date: 2025-09-23 Comment
テクニカルレポート: https://github.com/QwenLM/Qwen3-Omni/blob/main/assets/Qwen3_Omni.pdf
公式ポスト:
元ポスト:
ポイント解説:
日本語で音声to音声可能:
Artificial Analysisによる評価:
Qwen3-Next-series-FP8, Qwen Team, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Quantization #Reasoning #LowPrecision Issue Date: 2025-09-23 Comment
元ポスト:
DeepSeek-V3.1-Terminus, deepseek-ai, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning Issue Date: 2025-09-23 Comment
元ポスト:
vLLMでデプロイする時のtips:
LongCat-Flash-Thinking, meituan-longcat, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #read-later #Selected Papers/Blogs #ModelMerge Issue Date: 2025-09-22 Comment
元ポスト:
ポイント解説:
関連:
- LongCat-Flash-Chat, meituan-longcat, 2025.08
- [Paper Note] Libra: Assessing and Improving Reward Model by Learning to Think, Meng Zhou+, arXiv'25, 2025.07
Ring-flash-2.0, inclusionAI, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #MoE(Mixture-of-Experts) Issue Date: 2025-09-20 Comment
元ポスト:
- Ling-flash-2.0-baseをベースにしたモデルで、100B-A6.1 params
- 各種ベンチでgpt-oss-120Bと同等以上。denseな40Bモデル(Qwen-32B, Seed-OSS-36B-Instruct)やproprietary modelであるGemini-2.5-Flashと比較して同等以上の性能
- アーキテクチャ
- Multi Token Prediction [Paper Note] Multi-Token Prediction Needs Registers, Anastasios Gerontopoulos+, NeurIPS'25
- 1/32 experts activation ratio
- gpt-oss-120Bは4 expertsがactiveだが、こちらは1 shared + 8 experts
- attention head数はgpt-oss-120Bの64の1/2である32
- group size 4のGQA [Paper Note] GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, arXiv'23, 2023.05
- gpt-oss-120BのEmbed dim=2880に対して大きめのEmbed dim=4096
- 最初の1ブロックだけ、MoEの代わりにhidden_size=9216のFNNが利用されている
Magistral-Small-2509, MistralAI, 2025.09
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #Reasoning #VisionLanguageModel Issue Date: 2025-09-18 Comment
元ポスト:
granite-docling-258M, IBM, 2025.09
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #DocParser #VisionLanguageModel Issue Date: 2025-09-18 Comment
元ポスト:
Apache 2.0, 言語は英語のみ
Ling-flash-2.0, inclusionAI, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MoE(Mixture-of-Experts) Issue Date: 2025-09-18 Comment
100B-A6.1B, 20Tトークンで学習, SFT+マルチステージRL, 40Bパラメータ以下のモデルの中でSoTA, 200+tokens/secのデコーディング速度
元ポスト:
公式ポスト:
Tongyi DeepResearch: A New Era of Open-Source AI Researchers, Tongyi Lab, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #DeepResearch Issue Date: 2025-09-17 Comment
元ポスト:
ベンチマーク:
- [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25, 2025.01
- [Paper Note] BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, Jason Wei+, arXiv'25
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23
- [Paper Note] xbench: Tracking Agents Productivity Scaling with Profession-Aligned
Real-World Evaluations, Kaiyuan Chen+, arXiv'25
- [Paper Note] SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric
Knowledge, Lukas Haas+, arXiv'25
- [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25
- [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, NAACL'25
- [Paper Note] BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language
Models in Chinese, Peilin Zhou+, arXiv'25
関連研究:
- [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25
- [Paper Note] WebDancer: Towards Autonomous Information Seeking Agency, Jialong Wu+, arXiv'25
- [Paper Note] WebSailor: Navigating Super-human Reasoning for Web Agent, Kuan Li+, arXiv'25
- [Paper Note] WebShaper: Agentically Data Synthesizing via Information-Seeking
Formalization, Zhengwei Tao+, arXiv'25
- [Paper Note] WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent, Xinyu Geng+, arXiv'25
- [Paper Note] WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon
Agents, Zile Qiao+, arXiv'25
- [Paper Note] ReSum: Unlocking Long-Horizon Search Intelligence via Context
Summarization, Xixi Wu+, arXiv'25
- [Paper Note] WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for
Open-Ended Deep Research, Zijian Li+, arXiv'25
- [Paper Note] WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic
Data and Scalable Reinforcement Learning, Kuan Li+, arXiv'25
- [Paper Note] Scaling Agents via Continual Pre-training, Liangcai Su+, arXiv'25
- [Paper Note] Towards General Agentic Intelligence via Environment Scaling, Runnan Fang+, arXiv'25
Holo1.5 - Open Foundation Models for Computer Use Agents, H Company, 2025.09
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #ComputerUse #GRPO #VisionLanguageModel #GUI Issue Date: 2025-09-16 Comment
7BのみApache 2.0ライセンス。3BはQwenのライセンスを継承し、72Bはnon-commercialライセンスらしい
モデルカードとブログによると下記モデル群とSonnet 4 よりもComputer Use関連ベンチマーク(GUI上での位置を特定するUI LocalizationとScreen Contentの理解およびQA関連のベンチマーク)で高性能とのこと:
- [Paper Note] UI-Venus Technical Report: Building High-performance UI Agents with RFT, Zhangxuan Gu+, arXiv'25
- [Paper Note] UI-TARS: Pioneering Automated GUI Interaction with Native Agents, Yujia Qin+, arXiv'25, 2025.01
- Qwen2.5-VL-32B-Instruct, Qwen Team, 2025.03
モデルカードによるとopen sourceデータのmixと、合成データ、人手でアノテーションされたデータを用いて、SFT->GRPOによって学習されたとだけ書かれている。
Ring-mini-2.0, inclusionAI, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SmallModel Issue Date: 2025-09-12 Comment
元ポスト:
ポイント解説:
- Ling V2, inclusionAI, 2025.09
をベースモデルとしてLong CoT SFT, RLVR, RLHFを実施した結果、code, math, logic, science関連のベンチでgpt-oss-20B(medium)を超えているらしい。
Joint Trainingと書かれているが詳細はなく、よくわからない。
Ling V2, inclusionAI, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SmallModel Issue Date: 2025-09-11 Comment
元ポスト:
所見:
blog:
https://huggingface.co/blog/im0qianqian/ling-mini-2-fp8-mixed-precision-training-solution
元ポスト:
ERNIE-4.5-21B-A3B-Thinking, Baidu, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #MoE(Mixture-of-Experts) #read-later #VisionLanguageModel Issue Date: 2025-09-10 Comment
元ポスト:
-
-
テクニカルレポート: https://ernie.baidu.com/blog/publication/ERNIE_Technical_Report.pdf
logical reasoning, 数学、コーディング、科学、数学、テキスト生成などの分野で21B-A3Bパラメータにも関わらずDeepSeek-R1に高い性能を達成しているように見える。コンテキストウィンドウは128k。
何が決め手でこのやうな小規模モデルで高い性能が出るのだろう?テクニカルレポートを読んだらわかるんだろうか。
Kimi-K2-Instruct-0905, MoonshotAI, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel Issue Date: 2025-09-05 Comment
以前と比較してSWE Bench系の性能が大幅に向上しているように見える
元ポスト:
公式ポスト:
Artificial Analysisによるベンチマーキング結果:
Agenticな能力が顕著に改善している旨が記述されている。
Creative Short Story Benchmarkと呼ばれるでSoTA:
ベンチマーク:
https://github.com/lechmazur/writing
キャラクター、object, tone, Attributeなどのストーリーを構成する要素のみを指定して、600-800程度のストーリーを記述させるベンチマークで、評価は18個のルーブリック(8こすのルーブリックでnarrativeとしての品質を評価し、残りで構成やrequirementsを満たしているかなどの評価をする)に基づく複数LLMによるLLM-as-a-Judgeによるスコアリング結果を集約することで実施している模様。
スコアリングに利用されているLLMは下記:
- Claude Opus 4.1 (no reasoning)
- DeepSeek V3.1 Reasoner
- Gemini 2.5 Pro
- GPT-5 (low reasoning)
- Grok 4
- Kimi K2
- Qwen 3 235B A22B 25-07 Think
複数LLMを利用しているとはいえ、評価対象のモデルもgradeで利用するモデルに含まれているのは気になるところ。あとはnarrativeの品質評価はLLMでどこまでできるのだろうか。
Introducing EmbeddingGemma: The Best-in-Class Open Model for On-Device Embeddings, Google, 2025.09
Paper/Blog Link My Issue
#Article #Embeddings #NLP #MultiLingual Issue Date: 2025-09-05 Comment
HF: https://huggingface.co/collections/google/embeddinggemma-68b9ae3a72a82f0562a80dc4
元ポスト:
解説:
解説:
APERTUS: DEMOCRATIZING OPEN AND COMPLIANT LLMS FOR GLOBAL LANGUAGE ENVIRONMENTS, Apertus Team, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MultiLingual #OpenSource Issue Date: 2025-09-03 Comment
HF: https://huggingface.co/collections/swiss-ai/apertus-llm-68b699e65415c231ace3b059
元ポスト:
1811カ国語に対応した、スイス発のOpenSource(=学習データ、学習のレシピ、学習データを再現するためのスクリプトも公開されている) LLM。8B / 70Bが存在。
Apache 2.0 + Apertus LLM Acceptable Use Policy
解説:
HunyuanWorld-Voyager: Technical Report, Tencent, 2025.09
Paper/Blog Link My Issue
#Article #ComputerVision #WorldModels Issue Date: 2025-09-02 Comment
pj page: https://3d-models.hunyuan.tencent.com/world/
元ポスト:
August 2025 - China Open Source Highlights, 2025.09
Paper/Blog Link My Issue
#Article #Survey #ComputerVision #NLP #LanguageModel #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-09-02 Comment
元ポスト:
LongCat-Flash-Chat, meituan-longcat, 2025.08
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-08-31 Comment
テクニカルレポート: https://github.com/meituan-longcat/LongCat-Flash-Chat/blob/main/tech_report.pdf
元ポスト:
Agent周りのベンチで高性能なnon thinkingモデル。毎秒100+トークンの生成速度で、MITライセンス。Dynamic Activation...?
Dynamic Activation (activation paramが入力に応じて変化(全てのトークンをMoEにおいて均一に扱わない)することで効率化)は、下記を利用することで実現している模様
- [Paper Note] MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts, Peng Jin+, ICLR'25
しかし中国は本当に次々に色々な企業から基盤モデルが出てくるなぁ…すごい
- [Paper Note] Scaling Exponents Across Parameterizations and Optimizers, Katie Everett+, ICML'24
解説:
解説:
OLMoASR: A series of open speech recognition models, Ai2, 2025.08
Paper/Blog Link My Issue
#Article #SpeechProcessing #AutomaticSpeechRecognition(ASR) #OpenSource Issue Date: 2025-08-29 Comment
元ポスト:
オープンソースのOLMOシリーズから英語のASRが登場
モデルとトークナイザはWhisperと同様な模様
technical report:
https://github.com/allenai/OLMoASR/blob/main/tech_report/olmoasr_tech_report.pdf
Wan-S2V: Audio-Driven Cinematic Video Generation, Alibaba, 2025.08
Paper/Blog Link My Issue
#Article #ComputerVision #Transformer #VideoGeneration/Understandings #Encoder-Decoder Issue Date: 2025-08-27 Comment
元ポスト:
関連:
- Wan2.2, Alibaba Wan, 2025.07
image+Audio-to-video generation
Audioモダリティ: wav2vec+AudioEncoder
Visionモダリティ: 3D VAE Encoder
Textモダリティ: T5 Encoder
モダリティ統合: DiT Block(おそらくT5 Encoderの出力を用いてprompt情報を条件付け)とAudio Block?
3D VAE Decoderでデコードというアーキテクチャ?詳細が書かれておらずよくわからない。
MiniCPM-V-4_5, openbmb, 2025.08
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #VisionLanguageModel Issue Date: 2025-08-27 Comment
元ポスト:
VibeVoice-1.5B, microsoft, 2025.08
Paper/Blog Link My Issue
#Article #LanguageModel #SpeechProcessing #LongSequence #MultiLingual #TTS Issue Date: 2025-08-25 Comment
元ポスト:
> Unsupported language – the model is trained only on English and Chinese data; outputs in other languages are unsupported and may be unintelligible or offensive.
日本語は対応していないので注意
outputできるspeechのlengthが先行研究より非常に長く、90分近く生成できる模様?
Command A Reasoning: Enterprise-grade control for AI agents, Cohere, 2025.08
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning Issue Date: 2025-08-22 Comment
HF: https://huggingface.co/CohereLabs/command-a-reasoning-08-2025
元ポスト:
Agent関連ベンチでR1, gptoss超え。DeepResearchベンチでプロプライエタリLLMと比べてSoTA。safety関連ベンチでR1, gptoss超え。
す、すごいのでは、、?
CC-BY-NC 4.0なので商用利用不可
サマリ:
DeepSeek-V3.1-Base, deepseek-ai, 2025.08
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning Issue Date: 2025-08-21 Comment
元ポスト:
数日前からモデル自体は公開されていたが、モデルカードが追加された
- hybrid thinking
- post-trainingによるtool calling capability向上
- token efficiencyの向上
解説:
解説:
サマリ:
Swallow LLM Leaderboard v2, Swallow LLM Team, 2025.08
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #Proprietary #Japanese #Selected Papers/Blogs Issue Date: 2025-08-20 Comment
元ポスト:
LLMの性能を公平な条件で評価するために、従来のnon thinkingモデルで採用していた方法はthinkingモデルでは過小評価につながることが明らかになった(e.g., non thinkingモデルはzero shotを標準とするが、thinkingモデルではfewshot、chat templateの採用等)ため、日本語/英語ともに信頼の高い6つのベンチマークを採用し、thinkingモデルに対して公平な統一的な評価フレームワークを確立。主要なプロプライエタリ、OpenLLMに対して評価を実施し、リーダーボードとして公開。Reasoningモデルに対する最新の日本語性能を知りたい場合はこちらを参照するのが良いと思われる。
評価に用いられたフレームワークはこちら:
https://github.com/swallow-llm/swallow-evaluation-instruct
主要モデルの性能比較:
OLMo-2-0425-1B-early-training, allenai, 2025.08
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SmallModel #OpenSource Issue Date: 2025-08-20 Comment
元ポスト:
OLPO 2 1Bモデルの10000step/21B tokenごとの事前学習時のチェックポイント群。(0--40000step, 0--63B tokenizerの4つが存在している模様)。事前学習のearly stageの研究用にリリース。興味深い
たとえば
- [Paper Note] WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM
Pre-training, Changxin Tian+, arXiv'25
- [Paper Note] Temporal Sampling for Forgotten Reasoning in LLMs, Yuetai Li+, arXiv'25, 2025.05
を試してみたりできるのだろうか。
関連:
- [Paper Note] OLMo: Accelerating the Science of Language Models, Dirk Groeneveld+, arXiv'24, 2024.02
- OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini, AllenAI, 20250.3
Qwen-Image-Edit, Qwen, 2025.05
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #VisionLanguageModel #Editing Issue Date: 2025-08-19 Comment
元ポスト:
公式ポスト:
Imageを入力して、テキストで条件づけることで編集できるOpenWeightモデル
参考:25/08/20 とりまQwenImageEditを試す
https://six-loganberry-ba7.notion.site/25-08-20-QwenImageEdit-255f7e7600e980f48e09cc7252ea1677
元ポスト:
Image Edit Arenaで2位:
Introducing Gemma 3 270M: The compact model for hyper-efficient AI, Google, 2025.05
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SmallModel Issue Date: 2025-08-15 Comment
元ポスト:
RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation, Jiang+, Alibaba, 2025.08
Paper/Blog Link My Issue
#Article #NLP #Transformer #Blog #VariationalAutoEncoder #VideoGeneration/Understandings #Robotics #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-08-12 Comment
TL;DRは下記。
> We introduce RynnVLA-001, a vision-language-action model built upon large-scale video generative pre-training.
> - RynnVLA-001 is pretrained on ~12M ego-centric manipulation videos.
> - We unify next-frame prediction and next-action prediction into a single transformer.
> - We train a lightweight VAE to accurately compress action chunks into action embeddings.
> - Our RynnVLA-001 outperforms Pi-0 and GR00T-N1.5, in terms of both real-world task success rate and instruction-following capability.
まず、11.93Mの一人称視点での人間が操作(特に手の操作)をする動画と、244Kのrobotが操作をする動画でTransformerを事前学習する。このとき、actionラベルは一切用いず、pixelの情報から物理世界のダイナミクスを理解させる。続いて、Action Chunks(複数のアクションの少量のかたまり)を、dense embeddingにエンコードするVAEを学習する。チャンクを用いる理由は、ピクセルの変化が微小な場合、同じアクションが連続して予測されてしまいstuckしめしまう現象を防ぐこと、予測の効率が良いからとのこと。これによりVLAは単一のembedding vectorを予測するだけで、一貫性のあるアクション系列にデコードできる。最後に、step1で学習したvideo generationモデルと、step2で学習したVAEによるaction representationを統合する。具体的には、next frame prediction(visual tokenを予測; cross entropy loss)とnext action prediction(action edbeddingを予測する)を統合して学習する。action embeddingはcontinuousなベクトルなので異なるヘッドを用意して学習する(L1 Loss)。inference時はRGBのobservationと、テキストによるinstructionを入力として受け取り、action embeddingを予測する。action edbeddingはVAE decoderに渡され、low levelなaction系列に変換される。robotは予測されたアクションを実行し、observationが変化するのでまた予測する、といったiterationを実施する。visual tokenによる予測は不要なので、計算効率の観点から実施しない。
元ポスト:
HF: https://huggingface.co/Alibaba-DAMO-Academy/RynnVLA-001-7B-Base
Breakdown: Kimi K2, DeepSeek-R1, Qwen3 (+Coder), and GLM-4.5, TuringPost, 2025.08
Paper/Blog Link My Issue
#Article #NLP #Blog #Reasoning Issue Date: 2025-08-11 Comment
元ポスト:
中国初のOpenLLMについて、それぞれの強みとおすすめのユースケースがまとまっている
ポスト中で紹介されているのは下記
- Kimi K2: Open Agentic Intelligence, moonshotai, 2025.07
- GLM-4.5: Reasoning, Coding, and Agentic Abililties, Zhipu AI Inc., 2025.07
- DeepSeek-R1, DeepSeek, 2025.01
- Qwen3-235B-A22B-Instruct-2507, Qwen Team, 2025.08
- Qwen3-Coder-30B-A3B-Instruct, QwenTeam, 2025.08
以下のようなものもある:
- MiniMax-M1, MiniMax, 2025.06
- Hunyuan-A13B-Instruct, tencent, 2025.06
Qwen3-235B-A22B-Instruct-2507, Qwen Team, 2025.08
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #LongSequence #MoE(Mixture-of-Experts) Issue Date: 2025-08-08 Comment
性能向上した上に1M tokens を扱える。
元ポスト:
Dual Chunk Attention (DCA), MInference...?という技術により品質を維持しながらinference速度アップとのこと、
DCAは全体の系列をmanageableなチャンクに分割して処理しながら全体のcoherenceを維持する手法で、MInferenceは鍵となるtokenの交互作用にのみフォーカスするsparse attentionとのこと。
gpt-oss-120b, OpenAI, 2025.08
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #MoE(Mixture-of-Experts) #AttentionSinks #read-later #Selected Papers/Blogs #KeyPoint Notes #Reference Collection Issue Date: 2025-08-05 Comment
blog:
https://openai.com/index/introducing-gpt-oss/
HF:
https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/apache-2.0.md
アーキテクチャで使われている技術まとめ:
-
-
-
-
- こちらにも詳細に論文がまとめられている
上記ポスト中のアーキテクチャの論文メモリンク(管理人が追加したものも含む)
- Sliding Window Attention
- [Paper Note] Longformer: The Long-Document Transformer, Iz Beltagy+, arXiv'20
- [Paper Note] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context, Zihang Dai+, ACL'19
- MoE
- [Paper Note] Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity, William Fedus+, JMLR'22
- RoPE w/ YaRN
- [Paper Note] RoFormer: Enhanced Transformer with Rotary Position Embedding, Jianlin Su+, arXiv'21, 2021.04
- [Paper Note] YaRN: Efficient Context Window Extension of Large Language Models, Bowen Peng+, ICLR'24
- Attention Sinks
- [Paper Note] Efficient Streaming Language Models with Attention Sinks, Guangxuan Xiao+, ICLR'24
- Attention Sinksの定義とその気持ち、Zero Sink, Softmaxの分母にバイアス項が存在する意義についてはこのメモを参照のこと。
- [Paper Note] Why do LLMs attend to the first token?, Federico Barbero+, COLM'25
- Attention Sinksが実際にどのように効果的に作用しているか?についてはこちらのメモを参照。
- [Paper Note] When Attention Sink Emerges in Language Models: An Empirical View, Xiangming Gu+, ICLR'25
-
- Sink Token (or Zero Sink) が存在することで、decoder-onlyモデルの深い層でのrepresentationのover mixingを改善し、汎化性能を高め、promptに対するsensitivityを抑えることができる。
- (Attentionの計算に利用する) SoftmaxへのLearned bias の導入 (によるスケーリング)
- これはlearnable biasが導入されることで、attention scoreの和が1になることを防止できる(余剰なアテンションスコアを捨てられる)ので、Zero Sinkを導入しているとみなせる(と思われる)。
- GQA
- [Paper Note] GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, arXiv'23, 2023.05
- SwiGLU
- [Paper Note] GLU Variants Improve Transformer, Noam Shazeer, arXiv'20, 2020.02 -
- group size 8でGQAを利用
- Context Windowは128k
- 学習データの大部分は英語のテキストのみのデータセット
- STEM, Coding, general knowledgeにフォーカス
-
https://openai.com/index/gpt-oss-model-card/
あとで追記する
他Open Weight Modelとのベンチマークスコア比較:
-
-
-
-
- long context
-
- Multihop QA
解説:
learned attention sinks, MXFP4の解説:
Sink Valueの分析:
gpt-oss の使い方:
https://note.com/npaka/n/nf39f327c3bde?sub_rt=share_sb
[Paper Note] Comments-Oriented Document Summarization: Understanding Documents with Reader’s Feedback, Hu+, SIGIR’08, 2008.07
fd064b2-338a-4f8d-953c-67e458658e39
Qwen3との深さと広さの比較:
- The Big LLM Architecture Comparison, Sebastian Laschka, 2025.07
Phi4と同じtokenizerを使っている?:
post-training / pre-trainingの詳細はモデルカード中に言及なし:
-
-
ライセンスに関して:
> Apache 2.0 ライセンスおよび当社の gpt-oss 利用規約に基づくことで利用可能です。
引用元:
https://openai.com/ja-JP/index/gpt-oss-model-card/
gpt-oss利用規約:
https://github.com/openai/gpt-oss/blob/main/USAGE_POLICY
cookbook全体: https://cookbook.openai.com/topic/gpt-oss
gpt-oss-120bをpythonとvLLMで触りながら理解する: https://tech-blog.abeja.asia/entry/gpt-oss-vllm
指示追従能力(IFEVal)が低いという指摘:
XBai-o4, MetaStoneAI, 2025.08
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Coding Issue Date: 2025-08-03 Comment
元ポスト:
LiveCodeBenchでo3-mini-2015-01-31(medium)と同等らしい
Qwen3-30B-A3B-Thinking-2507, Qwen Team, 2025.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning Issue Date: 2025-07-31 Comment
元ポスト:
mediumサイズのモデルがさらに性能向上
GLM-4.5: Reasoning, Coding, and Agentic Abililties, Zhipu AI Inc., 2025.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #Selected Papers/Blogs Issue Date: 2025-07-29 Comment
元ポスト:
HF: https://huggingface.co/collections/zai-org/glm-45-687c621d34bda8c9e4bf503b
詳細なまとめ:
こちらでもMuon Optimizerが使われており、アーキテクチャ的にはGQAやMulti Token Prediction, QK Normalization, MoE, 広さよりも深さを重視の構造、みたいな感じな模様?
- [Paper Note] Muon is Scalable for LLM Training, Jingyuan Liu+, arXiv'25
Wan2.2, Alibaba Wan, 2025.07
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #MoE(Mixture-of-Experts) #VideoGeneration/Understandings Issue Date: 2025-07-29 Comment
元ポスト:
初のMoEによるOpen WeightなVideo generationモデルで、直接的に明るさや、カラー、カメラの動きなどを制御でき、text to video, image to video, unified video generationをサポートしている模様
テクニカルペーパー:
https://arxiv.org/abs/2503.20314
Qwen3-235B-A22B-Thinking-2507, QwenTeam, 2025.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning Issue Date: 2025-07-26 Comment
とうとうベンチマーク上はo4-miniと同等に...
Qwen3-235B-A22B-Instruct-2507, QwenTeam, 2025.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel Issue Date: 2025-07-22 Comment
Qwen3最新版。ベンチマーク画像は元ポストより引用。hybrid thinkingを廃止し、non-thinkingのみとした。non-thinkingだが性能が向上し、context長が256k (前回の2倍)になっている模様。
元ポスト:
関連:
- Qwen3, Qwen Team, 2025.04
- [Paper Note] Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination, Mingqi Wu+, arXiv'25
において、Qwen2.5-math-7B, Qwen2.5-7Bに対して、Math500, AMC,
AIME2024データについてコンタミネーションの可能性が指摘されている点には留意したい。
- Kimi K2: Open Agentic Intelligence, moonshotai, 2025.07
ポストのベンチ上ではKimi-K2を超えているように見えるが、果たして…?
OpenReasoning-Nemotron: A Family of State-of-the-Art Distilled Reasoning Models, Nvidia, 2025.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #Distillation #OpenSource Issue Date: 2025-07-18 Comment
DeepSeek-R1-0528から応答を合成したデータでSFTのみを実施し、32BでQwe3-235B-A22Bと同等か上回る性能。アーキテクチャはQwen2.5。データはOpenCode/Math/Scienceを利用。
元ポスト:
データも公開予定
Seed-X-Instruct-7B, ByteDance-Seed, 2025.07
Paper/Blog Link My Issue
#Article #MachineTranslation #NLP #LanguageModel #SmallModel #MultiLingual Issue Date: 2025-07-18 Comment
元ポスト:
MTに特化したMultilingual SLM。7Bモデルだがベンチマーク上では他の大規模なモデルと同等以上。
テクニカルレポート: https://github.com/ByteDance-Seed/Seed-X-7B/blob/main/Technical_Report.pdf
Kimi K2: Open Agentic Intelligence, moonshotai, 2025.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Optimizer #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #Stability #KeyPoint Notes #Reference Collection Issue Date: 2025-07-12 Comment
元ポスト:
1T-A32Bのモデル。さすがに高性能。
(追記) Reasoningモデルではないのにこの性能のようである。
1T-A32Bのモデルを15.5Tトークン訓練するのに一度もtraining instabilityがなかったらしい
元ポスト:
量子化したモデルが出た模様:
仕事早すぎる
DeepSeek V3/R1とのアーキテクチャの違い:
MLAのヘッドの数が減り、エキスパートの数を増加させている
解説ポスト:
利用されているOptimizer:
- [Paper Note] Muon is Scalable for LLM Training, Jingyuan Liu+, arXiv'25
2つほどバグがあり修正された模様:
chatbot arenaでOpenLLMの中でトップのスコア
元ポスト:
テクニカルペーパーが公開:
https://github.com/MoonshotAI/Kimi-K2/blob/main/tech_report.pdf
元ポスト:
テクニカルレポートまとめ:
以下のような技術が使われている模様
- [Paper Note] Rewriting Pre-Training Data Boosts LLM Performance in Math and Code, Kazuki Fujii+, ICLR'26, 2025.05
- MLA MHA vs MQA vs GQA vs MLA, Zain ul Abideen, 2024.07
- MuonCip
- MuonOptimizer [Paper Note] Muon is Scalable for LLM Training, Jingyuan Liu+, arXiv'25
- QK-Clip
- 参考(こちらはLayerNormを使っているが): [Paper Note] Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action, Jiasen Lu+, CVPR'24, 2023.12
- RLVR
- DeepSeek-R1, DeepSeek, 2025.01
- Self-Critique
- 関連: [Paper Note] Inference-Time Scaling for Generalist Reward Modeling, Zijun Liu+, arXiv'25
- [Paper Note] Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards, Ruipeng Jia+, arXiv'25, 2025.05
- Temperature Decay
- 最初はTemperatureを高めにした探索多めに、後半はTemperatureを低めにして効用多めになるようにスケジューリング
- Tool useのためのSynthetic Data
Reward Hackingに対処するため、RLVRではなくpairwise comparisonに基づくself judging w/ critique を利用きており、これが非常に効果的な可能性があるのでは、という意見がある:
SmolLM3: smol, multilingual, long-context reasoner, HuggingFace, 2025.07
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Reasoning #LongSequence #SmallModel #MultiLingual #OpenSource #Selected Papers/Blogs Issue Date: 2025-07-09 Comment
元ポスト:
SmolLM3を構築する際の詳細なレシピ(アーキテクチャ、データ、data mixture, 3 stageのpretraining(web, code, mathの割合と品質をステージごとに変え、stable->stable->decayで学習), midtraining(long context->reasoning, post training(sft->rl), ハイブリッドreasoningモデルの作り方、評価など)が説明されている
学習/評価スクリプトなどがリリース:
ERNIE 4.5 Series, ERNIE TEAM, 2025.06
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #MoE(Mixture-of-Experts) Issue Date: 2025-06-30 Comment
Tech Report: https://yiyan.baidu.com/blog/publication/ERNIE_Technical_Report.pdf
元ポスト:
解説ポスト:
Hunyuan-A13B-Instruct, tencent, 2025.06
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning Issue Date: 2025-06-27 Comment
元ポスト:
- MoEアーキテクチャ, 80B-A13B
- fast, slow thinking mode
- 256k context window
- agenticタスクに特に特化
- Grouped Query Attention, 複数の量子化フォーマットをサポート
公式ポスト:
画像は公式ポストより引用。Qwen3-235B-A22Bよりも少ないパラメータ数で、同等(agenticタスクはそれ以上)なようにベンチマーク上は見えるが、果たして。
果たして日本語の性能はどうだろうか。
TENCENT HUNYUAN COMMUNITY LICENSE
https://github.com/Tencent-Hunyuan/Hunyuan-A13B/blob/main/LICENSE
Swallow LLM Leaderboard, Swallow LLM Team
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Japanese Issue Date: 2025-06-25 Comment
関連:
- 日本語LLMのリーダーボード(LLM.jp), Weights & Biases
- Nejumi LLMリーダーボード, Weights & Biases
LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05
Paper/Blog Link My Issue
#Article #Tutorial #Pretraining #NLP #Dataset #LanguageModel #Evaluation #Blog #Japanese #PostTraining Issue Date: 2025-06-25 Comment
関連
- [Paper Note] Instruction Pre-Training: Language Models are Supervised Multitask Learners, Daixuan Cheng+, arXiv'24, 2024.06
- [Paper Note] Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data, Fahim Tajwar+, ICML'24
- [Paper Note] AnswerCarefully: A Dataset for Improving the Safety of Japanese LLM Output, Hisami Suzuki+, arXiv'25
Kimi-VL-A3B-Thinking-2506, moonshotai, 2025.06
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #Reasoning #One-Line Notes #Reference Collection Issue Date: 2025-06-24 Comment
元ポスト:
様々なベンチマークでSoTA(gpt4o, Qwen2.5-VL-7B)を達成したReasoning VLM
テクニカルペーパー:
- [Paper Note] Kimi-VL Technical Report, Kimi Team+, arXiv'25
MiniMax-M1, MiniMax, 2025.06
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #MoE(Mixture-of-Experts) #One-Line Notes #Author Thread-Post Issue Date: 2025-06-17 Comment
元ポスト:
vLLMでのservingが推奨されており、コンテキストは1M、456BのMoEアーキテクチャでactivation weightは46B
公式ポスト:
Agentもリリースした模様:
V-JEPA 2, Meta, 2025.06
Paper/Blog Link My Issue
#Article #ComputerVision #FoundationModel #4D (Video) Issue Date: 2025-06-12 Comment
元ポスト:
Physical Reasoning Leaderboardなるもので現在トップな模様。
https://huggingface.co/spaces/facebook/physical_reasoning_leaderboard
Qwen_Qwen3-Embedding-4B-GGUF, QwenTeam, 2025.06
Paper/Blog Link My Issue
#Article #Embeddings #NLP #LanguageModel #RepresentationLearning #One-Line Notes #Author Thread-Post Issue Date: 2025-06-06 Comment
8BモデルはMTEBでトップの性能を達成。context 32K。100以上の言語をサポート。32--2560次元にoutputの次元数をカスタマイズできる(嬉しい、が性能にどの程度影響が出るから気になる)。
元ポスト:
QwenTeam post:
Datadog_Toto-Open-Base-1.0, Datadog, 2025.05
Paper/Blog Link My Issue
#Article #TimeSeriesDataProcessing #MachineLearning #Transformer #FoundationModel Issue Date: 2025-05-25 Comment
元ポスト:
ms-swiftによるMegatron-LMベースのQwen3のファインチューニング, Aratako, 2025.05
Paper/Blog Link My Issue
#Article #NLP #Library #Supervised-FineTuning (SFT) #Blog #MoE(Mixture-of-Experts) #PostTraining #One-Line Notes #Author Thread-Post Issue Date: 2025-05-11 Comment
元ポスト:
Megatron-SWIFTというAlibaba製のライブラリを利用しQwen3の継続事前学習とSFTを実施する方法を、ベストプラクティスに則って記述し、かつ著者自身が学習したモデルも公開している。(おそらくインスタンス代は自腹なので)すごい...!!
Megatron-SWIFTはMoEアーキテクチャを採用したモデルであれば、DeepSpeed Zero3 [^1]と比べて10倍程度のスループットで学習できる模様(早い)。一方MoEアーキテクチャでないモデルの場合はそこまで大きな差はない。
[^1]: A100 80GB 2ノードでは、Qwen3-30B-A3Bは、DeepSpeed-Zero2ではOOMとなり載らないようだ…。なんとリソースに厳しいこと…(涙)
Qwen3, Qwen Team, 2025.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #InstructionTuning #Blog #LongSequence #MultiLingual #MoE(Mixture-of-Experts) #PostTraining #KeyPoint Notes #Reference Collection Issue Date: 2025-04-29 Comment
- 119言語をサポート
- MoEモデル [Paper Note] Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer, Noam Shazeer+, ICLR'17
- 30B-A3B / 235B-A22N
- 128K context window
- Qwen2.5はMoEを採用していないので新たなアーキテクチャとなる
- Denseモデル(非MoEモデル)も公開
- 0.6B -- 32B
- 32K -- 128K context window
- Thinking/Non-thinking の切り替えが切り替えが可能
- スイッチは自動的に実施されるが、ユーザが明示的に `/think`, `/no_think` を user_promptの末尾に追加することで制御することも可能
- Pre-training
- データ
- 36 trillion tokensによって学習(Qwen-2.5の2倍)
- 学習データではwebデータに加えて、PDF-likeな文書群からQwen2.5-VL Qwen2.5-VL-32B-Instruct, Qwen Team, 2025.03
によってテキストを抽出し、Qwen2.5 で抽出された内容の品質を改善し利用
- また、math / code に関するデータを追加するために、Qwen2.5-Math / Qwen2.5-Coderを用いて合成データを作成(textbooks / QA pairs / code snippets [Paper Note] Textbooks Are All You Need, Suriya Gunasekar+, arXiv'23, 2023.06
)
- 事前学習のステップ
- S1: context長が4kの30 trillion tokenで事前学習
- S2: STEM / coding / reasoning task などのknowledge-intensiveデータの比率を増やして継続事前学習 (これがおそらく 5 trillion token程度?)
- Final Stage: context長を32kに拡大し高品質なlong-context dataで継続事前学習
- これによりBaseモデルが完成し、Qwen3-235B全体のうち10%程度のActive Parameterの利用するだけで(i.e., 22Bで)、Qwen2.5-72B Baseと同等以上の性能達成
- Post-training
- S1: long-CoT cold start
- 数学/coding/logical reasoning/STEMなどの多様なlong CoTデータを用いてSFT [Paper Note] s1: Simple test-time scaling, Niklas Muennighoff+, EMNLP'25, 2025.01
- S2: reasoning-based RL
- rule-based (verifiable) rewards によるRL DeepSeek-R1, DeepSeek, 2025.01
- S1/S2の流れは [Paper Note] Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, ICML'25
に有効性が示されている通り、long CoT DataによるSFT -> RLを実施
- S3: thinking mode fusion
- S2データを用いてlong CoTデータとinstruction tuningデータ(非Long CoT)を生成し、Thinking/Non-thinkingを自動的に選択し生成するように学習(SFT or RLは記述なし)
- S4: general RL
- 20以上の一般的なドメインのタスクを通じて一般的な能力の向上と、safetyに関するalignmentの実施(e.g., instruction following, format following, agent能力など)
BestPracticeに関するポスト:
解説:
Llama-3_1-Nemotron-Ultra-253B-v1, Nvidia, 2025.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #InstructionTuning #Pruning #Reasoning #KeyPoint Notes #Author Thread-Post Issue Date: 2025-04-08 Comment
DeepSeek-R1をGPQA Diamond GPQA: A Graduate-Level Google-Proof Q&A Benchmark, David Rein+, N/A, COLM'24
, AIME2024/2025, Llama4 Maverickを
BFCLv2(Tool Calling, BFCLv2, UC Berkeley, 2024.08
), IFEVal [Paper Note] Instruction-Following Evaluation for Large Language Models, Jeffrey Zhou+, arXiv'23, 2023.11
で上回り, そのほかはArenaHardを除きDeepSeekR1と同等
DeepSeekR1が671B(MoEで37B Activation Param)に対し、こちらは253B(ただし、Llama3.1がベースなのでMoEではない)で同等以上の性能となっている。
ReasoningをON/OFFする能力も備わっている。
モデルがどのように訓練されたかを示す全体図がとても興味深い:
特に [Paper Note] Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, ICML'25
でも有効性が示されているように、SFTをしてからReasoningを強化する(強化というより元々持っている能力を引き出す?)RLを実施している。
詳細は下記Blogとのこと:
https://developer.nvidia.com/blog/build-enterprise-ai-agents-with-advanced-open-nvidia-llama-nemotron-reasoning-models/
元ポスト:
Dream-v0-Instruct-7B, Dream-org, 2025.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #DiffusionModel #One-Line Notes Issue Date: 2025-04-08 Comment
OpenWeightな拡散言語モデル
元ポスト:
関連:
- [Paper Note] Large Language Diffusion Models, Shen Nie+, NeurIPS'25
Llama 4 Series, Meta, 2025.04
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #One-Line Notes #Reference Collection Issue Date: 2025-04-05 Comment
Huggingface:
https://huggingface.co/collections/meta-llama/llama-4-67f0c30d9fe03840bc9d0164
解説ポスト:
Artificial Analysisによる性能検証:
MaverickがGPT4oと同等、ScoutがGPT4o-miniと同等
Update:
性能に関して不可解な点が多そうなので様子見をしても良いかも。
性能検証(Math-Perturb):
日本語にあまり強くないという情報も
元ポスト:
どうやらvLLMのLlama4のinferenceにバグがあったやうで、vLLMのIssue 16311にて、Llama4のinferenceに関するバグが修正され、性能が向上した模様。どのベンチを信じたら良いかまるでわからん。
2025.0413現在のchatbot arenaのランクは、32位となり(chatbot arena向けにtuningされていたであろうモデルは2位だった)GPT-4oが29位であることを考慮すると上記のArtificial Intelligenceの評価とも大体一致している。
https://lmarena.ai
関連ポスト:
openhands-lm-32b-v0.1, all-hands, 2025.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SoftwareEngineering #One-Line Notes Issue Date: 2025-04-02 Comment
Qwen Coder 2.5 Instruct 32Bに基づく最先端のSWEタスクが実行可能なモデル
Qwen2.5-VL-32B-Instruct, Qwen Team, 2025.03
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #Author Thread-Post Issue Date: 2025-03-25 Comment
元ポスト:
Llama Nemotron, Nvidia, 2025.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning Issue Date: 2025-03-19 Comment
Nvidiaによる初めてのreasoning model。
元ポスト:
Artificial Analysisにやるベンチマーク:
GPQA Diamond(大学院(Ph.D)レベルの生物学、物理学、化学の450問程度の難解なmultiple choice question)で、DeepSeekV3, GPT4o, QwQ-32Bをoutperform. Claude 3.7 sonnetより少しスコアが低い。
DeepSeekR1, o1, o3-mini(high), Claude 3.7 sonnet Thinkingなどには及んでいない。
(画像は元ポストより引用)
システムプロンプトを変えることでreasoningをon/offできる模様
EXAONE-Deep-32B, LG AI Research, 2025.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #One-Line Notes Issue Date: 2025-03-18 Comment
元ポスト:
EXAONE AI Model License Agreement 1.1 - NC
商用利用不可
SmolDocling-256M, IBM Research, 2025.03
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #DocParser #One-Line Notes #Author Thread-Post Issue Date: 2025-03-18 Comment
Apache-2.0ライセンス。言語はEnglishのみな模様
マルチモーダルなImage-To-Textモデル。サンプルはこちら
ERNIE4.5_X1, Baidu, 2025.03
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #Proprietary #One-Line Notes #Reference Collection #Author Thread-Post Issue Date: 2025-03-17 Comment
解説ポスト:
- ERNIE4.5はGPT4.5をさまざまなベンチマークで上回り、価格がなんとGPT4.5の1%
- X1はマルチモーダルなreasoningモデルでDeepSeek-R1と同等の性能で半額
らしい
このモデルは6月30日にオープン(ウェイト?)になるとスレッドで述べられている。
sarashina2-vision-{8b, 14b}, SB Intuitions, 2025.03
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #VisionLanguageModel #KeyPoint Notes Issue Date: 2025-03-17 Comment
元ポスト:
VLM。Xに散見される試行例を見ると日本語の読み取り性能は結構高そうに見える。
モデル構成、学習の詳細、および評価:
LLM(sarashina2), Vision Encoder(Qwen2-VL), Projectorの3つで構成されており、3段階の学習を踏んでいる。
最初のステップでは、キャプションデータを用いてProjectorのみを学習しVision Encoderとテキストを対応づける。続いて、日本語を含む画像や日本特有の風景などをうまく扱えるように、これらを多く活用したデータ(内製日本語OCRデータ、図表キャプションデータ)を用いて、Vision EncoderとProjectorを学習。最後にLLMのAlignmentをとるために、プロジェクターとLLMを前段のデータに加えてVQAデータ(内製合成データを含む)や日本語の指示チューニングデータを用いて学習。
ProjectorやMMLLMを具体的にどのように学習するかは
- MM-LLMs: Recent Advances in MultiModal Large Language Models, Duzhen Zhang+, N/A, ACL'24 Findings
を参照のこと。
OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini, AllenAI, 20250.3
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenSource #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2025-03-14 Comment
真なる完全なるオープンソース(に近い?)OLMOの最新作
学習が安定しやすいpre LNではなく性能が最大化されやすいPost LNを採用している模様。学習を安定化させるために、QKNormやRMSNormを採用するなどの工夫を実施しているらしい。
Introducing Gemma 3: The most capable model you can run on a single GPU or TPU, Google, 2025.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #One-Line Notes #Reference Collection Issue Date: 2025-03-12 Comment
Googleの新たなSLMで、デバイスやラップトップでも動作可能な軽量モデル。テキストだけでなく画像とShortVideoの認識もできて、140言語をサポート。おまけに27BモデルでLlama3-405BとDeepSeek-V3とo3-miniをChatbotArenaのリーダーボードで上回り、128kのcontext window。えぇ…。
モデルの詳細:
https://huggingface.co/blog/gemma3
1Bモデルは英語のみサポート、マルチモーダル不可など制約がある模様。
詳細までは書いていないが、128Kコンテキストまでcontext windowを広げる際の概要とRoPE(のような)Positional Embeddingを利用していること、SlideingWindow Attentionを用いておりウィンドウサイズが以前の4096から性能を維持したまま1024に小さくできたこと、ImageEncoderとして何を利用しているか(SigLIP)、896x896の画像サイズをサポートしており、正方形の画像はこのサイズにリサイズされ、正方形でない場合はcropされた上でリサイズされる(pan and scanアルゴリズムと呼ぶらしい)こと、事前学習時のマルチリンガルのデータを2倍にしたことなど、色々書いてある模様。
Gemmaライセンス
解説ポスト:
解説ポスト:
Reasoning with Reka Flash, Reka, 2025.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #MultiLingual #Initial Impression Notes Issue Date: 2025-03-12 Comment
Weights: https://huggingface.co/RekaAI/reka-flash-3
Apache-2.0
< /reasoning >を強制的にoutputさせることでreasoningを中断させることができ予算のコントロールが可能とのこと
QwQ-32B: Embracing the Power of Reinforcement Learning, Qwen Team, 2025.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Reasoning #Reading Reflections Issue Date: 2025-03-06 Comment
元ポスト:
- [Paper Note] START: Self-taught Reasoner with Tools, Chengpeng Li+, arXiv'25, 2025.03
Artificial Analysisによるベンチマークスコア:
おそらく特定のタスクでDeepSeekR1とcomparable, 他タスクでは及ばない、という感じになりそうな予感
microsoft_Phi-4-multimodal-instruct, Microsoft, 2025.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MultiModal #VisionLanguageModel #2D (Image) #Reference Collection #audio #text Issue Date: 2025-03-04 Comment
MIT License
Mistral-24B-Reasoning, yentinglin, 2025.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning Issue Date: 2025-02-17 Comment
Apache-2.0
DeepSeek-R1-Distill-Qwen, DeepSeek, 2025.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning Issue Date: 2025-01-21 Comment
MIT Licence
元ポスト:
DeepSeek-R1, DeepSeek, 2025.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #Selected Papers/Blogs #Reference Collection Issue Date: 2025-01-21 Comment
参考:
参考: https://horomary.hatenablog.com/entry/2025/01/26/204545
DeepSeek-R1の論文読んだ?【勉強になるよ】
, asap:
https://zenn.dev/asap/articles/34237ad87f8511
こちらのポストの図解がわかりやすい:
最新モデル: DeepSeek-R1-0528
https://huggingface.co/deepseek-ai/DeepSeek-R1-0528
所見:
2024-ai-timeline, reach-vb, 2025.01
Paper/Blog Link My Issue
#Article #Survey #ComputerVision #NLP #LanguageModel #Proprietary #One-Line Notes Issue Date: 2025-01-02 Comment
月別で2024年にリリースされた主要なLLM(マルチモーダルなLLMも含む)のタイムラインがまとめられている。
API Only(プロプライエタリ)なのか、OpenWeightなのかもタグ付けされている。
完全にオープンな約1,720億パラメータ(GPT-3級)の大規模言語モデル 「llm-jp-3-172b-instruct3」を一般公開 ~GPT-3.5を超える性能を達成~ , NII, 2024.12
Paper/Blog Link My Issue
#Article #Tools #NLP #Dataset #LanguageModel #Blog #Japanese #OpenSource #Selected Papers/Blogs #One-Line Notes Issue Date: 2024-12-24 Comment
GPT3.5と同程度のパラメータ数のコーパス、モデル、ツール、全てを公開。学習データまで含めてオープンなモデルとしては世界最大規模とのこと。
Instructionチューニング済みのモデルはライセンスを読むと、ライセンスに記述されている内容を遵守すれば、誰でも(日本人なら18歳以上とかはあるが)アクセス可能、用途の制限(商用・非商用問わず)なく利用でき、かつ再配布や派生物の生成などが許されているように見える。
が、baseモデルの方はコンタクト情報を提供のうえ承認を受けないと利用できない模様。また、再配布と一部の使途に制限がある模様。
SNSではオープンソースではないなどという言説も出ており、それはbaseモデルの方を指しているのだろうか?よくわからない。
実用上はinstructionチューニング済みのモデルの方がbaseモデルよりも使いやすいと思うので、問題ない気もする。
やはりbaseとinstructでライセンスは2種類あるとのこと:
LLaMA-Omni: Seamless Speech Interaction with Large Language Models, Meta, 2024.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SpeechProcessing #OpenSource #One-Line Notes Issue Date: 2024-12-13 Comment
音声とテキストのOpenSourceマルチモーダルモデル。inputは音声のみ?に見えるが、出力はテキストと音声の両方を実施できる。GPT-4oレベルのspeech capabilityを目指すとaboutに記載されている。興味深い。
installの説明に `Whisper-large-v3` をインストールする旨が記載されているので、Whisper-large-v3で認識した内容に特化したSpeech Encoder/Adapterが学習されていると考えられる。
- MM-LLMs: Recent Advances in MultiModal Large Language Models, Duzhen Zhang+, N/A, ACL'24 Findings
マルチモーダルなLLMの基本的な概念については上記参照のこと。
Llama3.3-70B, Meta, 2024.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #One-Line Notes Issue Date: 2024-12-06 Comment
3.1-70Bよりも性能向上し、3.1-405Bの性能により近く。
(画像は元ポストより引用)
日本語LLMまとめ, LLM-jp, 2024.12
Paper/Blog Link My Issue
#Article #Survey #NLP #Dataset #LanguageModel #Evaluation #Repository #Japanese #OpenSource #One-Line Notes Issue Date: 2024-12-02 Comment
LLM-jpによる日本語LLM(Encoder-Decoder系, BERT系, Bi-Encoders, Cross-Encodersを含む)のまとめ。
テキスト生成に使うモデル、入力テキスト処理に使うモデル、Embedding作成に特化したモデル、視覚言語モデル、音声言語モデル、日本語LLM評価ベンチマーク/データセットが、汎用とドメイン特化型に分けてまとめられている。
各モデルやアーキテクチャの原論文、学習手法の原論文もまとめられている。すごい量だ…。
Sarashina2-8x70Bの公開, SB Intuitions, 2024.11
Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #Blog #Japanese #One-Line Notes Issue Date: 2024-11-25 Comment
MoE Layerの説明、Sparse Upcyclingの説明、MoEモデルを学習する際に、学習時の学習率の設定が大きすぎると初期に損失が増大し、小さすぎると損失の増大は防げるがlong runで学習した際の性能向上が小さかったこと、元のモデルのパラメータを毀損しないように、Upcyclingをした元モデルの最終的な学習率を踏襲して学習をし、学習率をさらに減衰させていったこと、などが記載されている。
また、性能評価として同等のactivation parameter数を持つモデルと日本語のQAタスクで比較した結果も載っている。
- [Paper Note] Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints, Aran Komatsuzaki+, ICLR'23
MoE Layerについては
- [Paper Note] Mixtral of Experts, Albert Q. Jiang+, arXiv'24, 2024.01
も参照のこと
SmolLM2, 2024.11
Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #InstructionTuning #SyntheticData #OpenSource #PostTraining #One-Line Notes Issue Date: 2024-11-21 Comment
元ポスト:
Orca-AgenInstruct-1M microsoft/orca-agentinstruct-1M-v1, Microsoft, 2024.11
よりもSmolLMのSFTで各種ベンチで高い性能を獲得
ローカルLLMのリリース年表, npaka, 随時更新, 2024.11
Paper/Blog Link My Issue
#Article #Survey #NLP #LanguageModel #Blog #OpenSource #Selected Papers/Blogs #One-Line Notes Issue Date: 2024-11-15 Comment
ローカルLLMを含むOpenLLMのリリース日が年表としてまとまっており、随時更新されている模様。すごい。
2026年3月現在も更新が続いている
sarashina2-8x70B, SBIntuitions, 2024.11
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Japanese #MoE(Mixture-of-Experts) #One-Line Notes Issue Date: 2024-11-09 Comment
プレスリリース: https://www.sbintuitions.co.jp/news/press/20241108_01/
- 商用利用不可な点には注意
- アーキテクチャは70Bモデルx8のMixture of Experts(MoE)
- モデルカードによると、inferenceにはBF16で、A100 80GB or H100が16基必要っぽい
MoEを利用したLLMについては、[Paper Note] Mixtral of Experts, Albert Q. Jiang+, arXiv'24, 2024.01 を参照のこと。
Aya Expanse, Cohere, 2024.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MultiLingual #One-Line Notes #Author Thread-Post Issue Date: 2024-10-24 Comment
CohereによるマルチリンガルLLM, 8B, 32Bのモデルが存在する。
8BモデルのArenaHardでの評価
32BモデルのArenaHardでの評価
元ポスト:
MovieGen, Meta, 2024.10
Paper/Blog Link My Issue
#Article #ComputerVision #GenerativeAI Issue Date: 2024-10-05
Gemma-2-Baku, 2024.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Japanese Issue Date: 2024-10-04
Gemma-2-JPN, 2024.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Japanese #One-Line Notes Issue Date: 2024-10-04 Comment
日本語データでfinetuningされたGemma2
元ポスト:
Llama 3.2: Revolutionizing edge AI and vision with open, customizable models, Meta, 2024.09
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #Blog #SmallModel #VisionLanguageModel #KeyPoint Notes #EdgeDevices Issue Date: 2024-09-25 Comment
11Bと90BのVLMと、エッジデバイス向けの1B, 3BのSLMを発表。
Llama3.2のVLMでは、事前学習されたimage encoderを事前学習された言語モデルに対して組み合わせるためのAdapterを複数学習することによって実現。
具体的には、Llama 3.1(text only model)に対して、image encoderとAdapterを追加し、大規模でノイジーな(image,text)ペアで事前学習。続いて、中規模のサイズの高品質なin-domain(i.e. 様々なドメインの)の知識を高めるような(image,text)ペアで学習した。
事後学習では、Llama3.1と同様にSFT, Rejection Sampling, DPOのラウンドを複数回繰り返した。Llama3.1を用いて、in-domainの画像に対するQAをData Augmentationし、フィルタリングすることで合成データを作成。さらに報酬モデルを活用して全ての回答候補をランクづけして高品質なSFTデータを取得。また、モデルの安全性が高まるようなデータも追加した。
Llama3.1の事後学習のプロセスについては 論文紹介 / The Llama 3 Herd of Models, 2024.08
も参照のこと。
LLM-jp-3 1.8B・3.7B・13B の公開, LLM.jp, 2024.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Japanese #One-Line Notes Issue Date: 2024-09-25 Comment
LLM-JP-Evalでの評価結果はこちら: https://huggingface.co/llm-jp/llm-jp-3-1.8b
1.8Bのモデルが、モデルサイズに対して非常に性能が良いとのこと(確かに、3.8Bのモデルとの差があまりないように見える
元ポスト:
アーキテクチャはLlama2とのことなので、vLLMでも動作させられる模様
Reflection 70B, GlaiveAI, 2024.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #InstructionTuning #SelfCorrection #PostTraining #KeyPoint Notes #Reference Collection #Author Thread-Post Issue Date: 2024-09-06 Comment
ただまあ仮に同じInputを利用していたとして、promptingは同じ(モデルがどのようなテキストを生成し推論を実施するかはpromptingのスコープではない)なので、そもそも同じInputなのでfair comparisonですよ、という話に仮になるのだとしたら、そもそもどういう設定で比較実験すべきか?というのは検討した方が良い気はする。まあどこに焦点を置くか次第だと思うけど。
エンドユーザから見たら、reflectionのpromptingのやり方なんてわからないよ!という人もいると思うので、それを内部で自発的に実施するように学習して明示的にpromptingしなくても、高い性能を達成できるのであれば意味があると思う。
ただまあ少なくとも、参考でも良いから、他のモデルでもreflectionをするようなpromptingをした性能での比較結果も載せる方が親切かな、とは思う。
あと、70Bでこれほどの性能が出ているのはこれまでにないと思うので、コンタミネーションについてはディフェンスが必要に思う(他のモデルがそのようなディフェンスをしているかは知らないが)。
追記
→ 下記記事によると、LLM Decontaminatorを用いてコンタミネーションを防いでいるとのこと
https://github.com/lm-sys/llm-decontaminator
Reflection自体の有用性は以前から示されている。
参考: Self-Reflection in LLM Agents: Effects on Problem-Solving Performance, Matthew Renze+, N/A, arXiv'24
, [Paper Note] Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection, Akari Asai+, ICLR'24, 2023.10
, [Paper Note] AnyTool: Self-Reflective, Hierarchical Agents for Large-Scale API Calls, Yu Du+, ICML'24, 2024.02
, [Paper Note] Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies, Liangming Pan+, TACL'24, 2023.08
ollamaで実際に動かして日本語でのQAを試している記事。実際のアウトプットやreflectionの内容が確認でき、おもしろい。
システムプロンプトで< thinking >タグでInputに対して推論し、< output >タグ内で最終出力を行い、推論過程で誤りがある場合は< reflection >タグを用いて修正するように指示している。
おそらく、thinkingタグ内の思考過程でモデルが誤りに気づいた場合は、thinkingタグの途中でreflectionタグが出力され、その時点でCoTが修正されるようである(もしくはoutputとthinkingの中間)。このため、誤ったCoTに基づいてOutputが生成される頻度が減少すると考えられる。
このような挙動はおそらく、reflection用の学習データでSFTしないとできないと思うので
(たとえば、ReflectionタスクをするようなデータでSFTをしていない場合、出力の途中で誤りを検出し出力を修正するという挙動にはならず、回答として自然な文を最後までoutputすると思う。その後でreflectionしろと促すことはpromptingでできるかもしれないが、そもそもreflectionする能力があまり高くない可能性があり、うまく修正もしてくれないかも)
reflectionの能力を高めるようなデータでSFTをしていないモデルで似たようなpromptingをしても、うまくいかない可能性があるので注意が必要だと思われる。
参考:
https://note.com/schroneko/n/nae86e5d487f1
開発者曰く、HFに記載の正しいシステムプロンプトを入れないと、適切に動作しないとのこと。
元ツイート:
どうやら初期にアップロードされていたHFのモデルはweightに誤りがあり、挙動がおかしくなっていたようだ。
正しいモデルの挙動は下記ツイートのようである。thinking内でreflectionが実施されている。
実際にいくつかの例をブログをリリース当日に見た時に、reflectionタグがoutputの後に出力されている例などがあり、おや?という挙動をしていたので、問題が是正されたようだ。
HFのモデルが修正された後もベンチマークの結果が再現されないなど、雲行きが色々と怪しいので注意した方が良い。
続報
開発者ポスト:
再現実験を全て終了し、当初報告していた結果が再現されなかったとCEOが声明:
LLMに日本語テキストを学習させる意義, Koshiro Saito+, 第261回自然言語処理研究発表会, 2024.08
Paper/Blog Link My Issue
#Article #Analysis #LanguageModel #Slide #Japanese #One-Line Notes Issue Date: 2024-09-03 Comment
英日翻訳や日本特有の知識を問われるようなQAにおいて、日本語データによる学習の効果があることが示唆されている模様。
たとえば、論文紹介 / The Llama 3 Herd of Models, 2024.08
に示されている通り、Llama2における日本語データの割合は0.2%とかなので、英語圏のOpenLLMにおいて、日本語データの比率がどれだけ少ないかがわかる。
論文紹介 _ The Llama 3 Herd of Models, 2024.08
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Slide Issue Date: 2024-08-26 Comment
Llama3の事前学習や事後学習のノウハウが詰まっており(安全性なども含む)、LLM学習に必要な要素が図解されており、非常に分かりやすい。
たとえばp.4中の図(スライド中より引用)などは、LLMの学習過程を説明する際にわかりやすそう
LLMの事前・事後学習あたりは独自ノウハウが多すぎてもはや追従困難
Phi 3.5, Microsoft, 2024.08
Paper/Blog Link My Issue
#Article #NLP Issue Date: 2024-08-24
4-bit Llama 3.1, NeuralMagic, 2024.08
Paper/Blog Link My Issue
#Article #NLP #Quantization Issue Date: 2024-08-20
DeepSpeed, vLLM, CTranslate2 で rinna 3.6b の生成速度を比較する, 2024.06
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Library #python #Blog #LLMServing #One-Line Notes #Reference Collection Issue Date: 2024-08-05 Comment
[vllm](
https://github.com/vllm-project/vllm)を使うのが一番お手軽で、inference速度が速そう。PagedAttentionと呼ばれるキャッシュを利用して高速化しているっぽい。
(図はブログ中より引用)
こちらも参照のこと
vLLMの仕組みをざっくりと理解する:
https://dalab.jp/archives/journal/vllm/#PagedAttention
vLLMでReasoning ModelをServingするときは、`--enable-reasoning`等の追加オプションを指定する必要がある点に注意
https://docs.vllm.ai/en/stable/features/reasoning_outputs.html
OpenLLM: Self-Hosting LLMs Made Easy
Paper/Blog Link My Issue
#Article #NLP #Library #API #Frontend #One-Line Notes Issue Date: 2024-08-01 Comment
OpenLLMをself hostingする際に、OpenAIなどと同じインタフェースのAPIやChatを提供するライブラリ
Gemma2, Google Deepmind, 2024
Paper/Blog Link My Issue
#Article #NLP #Coding #Reasoning #Mathematics #One-Line Notes Issue Date: 2024-07-30 Comment
Reasoning, Math, CodeGenerationに強み
Llama 3.1, 2024.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #One-Line Notes Issue Date: 2024-07-25 Comment
Llama系のモデルをFP8で学習する場合のレシピ
大規模言語モデルの開発, 2024
Paper/Blog Link My Issue
#Article #NLP #LanguageModel Issue Date: 2024-07-11
calm3-22B, 2024
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reading Reflections #needs-revision Issue Date: 2024-07-09 Comment
>LLMの日本語能力を評価するNejumi LLM リーダーボード3においては、700億パラメータのMeta-Llama-3-70B-Instructと同等の性能となっており、スクラッチ開発のオープンな日本語LLMとしてはトップクラスの性能となります(2024年7月現在)。
モデルは商用利用可能なApache License 2.0で提供されており
これはすごい
Llama 3 Swallow
Paper/Blog Link My Issue
#Article #NLP #LanguageModel Issue Date: 2024-07-03
LLaMA3, Meta, 2024.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #KeyPoint Notes Issue Date: 2024-04-18 Comment
ライセンスによると、LLaMA3を利用したモデルはどんな場合でもLlama3をprefixとして付与しないといけないらしい
元ツイート:
LLaMA3がChatBot ArenaでTop 5になったとのこと。また、英語においては、GPT4-1106-preview, GPT-4-turbo-2024-0409と同等の性能を達成。これはすごい…
nejumi-leaderboard Nejumi LLMリーダーボード, Weights & Biases
にLLaMA3の評価結果が掲載された模様(画像は下記ツイートより引用)
モデルアーキテクチャはTransformer Decoderをベースにしており、Llama2と比較して
- TokenizerのVocabサイズを128Kより効率的にテキストをエンコーディング可能に
- GQA [Paper Note] GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, arXiv'23, 2023.05
を利用しInferenceを高速化 (Llama2の時点でGQAを使っていたが、70Bモデルだけだった)
- self-attentionが、ドキュメントを跨がないように学習
context: 8192
Mixtral-8x22B-v0.1, 2024
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #One-Line Notes Issue Date: 2024-04-10 Comment
Apache-2.0ライセンス, 日本語非対応
Command R+, Cohere, 2024
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MultiLingual #Proprietary #One-Line Notes Issue Date: 2024-04-10 Comment
Chatbot arenaでGPT-4-0314と同等の Elo Rate を獲得し(20240410時点)、日本語を含む10ヶ国語をサポート。コンテキストウィンドウサイズ128k。商用利用はAPIから、研究目的であればHuggingFaceから利用可能。
Zephyr-7B-beta, RAG Perf.
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #RAG(RetrievalAugmentedGeneration) #Blog #One-Line Notes Issue Date: 2023-11-21 Comment
Zephyr-7B-betaのRAGでの性能がデータセットで評価されている
下記Xポストによるとgpt-3.5-turboと同等
OpenSource_OpenWeight LLM
My Issue
#Article #NLP #LanguageModel Issue Date: 2023-10-15 Comment
zephyr-7B-alpha
- 1/10のパラメータでLLaMA2-70Bw-chat超え
https://weel.co.jp/media/zephyr-7b-alpha
- zephyr-7B-β
- MTBenchでllama2-70B-chat超え
- [Paper Note] Zephyr: Direct Distillation of LM Alignment, Lewis Tunstall+, arXiv'23, 2023.10
Zephyr-7B-betaが早くもTheBloke氏によってGPTQで量子化され、なんとモデル自体は4.5G程度しかVRAMを消費しない…
https://huggingface.co/TheBloke/zephyr-7B-beta-GPTQ
- NVIDIA Nemotron-3 8B Models
-
https://developer.nvidia.com/nemotron-3-8b\
-
https://huggingface.co/nvidia/nemotron-3-8b-base-4k
- 53言語対応、37プログラミング言語対応, base / chatがある
- Mixtral8x7B: LLaMA2-70B, GPT-3.5-turboと同等の性能
- MistralをSparse Mixture of Expertsしたモデルの模様
- 名前の通り8つのFFNが存在しているが、Top-2のFFNが選択されその結果が集約され出力が決定される
https://mistral.ai/news/mixtral-of-experts/
- 日本語まとめ
-
https://note.com/npaka/n/n6043bc8b01bc
Japanese Simple SimCSE, hppRC, 2023.10
Paper/Blog Link My Issue
#Article #Sentence #Embeddings #NLP #RepresentationLearning #Repository #Japanese #One-Line Notes Issue Date: 2023-10-07 Comment
日本語の事前学習言語モデルと、日本語の学習データを利用してSimCSEを学習し網羅的に評価をした結果が記載されている。Supervised SimCSE, UnsupervisednSimCSEの両方で実験。また、学習するデータセットを変更したときの頑健性も検証。性能が良かったモデルはSentenceTransformersから利用可能な形で公開されている。
Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました, 株式会社ELYZA 公式ブログ, 2023.08
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #Blog #Japanese #KeyPoint Notes Issue Date: 2023-08-29 Comment
商用利用可能、70億パラメータ。
ELYZA社が独自に作成した評価セットでは日本語のOpenLLMの中で最高性能。ただし、モデル選定の段階でこの評価データの情報を利用しているため、有利に働いている可能性があるとのこと。
一般的に利用される日本語の評価用データでは、なんとも言い難い。良いタスクもあれば悪いタスクもある。が、多分評価用データ自体もあまり整備は進んでいないと想像されるため、一旦触ってみるのが良いのだと思う。
LLongMA2
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ContextWindow #One-Line Notes Issue Date: 2023-07-22 Comment
LLaMA2のcontext windowを8kにして訓練。オリジナルのLLaMA2と同等の性能で8k contextを利用可能。
元ツイート:
現在はリンク切れになっている?
OpenSource PaLM, 2023
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #Repository #OpenSource #One-Line Notes #needs-revision Issue Date: 2023-05-08 Comment
150m,410m,1bのモデルがある。Googleの540bには及ばず、emergent abilityもなかぬか期待できなさそなパラメータ数だが、どの程度の性能なのだろうか。
現在モデルファイルはHF上から削除されているようだ。
MPT-7B, Databricks AI Research, 2023.05
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #One-Line Notes Issue Date: 2023-05-06 Comment
新たなオープンソースLLM。
下記ツイートより引用:
・商用利用可能
・6万5000トークン使用可能
・7Bと比較的小さいモデルながら高性能
・日本語を扱え性能が高い
とのこと。
ChatGPTのLLMと比較すると、ざっと例を見た感じ質問応答としての能力はそこまで高くなさそうな印象。
finetuningしない限りはGPT3,GPT4で良さげ。
OpenLLaMA, Xinyang+, 2023.05
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #OpenSource #One-Line Notes Issue Date: 2023-05-04 Comment
LLaMAと同様の手法を似たデータセットに適用し商用利用可能なLLaMAを構築した模様
LLM ecosystem graphs
Paper/Blog Link My Issue
#Article #Survey #NLP #LanguageModel #One-Line Notes Issue Date: 2023-05-04 Comment
様々なfonudation model、それらを利用したアプリケーション、依存関係がまとまったページ
Percy Liang氏のグループが運用してるっぽい?
GPT-NeoXT-Chat-Base-20B, togethercomputer, 2023.03
Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #Library Issue Date: 2023-03-11 Comment
元ツイート
Apache2.0で公開
