Proprietaryに関する論文・技術記事メモの一覧

Proprietary

[Paper Note] Step-DeepResearch Technical Report, Chen Hu+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #Reasoning #mid-training #DeepResearch #KeyPoint Notes #Rubric-based Issue Date: 2025-12-24 GPT Summary- Step-DeepResearchは、LLMを用いた自律エージェントのためのコスト効率の良いエンドツーエンドのシステムであり、意図認識や長期的意思決定を強化するためのデータ合成戦略を提案。チェックリストスタイルのジャッジャーにより堅牢性を向上させ、中国ドメイン向けのADR-Benchを設立。実験では、Step-DeepResearchが高いスコアを記録し、業界をリードするコスト効率で専門家レベルの能力を達成したことを示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

ざっくり言うと、シンプルなReAct styleのagentで、マルチエージェントのオーケストレーションや複雑で重たいワークフロー無しで、OpenAI, GeminiのDeepResearchと同等の性能を達成してとり、ポイントとしてこれらの機能をはmid-training段階で学習してモデルのパラメータとして組み込むことで実現している模様。

mid trainingは2段階で構成され、trajectoryの長さは徐々に長いものを利用するカリキュラム方式。
最初のステージでは以下の4つのatomicスキルを身につけさせる:
- Planning & Task Decomposition
- Deep Information Seeking
- Reflection & Verification
- Reporting

これらのatomic skillを身につけさせる際には、next token predictionをnext action predictionという枠組みで学習し、アクションに関するトークンの空間を制限することで効率性を向上（ただし、具体性は減少するのでトレードオフ）という形にしているようだが、コンセプトが記述されているのみでよくわからない。同時に、学習データの構築方法もデータソースとおおまかな構築方法が書かれているのみである。ただし、記述内容的には各atomicmskilvごとに基本的には合成データが作成され利用されていると考えてよい。

たとえばplanningについては論文などの文献のタイトルや本文から実験以後の記述を除外し、研究プロジェクトのタスクを推定させる（リバースエンジニアリングと呼称している）することで、planningのtrajectoryを合成、Deep Information SeekingではDB Pediaなどのknowledge graphをソースとして利用し、字数が3--10程度のノードをseedとしそこから（トピックがドリフトするのを防ぐために極端に次数が大きいノードは除外しつつ）幅優先探索をすることで、30--40程度のノードによって構成されるサブグラフを構成し、そのサブグラフに対してmulti hopが必要なQuestionを、LLMで生成することでデータを合成しているとのこと。

RLはrewardとしてルーブリックをベースにしたものが用いられるが、strong modelを用いての三つ組データを合成し、このデータを用いてSFT, RLVRをすることでRubrics Judgeモデルを学習して利用すると記述されている。Rubricsに基づく報酬では、最初に
- 1: fully satisfied
- 0.5: partially satisfied
- 0: not satisfied

の3値を検討したが、partially satisfiedが人間による評価とのagreementが低かったため設計を変更し、positive/negative rubricsを設定し、positivルーブリックの場合はルーブリックがfully satisfiedの時のみ1, negativeルーブリックの方はnot satisfiedの時のみ0とすることで、低品質な生成結果に基づくrewardを無くし、少しでもネガティブな要素があった場合は強めのペナルティがかかるようにしているとのこと（ルーブリックの詳細は私が見た限りは不明である。Appendix Aに書かれているように一瞬見えたが具体的なcriterionは書かれていないように見える）。

[Paper Note] AI-Researcher: Autonomous Scientific Innovation, Jiabin Tang+, arXiv'25

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #ScientificDiscovery Issue Date: 2025-08-29 GPT Summary- AI-Researcherという自律型研究システムを提案し、文献レビューから論文作成までの研究プロセスを自動化。Scientist-Benchを用いてAIの研究能力を評価し、実験により人間レベルの研究論文を生成する成功率を示す。この研究は、自律的な科学的革新の新たな基盤を築く。 Comment

github: https://github.com/HKUDS/AI-Researcher

元ポスト:

Loading…

FineTuneBench: How well do commercial fine-tuning APIs infuse knowledge into LLMs?, Eric Wu+, arXiv'24

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2025-01-02 GPT Summary- 商業的なLLM微調整APIの効果を評価するためのFineTuneBenchを提案。5つの最前線のLLMを分析し、新しい情報の学習と既存知識の更新における能力を評価した結果、全モデルで平均一般化精度は37%、医療ガイドラインの更新では19%と低いことが判明。特にGPT-4o miniが最も効果的で、Gemini 1.5シリーズは能力が限られていた。商業的微調整サービスの信頼性に課題があることを示唆。データセットはオープンソースで提供。 Comment

元ポスト:

Loading…

Gemini: A Family of Highly Capable Multimodal Models, Gemini Team+, N_A, arXiv'23

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel Issue Date: 2023-12-21 GPT Summary- この報告書では、マルチモーダルモデル「Gemini」のファミリーについて紹介します。Geminiは画像、音声、動画、テキストの理解に優れた能力を持ち、Ultra、Pro、Nanoのサイズがあります。Gemini Ultraは幅広いベンチマークで最先端の技術を提供し、MMLUでは人間の専門家のパフォーマンスを初めて達成しました。Geminiモデルはクロスモーダルな推論と言語理解の能力を持ち、さまざまなユースケースに適用できます。また、ユーザーへの責任ある展開についても議論しています。 Comment

Gemini, Google, 2023.12 で発表されたGeminiの論文

Qwen3-TTS Steps Up: Voice Cloning and Voice Design, Qwen Team, 2025.12

Paper/Blog Link My Issue
#Article #SpeechProcessing #Blog #TTS Issue Date: 2025-12-25 Comment

元ポスト:

Loading…

日本語のVoice Cloneもサポートされている

ByteDance Doubao-Seed-1.8 Review, toyama nao, Zhihu, 2025.12

Paper/Blog Link My Issue
#Article #NLP #AIAgents #Evaluation #MultiModal #Reasoning #VisionLanguageModel Issue Date: 2025-12-20 Comment

元ポスト:

Loading…

Introducing Mistral OCR 3, Mistral AI, 2025.12

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #VisionLanguageModel #OCR #One-Line Notes Issue Date: 2025-12-19 Comment

元ポスト:

Loading…

MistralによるOCR。他のOCRに比べてmulti-lingual, 様々なデータセットで高い性能を発揮。APIでのみ提供されている模様。

Seed1.8, ByteDance Seed, 2025.12

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #AIAgents #ComputerUse #VisionLanguageModel Issue Date: 2025-12-18 Comment

元ポスト:

Loading…

GUI Agentとして性能はトップレベル(Opusが比較対象に入っていないが）で、

テキスト、画像モダリティでの検索でもトップレベル、codingやツール利用などは少し劣るように見える。

LLM系、VideoUnderstanding系ののベンチマークではフロンティアモデル群と同等、VLM系のタスクではフロンティアモデル群と同等以上の性能に見える。

が、一方のモダリティはGPT5で比較しているのに対し、他方はGPT5.1であったりしており、比較対象が少し恣意的にピックされているのでは？という気もする。

モデルカード: https://lf3-static.bytednsdoc.com/obj/eden-cn/lapzild-tss/ljhwZthlaukjlkulzlp/research/Seed-1.8-Modelcard.pdf

Gemini 3 Flash: frontier intelligence built for speed, Google, 2025.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Reasoning #Distillation #One-Line Notes #Reference Collection Issue Date: 2025-12-18 Comment

元ポスト:

Loading…

Gemini 2.5 Proよりも3倍高速でかつ様々なベンチマークで上回っているとのこと。素晴らしい。Gemini 3 Proと比較しても基本的なQAや数学的な能力（reasoning能力）は性能に遜色なく、long sequence/contextの取り扱いでは明確に劣っている、という感じに見えるので、普段使いではこちらでも困らなそうに感じる。

Hallucination Rateが非常に高いとのことだが果たして:

Loading…

Proからlogit baseな蒸留をして事前学習（=distillation pretraining）をしているっぽい？

Loading…

SID-1 Technical Report: Test-Time Compute for Retrieval, SID Research, 2025.12

Paper/Blog Link My Issue
#Article #InformationRetrieval #NLP #LanguageModel #ReinforcementLearning #AIAgents #Selected Papers/Blogs #KeyPoint Notes #Scalability #train-inference-gap Issue Date: 2025-12-15 Comment

元ポスト:

Loading…

Figure4の話が非常に興味深い。rolloutの結果をtraining engineに渡す間のchat_templateによる抽象化では、マルチターン+tooluseにおいては、たとえばtool call周辺のホワイトスペースに関する情報を消してしまう問題がある。具体的には、一例として、ポリシーがホワイトスペースを含まないフォーマットの誤りがあるrolloutを生成した場合（＝B）を考える。これをtraining engineに渡す際は、以下のような操作を伴うが

>apply_chat_template(parse(B))=G′

この際に、parse→apply_chat_templateの過程でtoolcall周辺のホワイトスペースが補完されるためtraining側ではホワイトスペースが含まれたrollout時とはトークン列が与えられる。この結果、フォーマットに誤りがある状態でrolloutされたにも関わらず、trainingエンジン側では正しい生成結果に擬似的に見える（＝G')のだが、ホワイトスペースが含まれたことでトークナイズ結果が変わり、変化したトークンの部分が極端に小さなlogprobを持つことになる（i.e., ホワイトスペースは実装上の都合で生じ、ポリシーはそのトークンを（尤度が低く）出力していないにもかかわらず、出力されたことにされて学習される）。その結果、見かけ上は正しい生成結果なのだが、負のAdvantageを持つことになり、GRPOではそのような生成がされないように学習されてしまう。これが繰り返されることで、学習の安定性を損なう、という話である。

GPT-5.2 が登場専門的な業務や長時間稼働するエージェント向けの、最先端のフロンティアモデル。, OpenAI, 2025.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ChatGPT #GenerativeAI #Reasoning #Selected Papers/Blogs Issue Date: 2025-12-12 Comment

元ポスト:

Loading…

OpenAIがGPT-5.2をリリースし、再び様々なベンチマークにおいてGemini 3 Proをoutperform。

フロントエンド開発（デザイン）（アリーナ形式）ではOpus, Gemini 3 Proの勝利らしい:

Loading…

https://www.designarena.ai

ポイント解説:

Loading…

GDPval:
- [Paper Note] GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks, Tejal Patwardhan+, arXiv'25, 2025.10
- GDPVAL: EVALUATING AI MODEL PERFORMANCE ON REAL-WORLD ECONOMICALLY VALUABLE TASKS, Patwardhan+, 2025.09

GDPvalのclearwinがGPT-5.2- Thinkingで49.8%なので、14年程度の専門家がこなす米国主要産業の一部のタスクは数値上は置き換え可能という風に見える。Proに至っては60.0%である。
が、GDPvalはたとえば以下のようなlimitationがあり、数値の解釈には注意が必要である:
- 完全なcontextが与えられる前提
- 暗黙知が多いタスクは対象外
- 自己完結型で他社とのコミュニケーションが必要とされないタスクを対象
- 1職種あたり30タスク程度の限定的な網羅性
- コンピュータを利用したタスクのみ
- ...

実際の現場で活用しようと思うと、完全なcontextを揃えられるか、揃わない場合に不完全なcontextでタスクを遂行できるか、そのための社内での運用フローの整備等、モデルを活用するための周辺のシステムや運用フローの設計が重要（かつ膨大）である点には（ベンチマークのスコアを見ると驚くべき進歩だが）留意する必要がある。

Vals AI IndexというGDPvalに類似したベンチマークでもSoTAとのこと:

Loading…

Qwen3-TTS Update 49 Timbres + 10 Languages + 9 Dialects, Qwen Team, 2025.12

Paper/Blog Link My Issue
#Article #SpeechProcessing #MultiLingual #TTS #One-Line Notes Issue Date: 2025-12-06 Comment

元ポスト:

Loading…

日本語を含む10ヶ国語をサポートしているのは素晴らしい。ただ、デモの日本語を聞いてみると、イントネーションがまだおかしいなぁ、と感じる。聞き取り自体に問題はない。

Introducing Amazon Nova 2 Lite, a fast, cost-effective reasoning model, AWS, 2025.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Reasoning Issue Date: 2025-12-03 Comment

元ポスト:

Loading…

Claude-Opus-4.5: Introducing advanced tool use on the Claude Developer Platform, Anthropic, 2025.11

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #Selected Papers/Blogs #Reference Collection Issue Date: 2025-11-25 Comment

元ポスト:

Loading…

AnthropicがClaude-Opus-4.5をリリース。AgenticなユースケースでClaudeがベンチマーク上の首位をGemini3 Proから奪還

システムカード:
https://assets.anthropic.com/m/64823ba7485345a7/Claude-Opus-4-5-System-Card.pdf

人間と比較した時のパフォーマンスの解説:

Loading…

EpochAIによるFrontierMath Tier1-3での評価:

Loading…

o3(high), Grok4と同等程度で、Gemini3 Pro, GPT-5.1(high)には劣る

ベンチマーク上でのコーディング能力やagenticなツール呼び出し能力の差は縮まっている:

Loading…

Artificial Analysisの評価:

Loading…

スライドをいい感じに作れるらしい:

Loading…

50% time horizonは4時間49分で現在top。

Loading…

Introducing Nano Banana Pro, Google, 2025.11

Paper/Blog Link My Issue
#Article #ComputerVision #GenerativeAI #Selected Papers/Blogs #2D (Image) Issue Date: 2025-11-21 Comment

元ポスト:

Loading…

所見:

Loading…

所見:

Loading…

Introducing Navigator, Yutori team, 2025.11

Paper/Blog Link My Issue
#Article #NLP #AIAgents #Blog #ComputerUse #read-later #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-20 Comment

元ポスト:

Loading…

gemini2.5, claude4.5, openaioperator等よりも性能が良いweb agentらしい

Introducing Google Antigravity, a New Era in AI-Assisted Software Development, Google, 2025.11

Paper/Blog Link My Issue
#Article #LanguageModel #AIAgents #GenerativeAI #Blog #SoftwareEngineering Issue Date: 2025-11-19 Comment

元ポスト:

Loading…

google謹製のAI Agent FirstなIDE、らしい

Gemini 3 による知性の新時代, Google, 2025.11

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #GenerativeAI #Blog #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-11-19 Comment

所見:

Loading…

GPT5.1に対して各種ベンチマークで上回る性能。

所見:

Loading…

Gemini2.5 Proは回答が冗長で使いにくかったが、Gemini3は冗長さがなくなり、クリティカルな情報を簡潔に、しかし短すぎない、ちょうど良いくらいの応答に感じており、レスポンスもGPT5.1, GPT5と比べ早いので普段使いのLLMとしては非常に良いのではないか、という感想（2,3個のクエリを投げただけだが）を抱いた。

Oriol Vinyals氏のコメント:

Loading…

LiveCodeBench ProでもSoTA:

Loading…

Gemini Pro 3 Developer Guide:
https://ai.google.dev/gemini-api/docs/gemini-3?hl=ja

元ポスト:

Loading…

GAIA Verified （Browser Use?)でもSoTA:

Loading…

ただし、どのようなハーネスが使われているかは不明だし、それらが各モデルにとってフェアなものになってるかも不明
スクショのみでリンクも無し。

所見:

Loading…

content window,pricingなどの情報:

Loading…

一般的なユースケースでのBest Practice:

Loading…

パラメータ数に関する考察:

Loading…

韓国語でのベンチマークに関するポスト:

Loading…

自身のハーネス、ユースケース、タスクではうまくいかなかったよという話（でもただのサンプル数1だよ、という話が記載されている）:

Loading…

結局のところベンチマークはあくまで参考程度であり、自分たちのタスク、データセットで性能を測らねばわからない。

Artificial Intelligenceによる評価:

Loading…

MCP Universeでtop:

Loading…

- [Paper Note] MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers, Ziyang Luo+, arXiv'25

Live SWE Agentと呼ばれるself-evolvingな枠組みを採用した場合（＝scaffoldをbashのみから自己進化させる）のSWE Bench Vevifiedにやる評価でもSoTA:

Loading…

- [Paper Note] Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?, Chunqiu Steven Xia+, arXiv'25, 2025.11
- SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez+, ICLR'24

この辺のsoftware agent系のベンチマークにおけるハーネスが具体的にどうなっているのか、中身を見たことないので見ておきたい。

（追記）
SWE Bench Verifiedのリーダーボードではmini-SWE-Agentを利用した公正な比較が行われており、こちらではGemini3がトップだったもののその後リリースされたClaude-Opus-4.5がtopを僅差で奪還しGemini3が2位とのこと。

Loading…

ハーネスについてはこちらを読むと良さそう:
- [Paper Note] SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering, John Yang+, arXiv'24, 2024.05

EpochAIによる評価:

Loading…

ECIでtop。ECIは39のベンチマークから算出されるスコア、らしい。

Scale AIのVisual Tool BenchでもSoTA:

Loading…

- Beyond Seeing: Evaluating Multimodal LLMs On Tool-enabled Image Perception, Transformation, and Reasoning, Scale AI, 2025.10

CriPtと呼ばれるベンチマークにおける評価でもSoTA:

Loading…

- [Paper Note] Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark, Minhui Zhu+, arXiv'25, 2025.09

最近提案された新たなtooluseベンチマークでもsecond placeらしい:
- [Paper Note] The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution, Junlong Li+, arXiv'25, 2025.10

Loading…

IQ130らしい（果たして）:

Loading…

GPQA DiamondでSoTA:

Loading…

Jeff Dean氏によるポスト:

Loading…

Grok 4.1, xAI, 2025.11

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #GenerativeAI #Blog #Selected Papers/Blogs Issue Date: 2025-11-18 Comment

元ポスト:

Loading…

GPT-5.1: A smarter, more conversational ChatGPT, OpenAI, 2025.11

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ChatGPT #Blog #Reasoning #Selected Papers/Blogs #Routing #One-Line Notes #Reference Collection Issue Date: 2025-11-13 Comment

元ポスト:

Loading…

instantモデルはよりあたたかい応答でより指示追従能力を高め、thinkingモデルは入力に応じてより適応的に思考トークン数を調整する。autoモデルは入力に応じてinstant, thinkingに適切にルーティングをする。

所見:

Loading…

Artificial Analysisによるベンチマーキング:

Loading…

GPT-5.1-Codex-maxの50% time horizon:

Loading…

Introducing SWE-1.5: Our Fast Agent Model, Cognition, 2025.10

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #SoftwareEngineering Issue Date: 2025-10-30 Comment

元ポスト:

Loading…

windsurfから利用可能とのこと

Advancing Claude for Financial Services, Anthropic, 2025.10

Paper/Blog Link My Issue
#Article #NLP #GenerativeAI #Blog #Financial Issue Date: 2025-10-28 Comment

元ポスト:

Loading…

NTT版大規模言語モデル「tsuzumi 2」, NTT人間情報研究所, 2025.10

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog Issue Date: 2025-10-22 Comment

日本語MT-benchでGPT-5と同等程度の性能とのこと。VRAM40GB未満の1GPUで動作させることを念頭に開発されており、フルスクラッチ、かつ学習データも完全にコントロールしデータの権利、品質、バイアスの管理可能にしているとのこと。

Introducing SWE-grep and SWE-grep-mini: RL for Multi-Turn, Fast Context Retrieval, Cognition, 2025.10

Paper/Blog Link My Issue
#Article #Multi #EfficiencyImprovement #ReinforcementLearning #AIAgents #Blog #Parallelism #ContextEngineering #KeyPoint Notes Issue Date: 2025-10-18 Comment

元ポスト:

Loading…

最大で4 turnの間8つのツールコール（guessingとしては従来モデルは1--2, Sonnet-4.5は1--4)を並列する（3 turnは探索、最後の1 turnをanswerのために使う) parallel tool calls を効果的に実施できるように、on policy RLでマルチターンのRLを実施することで、高速で正確なcontext retrievalを実現した、という感じらしい。

従来のembedding-basedなdense retrieverは速いが正確性に欠け、Agenticなsearchは正確だが遅いという双方の欠点を補う形。

parallel tool callというのは具体的にどういうtrajectoryになるのか…？

Introducing Claude Sonnet 4.5, Anthropic, 2025.09

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog Issue Date: 2025-09-30 Comment

元ポスト:

Loading…

Claude Sonnet 4.5 発表関連情報まとめ:
記事: https://zenn.dev/schroneko/articles/claude-sonnet-4-5
元ポスト:

Loading…

ブログを読むとImagine with Claudeの方がむしろ気になる...（残念ながら課金していない）
https://claude.ai/login?returnTo=%2Fimagine

Artificial Intelligenceによる評価:

Loading…

Continuing to bring you our latest models, with an improved Gemini 2.5 Flash and Flash-Lite release, Google Deepmind, 2025.09

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Reasoning Issue Date: 2025-09-28 Comment

元ポスト:

Loading…

Qwen3-Max: Just Scale it, Qwen Team, 2025.09

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #MoE(Mixture-of-Experts) Issue Date: 2025-09-24 Comment

元ポスト:

Loading…

現在はnon-thinkingモデルのみのようだがthinkingモデルも学習中で、GPQA, HMMT, AIME25でのベンチマーク結果のみ掲載されている。

HMMTというのは以下な模様:
- HMMT. HMMT 2025, 2025.09

Qwen3‑LiveTranslate: Real‑Time Multimodal Interpretation — See It, Hear It, Speak It！, Qwen Team, 2025.09

Paper/Blog Link My Issue
#Article #MachineTranslation #NLP #LanguageModel #MultiModal #Blog Issue Date: 2025-09-24 Comment

元ポスト:

Loading…

Kimi-Researcher End-to-End RL Training for Emerging Agentic Capabilities, MoonshotAI, 2025.06

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #DeepResearch Issue Date: 2025-09-13

Introducing Gemini 2.5 Flash Image, our state-of-the-art image model, Google, 2025.08

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #TextToImageGeneration #Blog #Editing Issue Date: 2025-08-28 Comment

nano banana

ベストプラクティス:

Loading…

プロンプトガイドと戦略: https://ai.google.dev/gemini-api/docs/image-generation?hl=ja#prompt-guide

元ポスト:

Loading…

Swallow LLM Leaderboard v2, Swallow LLM Team, 2025.08

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #OpenWeight #Japanese #Selected Papers/Blogs Issue Date: 2025-08-20 Comment

元ポスト:

Loading…

LLMの性能を公平な条件で評価するために、従来のnon thinkingモデルで採用していた方法はthinkingモデルでは過小評価につながることが明らかになった（e.g., non thinkingモデルはzero shotを標準とするが、thinkingモデルではfewshot、chat templateの採用等）ため、日本語/英語ともに信頼の高い6つのベンチマークを採用し、thinkingモデルに対して公平な統一的な評価フレームワークを確立。主要なプロプライエタリ、OpenLLMに対して評価を実施し、リーダーボードとして公開。Reasoningモデルに対する最新の日本語性能を知りたい場合はこちらを参照するのが良いと思われる。

評価に用いられたフレームワークはこちら:
https://github.com/swallow-llm/swallow-evaluation-instruct

主要モデルの性能比較:

Loading…

GPT-5 System Card, OpenAI, 2025.08

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MultiModal #KeyPoint Notes #Reference Collection Issue Date: 2025-08-07 Comment

日本語性能。MMLUを専門の翻訳家を各言語に翻訳。

ざーっとシステムカードを見たが、ベンチマーク上では、Safetyをめっちゃ強化し、hallucinationが低減され、コーディング能力が向上した、みたいな印象（小並感）

longContextの性能が非常に向上しているらしい
-

Loading…

gpt-ossではAttentionSinkが使われていたが、GPT-5では使われているだろうか？もし使われているならlong contextの性能向上に寄与していると思われる。

50% time horizonもscaling lawsに則り進展:
-

Loading…

- Measuring AI Ability to Complete Long Tasks, Thomas Kwa+, arXiv'25, 2025.03

個別のベンチが数%向上、もしくはcomparableです、ではもはやどれくらい進展したのかわからない（が、個々の能力が交互作用して最終的な出力がされると考えるとシナジーによって全体の性能は大幅に底上げされる可能性がある）からこの指標を見るのが良いのかも知れない

METR's Autonomy Evaluation Resources
- https://metr.github.io/autonomy-evals-guide/gpt-5-report/
-

Loading…

HLEに対するツール利用でのスコアの比較に対する所見:

Loading…

Document Understandingでの評価をしたところOutput tokenが大幅に増えている:

Loading…

GPT5 Prompting Guide:
https://cookbook.openai.com/examples/gpt-5/gpt-5_prompting_guide

GPT-5: Key characteristics, pricing and model card
- https://simonwillison.net/2025/Aug/7/gpt-5/
-

Loading…

システムカード中のSWE Bench Verifiedの評価結果は、全500サンプルのうちの477サンプルでしか実施されておらず、単純にスコアを比較することができないことに注意。実行されなかった23サンプルをFailedとみなすと（実行しなかったものを正しく成功できたとはみなせない）、スコアは減少する。同じ477サンプル間で評価されたモデル間であれば比較可能だが、500サンプルで評価された他のモデルとの比較はできない。

-

Loading…

- SWE Bench リーダーボード: https://www.swebench.com

まとめ:

Loading…

所見:
-

Loading…

OpenHandsでの評価:

Loading…

SWE Bench Verifiedの性能は71.8%。全部の500サンプルで評価した結果だと思うので公式の発表より低めではある。

AttentionSinkについて:

Loading…

o3と比較してGPT5は約1/3の時間でポケモンレッド版で8個のバッジを獲得した模様:

Loading…

より温かみのあるようなalignmentが実施された模様:

Loading…

GPT5はlong contextになるとmarkdownよりめxmlの方が適していると公式ドキュメントに記載があるらしい:

Loading…

Smallow LLM Leaderboard v2での性能:

Loading…

GPT5の性能が際立って良く、続いてQwen3, gptossも性能が良い。

Claude Opus 4.1, Anthropic, 2025.08

Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #AIAgents #Blog #Coding Issue Date: 2025-08-06 Comment

他モデルとの性能比較:

やはりコーディングでは（SNS上での口コミでは非常に高評価なように見えており、かつ）o3やGeminiと比較してClaudeがベンチ上でも高い性能を示している模様。

元ポスト:

Loading…

Hunyuan T1, Tencent, 2025.03

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #SSM (StateSpaceModel) Issue Date: 2025-03-22 Comment

元ポスト:

Loading…

画像はブログより引用。DeepSeek-R1と比較すると優っているタスクと劣っているタスクがあり、なんとも言えない感。GPT4.5より大幅に上回っているタスク（Math, Reasoning）があるが、そもそもそういったタスクはo1などのreasoningモデルの領域。o1と比較するとこれもまあ優っている部分もあれば劣っている部分もあるという感じ。唯一、ToolUseに関しては一貫してOpenAIモデルの方が強い。

ChineseタスクについてはDeepSeek-R1と完全にスコアが一致しているが、評価データのサンプル数が少ないのだろうか？

reasoningモデルかつ、TransformerとMambaのハイブリッドで、MoEを採用しているとのこと。

TransformerとMambaのハイブリッドについて（WenhuChen氏のポスト）:

Loading…

Layer-wise MixingとSequence-wise Mixingの2種類が存在するとのこと。前者はTransformerのSelf-Attenton LayerをMamba Layerに置換したもので、後者はSequenceのLong partをMambaでまずエンコードし、Short PartをTransformerでデコードする際のCross-Attentionのencoder stateとして与える方法とのこと。

Self-Attention Layerを削減することでInference時の計算量とメモリを大幅に削減できる（Self-Attentionは全体のKV Cacheに対してAttentionを計算するため）。

ERNIE4.5_X1, Baidu, 2025.03

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal Issue Date: 2025-03-17 Comment

解説ポスト:

Loading…

- ERNIE4.5はGPT4.5をさまざまなベンチマークで上回り、価格がなんとGPT4.5の1%
- X1はマルチモーダルなreasoningモデルでDeepSeek-R1と同等の性能で半額

らしい

このモデルは6月30日にオープン（ウェイト？）になるとスレッドで述べられている。

2024-ai-timeline, reach-vb, 2025.01

Paper/Blog Link My Issue
#Article #Survey #ComputerVision #NLP #LanguageModel #OpenWeight Issue Date: 2025-01-02 Comment

月別で2024年にリリースされた主要なLLM（マルチモーダルなLLMも含む）のタイムラインがまとめられている。
API Only（プロプライエタリ）なのか、OpenWeightなのかもタグ付けされている。

OpenAI o1 System Card, OpenAI, 2024.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ChatGPT #Reasoning Issue Date: 2024-12-10

Grok-2, X, 2024.08

Paper/Blog Link My Issue
#Article #NLP #LanguageModel Issue Date: 2024-08-24 Comment

chatbot arenaで5月時点のGPT4o超え。miniでもなんとllama3.1-705B超え

Loading…

PLaMo-100B, PFN, 2024.08

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Japanese Issue Date: 2024-08-08 Comment

日本語のベンチマークでGPT4を超える性能を達成。
SFT, DPOで学習。学習データは、Publicなもの、プログラムで作成したもの、LLM自身に作成させたものを利用した。また、最終的なモデルに複数の候補があったのでモデルマージで良いところ取りをした。DPOで利用するpreferenceデータは、事後学習途中のモデルによって自動生成。

Command R+, Cohere, 2024

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight Issue Date: 2024-04-10 Comment

Chatbot arenaでGPT-4-0314と同等の Elo Rate を獲得し（20240410時点）、日本語を含む10ヶ国語をサポート。コンテキストウィンドウサイズ128k。商用利用はAPIから、研究目的であればHuggingFaceから利用可能。

Gemini, Google, 2023.12

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog Issue Date: 2023-12-07 Comment

多くのベンチマークでGPT4超えらしい

（追記1）
テクニカルレポートのp.44を見ると、ブログポスト中のGPT4のMMLUのスコアはGPT-4-0613のもののようなので、これが正しいとすると他のベンチマークのスコアも同モデルのものである可能性が高く、GPT-4-1163-preview（最新モデル）のスコアでは"ないかもしれない"点に注意。GPT4とどちらが実際に性能が良いか?については様子見した方が良さそう。

（追記2）
GSM8Kの結果も、GPT4に対してFair Comparisonではないかもしれない点に注意。Geminiは32個のCoTとSelf-Consistencyを利用しているが、GPT4では5-shotで単一のCoTのみであるため、prompting手法ではGeminiに有利な比較となっているように見える。ただしGPT4はGSM8Kの訓練データを事前学習時にMIXしている（SFT）ので、Geminiがこのようなことをしていないのであれば、この点ではGPT4が有利になっている“可能性”がある。

他にもFair Comparisonになっていないと推察されるものはTextモダリティでの評価の表の文言を見るとありそうなのでそこは念頭においた方が良さそうである。

テクニカルレポート: https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

Gemini Summary

Loading…

MMLUでの同じprompting手法でのGPT-4-0613との比較。32個のCoTでのSelf-Consistencyで比較した場合、GPT-4-0613に負けているが、閾値を設けてconfidenceが閾値以上の場合はSelf-consistency, そうでない場合はgreedyに生成した結果を選択する、というUncertain-Routed CoT@32では、Geminiのパフォーマンスgainが大きくGPT-4-0613よりも高い性能を示している。
ブログポスト中のGPT4のスコアは5-shotのもの（reportedと書かれているのでOpenAIが公表している数値と推察）であり、Geminiの結果はUncertain-Routed CoT@32の結果であるため、Fair Comparisonになっていないかもしれない？点には注意。

レポート中ではSelf-consistencyという単語でこの部分は書かれていないが、実は少しやっていること違ってたりする…？

Proprietary

[Paper Note] Step-DeepResearch Technical Report, Chen Hu+, arXiv'25, 2025.12

[Paper Note] AI-Researcher: Autonomous Scientific Innovation, Jiabin Tang+, arXiv'25

FineTuneBench: How well do commercial fine-tuning APIs infuse knowledge into LLMs?, Eric Wu+, arXiv'24

Gemini: A Family of Highly Capable Multimodal Models, Gemini Team+, N_A, arXiv'23

Qwen3-TTS Steps Up: Voice Cloning and Voice Design, Qwen Team, 2025.12

ByteDance Doubao-Seed-1.8 Review, toyama nao, Zhihu, 2025.12

Introducing Mistral OCR 3, Mistral AI, 2025.12

Seed1.8, ByteDance Seed, 2025.12

Gemini 3 Flash: frontier intelligence built for speed, Google, 2025.12

SID-1 Technical Report: Test-Time Compute for Retrieval, SID Research, 2025.12

GPT-5.2 が登場 専門的な業務や長時間稼働するエージェント向けの、最先端のフロンティアモデル。, OpenAI, 2025.12

Qwen3-TTS Update 49 Timbres + 10 Languages + 9 Dialects, Qwen Team, 2025.12

Introducing Amazon Nova 2 Lite, a fast, cost-effective reasoning model, AWS, 2025.12

Claude-Opus-4.5: Introducing advanced tool use on the Claude Developer Platform, Anthropic, 2025.11

Introducing Nano Banana Pro, Google, 2025.11

Introducing Navigator, Yutori team, 2025.11

Introducing Google Antigravity, a New Era in AI-Assisted Software Development, Google, 2025.11

Gemini 3 による知性の新時代, Google, 2025.11

Grok 4.1, xAI, 2025.11

GPT-5.1: A smarter, more conversational ChatGPT, OpenAI, 2025.11

Introducing SWE-1.5: Our Fast Agent Model, Cognition, 2025.10

Advancing Claude for Financial Services, Anthropic, 2025.10

NTT版大規模言語モデル「tsuzumi 2」, NTT人間情報研究所, 2025.10

Introducing SWE-grep and SWE-grep-mini: RL for Multi-Turn, Fast Context Retrieval, Cognition, 2025.10

Introducing Claude Sonnet 4.5, Anthropic, 2025.09

Continuing to bring you our latest models, with an improved Gemini 2.5 Flash and Flash-Lite release, Google Deepmind, 2025.09

Qwen3-Max: Just Scale it, Qwen Team, 2025.09

Qwen3‑LiveTranslate: Real‑Time Multimodal Interpretation — See It, Hear It, Speak It！, Qwen Team, 2025.09

Kimi-Researcher End-to-End RL Training for Emerging Agentic Capabilities, MoonshotAI, 2025.06

Introducing Gemini 2.5 Flash Image, our state-of-the-art image model, Google, 2025.08

Swallow LLM Leaderboard v2, Swallow LLM Team, 2025.08

GPT-5 System Card, OpenAI, 2025.08

Claude Opus 4.1, Anthropic, 2025.08

Hunyuan T1, Tencent, 2025.03

ERNIE4.5_X1, Baidu, 2025.03

2024-ai-timeline, reach-vb, 2025.01

OpenAI o1 System Card, OpenAI, 2024.12

Grok-2, X, 2024.08

PLaMo-100B, PFN, 2024.08

Command R+, Cohere, 2024

Gemini, Google, 2023.12

GPT-5.2 が登場専門的な業務や長時間稼働するエージェント向けの、最先端のフロンティアモデル。, OpenAI, 2025.12