Blogに関する論文・技術記事メモの一覧

Blog

#Analysis #NLP #Game
Issue Date: 2025-08-24 Identification and Analysis of Identity-Centric Elements of Character-Likeness from Game Scenario, Iwata+, SIGDIAL'25 Comment

arxivに無さそうなので、概要は元ポスト参照のこと。キャラクターらしさの構成要素とそれらがキャラクターらしさに関してどのように関係しているかを分析した研究な模様。

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #AIAgents #NeurIPS
Issue Date: 2025-01-25 [Paper Note] Chain of Agents: Large language models collaborating on long-context tasks, Google Research, 2025.01, NeurIPS'24 Comment

元ポスト:

Loading…

LLMがどこまでいってもcontext長の制約に直面する問題に対してLLM Agentを組み合わせて対処しました、的な話な模様

ブログ中にアプローチを解説した動画があるのでわかりやすい

Is the experimental code open source?

Thank you for your comment. I tried to find an official open-source implementation provided by the authors, but I was not able to locate one. In fact, I also checked the personal webpage of the first author, but there was no link to any released code.

Is seems that an unofficial implementation is listed under the “Code” tab on the NeurIPS page. I hope this is helpful. Thank you.

NeurIPS link: https://nips.cc/virtual/2024/poster/95563
openreview: https://openreview.net/forum?id=LuCLf4BJsr

#Article #ComputerVision #FlowMatching #reading #RectifiedFlow #FlowMaps
Issue Date: 2025-11-28 生成AI革命の最前線：拡散を超える「流れ」の思想とMambaの台頭, laughman-ai, 2025.10

#Article #ComputerVision #read-later #FlowMatching #RectifiedFlow #Physics Issue Date: 2025-11-28 Flow With What You Know, Scott H. Hawley, 2024.11 #Article Issue Date: 2025-11-27 Why （Senior） Engineers Struggle to Build AI Agents, PHILSCHMID, 2025.11 Comment

元ポスト:

Loading…

#Article Issue Date: 2025-11-27 Effective harnesses for long-running agents, Anthropic, 2025.11 Comment

元ポスト:

Loading…

#Article Issue Date: 2025-11-27 The Eiffel Tower Llama, David Louapre, 2025.11 Comment

元ポスト:

Loading…

#Article #AIAgents #SmallModel #OpenWeight #ComputerUse #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-25 Fara-7B: An Efficient Agentic Model for Computer Use, Microsoft, 2025.11 Comment

元ポスト:

Loading…

computer useに特化したMS初のSLM(CUA)

MIT Licence

著者ポスト:

Loading…

#Article #NLP #SmallModel #Japanese #VisionLanguageModel #Cultural Issue Date: 2025-11-25 Sarashina2.2-Vision-3B: コンパクトかつ性能が高いVLMの公開, SB Intuitions, 2025.11 Comment

元ポスト:

Loading…

HF: https://huggingface.co/sbintuitions/sarashina2.2-vision-3b

#Article #NLP #LanguageModel #AIAgents #ProprietaryLLM #Selected Papers/Blogs Issue Date: 2025-11-25 Claude-Opus-4.5: Introducing advanced tool use on the Claude Developer Platform, Anthropic, 2025.11 Comment

元ポスト:

Loading…

AnthropicがClaude-Opus-4.5をリリース。AgenticなユースケースでClaudeがベンチマーク上の首位をGemini3 Proから奪還

システムカード:
https://assets.anthropic.com/m/64823ba7485345a7/Claude-Opus-4-5-System-Card.pdf

人間と比較した時のパフォーマンスの解説:

Loading…

EpochAIによるFrontierMath Tier1-3での評価:

Loading…

o3(high), Grok4と同等程度で、Gemini3 Pro, GPT-5.1(high)には劣る

ベンチマーク上でのコーディング能力やagenticなツール呼び出し能力の差は縮まっている:

Loading…

Artificial Analysisの評価:

Loading…

#Article #NLP #AIAgents #GenerativeAI #One-Line Notes Issue Date: 2025-11-25 Stanford Agentic Reviewer, Stanford University, 2025.11 Comment

元ポスト:

Loading…

Andrew Ng氏によるAI Agentによる論文のレビュワーシステムで、ICLR'25のレビューで学習し、テストセットで評価したところ、人間-人間間の相関と人間-AI間の相関係数が同等の水準に到達とのこと。ICLR'25のレビューで学習しているということは当該ドメインに近しい研究であるほど適切なレビューが実施されるであろう点に注意。

#Article #NLP #LanguageModel #Japanese Issue Date: 2025-11-21 大規模言語モデルの次期バージョン PLaMo 3 シリーズにおける8B, 31Bの小規模モデルによる事前学習の検証, PFN, 2025.11 Comment

元ポスト:

Loading…

コーディング能力で大幅に性能向上している模様:

Loading…

- Swallow LLM Leaderboard v2, Swallow LLM Team, 2025.08

#Article #NLP #Dataset #LanguageModel #Evaluation #read-later Issue Date: 2025-11-21 Benchmark Scores = General Capability + Claudiness, EpochAI, 2025.11 Comment

元ポスト:

Loading…

Claudiness＝Claudeらしさ＝エージェントタスクに優れている、しかしマルチモーダルや数学には弱いこと（皮肉を込めてこう呼んでいるらしい）
Claudeらしくないモデルとしては、o4-miniやGPT-5が挙げられる。

Loading…

#Article #Tutorial #ComputerVision #NLP #ScientificDiscovery #Japanese #Robotics Issue Date: 2025-11-20 TAURO Project, note, 2024.10 Comment

元ポスト:

Loading…

👀👀👀

#Article #RecommenderSystems #Embeddings #InformationRetrieval #NLP #OpenWeight #Reranking Issue Date: 2025-11-20 Introducing zerank-2: The Most Accurate Multilingual Instruction-Following Reranker, ZeroEntropy, 2025.11 Comment

HF: https://huggingface.co/zeroentropy/zerank-2

SoTA reranker

関連:
- zerank-1, zeroentropy, 2025.07

#Article #ComputerVision #FoundationModel #read-later #Selected Papers/Blogs #3D Reconstruction #3D (Scene) Issue Date: 2025-11-20 Introducing SAM 3D: Powerful 3D Reconstruction for Physical World Images, Meta, 2025.11 Comment

元ポスト:

Loading…

解説:

Loading…

#Article #ComputerVision #ImageSegmentation #FoundationModel #read-later #Selected Papers/Blogs #2D (Image) #4D (Video) Issue Date: 2025-11-20 Introducing Meta Segment Anything Model 3 and Segment Anything Playground, Meta, 2025.11 Comment

元ポスト:

Loading…

今度はSAM3、最近毎日なんか新しいの出てるな

#Article #NLP #AIAgents #ProprietaryLLM #ComputerUse #read-later #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-20 Introducing Navigator, Yutori team, 2025.11 Comment

元ポスト:

Loading…

gemini2.5, claude4.5, openaioperator等よりも性能が良いweb agentらしい

#Article #Zero/FewShotLearning #read-later #Generalization #Robotics #LongHorizon Issue Date: 2025-11-20 ACT-1: A Robot Foundation Model Trained on Zero Robot Data, Sunday Team, 2025.11 Comment

元ポスト:

Loading…

テレオペレーション（遠隔操作; 模倣学習に使われるのだと思われる）ではなく、Skill Capture Gloveと呼ばれる手に装着するタイプのデバイスから収集したデータのみを収集して学習するらしい。手のデータは収集できるが、身長や腕の長さ、視覚的な情報が異なるではないか、という点については、グローブのデータを同等のロボットのデータに変換するみたいなことをするらしい。（ゆるふわ理解）

#Article #NLP #AIAgents #ScientificDiscovery #Test-Time Scaling #LongHorizon Issue Date: 2025-11-20 Previewing Locus, INTOLOGY, 2025.11 Comment

元ポスト:

Loading…

所見:

Loading…

#Article #NLP #Dataset #LanguageModel #AIAgents #Evaluation Issue Date: 2025-11-19 AI Model Benchmarks Nov 2025, lmcouncil, 2025.11 Comment

元ポスト:

Loading…

50% time horizonなどを含む良さそうなベンチマークと主要モデルの比較が簡単にできそうなサイト

#Article #LanguageModel #AIAgents #GenerativeAI #ProprietaryLLM #SoftwareEngineering Issue Date: 2025-11-19 Introducing Google Antigravity, a New Era in AI-Assisted Software Development, Google, 2025.11 Comment

元ポスト:

Loading…

google謹製のAI Agent FirstなIDE、らしい

#Article #read-later Issue Date: 2025-11-19 NVIDIA NeMoを利用したGPT-OSSの学習, Kazuki Fujii, 2025.11 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #GenerativeAI #ProprietaryLLM #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-11-19 Gemini 3 による知性の新時代, Google, 2025.11 Comment

所見:

Loading…

GPT5.1に対して各種ベンチマークで上回る性能。

所見:

Loading…

Gemini2.5 Proは回答が冗長で使いにくかったが、Gemini3は冗長さがなくなり、クリティカルな情報を簡潔に、しかし短すぎない、ちょうど良いくらいの応答に感じており、レスポンスもGPT5.1, GPT5と比べ早いので普段使いのLLMとしては非常に良いのではないか、という感想（2,3個のクエリを投げただけだが）を抱いた。

Oriol Vinyals氏のコメント:

Loading…

LiveCodeBench ProでもSoTA:

Loading…

Gemini Pro 3 Developer Guide:
https://ai.google.dev/gemini-api/docs/gemini-3?hl=ja

元ポスト:

Loading…

GAIA Verified （Browser Use?)でもSoTA:

Loading…

ただし、どのようなハーネスが使われているかは不明だし、それらが各モデルにとってフェアなものになってるかも不明
スクショのみでリンクも無し。

所見:

Loading…

content window,pricingなどの情報:

Loading…

一般的なユースケースでのBest Practice:

Loading…

パラメータ数に関する考察:

Loading…

韓国語でのベンチマークに関するポスト:

Loading…

自身のハーネス、ユースケース、タスクではうまくいかなかったよという話（でもただのサンプル数1だよ、という話が記載されている）:

Loading…

結局のところベンチマークはあくまで参考程度であり、自分たちのタスク、データセットで性能を測らねばわからない。

Artificial Intelligenceによる評価:

Loading…

MCP Universeでtop:

Loading…

- [Paper Note] MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers, Ziyang Luo+, arXiv'25

Live SWE Agentと呼ばれるself-evolvingな枠組みを採用した場合（＝scaffoldをbashのみから自己進化させる）のSWE Bench Vevifiedにやる評価でもSoTA:

Loading…

- [Paper Note] Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?, Chunqiu Steven Xia+, arXiv'25, 2025.11
- SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez+, ICLR'24

この辺のsoftware agent系のベンチマークにおけるハーネスが具体的にどうなっているのか、中身を見たことないので見ておきたい。

（追記）
SWE Bench Verifiedのリーダーボードではmini-SWE-Agentを利用した公正な比較が行われており、こちらではGemini3がトップだったもののその後リリースされたClaude-Opus-4.5がtopを僅差で奪還しGemini3が2位とのこと。

Loading…

ハーネスについてはこちらを読むと良さそう:
- [Paper Note] SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering, John Yang+, arXiv'24, 2024.05

EpochAIによる評価:

Loading…

ECIでtop。ECIは39のベンチマークから算出されるスコア、らしい。

Scale AIのVisual Tool BenchでもSoTA:

Loading…

- Beyond Seeing: Evaluating Multimodal LLMs On Tool-enabled Image Perception, Transformation, and Reasoning, Scale AI, 2025.10

CriPtと呼ばれるベンチマークにおける評価でもSoTA:

Loading…

- [Paper Note] Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark, Minhui Zhu+, arXiv'25, 2025.09

最近提案された新たなtooluseベンチマークでもsecond placeらしい:
- [Paper Note] The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution, Junlong Li+, arXiv'25, 2025.10

Loading…

IQ130らしい（果たして）:

Loading…

GPQA DiamondでSoTA:

Loading…

#Article #GenerativeAI Issue Date: 2025-11-19 AI in Practice Survey 2025, Theory Ventures, 2025.11 Comment

元ポスト:

Loading…

#Article #SoftwareEngineering #read-later #GPUKernel Issue Date: 2025-11-18 ParallelKittens: Simple and Fast Multi-GPU AI Kernels, Hazy Research, 2025.11 Comment

元ポスト:

Loading…

読みたい

#Article #NLP #LanguageModel #GenerativeAI #ProprietaryLLM #Selected Papers/Blogs Issue Date: 2025-11-18 Grok 4.1, xAI, 2025.11 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #GenerativeAI #text #AI Detector Issue Date: 2025-11-16 Third-Party Pangram Evaluations, Pangram., Destiny Akinode, 2025.11 Comment

元ポスト:

Loading…

#Article #Analysis #NLP #LanguageModel #ICLR #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-15 ICLR 2026 - Submissions, Pangram Labs, 2025.11 Comment

元ポスト:

Loading…

ICLR'26のsubmissionとreviewに対してLLMが生成したものが否かをDetectionした結果（検出性能は完璧な結果ではない点に注意）

この辺の議論が興味深い:

Loading…

関連:

Loading…

oh...

パイプライン解説:

Loading…

母国語でレビューを書いて英語に翻訳している場合もAI判定される場合があるよという話:

Loading…

ICLR公式が対応検討中とのこと:

Loading…

ICLRからの続報:

Loading…

> As such, reviewers who posted such poor quality reviews will also face consequences, including the desk rejection of their submitted papers.

> Authors who got such reviews (with many hallucinated references or false claims) should post a confidential message to ACs and SACs pointing out the poor quality reviews and provide the necessary evidence.

#Article #Tutorial #NLP #ACL Issue Date: 2025-11-15 ACL2025@ウィーン参加報告, shirotaro, 2025.10 #Article Issue Date: 2025-11-14 [Tips] PyTorchにおける動的リンク, Kazuki Fujii, 2025.05 #Article Issue Date: 2025-11-14 [Tips] PyTorchをself buildしてinstallする方法, Kazuki Fujii, 2025.03 #Article #LanguageModel #SoftwareEngineering #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-14 LLM開発の裏で行われるデバッグ作業: PyTorch DCP, Kazuki Fujii, 2025.11 Comment

元ポスト:

Loading…

自分たちの環境と目的を考えた時に、複数の選択肢を列挙し、それぞれの利点と欠点を明文化した上で最適なものを選択する。そしてそれを実現する上で見つかった挙動のおかしな部分について、怪しい部分にあたりをつけて、仮説を立てて、中身を確認し、時には一度問題ないと判断した部分にも立ち返りさらに深掘りし、原因を明確にする、といったデバッグ作業（の一つのケース）について詳述されている。

#Article #ComputerVision #NLP #Reasoning #ComputerUse #VisionLanguageModel #3D (Scene) #Game Issue Date: 2025-11-14 SIMA 2: An Agent that Plays, Reasons, and Learns With You in Virtual 3D Worlds, Google DeepMind, 2025.11 Comment

元ポスト:

Loading…

もはやAIがゲームをできるのは当たり前の時代だが、どのくらいOODに汎化するのかは気になる。

#Article #NLP #AIAgents #OpenWeight #ComputerUse #VisionLanguageModel Issue Date: 2025-11-14 Holo2: Cost-Efficient Models for Cross-Platform Computer-Use Agents, H Company, 2025.11 Comment

HF: https://huggingface.co/collections/Hcompany/holo2

元ポスト:

Loading…

#Article #NLP #LanguageModel #ChatGPT #Reasoning #ProprietaryLLM #Selected Papers/Blogs #Routing #One-Line Notes #Reference Collection Issue Date: 2025-11-13 GPT-5.1: A smarter, more conversational ChatGPT, OpenAI, 2025.11 Comment

元ポスト:

Loading…

instantモデルはよりあたたかい応答でより指示追従能力を高め、thinkingモデルは入力に応じてより適応的に思考トークン数を調整する。autoモデルは入力に応じてinstant, thinkingに適切にルーティングをする。

所見:

Loading…

Artificial Analysisによるベンチマーキング:

Loading…

GPT-5.1-Codex-maxの50% time horizon:

Loading…

#Article #GenerativeAI Issue Date: 2025-11-12 Mapping the AI Supply Chain, Cen+, Stanford University, 2025.11 Comment

元ポスト:

Loading…

#Article #DocumentSummarization #NLP #LanguageModel #GenerativeAI #Science Issue Date: 2025-11-12 Project AELLA: Custom LLMs to process 100 Million Research Papers, ssam Hogan, 2025.11 Comment

100M+の論文に対してAIによる要約を作成し構造化した上でvisualizeすることでよりscientificな情報へのアクセシビリティを高めたい、という話に見える

#Article #GenerativeAI #read-later Issue Date: 2025-11-10 AI progress and recommendations, OpenAI, 2025.11 Comment

元ポスト:

Loading…

#Article #Analysis #NLP #LanguageModel #ReinforcementLearning #PEFT(Adaptor/LoRA) #PostTraining #read-later Issue Date: 2025-11-10 RL Learning with LoRA: A Diverse Deep Dive, kalomaze's kalomazing blog, 2025.11 Comment

元ポスト:

Loading…

所見:

Loading…

#Article Issue Date: 2025-11-08 Announcing Ironwood TPUs General Availability and new Axion VMs to power the age of inference, Google Cloud, 2025.11 Comment

元ポスト:

Loading…

#Article Issue Date: 2025-11-07 KTransformers: A New Era of Open Source: Low-Barrier Multi-GPU Inference for Trillion_Trillion Models （w SGLang） and Local Fine-Tuning （w LLaMa-Factory） Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Reasoning #OpenWeight #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-11-07 Introducing Kimi K2 Thinking, MoonshotAI, 2025.11 Comment

HF: https://huggingface.co/moonshotai

元ポスト:

Loading…

coding系ベンチマークでは少しGPT5,Claude Sonnet-4.5に劣るようだが、HLE, BrowseCompなどではoutperform

tooluseのベンチマークであるtau^2 Bench TelecomではSoTA

Loading…

モデルの図解:

Loading…

INT4-QATに関する解説:

Loading…

INT4-QATの解説:

Loading…

Kimi K2 DeepResearch:

Loading…

METRによる50% timehorizonの推定は54分:

Loading…

ただしサードパーティのinference providerによってこれは実施されており、（providerによって性能が大きく変化することがあるため）信頼性は低い可能性があるとのこと。

METRでの評価でClaude 3.7 Sonnetと同等のスコア:

Loading…

openweightモデルがproprietaryモデルに追いつくのはsoftwere engineeringタスク（agenticなlong horizon+reasoningタスク）9ヶ月程度を要しているとのこと

#Article #Tutorial #NLP #LanguageModel #One-Line Notes #SparseAutoEncoder Issue Date: 2025-11-06 Mapping LLMs with Sparse Autoencoders, Hussein+, 2025.11 Comment

SparseAutoEncoderを用いた機械学習モデルの特徴の可視化方法に関するチュートリアル

#Article #Analysis #NLP #LanguageModel #OpenWeight Issue Date: 2025-11-01 Open-weight models lag state-of-the-art by around 3 months on average, EPOCH AI, 2025.10 Comment

タイトルの通りな模様

元ポスト:

Loading…

#Article #Analysis #NLP #LanguageModel #Selected Papers/Blogs Issue Date: 2025-10-31 Emergent Introspective Awareness in Large Language Models, Jack Lindsey, Anthropic, 2025.10 Comment

元ポスト:

Loading…

公式ポスト:

Loading…

#Article #NLP #LanguageModel #Library #ReinforcementLearning #Distillation #On-Policy #reading Issue Date: 2025-10-30 Unlocking On-Policy Distillation for Any Model Family, Patiño+, HuggingFace, 2025.10 Comment

元ポスト:

Loading…

- Unlocking On-Policy Distillation for Any Model Family, Patiño+, HuggingFace, 2025.10

で提案されている手法拡張してトークナイザが異なるモデル間でもオンポリシーRLを用いてknowledge distillationを実現できるようなGKD trainerがTRLに実装されたとのこと。

#Article #Tutorial #NLP #Transformer #One-Line Notes Issue Date: 2025-10-30 Everything About Transformers, Krupa Dave, 2025.10 Comment

元ポスト:

Loading…

ざっと見た感じtransformerの基本的な内容の丁寧な解説に見える。literature(RNNや、LSTM、seq2seqなど）、self/cross-attention,LayerNorm, ResidualConnection, PositionalEncodingといった話の基礎が図解付きで説明されている。

#Article #Pretraining #NLP #LanguageModel #OpenWeight #OpenSource #Selected Papers/Blogs Issue Date: 2025-10-30 Marin 32B Retrospective, marin-community, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #AIAgents #ContextEngineering #reading Issue Date: 2025-10-28 AIエージェントのためのコンテキストエンジニアリング：Manus構築から得た教訓, Manus AI, 2025.07 Comment

元ポスト:

Loading…

KV Cacheのhit率がまず重要で、TTFTの速さと、コストの双方に影響する。1トークンでも異なるとCacheがhitしなくなるので、注意を払う。たとえば、Contextのfeedが決定論的であることを確認し、prompt冒頭にタイムスタンプを含めるなどは避ける。セルフホスティングの場合はルーティングによってCacheが働くように共通のワーカーを一貫して使う。

#Article #LanguageModel #GenerativeAI #Health Issue Date: 2025-10-28 How we are building the personal health coach, Patel+, 2025.10 Comment

元ポスト:

Loading…

fitbitユーザなので普通に気になる

#Article #NLP #GenerativeAI #Financial #ProprietaryLLM Issue Date: 2025-10-28 Advancing Claude for Financial Services, Anthropic, 2025.10 Comment

元ポスト:

Loading…

#Article #read-later Issue Date: 2025-10-27 On-Policy Distillation, Thinking Machines, 2025.10 Comment

元ポスト:

Loading…

所見:

Loading…

解説:

Loading…

#Article #Embeddings #NLP #Encoder #Routing Issue Date: 2025-10-27 From Monolithic to Modular: Scaling Semantic Routing with Extensible LoRA, vLLM blog, 2025.10 Comment

元ポスト:

Loading…

#Article #Tutorial #AIAgents Issue Date: 2025-10-27 LangGraph と NeMo Agent Toolkit ではじめる ReAct エージェント, Masaomi Tokunaga+, 2025.10 Comment

元ポスト:

Loading…

langchain, langgraphを用いたReActエージェントの実装方法のチュートリアルと、さまざまなフレームワークで記述されたエージェントの差分を吸収して統一されたプラットフォーム上でエージェントを実装できる（framework-agnosticな)NeMo Agent Toolkitによる実装

ReAct:
- REACT : SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS, Yao+, Princeton University and Google brain, ICLR'23

#Article #LanguageModel #RecursiveModels Issue Date: 2025-10-27 Recursive Language Models, Zhang+, MIT CSAIL, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #OpenWeight #Selected Papers/Blogs #Reference Collection Issue Date: 2025-10-26 MiniMax-M2: Intelligence, Performance & Price Analysis, Artificial Analysis, 2025.10 Comment

元ポスト:

Loading…

関連:
- [Paper Note] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention, MiniMax+, arXiv'25, 2025.06

CISPOを提案したMiniMax-M1の後続モデルと思われるMiniMax-M2-previewが中国製のモデルでArtificial Intelligenceでの評価でトップに立った模様。

所見:

Loading…

モデルが公開:
https://huggingface.co/MiniMaxAI/MiniMax-M2

proprietaryモデルになるもんだと思ってた、、、これを公開するの凄すぎでは、、、

公式ポスト:

Loading…

MITライセンス

vLLMでのserving方法:
https://docs.vllm.ai/projects/recipes/en/latest/MiniMax/MiniMax-M2.html

> You can use 4x H200/H20 or 4x A100/A800 GPUs to launch this model.

上記GPUにおいては--tensor-parallel-size 4で動作する模様。

SGLangでもサポートされている:

Loading…

AnthropicのAPIの利用をお勧めする理由:

Loading…

（以下管理人の補足を含みます）MiniMax-M2はAgenticなCoTをするモデルなので、contextの情報を正しく保持する必要がある。特に、マルチターンのやり取りをAPIを介してユーザが実行する場合、OpenAIのchatcompletionはCoTを返してくれず、マルチターンのやり取りをしても同じsessionで利用したとしても、前のターンと同じCoTが利用されないことがドキュメントに記述されている。このような使い方をサポートしているのはResponceAPIのみであるため、ResponceAPIでのみ適切なパフォーマンスが達成される。この点がconfusingなので、誤った使い方をするとMiniMaxの真価が発揮されず、しかもそれに気づけずに使い続けてしまう可能性がある。AnthropicのAPIではSonnet 4.5では全ての応答に明示的にCoTが含まれるため、その心配がない、だからAnthropicがおすすめ、みたいな話だと思われる。

アーキテクチャ解説:

Loading…

解説:

Loading…

#Article #NLP #Library #ReinforcementLearning #AIAgents #Selected Papers/Blogs Issue Date: 2025-10-25 Introducing torchforge – a PyTorch native library for scalable RL post-training and agentic development, PyTorch team at Meta, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #ReinforcementLearning #Tokenizer #Stability #RetokenizationDrift Issue Date: 2025-10-24 No More Retokenization Drift: Returning Token IDs via the OpenAI Compatible API Matters in Agent RL, vLLM Blog, 2025.10 Comment

推論時のトークン化と、結果として返される文字列の再トークン化の際に異なるcontextの元トークン化がされることで（e.g., 異なるテンプレートが利用されるなど）、トークン化の結果が異なりgapが生まれるという問題。この違いがオンポリシーRLなどで学習に不安定にするよ、という話で、vLLMがトークンIDそのものを返せるように仕様変更したよ、といった話らしい。

トークン化の不一致という文脈で言うと下記のような研究もある
- [Paper Note] Addressing Tokenization Inconsistency in Steganography and Watermarking Based on Large Language Models, Ruiyi Yan+, EMNLP'25

#Article #NLP #LanguageModel #AIAgents #Safety Issue Date: 2025-10-23 Introducing ControlArena: A library for running AI control experiments, AISI, 2025.10 Comment

元ポスト:

Loading…

#Article #ChatGPT #GenerativeAI Issue Date: 2025-10-23 Introducing ChatGPT Atlas, OpenAI, 2025.10 Comment

元ポスト:

Loading…

ブラウザのサイドバーでchatgptにサイトに関して質問できたり、agenticな使い方もできる模様？

#Article #read-later #ContinualLearning Issue Date: 2025-10-23 The Continual Learning Problem, Jessy Lin, 2025.10 Comment

元ポスト:

Loading…

#Article #RAG(RetrievalAugmentedGeneration) #SoftwareEngineering Issue Date: 2025-10-23 Production RAG: what I learned from processing 5M+ documents, Abdellatif Abdelfattah, 2025.10 Comment

元ポスト:

Loading…

関連:
- zerank-1, zeroentropy, 2025.07

#Article #NLP #LanguageModel #ProprietaryLLM Issue Date: 2025-10-22 NTT版大規模言語モデル「tsuzumi 2」, NTT人間情報研究所, 2025.10 Comment

日本語MT-benchでGPT-5と同等程度の性能とのこと。VRAM40GB未満の1GPUで動作させることを念頭に開発されており、フルスクラッチ、かつ学習データも完全にコントロールしデータの権利、品質、バイアスの管理可能にしているとのこと。

#Article #DiffusionModel Issue Date: 2025-10-21 BERT is just a Single Text Diffusion Step, Nathan Barry, 2025.10 Comment

元ポスト:

Loading…

所見:

Loading…

#Article #NLP #ReinforcementLearning #Scaling Laws #read-later #Selected Papers/Blogs #reading Issue Date: 2025-10-21 How to scale RL, NATHAN LAMBERT, 2025.10 Comment

元ポスト:

Loading…

下記研究の内容を解説している。
- [Paper Note] The Art of Scaling Reinforcement Learning Compute for LLMs, Devvrit Khatri+, arXiv'25, 2025.10

事前学習におけるスケーリング測は大規模な事前学習実行時の最適な設定の選択に関するもの（e.g. chinchilla law）だったが、RL（=特定のベースモデルから最大限の性能を引き出すための手法）のスケーリング則においてはどのアルゴリズムをより長期間実行させるかという選択に焦点を当てている。

（後で続きを読む）

#Article #NLP #ReinforcementLearning #Test-Time Scaling #Scaling Laws #PostTraining #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-21 How Well Does RL Scale?, Toby Ord, 2025.10 Comment

元ポスト:

Loading…

OpenAIやAnthropicが公表している学習に関するplot（と筆者の様々なアカデミアの研究の知見）に基づいて、RLによるスケーリングは、事前学習やTest-time Scalingよりも計算量の観点で効率が悪い、ということを分析している模様。

> So the evidence on RL-scaling and inference-scaling supports a general pattern:
>- a 10x scaling of RL is required to get the same performance boost as a 3x scaling of inference
> - a 10,000x scaling of RL is required to get the same performance boost as a 100x scaling of inference
>
> In general, to get the same benefit from RL-scaling as from inference-scaling required twice as many orders of magnitude. That’s not good.

その上で、RLによるコストが事前学習のコストと同等かそれ以上となったときに、モデルの性能をスケールさせる場合のコストが爆発的に増加することを指摘している（初期のRLによるコストが小さければ事前学習やtest-time scalingのデータを増やすよりも効率がよいスケーリング手法となっていたが、RLのコストが大きくなってくるとスケールさせる際の金額の絶対値が大きくなりすぎるという話）。

#Article #Pretraining #MachineLearning #NLP #LanguageModel #ReinforcementLearning #AIAgents #In-ContextLearning #RewardHacking #PostTraining #Diversity #Selected Papers/Blogs #PRM #Generalization #Cultural #Emotion Issue Date: 2025-10-20 Andrej Karpathy — AGI is still a decade away, DWARKESH PATEL, 2025.10 Comment

元ポスト:

Loading…

関連:
- In-context Steerbility: [Paper Note] Spectrum Tuning: Post-Training for Distributional Coverage and In-Context Steerability, Taylor Sorensen+, arXiv'25, 2025.10

（整理すると楽しそうなので後で関連しそうな研究を他にもまとめる）

とても勉強になる！AIに代替されない20%, 1%になるには果たして

所見:

Loading…

#Article #EfficiencyImprovement #NLP #LanguageModel #read-later Issue Date: 2025-10-20 modded-nanogpt medium world record: Re-using intermediate activations in the output latents, shimu's blog, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #ObjectLocalization #3D (Scene) Issue Date: 2025-10-20 Find3D: Localizing Semantic Concepts in the 3D Space , Ziqi Ma, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #AIAgents #read-later #ContextEngineering Issue Date: 2025-10-18 Equipping agents for the real world with Agent Skills, Anthropic, 2025.10 Comment

元ポスト:

Loading…

#Article #Multi #EfficiencyImprovement #ReinforcementLearning #AIAgents #ProprietaryLLM #Parallelism #ContextEngineering #KeyPoint Notes Issue Date: 2025-10-18 Introducing SWE-grep and SWE-grep-mini: RL for Multi-Turn, Fast Context Retrieval, Cognition, 2025.10 Comment

元ポスト:

Loading…

最大で4 turnの間8つのツールコール（guessingとしては従来モデルは1--2, Sonnet-4.5は1--4)を並列する（3 turnは探索、最後の1 turnをanswerのために使う) parallel tool calls を効果的に実施できるように、on policy RLでマルチターンのRLを実施することで、高速で正確なcontext retrievalを実現した、という感じらしい。

従来のembedding-basedなdense retrieverは速いが正確性に欠け、Agenticなsearchは正確だが遅いという双方の欠点を補う形。

parallel tool callというのは具体的にどういうtrajectoryになるのか…？

#Article #Tutorial #NLP #AIAgents #ContextEngineering #One-Line Notes Issue Date: 2025-10-18 Context Engineering in Manus, Lance's Blog, 2025.10 Comment

元ポスト:

Loading…

- Reduce
- Offload
- Isolate

図解つきで各コンセプトについて非常に詳細に記述されている。最後のConclusionを見ればコンパクトに概要をつかめる。

#Article #NLP #LanguageModel #Evaluation #Reasoning #LongSequence Issue Date: 2025-10-17 Evaluating Long Context （Reasoning） Ability, wh., 2025.10 Comment

元ポスト:

Loading…

#Article #LanguageModel #MLOps #AIAgents #SoftwareEngineering Issue Date: 2025-10-13 Harnessを利用してLLMアプリケーション評価を自動化する, LINEヤフーテックブログ, 2024.12 #Article #Survey #LanguageModel #GenerativeAI #read-later Issue Date: 2025-10-11 STATE OF AI REPORT 2025, Nathan Benaich, 2025.10 Comment

元ポスト:

Loading…

所見:

Loading…

#Article #Tutorial #NLP #LanguageModel #read-later Issue Date: 2025-10-11 A History of Large Language Models, Gregory Gundersen, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #DiffusionModel #Samplers Issue Date: 2025-10-10 画像生成AIにおけるEulerサンプラーの詳細解説, あらもり, 2024.07 #Article #ComputerVision #DiffusionModel #Samplers Issue Date: 2025-10-10 Stable Diffusionにおけるサンプラーの役割を理解する, moykeen, 2024.01 #Article #ComputerVision #Transformer #DiffusionModel #TextToImageGeneration #OpenWeight #Selected Papers/Blogs Issue Date: 2025-10-10 Introducing Stable Diffusion 3.5, StabilityAI, 2024.10 Comment

SD3.5

#Article #Citations #NLP #AIAgents #ScientificDiscovery #One-Line Notes Issue Date: 2025-10-09 Making AI citations count with Asta, AI2, 2025.10 Comment

RAGベースの研究支援プラットフォームAstaに対して送信されたクエリに対して、システムが引用した研究論文に関する統計情報を公開したとのこと。興味深い。

citationに関するデータはこちら:
https://huggingface.co/datasets/allenai/asta-summary-citation-counts

定期的に更新するとのこと。

#Article #NLP #LanguageModel #SmallModel #OpenWeight #MoE(Mixture-of-Experts) Issue Date: 2025-10-08 LFM2-8B-A1B: An Efficient On-device Mixture-of-Experts, LiquidAI, 2025.10 Comment

HF: https://huggingface.co/LiquidAI/LFM2-8B-A1B

元ポスト:

Loading…

日本語もサポートしているとのこと

#Article #Tutorial #ChatGPT Issue Date: 2025-10-08 OpenAI DevDay 2025 発表まとめ, ぬこぬこ, 2025.10 Comment

元ポスト:

Loading…

#Article #MachineLearning #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #SoftwareEngineering #KeyPoint Notes Issue Date: 2025-10-06 Anatomy of a Modern Finetuning API, Benjamin Anderson, 2025.10 Comment

2023年当時のFinetuningの設計について概観した後、TinkerのAPIの設計について説明。そのAPIの設計のstepごとにTinker側にデータを送るという設計について、一見すると課題があることを指摘（step単位の学習で数百msの通信オーバヘッドが生じて、その間Tinker側のGPUは待機状態になるため最大限GPUリソースを活用できない。これは設計ミスなのでは・・・？という仮説が成り立つという話）。が、仮にそうだとしても、実はよくよく考えるとその課題は克服する方法あるよ、それを克服するためにLoRAのみをサポートしているのもうなずけるよ、みたいな話である。

解決方法の提案（というより理論）として、マルチテナントを前提に特定ユーザがGPUを占有するのではなく、複数ユーザで共有するのではないか、LoRAはadapterの着脱のオーバヘッドは非常に小さいのでマルチテナントにしても（誰かのデータの勾配計算が終わったらLoRAアダプタを差し替えて別のデータの勾配計算をする、といったことを繰り返せば良いので待機時間はかなり小さくなるはずで、）GPUが遊ぶ時間が生じないのでリソースをTinker側は最大限に活用できるのではないか、といった考察をしている。

ブログの筆者は2023年ごろにFinetuningができるサービスを展開したが、データの準備をユーザにゆだねてしまったがために成功できなかった旨を述べている。このような知見を共有してくれるのは大変ありがたいことである。

#Article #LanguageModel #read-later Issue Date: 2025-10-05 Frontier AI performance becomes accessible on consumer hardware within a year, EPOCH AI, 2025.08 Comment

元ポスト:

Loading…

#Article #GenerativeAI Issue Date: 2025-10-03 The browser that works for you, Perplexity, 2025.10 Comment

めちゃ使いたい

元ポスト:

Loading…

#Article #Pretraining #NLP #LanguageModel #DiffusionModel #MoE(Mixture-of-Experts) #read-later Issue Date: 2025-10-03 OpenMoE 2: Sparse Diffusion Language Models, Ni+, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #SpeechProcessing #OpenWeight #Editing Issue Date: 2025-10-03 Ming-UniAudio: Speech LLM for Joint Understanding, Generation and Editing with Unified Representation, inclusionAI, 2025.07 Comment

元ポスト:

Loading…

Ming-Omniの後継モデルで、スピーチに特化して書き起こし、理解、編集などができるモデル

- [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25

HF: https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B

公式ポスト:

Loading…

#Article #NLP #LanguageModel #PEFT(Adaptor/LoRA) #API #PostTraining #KeyPoint Notes Issue Date: 2025-10-03 Tinker is a training API for {developers, builders, researchers}, THINKING MACHINES, 2025.10 Comment

元ポスト:

Loading…

THINKING MACHINESによるOpenWeightモデルをLoRAによってpost-trainingするためのAPI。QwenとLlamaをベースモデルとしてサポート。現在はBetaでwaitlistに登録する必要がある模様。

（Llamaのライセンスはユーザ数がアクティブユーザが7億人を超えたらMetaの許諾がないと利用できなくなる気がするが、果たして、とふと思った）

この前のブログはこのためのPRも兼ねていたと考えられる:
- LoRA Without Regret, Schulman+, THINKING MACHINES, 2025.09

ドキュメントはこちら:
https://tinker-docs.thinkingmachines.ai

Tinkerは、従来の
- データセットをアップロード
- 学習ジョブを走らせる

というスタイルではなく、ローカルのコードでstep単位の学習のループを書き以下を実行する:
- forward_backwardデータ, loss_functionをAPIに送る
- これにより勾配をTinker側が蓄積する
- optim_step: 蓄積した勾配に基づいてモデルを更新する
- sample: モデルからサンプルを生成する
- save_state等: 重みの保存、ロード、optimizerのstateの保存をする

これらstep単位の学習に必要なプリミティブなインタフェースのみをAPIとして提供する。これにより、CPUマシンで、独自に定義したloss, dataset(あるいはRL用のenvironment）を用いて、学習ループをコントロールできるし、分散学習の複雑さから解放される、という代物のようである。LoRAのみに対応している。

なお、step単位のデータを毎回送信しなければならないので、stepごとに通信のオーバヘッドが発生するなんて、Tinker側がGPUを最大限に活用できないのではないか。設計としてどうなんだ？という点については、下記ブログが考察をしている:
- Anatomy of a Modern Finetuning API, Benjamin Anderson, 2025.10

ざっくり言うとマルチテナントを前提に特定ユーザがGPUを占有するのではなく、複数ユーザで共有するのではないか、adapterの着脱のオーバヘッドは非常に小さいのでマルチテナントにしても（誰かのデータの勾配計算が終わったらLoRAアダプタを差し替えて別のデータの勾配計算をする、といったことを繰り返せば良いので待機時間はかなり小さくなるはずで、）GPUが遊ぶ時間が生じないのでリソースをTinker側は最大限に活用できるのではないか、といった考察/仮説のようである。

所見:

Loading…

Asyncな設定でRLしてもSyncな場合と性能は同等だが、学習が大幅に高速化されて嬉しいという話な模様（おまけにrate limitが現在は存在するので今後よりブーストされるかも

#Article #Analysis #ReinforcementLearning #read-later Issue Date: 2025-10-03 Information Bandwidth in Reinforcement Learning Understanding Sample Efficiency Through Signal Density, Yingru Li, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #Dataset #LanguageModel #Japanese #Selected Papers/Blogs Issue Date: 2025-10-01 2025年10月1日国立情報学研究所における大規模言語モデル構築への協力について, 国立国会図書館, 2025.09 Comment

元ポスト:

Loading…

日本語LLMの進展に極めて重要なニュースと思われる

#Article #NLP #LanguageModel #ProprietaryLLM Issue Date: 2025-09-30 Introducing Claude Sonnet 4.5, Anthropic, 2025.09 Comment

元ポスト:

Loading…

Claude Sonnet 4.5 発表関連情報まとめ:
記事: https://zenn.dev/schroneko/articles/claude-sonnet-4-5
元ポスト:

Loading…

ブログを読むとImagine with Claudeの方がむしろ気になる...（残念ながら課金していない）
https://claude.ai/login?returnTo=%2Fimagine

Artificial Intelligenceによる評価:

Loading…

#Article #NLP #LanguageModel #Attention #read-later Issue Date: 2025-09-30 LLM のアテンションと外挿, 佐藤竜馬, 2025.09 Comment

元ポスト:

Loading…

#Article #PEFT(Adaptor/LoRA) #read-later #Selected Papers/Blogs Issue Date: 2025-09-30 LoRA Without Regret, Schulman+, THINKING MACHINES, 2025.09 Comment

元ポスト:

Loading…

これはおそらく必読...

解説:

Loading…

解説:

Loading…

所見:

Loading…

#Article #LanguageModel #Evaluation #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-09-29 Failing to Understand the Exponential, Again, Julian Schrittwieser, 2025.09 Comment

元ポスト:

Loading…

AIの指数関数的な成長は続いているぞという話。

以下は管理人の感想だが、個々のベンチマークで見たらサチってきている（昔より伸び代が小さい）ように感じるが、人間が実施する複雑なタスクに対する上記ベンチマークなどを見るとスケーリングは続いている（むしろ加速している感がある）。シンプルなタスクのベンチマークの伸びは小さくとも、それらシンプルなタスクの積み重ねによって複雑なタスクは実施されるので、（現存するベンチマークが測定できている能力はLLMの部分的な能力だけなことも鑑みると）、複雑なタスクで評価した時の伸びは実は大きかったりする（スケーリングは続いている）のではないか、という感想。

#Article #Analysis #Pretraining #NLP #LanguageModel #ChatGPT #PostTraining Issue Date: 2025-09-29 Why GPT-5 used less training compute than GPT-4.5 （but GPT-6 probably won’t）, EPOCH AI, 2025.09 Comment

元ポスト:

Loading…

#Article #DocumentSummarization #InformationRetrieval #NLP #AIAgents #Pruning #RAG(RetrievalAugmentedGeneration) #SoftwareEngineering #ContextEngineering Issue Date: 2025-09-28 How to Fix Your Context, dbreunig.com, 2025.07 Comment

Context Poisoning, Context Distraction, Context Confusion,
Context Clashの定義とそれらの対処法について書かれている。後ほど追記する

#Article #NLP #LanguageModel #Reasoning #ProprietaryLLM Issue Date: 2025-09-28 Continuing to bring you our latest models, with an improved Gemini 2.5 Flash and Flash-Lite release, Google Deepmind, 2025.09 Comment

元ポスト:

Loading…

#Article #EfficiencyImprovement #NLP #LanguageModel #Attention #SoftwareEngineering #One-Line Notes Issue Date: 2025-09-28 We reverse-engineered Flash Attention 4, Modal Blog, 2025.09 Comment

元ポスト:

Loading…

Flash Attention4は数学的なトリックよりも非同期処理の複雑なパイプライン、Blackwellに最適化、とのこと

#Article #FoundationModel #Robotics #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-27 RDT2: Enabling Zero-Shot Cross-Embodiment Generalization by Scaling Up UMI Data, RDT Team, 2025.09 Comment

元ポスト:

Loading…

ロボットアームのさまざまなアクションをzeroshotで実現できる基盤モデルらしい

code: https://github.com/thu-ml/RDT2

#Article #Analysis #MachineLearning #NLP #LanguageModel #ReinforcementLearning #AIAgents #Selected Papers/Blogs #Stability #train-inference-gap Issue Date: 2025-09-27 When Speed Kills Stability: Demystifying RL Collapse from the Training-Inference Mismatch, Liu+, 2025.09 Comment

元ポスト:

Loading…

訓練時のエンジン(fsdp等)とロールアウト時のエンジン(vLLM等)が、OOVなトークンに対して（特にtooluseした場合に生じやすい）著しく異なる尤度を割り当てるため学習が崩壊し、それは利用するGPUによっても安定性が変化し（A100よりもL20, L20よりもH20)、tokenレベルのImporttance Weightingでは難しく、Sequenceレベルのサンプリングが必要、みたいな話な模様。

FP16にするとtrain-inferenae gapが非常に小さくなるという報告:
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10

A100でvLLMをバックボーンにした時のdisable_cascade_attnの設定値による挙動の違い:

Loading…

そもそもFlashAttnention-2 kernelにバグがあり、A100/L20で特定のカーネルが呼ばれるとミスマッチが起きるのだとか。vLLM Flashattentionリポジトリのissue 87によって解決済み。~~具体的にどのカーネル実装なのだろうか。~~　（vLLM Flashattentionリポジトリだった模様）
https://github.com/vllm-project/flash-attention

disable_cascade_attnの設定値を何回も変えたけどうまくいかないよという話がある:

Loading…

#Article #NeuralNetwork #MachineLearning #NLP #Optimizer #read-later Issue Date: 2025-09-27 Modular Manifolds, Jeremy Bernstein+, THINKING MACHINES, 2025.09 Comment

関連:

Loading…

#Article #NLP #LanguageModel #FoundationModel #OpenWeight Issue Date: 2025-09-26 Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07 Comment

元ポスト:

Loading…

LiquidAIによるedgeデバイス向けのFoundation Model。品質、スピード、メモリ、ハードウェアのバランスを最適にしておるとのこと。たとえばQwenと比較して2倍のデコードとprefill速度とのこと。また、同サイズのモデル群よりも高い性能を実現しているらしい。
下記グラフはMMLU, IFEval,IFBENCH,GSM8K,MMMLUでの評価の平均。他にもGPQA,MGSMでも評価しており、同サイズのモデルと比べて同等か少し劣るくらい。

アーキテクチャはRNNをベースにしており、従来の時間がstepごとに発展するRNNではなく、連続時間を扱えるようなRNNの変種なようでより柔軟に時間スケールを扱えるようなアーキテクチャらしい。また、LIV Operatorと呼ばれる入力に応じて動的に異なる線形変換を実施するOperatorを採用している模様。たとえば入力に応じて、convolution, attention, recurrenceなどのoperationが変化する。これに基づいて、さまざまなアーキテクチャのNNを定義できるようになったので、最適なアーキテクチャを模索するためにSTARと呼ばれるアルゴリズムでNeural Architecture Searchを実施した模様。

メモリに制約があるエッジデバイス向けにKVCache不要で現在の隠れ状態のみを保持すれば良いRNNベースのアーキテクチャを採用するのは理に適っている。

#Article #Analysis #NLP #Attention Issue Date: 2025-09-26 様々なコンテキスト長における LLM の Self-Attention の Query と Key の分析, ABEJA Tech Blog, 2025.09 Comment

元ポスト:

Loading…

以下の研究を参考に分析している:
- [Paper Note] Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding, Mingyu Jin+, ICML'25, 2025.02

RoPEは以下:
- RoFormer: Enhanced Transformer with Rotary Position Embedding, Jianlin Su+, N/A, Neurocomputing, 2024

Massive ValueはtransformerのQ,Kの活性値に現れる極端に大きな値のことで、Massive Valueは文脈的な知識の理解において重要とのこと（Massive Valueを破壊すると文脈理解が重要なタスクのスコアは著しく低下したが、パラメトリックな知識が重要なタスクは性能が少し低下するのみ、かつ非Massive Valueを破壊しても大きな変化は無かったため）。またMassive ValueはRoPEを使ったモデルのみQ, Kの特定の次元にのみ集中して出現する。これはRoPEでは回転行列をQ, Kにのみ適用していることに起因している可能性があるが、回転行列の積の前後でもMassive Valueが出現することは変わらないことから、回転行列そのものに起因するものというより、回転行列がアーキテクチャに組み込まれることで結果的に学習されるものなのではないか、という感じらしい。

#Article #Dataset #Evaluation #Mathematics Issue Date: 2025-09-24 HMMT. HMMT 2025, 2025.09 Comment

サイト内部の説明によると、ハーバード、MIT、そして近隣の学校の学生たちによって運営されている世界で最大、かつ最も権威のある高校生向けの国際的な数学のコンペティション、とのこと。

#Article #NLP #LanguageModel #ProprietaryLLM #MoE(Mixture-of-Experts) Issue Date: 2025-09-24 Qwen3-Max: Just Scale it, Qwen Team, 2025.09 Comment

元ポスト:

Loading…

現在はnon-thinkingモデルのみのようだがthinkingモデルも学習中で、GPQA, HMMT, AIME25でのベンチマーク結果のみ掲載されている。

HMMTというのは以下な模様:
- HMMT. HMMT 2025, 2025.09

#Article #MachineTranslation #NLP #LanguageModel #MultiModal #ProprietaryLLM Issue Date: 2025-09-24 Qwen3‑LiveTranslate: Real‑Time Multimodal Interpretation — See It, Hear It, Speak It！, Qwen Team, 2025.09 Comment

元ポスト:

Loading…

#Article #AIAgents #Coding Issue Date: 2025-09-23 Vibe Coding Cleanup as a Service, Donado Labs, 2025.09 Comment

元ポスト:

Loading…

#Article #Tutorial #NLP #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2025-09-22 LoRAの進化：基礎から最新のLoRA-Proまで , 松尾研究所テックブログ, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #MultiModal #Reasoning #VisionLanguageModel Issue Date: 2025-09-21 Grok 4 Fast, xAI, 2025.09 Comment

ベンチマークに対する評価結果以外の情報はほぼ記述されていないように見える（RL使いました程度）

Artificial Analysisによる評価:

Loading…

コスト性能比の所見:

Loading…

#Article #AIAgents Issue Date: 2025-09-17 Agent Payments Protocol （AP2）, Google, 2025.09 Comment

AI Agentにpaymentをさせるためのsecureなプロトコルな模様

元ポスト:

Loading…

#Article #Survey #LanguageModel #Reasoning #COLM Issue Date: 2025-09-15 Large reasoning models research at COLM 2025 - State of research in scaling reasoning, the current paradigm for improving LLMs, PRAKASH KAGITHA, 2025.09 Comment

COLM'25における30個程度のReasoningに関わる論文をカバーしたブログらしい。

元ポスト:

Loading…

ここの論文のサマリのまとめといった感じなので、indexとして利用すると良さそう。

#Article #NLP #LanguageModel #AIAgents #ProprietaryLLM #DeepResearch Issue Date: 2025-09-13 Kimi-Researcher End-to-End RL Training for Emerging Agentic Capabilities, MoonshotAI, 2025.06 #Article #Pretraining #NLP #Dataset #LanguageModel #SyntheticData Issue Date: 2025-09-13 Cosmopedia: how to create large-scale synthetic data for pre-training, Allal+（HuggingFace）, 2024.03 Comment

cosmopedia dataset: https://huggingface.co/datasets/HuggingFaceTB/cosmopedia

大部分を合成データで学習したPhi-1.5(Textbooks Are All You Need II: phi-1.5 technical report, Yuanzhi Li+, N/A, arXiv'23 )のデータ合成のレシピの詳細は明かされておらず、学習データ自体も公開されていないことを受け、事前学習で利用可能な数百Mサンプルの合成データを生成するレシピはなんなのか？を探った話。

最終的に、30Mのpromptをprompt engineeringをMixtral-8x7B-Instruct-v0.1を通じて作成し、高品質なpretrainingのための広範なトピックの文書群を作成。合成された内容の重複は1%未満。

Phi-1.5の論文の記述に基づくと、20k topicsをseedとし新たなsynthetic dataを作成、web sampleを活用して多様性を担保した、という記述がある。これに基づくと、仮に1ファイルの長さを1000 tokenであると仮定すると、20Mのpromptが活用されたことになる。しかしながら、web sampleを組み合わせる方法と、多様性を増やす方法がクリアではなかった。

Cosmopediaのアプローチとしては、2つのアプローチがある。まず curated educational sources (Khan Academy, OpenStax, WikiHow, Stanford courses)を利用する方法で、これらの全てのユニットを合計しても260k程度であった。これでは到底20Mには届かないため、生成する文書の `style` と `audience` に幅を持たせることで、promptの数を増やした。
具体的には、styleとして、academic textbook / blog post / wikihow articles の3種類、audienceとして young children / high school students / college students / researchers の4種類を用意した。このとき、単にprompt中で特定のaudience/styleで記述するよう指示をしても、同じような内容しか出力されない課題があったため、prompt engineeringによって、より具体的な指示を加えることで解決（Figure3）。

続いてのアプローチはweb dataを活用するアプローチで、収集されたweb samplesを145のクラスタに分類し、各クラスタごとに10個のランダムなサンプルを抽出し、Mixtralにサンプルから共通のトピックを抽出させることでクラスタのトピックを得る。
その後不適切なトピックは除外（e.g., アダルトコンテンツ, ゴシップ等）。その後、クラスタのweb sampleとトピックの双方をpromptに与えて関連するtextbookを生成させるpromptを作成 (Figure 4)。このとき、トピックラベルの生成がうまくいっていない可能性も考慮し、トピックをgivenにしないpromptも用意した。最終的にこれにより23Mのpromptを得た。また、scientificな内容を増やすために、AutoMathText (数学に関して収集されたデータセット)も加えた。

上記promptで合成したデータでモデルを学習したところ、モデルにcommon senseやgrade school educationにおける典型的な知識が欠けていることが判明したため、UltraChatやOpenHermes2.5から日常に関するストーリーを抽出してseed dataに加えた。

下記が最終的なseed-data/format/audienceの分布となる。seed-dataの大部分はweb-dataであることがわかる。
https://github.com/user-attachments/assets/f30beb80-e75c-466c-9c77-8080298869cc" />

最終的に合成データのうち、10-gram overlapに基づいて、contaminationの疑いがある合成データを抽出。ベンチマークデータのうち、50%のsub-stringとマッチした文書は除外することでdecontaminationを実施。
下表がdecontaminationの結果で、()内の数字がユニーク数。decontaminationをしなければこれらが学習データに混入し、ベンチマーキング性能に下駄をはかせることになってしまっていたことになる。
https://github.com/user-attachments/assets/5ede5660-7305-41ad-bc56-1be03aec99f2" />

1Bモデルを訓練した結果、半分程度のベンチマークでTinyLlama 1.1Bよりも高いスコアを達成。Qwen-1.5-1BやPhi-1.5に対しては全体としてスコアでは負けているように見える。このことより、より高品質な合成データ生成方法があることが示唆される。
https://github.com/user-attachments/assets/536bfc9e-3093-43ba-b866-31f8e7073740" />

以後、SmolLM構築の際にCosmopediaのpromptに挿入するサンプルをトピックごとにより適切に選択する（文書を合成するモデルをMixtralから他のモデルに変更してもあまり効果がなかったとのこと）などの改善を実施したCosmopedia v2が構築されている。

#Article #ComputerVision #Analysis #Backbone Issue Date: 2025-09-13 画像モデルのバックボーンとして最初に何を選ぶべきか？, ちくわぶ, 2025.09 Comment

こちらの論文を参考にしている:
- [Paper Note] Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks, Micah Goldblum+, NeurIPS'23

Backbone選定の際は参照のこと。2024年以後のモデルは含まれていない点に注意。

#Article #Attention Issue Date: 2025-09-12 Attention ls Off By One, Evanmiller.org, 2023.07 #Article #read-later Issue Date: 2025-09-12 Qwen3-Next: Towards Ultimate Training & Inference Efficiency, Qwen Team, 2025.09 Comment

元ポスト:

Loading…

Artificial Intelligenceによる評価:

Loading…

#Article #Tutorial #NLP #LanguageModel #AIAgents #ContextEngineering Issue Date: 2025-09-11 Context Engineering - Short-Term Memory Management with Sessions from OpenAI Agents SDK, OpenAI, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #python #read-later #Selected Papers/Blogs #Non-Determinism Issue Date: 2025-09-11 Defeating Nondeterminism in LLM Inference, Horace He in collaboration with others at Thinking Machines, 2025.09 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

vLLMにおいてinferenceをdeterministicにする方法が、vLLMのissue number 24583に記載されているので参照のこと。

transformersでの実装例:

Loading…

#Article #ReinforcementLearning #Scaling Laws #read-later Issue Date: 2025-09-10 Scaling Laws for Value-Based RL, Fu+, 2025.09 Comment

元ポスト:

Loading…

元論文:
- [Paper Note] Compute-Optimal Scaling for Value-Based Deep RL, Preston Fu+, arXiv'25
- [Paper Note] Value-Based Deep RL Scales Predictably, Oleh Rybkin+, ICML'25

#Article #Tutorial #Dataset Issue Date: 2025-09-07 オープンデータセットのライセンスガイド, サナミ, 2024.12 #Article #GenerativeAI #Coding Issue Date: 2025-09-07 Writing Code Was Never The Bottleneck, ordep.dev, 2025.06 Comment

元ポスト:

Loading…

#Article #Analysis #NLP #LanguageModel #ReinforcementLearning #Composition #read-later #Selected Papers/Blogs Issue Date: 2025-09-06 From f（x） and g（x） to f（g（x））: LLMs Learn New Skills in RL by Composing Old Ones, Yuan+, 2025.09 Comment

元ポスト:

Loading…

コントロールされた実験において、深さ2のnestedなcompostition g(f(x))のデータでRLした場合は、テスト時に深さ6までのcompostitionを実行できるようになったが（＝メタスキルとしてcompostitionを獲得した）、深さ1のnon-nestedなデータでRLした場合は複雑なcompostitionが必要なタスクを解けなかった。また、一般的にベースモデルがある程度解ける問題に対してRLを適用したモデルのpass@1000はあまり向上しないことから、RLは新しいスキルを何も教えていないのではないか、といった解釈がされることがあるが、より高次のcompostitionが必要なタスクで評価すると明確に性能が良くなるので、実はより高次のcompostitionが必要なタスクに対する汎化性能を伸ばしている。compostitionでの能力を発揮するにはまず幅広いatomicなスキルが必要なので、しっかりそれを事前学習で身につけさせ、その後post-trainingによって解決したいタスクのためのatomic skillのcompostitionの方法を学習させると効果的なのではないか、といった話な模様。

この辺のICLの話と似ている
- What Do Language Models Learn in Context? The Structured Task Hypothesis, Jiaoda Li+, N/A, ACL'24

#Article #ComputerVision #Pretraining #NLP #Dataset #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-09-05 FineVision: Open Data Is All You Need, Wiedmann+, Hugging Face, 2025.09 Comment

HF: https://huggingface.co/datasets/HuggingFaceM4/FineVision

元ポスト:

Loading…

#Article #Survey #NLP #LLM-as-a-Judge #read-later Issue Date: 2025-09-04 信頼できるLLM-as-a-Judgeの構築に向けた研究動向, tsurubee, 2025.09 Comment

ブログ中で解説されているサーベイ論文は下記:
- A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24

#Article #NLP #LanguageModel #python #LLMServing #read-later #Selected Papers/Blogs Issue Date: 2025-09-03 Inside vLLM: Anatomy of a High-Throughput LLM Inference System, Aleksa Gordić blog, 2025.08 Comment

めっちゃ良さそう

#Article #NLP #LanguageModel #Evaluation #Reasoning Issue Date: 2025-08-31 Probing LLM Social Intelligence via Werewolf, foaster.ai, 2025.08 Comment

元ポスト:

Loading…

#Article #ComputerVision #EfficiencyImprovement #NLP #SmallModel #VisionLanguageModel Issue Date: 2025-08-30 fastvlm-webgpu, Apple, 2025.08 Comment

元ポスト:

Loading…

pj page: https://fastvlm.net

#Article #Evaluation Issue Date: 2025-08-29 Introducing Research-Eval: A Benchmark for Search-Augmented LLMs, Reka, 2025.08 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #TextToImageGeneration #ProprietaryLLM #Editing Issue Date: 2025-08-28 Introducing Gemini 2.5 Flash Image, our state-of-the-art image model, Google, 2025.08 Comment

nano banana

ベストプラクティス:

Loading…

プロンプトガイドと戦略: https://ai.google.dev/gemini-api/docs/image-generation?hl=ja#prompt-guide

元ポスト:

Loading…

#Article #NLP #LanguageModel #Chain-of-Thought #Reasoning #CovarianceShift Issue Date: 2025-08-27 「推論する生成AI」は事前学習されていない課題を正しく推論することができない（共変量シフトに弱い）, TJO, 2025.08 Comment

- [Paper Note] Physics of Language Models: Part 2.1, Grade-School Math and the Hidden Reasoning Process, Tian Ye+, ICLR'25

でLLMは未知の問題を解ける（学習データに存在しない同等のlengthの未知のサンプルを解ける/テストデータで訓練データよりもより複雑な長いlengthの問題を解ける）と比べると、両者から得られる結論から何が言えるのだろうか？観測できるCoTとhidden mental reasoning process (probingで表出させて分析）は分けて考える必要があるのかもしれない。元論文をきちんと読めていないから考えてみたい。

あと、ブログ中で紹介されている論文中ではPhysics of Language Modelsが引用されていないように見えるが、論文中で引用され、関連性・差別化について言及されていた方が良いのではないか？という感想を抱いた。

元ポスト:

Loading…

#Article #NLP #AIAgents #ComputerUse Issue Date: 2025-08-27 NEC、暗黙知をデータ化し学習・活用することでWeb業務を自動化するエージェント技術「cotomi Act」を開発〜世界初、人間を超えるWebタスク成功率80.4％を達成〜, NEC, 2025.08 Comment

元ポスト:

Loading…

WebArena:
- WebArena: A Realistic Web Environment for Building Autonomous Agents, Shuyan Zhou+, ICLR'24

#Article #Library #ReinforcementLearning #Selected Papers/Blogs #On-Policy #KeyPoint Notes #Reference Collection #train-inference-gap Issue Date: 2025-08-26 Your Efficient RL Framework Secretly Brings You Off-Policy RL Training, Yao+, 2025.08 Comment

元ポスト:

Loading…

元々
- verl: Volcano Engine Reinforcement Learning for LLMs, ByteDance Seed Team, 2025.04

のスレッド中にメモっていたが、アップデートがあったようなので新たにIssue化

trainingのエンジン(FSDP等)とロールアウトに使うinferenceエンジン(SGLang,vLLM)などのエンジンのミスマッチにより、学習がうまくいかなくなるという話。

アップデートがあった模様:

Loading…

- Parallelismのミスマッチでロールアウトと学習のギャップを広げてしまうこと（特にsequence parallelism)
- Longer Sequenceの方が、ギャップが広がりやすいこと
- Rolloutのためのinferenceエンジンを修正する（SGLang w/ deterministic settingすることも含む)だけでは効果は限定的

といった感じな模様。

さらにアップデート:

Loading…

FP16にするとtrain-inferenae gapが非常に小さくなるという報告:
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10

vLLMがtrain inference mismatchを防ぐアップデートを実施:

Loading…

#Article #NLP #LanguageModel #Attention Issue Date: 2025-08-26 Why Stacking Sliding Windows Can't See Very Far, Guangxuan Xiao , 2025.08 Comment

元ポスト:

Loading…

#Article #Tutorial #AIAgents Issue Date: 2025-08-25 Best Practices for Building Agentic AI Systems: What Actually Works in Production, Shayan Taslim, 2025.08 Comment

元ポスト:

Loading…

#Article #EfficiencyImprovement #LanguageModel #python #LLMServing #Decoding #SpeculativeDecoding Issue Date: 2025-08-21 vLLMのSpeculative Decodingによる推論高速化を試す, Aratako, 2025.05 #Article #MCP Issue Date: 2025-08-20 One Month in MCP: What I Learned the Hard Way, r_mcp, 2025.05 Comment

元ポスト:

Loading…

#Article #Analysis #NLP #LanguageModel #ReinforcementLearning #read-later Issue Date: 2025-08-12 ProRL V2 - Prolonged Training Validates RL Scaling Laws, Hu+, 2025.08 Comment

元ポスト:

Loading…

#Article #NLP #Transformer #VariationalAutoEncoder #OpenWeight #VideoGeneration/Understandings #Robotics #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-08-12 RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation, Jiang+, Alibaba, 2025.08 Comment

TL;DRは下記。

> We introduce RynnVLA-001, a vision-language-action model built upon large-scale video generative pre-training.
> - RynnVLA-001 is pretrained on ~12M ego-centric manipulation videos.
> - We unify next-frame prediction and next-action prediction into a single transformer.
> - We train a lightweight VAE to accurately compress action chunks into action embeddings.
> - Our RynnVLA-001 outperforms Pi-0 and GR00T-N1.5, in terms of both real-world task success rate and instruction-following capability.

まず、11.93Mの一人称視点での人間が操作（特に手の操作）をする動画と、244Kのrobotが操作をする動画でTransformerを事前学習する。このとき、actionラベルは一切用いず、pixelの情報から物理世界のダイナミクスを理解させる。続いて、Action Chunks（複数のアクションの少量のかたまり）を、dense embeddingにエンコードするVAEを学習する。チャンクを用いる理由は、ピクセルの変化が微小な場合、同じアクションが連続して予測されてしまいstuckしめしまう現象を防ぐこと、予測の効率が良いからとのこと。これによりVLAは単一のembedding vectorを予測するだけで、一貫性のあるアクション系列にデコードできる。最後に、step1で学習したvideo generationモデルと、step2で学習したVAEによるaction representationを統合する。具体的には、next frame prediction（visual tokenを予測; cross entropy loss）とnext action prediction（action edbeddingを予測する）を統合して学習する。action embeddingはcontinuousなベクトルなので異なるヘッドを用意して学習する（L1 Loss)。inference時はRGBのobservationと、テキストによるinstructionを入力として受け取り、action embeddingを予測する。action edbeddingはVAE decoderに渡され、low levelなaction系列に変換される。robotは予測されたアクションを実行し、observationが変化するのでまた予測する、といったiterationを実施する。visual tokenによる予測は不要なので、計算効率の観点から実施しない。

元ポスト:

Loading…

HF: https://huggingface.co/Alibaba-DAMO-Academy/RynnVLA-001-7B-Base

#Article #NLP #Reasoning #OpenWeight Issue Date: 2025-08-11 Breakdown: Kimi K2, DeepSeek-R1, Qwen3 （+Coder）, and GLM-4.5, TuringPost, 2025.08 Comment

元ポスト:

Loading…

中国初のOpenLLMについて、それぞれの強みとおすすめのユースケースがまとまっている

ポスト中で紹介されているのは下記
- Kimi K2: Open Agentic Intelligence, moonshotai, 2025.07
- GLM-4.5: Reasoning, Coding, and Agentic Abililties, Zhipu AI Inc., 2025.07
- DeepSeek-R1, DeepSeek, 2025.01
- Qwen3-235B-A22B-Instruct-2507, Qwen Team, 2025.08
- Qwen3-Coder-30B-A3B-Instruct, QwenTeam, 2025.08

以下のようなものもある:
- MiniMax-M1, MiniMax, 2025.06
- Hunyuan-A13B-Instruct, tencent, 2025.06

#Article #Tools #NLP #LanguageModel #Evaluation Issue Date: 2025-08-08 Agent Maze, LlamaIndex, 2025.08 Comment

元ポスト:

Loading…

最小限のツール利用することを前提に迷路をクリアする必要があるベンチマークな模様。難易度を調整可能で、GPT-5でも難易度の高い迷路には苦戦しているとのこと。

難易度調整可能なものとしては以下のようなものもある:
- Sudoku-bench, SakanaAI, 2025.03
- [Paper Note] SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond, Junteng Liu+, arXiv'25

#Article #ComputerVision #Online/Interactive #read-later #WorldModels Issue Date: 2025-08-06 Genie 3: A new frontier for world models, Google DeepMind, 2025.08 Comment

元ポスト:

Loading…

ライブ操作が可能な世界モデル

日本語解説:

Loading…

デモ:

Loading…

すごいなあ

#Article #NLP #LanguageModel #AIAgents #Evaluation #Game Issue Date: 2025-08-06 Introducing Kaggle Game Arena, Meg Risdal, 2025.08 Comment

元ポスト:

Loading…

現在はチェスのみの模様

チェスときくとこの研究を思い出す:
- Learning to Generate Move-by-Move Commentary for Chess Games from Large-Scale Social Forum Data, Jhamtani+, ACL'18

#Article #Tools #NLP #LanguageModel #AIAgents #Coding #ProprietaryLLM Issue Date: 2025-08-06 Claude Opus 4.1, Anthropic, 2025.08 Comment

他モデルとの性能比較:

やはりコーディングでは（SNS上での口コミでは非常に高評価なように見えており、かつ）o3やGeminiと比較してClaudeがベンチ上でも高い性能を示している模様。

元ポスト:

Loading…

#Article #LanguageModel #Architecture Issue Date: 2025-08-06 The Big LLM Architecture Comparison, Sebastian Laschka, 2025.07 Comment

Qwen3とGPT-OSSの比較はこちら:

Loading…

#Article #Analysis #NLP #Tokenizer #Finetuning #Encoder Issue Date: 2025-08-02 日本語ModernBERTの開発: トークナイザと性能の関係編（3_3）, SBIntuitions, 2025.05 Comment

SBIntuitionsが公開している事前学習済みModernBertは4.4Tトークンの超大規模なトークンで学習されており、それらには多様な表現が出現するため通常では大幅に性能が劣化してしまうトークナイザの事後的にトークナイザを変換し、変換後トークナイザ→サブワード化を実施した場合に、downstreamタスクの性能が劣化するかを調査。その結果、性能の劣化がほとんど表出しなかった（特にモデルサイズが310mの場合は性能の劣化はほぼなさそう）。また、MeCab（Unidic)でわかち書きかれている前提の固有表現認識ベンチマークでの評価の結果、同様の条件でトークナイズをするモデル（パラメータサイズも同等）と、同等程度の性能を示した。ので、SBIntuitionsが公開している日本語ModernBERTにおいては、トークナイザを事後的に変換したのちにサブワード化を実施しモデルのinputとするような方法をしても、問題なさそう、という感じな模様。興味深い。

元ポスト:

Loading…

#Article #NLP #LanguageModel #PostTraining Issue Date: 2025-07-31 大規模言語モデルPLaMo 2シリーズの事後学習, PFN, 2025.07 Comment

元ポスト:

Loading…

#Article #Survey #NLP #LanguageModel #ReinforcementLearning Issue Date: 2025-07-27 9 new policy optimization techniques, Kseniase, 2025.07 Comment

元ポスト:

Loading…

#Article #AWS #RAG(RetrievalAugmentedGeneration) #SoftwareEngineering Issue Date: 2025-07-17 Amazon S3 Vectorsで激安RAGシステムを構築する, とすり, 2025.07 Comment

元ポスト:

Loading…

#Article #NLP #Dataset #LanguageModel #Verification Issue Date: 2025-07-17 Asymmetry of verification and verifier’s law, Jason Wei, 2025.07 Comment

元ポスト:

Loading…

#Article #Mindset Issue Date: 2025-07-15 個人を活かしてチーム力も最大化する、属人性解消への取り組み方, エムスリーテックブログ, 2025.07 Comment

属人性と向き合いチームの成果を最大化する

#Article #RecommenderSystems #Slide Issue Date: 2025-07-15 推薦システムにおけるPost Processの取り組み, Wantedly, 2025.07 Comment

元ポスト:

Loading…

Wantedlyスカウトにおいて、オンラインで動的にスカウト利用者から指定されるフィルタリング要件に対して、未閲覧のユーザの比率を動的に調整してランキングするPost Processによって、主要KPIが大幅に改善した話。モデル改善に興味が行きがちだが、顧客理解に基づくPost Processでここまで主要KPIが改善するのは美しく、非常に興味深い。

スライド資料:

Loading…

#Article #Pretraining #NLP #LanguageModel #Optimizer Issue Date: 2025-07-15 きみはNanoGPT speedrunを知っているか？, PredNext, 2025.07 #Article #NLP #LanguageModel #Tokenizer Issue Date: 2025-07-12 H-Nets - the Past, Goomba Lab, 2025.07 Comment

元ポスト:

Loading…

tokenizerも含めてデータに対して最適なinputの粒度を学習

公式ポスト(?):

Loading…

解説ポスト:

Loading…

#Article #MachineTranslation #NLP #Dataset #SyntheticData Issue Date: 2025-07-09 PLaMo翻訳による英語ベンチマークの翻訳, PFN, 2025.07 #Article #Reasoning #read-later Issue Date: 2025-07-08 New methods boost reasoning in small and large language models, Zhang+, Microsoft, 2025.06 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #AIAgents #SoftwareEngineering #ContextEngineering Issue Date: 2025-07-04 Context Engineering - What it is, and techniques to consider, llamaindex, 2025.07 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #AIAgents #SoftwareEngineering #ContextEngineering Issue Date: 2025-07-04 The New Skill in AI is Not Prompting, It's Context Engineering, PHLSCHMID, 2025.06 Comment

元ポスト:

Loading…

#Article #RecommenderSystems #NeuralNetwork #Embeddings #EfficiencyImprovement #AWS #MLOps #A/B Testing #TwoTowerModel Issue Date: 2025-06-29 日経電子版のアプリトップ「おすすめ」をTwo Towerモデルでリプレースしました, NIKKEI, 2025.05 Comment

リアルタイム推薦をするユースケースにおいて、ルールベース+協調フィルタリング(Jubatus)からTwo Towerモデルに切り替えた際にレイテンシが300ms増えてしまったため、ボトルネックを特定し一部をパッチ処理にしつつもリアルタイム性を残すことで解決したという話。AWSの構成、A/Bテストや負荷テストの話もあり、実用的で非常に興味深かった。

#Article #Tutorial #Pretraining #NLP #Dataset #LanguageModel #Evaluation #OpenWeight #Japanese #PostTraining Issue Date: 2025-06-25 LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05 Comment

#Article #NLP #LanguageModel #RLHF #Verification Issue Date: 2025-06-24 人間を騙してサボるAIたち, 佐藤竜馬, 2025.06 #Article #NLP #AIAgents #Coding #SoftwareEngineering Issue Date: 2025-06-23 AI Agent Manager （AAM）として生きていく : 作業環境とワークフローの設計, icoxfog417, 2025.06 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #python #Repository #LLMServing #MinimalCode Issue Date: 2025-06-22 Nano-vLLM, GeeeekExplorer, 2025.06 Comment

元ポスト:

Loading…

vLLMと同等のinference speedを実現するミニマムでクリーンな実装。勉強用に良さそう。

#Article #AIAgents #Coding #read-later Issue Date: 2025-06-21 AI-assisted coding for teams that can't get away with vibes, Atharva Raykar, 2025.05 Comment

元ポスト:

Loading…

#Article #NLP #AIAgents #read-later Issue Date: 2025-06-21 Single vs Multi-Agent System?, PHILSCHMID, 2025.06 Comment

元ポスト:

Loading…

#Article #Tutorial #ReinforcementLearning #Off-Policy #On-Policy Issue Date: 2025-06-19 Q-learning is not yet scalable, Seohong Park, UC Berkeley, 2025.06 Comment

元ポスト:

Loading…

on-policy RLでは、現在の状態からポリシーに従ってアクションを選択して、実際に選択したアクションのrewardとQ値をシグナルにしてポリシーを更新するけど、off-policy RLでは、未来において現在の（Q関数で）Q値が最大となるアクションを選択した場合に得られる価値はどんなもん？というQ関数の学習が甘い状態だととあるアクションを過大評価してしまう（=バイアス）ようなシグナルに基づいて更新されるから、系列が長くなるとバイアスが蓄積して適切なQ関数が学習できなくなってdepth方向にスケールしづらいんだよ、という話っぽい？

#Article #Multi #NLP #AIAgents #read-later #ContextEngineering Issue Date: 2025-06-17 Don’t Build Multi-Agents, Cognition, 2025.06 Comment

元ポスト:

Loading…

まとめ:

Loading…

#Article #ComputerVision #NLP #Dataset #LanguageModel #AWS #MultiModal #Japanese Issue Date: 2025-05-20 Webスケールの日本語-画像のインターリーブデータセット「MOMIJI」の構築 _巨大テキストデータをAWSで高速に処理するパイプライン, Turing （studio_graph）, 2025.05 Comment

貴重なVLMデータセット構築ノウハウ

青塗りのフィルタリングタスクを具体的にどうやっているのか気になる

#Article #read-later Issue Date: 2025-05-18 Lesson.3 秋葉氏に学ぶ AI 研究の最前線から見るこれまでとこれから, EM.FM, 2025.05 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #AIAgents #Coding Issue Date: 2025-05-18 OpenAI-Codex, OpenAI, 2025.05 Comment

OpenHandsのNeubig氏が、OpenAIのブログポスト中で報告されているSWE-Bench Verifiedのスコアについて、言及している。OpenAIは23個サンプルについて(internal infrastructureで動作させられないため)除外しているので、その分スコアに下駄が履かれているようで、ブログ中のpassNのスコアを他のリーダーボードのスコアと比較する際には注意が必要っぽい。

Loading…

#Article Issue Date: 2025-05-12 The Second Half, Shunyu Yao, 2025.05 Comment

元ポスト:

Loading…

#Article #NLP #Library #Supervised-FineTuning (SFT) #OpenWeight #MoE(Mixture-of-Experts) #PostTraining Issue Date: 2025-05-11 ms-swiftによるMegatron-LMベースのQwen3のファインチューニング, Aratako, 2025.05 Comment

元ポスト:

Loading…

Megatron-SWIFTというAlibaba製のライブラリを利用しQwen3の継続事前学習とSFTを実施する方法を、ベストプラクティスに則って記述し、かつ著者自身が学習したモデルも公開している。（おそらくインスタンス代は自腹なので）すごい...!!
Megatron-SWIFTはMoEアーキテクチャを採用したモデルであれば、DeepSpeed Zero3 [^1]と比べて10倍程度のスループットで学習できる模様（早い）。一方MoEアーキテクチャでないモデルの場合はそこまで大きな差はない。

[^1]: A100 80GB 2ノードでは、Qwen3-30B-A3Bは、DeepSpeed-Zero2ではOOMとなり載らないようだ…。なんとリソースに厳しいこと…（涙）

#Article #TimeSeriesDataProcessing #Evaluation Issue Date: 2025-05-09 時系列データのvalidationに関する質問に回答します, カレーちゃん, 2022.07 Comment

元スレッド:

Loading…

めちゃめちゃ参考になる・・・

#Article #Analysis #NLP #Library #AIAgents Issue Date: 2025-05-06 Agent Frameworkはどれを使うべきか [タスク性能編], はち, 2025.05 Comment

各フレームワーク毎の性能の違いや消費したトークン数、実装の微妙や違いがまとめられており、太字でtakeawayが記述されているので非常にわかりやすい。

元ポスト:

Loading…

#Article #Frontend #React (Frontend) Issue Date: 2025-05-01 React がビルドされるまでの流れを理解したい, ツチノコ, 2023.12 Comment

Reactがビルドされる流れは、
- Webpackでバンドル（アセットをまとめる）し
- Babelでトランスパイルし（ES5（古い仕様のJS）に変換）し
- tscでJavaScriptに変換

する

#Article #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #InstructionTuning #LongSequence #MultiLingual #OpenWeight #MoE(Mixture-of-Experts) #PostTraining Issue Date: 2025-04-29 Qwen3, Qwen Team, 2025.04 Comment

- 119言語をサポート
- MoEモデル Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer, Noam Shazeer+, ICLR'17
- 30B-A3B / 235B-A22N
- 128K context window
- Qwen2.5はMoEを採用していないので新たなアーキテクチャとなる
- Denseモデル（非MoEモデル）も公開
- 0.6B -- 32B
- 32K -- 128K context window
- Thinking/Non-thinking の切り替えが切り替えが可能
- スイッチは自動的に実施されるが、ユーザが明示的に `/think`, `/no_think` を user_promptの末尾に追加することで制御することも可能
- Pre-training
- データ
- 36 trillion tokensによって学習（Qwen-2.5の2倍）
- 学習データではwebデータに加えて、PDF-likeな文書群からQwen2.5-VL Qwen2.5-VL-32B-Instruct, Qwen Team, 2025.03 によってテキストを抽出し、Qwen2.5 で抽出された内容の品質を改善し利用
- また、math / code に関するデータを追加するために、Qwen2.5-Math / Qwen2.5-Coderを用いて合成データを作成（textbooks / QA pairs / code snippets Textbooks Are All You Need, Suriya Gunasekar+, N/A, arXiv'23 ）
- 事前学習のステップ
- S1: context長が4kの30 trillion tokenで事前学習
- S2: STEM / coding / reasoning task などのknowledge-intensiveデータの比率を増やして継続事前学習 (これがおそらく 5 trillion token程度？)
- Final Stage: context長を32kに拡大し高品質なlong-context dataで継続事前学習
- これによりBaseモデルが完成し、Qwen3-235B全体のうち10%程度のActive Parameterの利用するだけで（i.e., 22Bで）、Qwen2.5-72B Baseと同等以上の性能達成
- Post-training
- S1: long-CoT cold start
- 数学/coding/logical reasoning/STEMなどの多様なlong CoTデータを用いてSFT s1: Simple test-time scaling, Niklas Muennighoff+, arXiv'25
- S2: reasoning-based RL
- rule-based (verifiable) rewards によるRL DeepSeek-R1, DeepSeek, 2025.01
- S1/S2の流れは Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, arXiv'25 に有効性が示されている通り、long CoT DataによるSFT -> RLを実施
- S3: thinking mode fusion
- S2データを用いてlong CoTデータとinstruction tuningデータ（非Long CoT）を生成し、Thinking/Non-thinkingを自動的に選択し生成するように学習（SFT or RLは記述なし）
- S4: general RL
- 20以上の一般的なドメインのタスクを通じて一般的な能力の向上と、safetyに関するalignmentの実施（e.g., instruction following, format following, agent能力など）

BestPracticeに関するポスト:

Loading…

解説:

Loading…

#Article #RecommenderSystems #LanguageModel Issue Date: 2025-04-28 Improving Recommendation Systems & Search in the Age of LLMs, eugeneyan, 2025.04 #Article #NLP #LanguageModel #AIAgents #Repository Issue Date: 2025-04-26 Deepwiki, Cognition, 2025.04 Comment

githubリポジトリに関するリッチなドキュメントに対してDevinを通じて対話的に質問ができる模様。サインアップ不要で、githubリポジトリのドメインをdeepwikiに変えるだけで利用可能

#Article #ComputerVision #Pocket #NLP #LanguageModel #AIAgents #MultiModal #Reasoning #OpenWeight #ComputerUse #VisionLanguageModel Issue Date: 2025-04-18 Introducing UI-TARS-1.5, ByteDance, 2025.04 GPT Summary- UI-TARSは、スクリーンショットを入力として人間のようにインタラクションを行うネイティブGUIエージェントモデルであり、従来の商業モデルに依存せず、エンドツーエンドで優れた性能を発揮します。実験では、10以上のベンチマークでSOTA性能を達成し、特にOSWorldやAndroidWorldで他のモデルを上回るスコアを記録しました。UI-TARSは、強化された知覚、統一アクションモデリング、システム-2推論、反射的オンライントレースによる反復トレーニングなどの革新を取り入れ、最小限の人間の介入で適応し続ける能力を持っています。 Comment

paper: https://arxiv.org/abs/2501.12326

色々と書いてあるが、ざっくり言うとByteDanceによる、ImageとTextをinputとして受け取り、TextをoutputするマルチモーダルLLMによるComputer Use Agent (CUA)

元ポスト:

Loading…

#Article #Tutorial Issue Date: 2025-04-18 研究者向けの技術研修資料を公開します, CyberAgent, 2025.04 Comment

気になる

#Article #MachineLearning Issue Date: 2025-04-18 あえて予測の更新頻度を落とす| サプライチェーンの現場目線にたった機械学習の導入, モノタロウ Tech Blog, 2022.03 Comment

とても面白かった。需要予測の予測性能を追求すると現場にフィットしない話が示唆に富んでいて、とてもリアルで興味深い。

#Article #Mindset #SoftwareEngineering Issue Date: 2025-04-01 ジュニアエンジニアからシニアエンジニアになるまでに自分がやっていたことまとめ, yasuhisa's blog, 2025.04 #Article #RecommenderSystems #Survey #NLP #LanguageModel Issue Date: 2025-03-31 Recommendation Systems • LLM, vinjia.ai, 2025.03 Comment

元ポスト: https://www.linkedin.com/posts/vinija_recommendation-systems-llm-activity-7306171374446727168-cUg2?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

#Article #Analysis #NLP #LanguageModel #Selected Papers/Blogs Issue Date: 2025-03-25 言語モデルの物理学, 佐藤竜馬, 2025.03 Comment

必読

#Article #ComputerVision #EfficiencyImprovement #Pretraining #NLP #LanguageModel #Transformer #Supervised-FineTuning (SFT) #MultiModal #SSM (StateSpaceModel) #Selected Papers/Blogs Issue Date: 2025-03-24 Nemotron-H: A Family of Accurate, Efficient Hybrid Mamba-Transformer Models, Nvidia, 2025.03 Comment

関連:
- Hunyuan T1, Tencent, 2025.03

TransformerのSelf-attention LayerをMamba2 Layerに置換することで、様々なベンチマークで同等の性能、あるいは上回る性能で3倍程度のInference timeの高速化をしている（65536 input, 1024 output）。

56B程度のmediumサイズのモデルと、8B程度の軽量なモデルについて述べられている。特に、8BモデルでMambaとTransformerのハイブリッドモデルと、通常のTransformerモデルを比較している。学習データに15 Trillion Tokenを利用しており、このデータ量でのApple to Appleのアーキテクチャ間の比較は、現状では最も大規模なものとのこと。性能は多くのベンチマークでハイブリッドにしても同等、Commonsense Understandingでは上回っている。

また、学習したNemotron-Hをバックボーンモデルとして持つVLMについてもモデルのアーキテクチャが述べられている。

#Article #Survey #Embeddings #Pocket #NLP #LanguageModel #PositionalEncoding Issue Date: 2025-03-23 8 Types of RoPE, Kseniase, 2025.03 Comment

元ポスト: https://huggingface.co/posts/Kseniase/498106595218801

RoPEについてサーベイが必要になったら見る

#Article #Tools #Pocket #NLP #LanguageModel #Chain-of-Thought #Reasoning Issue Date: 2025-03-23 The "think" tool: Enabling Claude to stop and think in complex tool use situations, Anthropic, 2025.03 Comment

"考える"ことをツールとして定義し利用することで、externalなthinkingを明示的に実施した上でタスクを遂行させる方法を紹介している

#Article #Survey #Attention Issue Date: 2025-03-18 15 types of attention mechanisms, Kseniase, 2025.03 Comment

Luongらのアテンションやsoft, globalアテンションなど、古くからあるattentionも含まれている。

#Article #AIAgents Issue Date: 2025-03-15 Model Context Protocol （MCP）, Anthropic Comment

下記リンクのMCPサーバ/クライアントの作り方を読むとだいぶ理解が捗る:
https://modelcontextprotocol.io/quickstart/server
https://modelcontextprotocol.io/quickstart/client

#Article #AIAgents #ComputerUse Issue Date: 2025-03-15 browser-useの基礎理解, むさし, 2024.12 Comment

公式リポジトリ: https://github.com/browser-use/browser-use

BrowserUseはDoMを解析するということは内部的にテキストをLLMで処理してアクションを生成するのだろうか。OpenAIのComputer useがスクリーンショットからアクションを生成するのとは対照的だと感じた（小並感）。

- OpenAI API での Computer use の使い方, npaka, 2025.03

#Article #NLP #LanguageModel #AIAgents #ComputerUse Issue Date: 2025-03-12 OpenAI API での Computer use の使い方, npaka, 2025.03 Comment

OpenAIのCompute Useがどのようなものかコンパクトにまとまっている。勉強になりました。

公式: https://platform.openai.com/docs/guides/tools-computer-use

#Article #Tutorial #NLP #LanguageModel #Reasoning #Test-Time Scaling Issue Date: 2025-03-09 The State of LLM Reasoning Models, Sebastian Raschka, 2025.03 #Article #MachineLearning #NLP #LanguageModel #ReinforcementLearning #GRPO Issue Date: 2025-03-05 GRPO Judge Experiments: Findings & Empirical Observations, kalomaze's kalomazing blog, 2025.03 Comment

元ポスト: https://www.linkedin.com/posts/philipp-schmid-a6a2bb196_forget-basic-math-problems-grpo-can-do-more-activity-7302608410875691009-nntf?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

一意に解が決まる問題ではなく、ある程度の主観的な判断が必要なタスクについてのGRPOの分析。
2つのテキストを比較するタスクで、一方のタスクはLLMによって摂動を与えている（おそらく意図的にcorruptさせている）。

GRPOではlinearやcosineスケジューラはうまく機能せず、warmupフェーズ有りの小さめの定数が有効らしい。また、max_grad_normを0.2にしまgradient clippingが有効とのこと。

他にもrewardの与え方をx^4にすることや、length, xmlフォーマットの場合にボーナスのrewardを与えるなどの工夫を考察している。

#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #GRPO Issue Date: 2025-02-19 強化学習「GRPO」をCartPoleタスクで実装しながら解説, 小川雄太郎, 2025.02 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #ReinforcementLearning #Distillation Issue Date: 2025-02-12 DeepScaleR: Surpassing O1-Preview with a 1.5B Model by Scaling RL, 2025.02 #Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #FoundationModel #RLHF #Selected Papers/Blogs Issue Date: 2025-02-01 DeepSeek-R1の論文読んだ？【勉強になるよ】 , asap, 2025.01 Comment

- DeepSeek-R1, DeepSeek, 2025.01
- DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models, Zhihong Shao+, arXiv'24

とても丁寧でわかりやすかった。後で読んだ内容を書いて復習する。ありがとうございます。

#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #PostTraining Issue Date: 2025-01-25 How to fine-tune open LLMs in 2025 with Hugging Face, PHILSCHMID, 2024.12 Comment

SFTTrainerを用いたLLMのSFTについて、実用的、かつ基礎的な内容がコード付きでまとまっている。

#Article #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #DPO #PostTraining Issue Date: 2025-01-25 How to align open LLMs in 2025 with DPO & and synthetic data, PHILSCHMID, 2025.01 Comment

元ポスト:

Loading…

- DPOの概要やRLHFと比較した利点
- ルールベース、あるいはLLM as a Judgeを用いたOn-policy preference pair（現在のSFTしたモデルの出力から生成したpreference data）の作り方とその利点（現在のモデルのoutput distributionを反映しているので学習が効率化される）
- 環境構築方法
- DPOTrainer/TRLParserの使い方/DPODatasetの作り方
- DPOのハイパーパラメータβの意味合い
- DPOではSFTと比べて10-100x小さい学習率を使う必要があること
- Evaluation Harnessを用いた評価方法
- TGIを用いたモデルのデプロイとテスト

などが丁寧なサンプルコードと注釈、reference付きで説明されている。

#Article #GenerativeAI Issue Date: 2025-01-06 Japan as an international hub for AI, Jerry Chi and Ilya Kulyatin, 2025.01 #Article #NLP #LanguageModel Issue Date: 2025-01-05 DeepSeek-V2のアーキテクチャを徹底解説：MLA と DeepSeekMoE, kernelian, 2024.05 Comment

- DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models, Damai+, ACL'24, 2024.08

も参照のこと。

#Article #LanguageModel #AIAgents Issue Date: 2025-01-05 AI Agents 2024 Rewind - A Year of Building and Learning, VICTOR DIBIA, 2025.01 #Article #LanguageModel #AIAgents Issue Date: 2025-01-05 AI Agent Era, 福島良典 | LayerX, 2024.12 #Article #LanguageModel Issue Date: 2025-01-05 LLMがオワコン化した2024年, らんぶる, 2025.01 Comment

LLMを（呼び出す|呼び出される）SaaS企業が今後どのような戦略で動いていくかが考察されており興味深かった。

#Article #python Issue Date: 2025-01-04 pydantic-settingsで環境変数からもオプション引数を指定できるCLIを作る〜サブコマンド篇〜, nikkie-ftnextの日記, 2025.01 Comment

pydantic-settingsを使ったCLI作成に関する記事。環境変数からオプションを指定できるので、コマンドライン引数を動的に柔軟に変更したい場合に便利そう

#Article #NLP #AIAgents #python #API #ComputerUse Issue Date: 2025-01-04 browser-use やばいです, Syoitu, 2024.12 Comment

すごい手軽に使えそうだが、クローリング用途に使おうとするとhallucinationが起きた時に困るのでうーんと言ったところ。

#Article #Pocket #NLP #GenerativeAI Issue Date: 2025-01-03 Things we learned about LLMs in 2024, Simon Willson's blog, 2024.12 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-01-02 To fine-tune or not to fine-tune, Meta, 2024.08 Comment

LLMをSFTする際の注意点やユースケースについて記述されている。

- full parameterのファインチューニングやPEFT手法のピークGPUメモリ
- full parameterのファインチューニングではcatastrophic forgettingに気をつける必要があること
- Finetuningが有用なユースケースとして以下が挙げられている
- トーン、スタイル、フォーマットのカスタマイザーション
- prompt engineeringやICLで達成するには困難なAccuracyの向上やエッジケースへの対応
- ドメイン適応
- より大きいモデルを蒸留することによるコスト削減
- 新たなタスクへの適応や能力の獲得

また、RAGとFinetuningどちらを選択すべきかに関する話題も記述されている（が、多くの場合はハイブリッドアプローチがベストだ、といった話も書いてある）。

元ポスト:

Loading…

#Article #Tutorial #NLP #LanguageModel #Attention Issue Date: 2024-12-28 MHA vs MQA vs GQA vs MLA, Zain ul Abideen, 2024.07 Comment

DeepSeekで使われているMulti Head Latent Attention（MLA）ってなんだ？と思い読んだ。端的に言うと、GQAやMQAは、KVのヘッドをそもそも減らしてKV Cacheを抑えよう、という手法だったが、MLAはKVを低ランクなベクトルに圧縮して保持し、使う時に復元するといった操作をすることで、MHAのパフォーマンスを落とすことなく（むしろ上がるらしい？）、利用するKV Cacheで利用するメモリを大幅に減らせるという手法らしい。

- GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N/A, arXiv'23

MQA, GQAの概要については上記参照のこと。

#Article #Survey #NLP #LanguageModel #Evaluation #LLM-as-a-Judge Issue Date: 2024-12-25 LLM-as-a-Judge をサーベイする, Ayako, 2024.12 Comment

- A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24

を読んだ結果を日本語でまとめてくださっている。

モデル選択について、外部APIに依存するとコストやプライバシー、再現性などの問題があるためOpenLLMをFinetuningすることで対応していることが論文中に記載されているようだが、評価能力にはまだ限界があるとのこと。

記事中ではLlama, Vicunaなどを利用している旨が記述されているが、どの程度のパラメータサイズのモデルをどんなデータでSFTし、どのようなタスクを評価したのだろうか（あとで元論文を見て確認したい）。

また、後処理としてルールマッチで抽出する必要あがるが、モデルのAlignmentが低いと成功率が下がるとのことである。

個人的には、スコアをテキストとして出力する形式の場合生成したテキストからトークンを抽出する方式ではなく、G-Eva のようにスコアと関連するトークン（e.g. 1,2,3,4,5）とその尤度の加重平均をとるような手法が後処理が楽で良いと感じる。

ICLR2025の査読にLLM-as-a-Judgeが導入されるというのは知らなかったので、非常に興味深い。

LLMが好む回答のバイアス（冗長性、位置など）別に各LLMのメタ評価をしている模様。また、性能を改善するための施策を実施した場合にどの程度メタ評価で性能が向上するかも評価している。特に説明を出力させても効果は薄く、また、複数LLMによる投票にしても位置バイアスの軽減に寄与する程度の改善しかなかったとのこと。また、複数ラウンドでの結果の要約をさせる方法がバイアスの低減に幅広く寄与したとのこと。

うーん、バイアスを低減するうまい方法がまだ無さそうなのがなかなか厳しい感じがする。
そもそも根本的に人間に人手評価をお願いする時もめちゃめちゃマニュアルとかガイドラインを作り込んだりした上でもagreementが高くなかったりするので、やはり難しそうである。

ただ、MTBenchでは人間の評価結果とLLMの評価結果の相関（agreementだっけか…？）が高かったことなどが報告されているし、LLMあるあるのタスクごとに得意不得意があります、という話な気もする。

#Article #NLP #LanguageModel #GenerativeAI Issue Date: 2024-12-24 OpenAI o3は，人間とは全く異質の汎用知能である危険性【東大解説】, 神楽坂やちま, 2024.12 Comment

様々な有識者の見解をまとめつつ、文献を引用しつつ、かつ最終的に「人間が知能というものに対してなんらかのバイアスを持っている」可能性がある、という話をしており興味深い。
一部の有識者はARC-AGIの一部の、人間なら見た瞬間に分かるようなパターン認識の問題でも解けていないことから、AGIではないと主張しているとのことだったが、人間目線で簡単な問題が解けることはAGIとして必須な条件ではないよね、といった話が書かれており、そもそも有識者がどのようなものさしや観点でAGIを見ているのか、どういう視点があるのか、ということが感覚的に分かる内容であり、おもしろかった。

しかし、そもそも何がどうなったらAGIが実現できたと言えるのだろうか？定義がわからない（定義、あるのか…？）

#Article #Tools #NLP #Dataset #LanguageModel #OpenWeight #Japanese Issue Date: 2024-12-24 完全にオープンな約1,720億パラメータ（GPT-3級）の大規模言語モデル「llm-jp-3-172b-instruct3」を一般公開～GPT-3.5を超える性能を達成～ , NII, 2024.12 Comment

GPT3.5と同程度のパラメータ数のコーパス、モデル、ツール、全てを公開。学習データまで含めてオープンなモデルとしては世界最大規模とのこと。

Instructionチューニング済みのモデルはライセンスを読むと、ライセンスに記述されている内容を遵守すれば、誰でも（日本人なら18歳以上とかはあるが）アクセス可能、用途の制限（商用・非商用問わず）なく利用でき、かつ再配布や派生物の生成などが許されているように見える。
が、baseモデルの方はコンタクト情報を提供のうえ承認を受けないと利用できない模様。また、再配布と一部の使途に制限がある模様。

SNSではオープンソースではないなどという言説も出ており、それはbaseモデルの方を指しているのだろうか？よくわからない。

実用上はinstructionチューニング済みのモデルの方がbaseモデルよりも使いやすいと思うので、問題ない気もする。

やはりbaseとinstructでライセンスは2種類あるとのこと:

Loading…

#Article #Pocket #LanguageModel #Reasoning #SelfCorrection Issue Date: 2024-12-22 OpenAI o1を再現しよう（Reasoningモデルの作り方）, はち, 2024.12 Comment

Reflection after Thinkingを促すためのプロンプトが興味深い

#Article #RecommenderSystems Issue Date: 2024-12-20 Netflixの推薦＆検索システム最前線 - QCon San Francisco 2024現地レポート, UZABASE, 2024.12 Comment

インフラ構成の部分が面白い。モデルの構築方法などは、まず軽量なモデルやヒューリスティックで候補を絞り、その後計算量が重いモデルでリランキングする典型的な手法。

Netflixのインフラによって、以下のようなことを
>1～2秒前の最新データを参照でき、推薦生成に反映させることが可能です

latencyを40msに抑えつつ実現しているとのこと。直前のアクションをinferenceで考慮できるのは相当性能に影響あると思われる。

また、検索と推薦をマルチタスク学習しパラメータをシェアすることで両者の性能を挙げているのが興味深い。
モデル自体は近年のLLMを用いた推薦では無く、Deepなニューラルネットに基づくモデルを採用
（まあLLMなんかにリアルタイムで推論させたらlatency 40ms未満という制約はだいぶきついと思われるしそもそも性能向上するかもわからん。予測性能とかよりも、推薦理由の生成などの他タスクも同時に実施できるのは強みではあるとは思うが…）。

まあしかし、すごい目新しい情報があったかと言われると基本的な内容に留まっているのでそうでもないという感想ではある。

#Article #Pocket #Alignment Issue Date: 2024-12-19 Alignment faking in large language models, Anthropic, 2024.12 Comment

https://assets.anthropic.com/m/983c85a201a962f/original/Alignment-Faking-in-Large-Language-Models-full-paper.pdf

#Article #MachineLearning #NLP #LanguageModel #Alignment #RLHF #DPO Issue Date: 2024-12-18 RLHF_DPO 小話, 和地瞭良_ Akifumi Wachi, 2024.04 Comment

めちゃめちゃ勉強になる…

#Article #Pocket #LanguageModel #Test-Time Scaling Issue Date: 2024-12-17 Scaling test-time-compute, Huggingface, 2024.12 Comment

これは必読

#Article #EfficiencyImprovement #Pocket #LanguageModel Issue Date: 2024-12-17 Fast LLM Inference From Scratch, Andrew Chan, 2024.12 Comment

ライブラリを使用せずにC++とCUDAを利用してLLMの推論を実施する方法の解説記事

#Article Issue Date: 2024-12-12 株式会社NexaScienceはじめます。, Yoshitaka Ushiku, 2024.12 Comment

全部読んだ。めちゃめちゃ共感できる。

#Article #RecommenderSystems #Pocket #LanguageModel Issue Date: 2024-12-03 Augmenting Recommendation Systems With LLMs, Dave AI, 2024.08 #Article #InformationRetrieval #Pocket #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-12-01 BM42: New Baseline for Hybrid Search, Qdrant, 2024.07 #Article #Mindset Issue Date: 2024-11-30 道は続く, Ryo Kobayashi, 2024.11 Comment

「道は続く」、心に刻みたい言葉

#Article Issue Date: 2024-11-18 【総集編）】15年間のC向けサービスづくりで得た学び, Shota Horii, 2024.11 Comment

具体的だがシンプルに知見がまとまっていてとても分かりやすい。

顧客開発モデルに基づいた考え方のみならず、仮設整理のために実際に使われているシートなどの実用的なツール群や、
顧客とのチャネル構築方法、プロダクトのスケールするための知見、チームビルディング、カルチャーの作り方の作法など（他にも透明性とかサンクコストを恐れずシンプルさを保つことのコスト削減効果などここには書ききれない）、
実体験を具体的に交えながら説明されており、盛りだくさんで非常に勉強になる。

#Article #Survey #NLP #LanguageModel #OpenWeight #OpenSource Issue Date: 2024-11-15 ローカルLLMのリリース年表, npaka, 随時更新, 2024.11 Comment

ローカルLLMを含むOpenLLMのリリース日が年表としてまとまっており、随時更新されている模様。すごい。

#Article Issue Date: 2024-11-11 The Surprising Effectiveness of Test-Time Training for Abstract Reasoning, 2024.11 #Article #NLP #SpeechProcessing #AutomaticSpeechRecognition(ASR) Issue Date: 2024-11-07 ほぼリアルタイム！？爆速で動作する日本語特化の文字起こしAI！『kotoba-whisper-v2.0』, 遼介大堀, 2024.11 Comment

whisper large-v3を蒸留したkotoba-whisper-v1.0に対して、日本語のオーディオデータで追加学習をしたモデル、kotoba-whisper-v2.0を利用するための環境構築方法やコードの例が記述されている。

公式によると、whisper-large-v3よりも6.3倍のスループットとのこと。また、qiita記事中ではwhisper large-v2に対して約6.0倍のスループットであることが言及されている。

学習に用いられたデータは、ReasonSpeechデータ（日本語のテレビの録音データ） ReazonSpeech: A Free and Massive Corpus for Japanese ASR, Yin+, NLP'23 をWERに基づくフィルタリングによって良質なデータのみを抽出することで作成されたデータの模様

公式のモデルカードも参照のこと: https://huggingface.co/kotoba-tech/kotoba-whisper-v2.0

日本のテレビ番組のデータで学習されているので、それを念頭に置いた上で、自分が適用したいデータとの相性を考えると良さそうである。

また、動作速度が速いのはシンプルにありがたい。

#Article #EfficiencyImprovement #NLP #LanguageModel #Quantization Issue Date: 2024-10-26 Introducing quantized Llama models with increased speed and a reduced memory footprint, Meta, 2024.10 #Article Issue Date: 2024-10-25 Ilya Sutskever’s Top 30 Reading List #Article #Survey #GenerativeAI Issue Date: 2024-10-01 生成AIを活用したシステム開発の現状と展望 - 生成AI時代を見据えたシステム開発に向けて-, 株式会社日本総合研究所先端技術ラボ, 2024.09 Comment

ソフトウェア開発で利用され始めている生成AIのプロダクト群と、それらに関連するソースコード生成やテストコード生成、エージェントによる自動システム開発等の研究動向、今後の展望について具体的に記述されている。

SIerやITベンダー内では、実際に活用しているところも一部あるようだが、まだ検証や改革の途中の模様。要件定義に対するLLMの活用も模索されているようだが、産業側もアカデミックも研究段階。

web系では、サイバーやLINEヤフーが全社的にすでにGithub Copilotを導入しているとのこと。

Devin AIのように、Github上のオープンソースのIssueをもとにしたベンチマークで、2294件中13.86%のIssueを解決した、みたいな話を見ると、そのうちコードを書く仕事はIssueを立てる仕事に置き換わるんだろうなあ、という所感を得た（小並感

#Article #Management Issue Date: 2024-09-30 非プロダクトマネージャーのためのプロダクトマネジメント入門, 神原淳史, 2024.09 Comment

プロダクトマネジメントについて初心者向けに書かれた記事。勉強になった。

JTBDフレームワークは顧客開発モデルなどでも出てくるので、もう一度復習しておきたい。

>When (Situation) I want to (Motivation) So I can (Expected outcome)

ビルドトラップについても勉強になった。ミニマムでユーザの課題（ニーズ）を解決（満たす）する価値を提供することが重要。この辺は、技術にこだわりや興味、自信がある人ほど作り込みすぎてしまう印象がある。
https://product-managers-club.jp/blog/post/build-traps-fall

レベル2生産性の簡易的な計算方法のフレームワーク。知っておくと役に立つ場面がありそう。考え方として知っておくだけでも良い。confidenceの定義が難しそう。
>・Reach: どれだけ多くの顧客/ユーザーにとっての問題か
・Impact: その問題は個々の顧客/ユーザーにとってどれだけ深刻か
・Conficence: ReachとImpactがどれだけ確からしいか (Effortの確からしさも含むことがある)
・Effort: 問題解決の実装に必要な工数
計算式は以下の通りです。
RICEスコア = Reach * Impact * Confidence / Effort

と思ったが、一応参考として以下のようなものが紹介されている。この辺はプロダクトやチームごとにより具体的なものを決めていくと良いのだろうと思う。特に発案者やその同僚が信じている、の部分は深掘りできそうな気がする。その人にしか見えておらず、定量化できない感覚のような部分があったとしたら、この基準では低いスコアを付与してしまう。ユーザに近しい人ほどそういう感覚を持っており、軽視すべきでないと個人的には考える（が、発言者によって熱量のオフセットが異なるのでその辺も考慮しないといけないから判断難しそう）。
>・発案者やその同僚が信じている (0.01 - 0.2)
・複数の顧客からリクエストがあった (0.5 - 1)
・市場リサーチ結果 (1 - 2)
・一定量以上のユーザーインタビュー結果 (3)
・実際のプロダクト上での検証結果 (5 - 10)

記事のまとめ
>・ソリューションよりも問題の明確化にフォーカスしよう。そのための手法の1つにJTBDフレームワークがある。
・問題解決の優先度を評価するための観点を知ろう。その観点リストの1つにRICEフレームワークがある。
・PBIの相対的な優先順位づけも大事だが、その前に必ずプロダクト戦略へのアラインを確認しよう。

#Article #Pocket #API Issue Date: 2024-09-30 API設計まとめ, KNR109, 2024.02 #Article #Pocket #NLP #LanguageModel #Evaluation #LLM-as-a-Judge Issue Date: 2024-09-30 Evaluating the Effectiveness of LLM-Evaluators （aka LLM-as-Judge）, 2024.09 Comment

LLM-as-a-judgeについて網羅的に書かれた記事

#Article #InformationRetrieval #Pocket #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-09-29 RAGの実装戦略まとめ, Jin Watanabe, 2024.03 #Article #ComputerVision #NLP #LanguageModel #OpenWeight Issue Date: 2024-09-25 Llama 3.2: Revolutionizing edge AI and vision with open, customizable models, Meta, 2024.09 Comment

11Bと90BのVLMと、エッジデバイス向けの1B, 3BのSLMを発表。

Llama3.2のVLMでは、事前学習されたimage encoderを事前学習された言語モデルに対して組み合わせるためのAdapterを複数学習することによって実現。

具体的には、Llama 3.1（text only model）に対して、image encoderとAdapterを追加し、大規模でノイジーな（image,text）ペアで事前学習。続いて、中規模のサイズの高品質なin-domain（i.e. 様々なドメインの）の知識を高めるような（image,text）ペアで学習した。

事後学習では、Llama3.1と同様にSFT, Rejection Sampling, DPOのラウンドを複数回繰り返した。Llama3.1を用いて、in-domainの画像に対するQAをData Augmentationし、フィルタリングすることで合成データを作成。さらに報酬モデルを活用して全ての回答候補をランクづけして高品質なSFTデータを取得。また、モデルの安全性が高まるようなデータも追加した。

Llama3.1の事後学習のプロセスについては論文紹介 / The Llama 3 Herd of Models, 2024.08 も参照のこと。

#Article #Library #python Issue Date: 2024-09-12 Pluggyとは, 2023.02 Comment

pluggyに関する概要が説明されている。

公式の説明を読むとpytestで採用されており、pluggyは関数フックを可能にし、プラグインをインストールするだけでホストプログラムの動作を拡張、または変更できるようになる代物とのこと（=プラガブル？）。

pluggyがなぜ有用なのかの説明については、Pythonでは、他のプログラムやライブラリの動作を変更するための既存のメカニズムとして、メソッドのオーバーライドやモンキーパッチが存在するが、複数の関係者が同じプログラムの変更に参加したい場合、これらが問題を引き起こすので、pluggyはこれらのメカニズムに依存せず、より構造化されたアプローチを可能にし、状態や動作の不必要な露出を避けるとのこと。これにより、ホストとプラグインの間が疎結合になるので、問題が軽減されるとのこと。

#Article #Embeddings #InformationRetrieval #NLP #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-09-08 Late Chunking: Balancing Precision and Cost in Long Context Retrieval, Pierse+, 2024.09 Comment

chunkingしてからembeddingを取得するより、全体のドキュメントに対してcontextualなtoken embeddingを取得し、その後chunkingをしてpoolingしてsingle vectorにする方が、文書の文脈情報がembedding内で保持されやすいので、precisionが上がりますよ、という話

スクショは記事中より引用

#Article #RecommenderSystems #NeuralNetwork #CTRPrediction #NewsRecommendation #MLOps #Evaluation #A/B Testing Issue Date: 2024-08-31 NewsPicksに推薦システムを本番投入する上で一番優先すべきだったこと, 2024.08 Comment

>推薦モデルの良し悪しをより高い確度で評価できる実験を、より簡単に実行できる状態を作ることでした。平たく言えば「いかにA/Bテストしやすい推薦システムを設計するか」が最も重要だった訳です。

オフライン評価とオンライン評価の相関がない系の話で、A/Bテストを容易に実施できる環境になかった、かつCTRが実際に向上したモデルがオフライン評価での性能が現行モデルよりも悪く、意思決定がなかなかできなかった、という話。

うーんやはり、推薦におけるオフライン評価ってあまりあてにできないよね、、、
そもそも新たなモデルをデプロイした時点で、テストした時とデータの分布が変わるわけだし、、、

Off-Policy Evaluationの話は勉強したい。

あと、定性評価は重要

#Article #MLOps #python #SoftwareEngineering Issue Date: 2024-08-27 AutoMLOpsを使って機械学習CI_CDパイプラインを組んでみた, 2024.08 Comment

pythonコードでコンポーネントや、パイプラインを関数の形で記述するだけで、MLのCI/CDパイプラインをVertexAI上に自動構築できる模様。非常にお手軽で、多くの設定ファイルなどは自動生成されるようなので、簡単に始めることができそう。

記事中では、多クラス分類器を学習するためのデータをBigQueryから取得、モデル訓練、デプロイ、推論エンドポイント生成、モニタリングなどを簡単なコードベースで実現できている。便利そうではある。
細かいチューニングも自動生成された設定ファイルをいじれば可能だと思われる。

#Article #RecommenderSystems #Pocket Issue Date: 2024-08-27 10Xの推薦を作るチームとML platform, 2024.08 Comment

初期開発における定性評価の重要性やインターリービングの話題など実用的な内容が書かれているように見える。あとで読む。

定性評価が重要という話は、NewsPicksに推薦システムを本番投入する上で一番優先すべきだったこと, 2024.08 でも言及されている

#Article #InformationRetrieval #Pocket #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-08-09 RAG入門: 精度改善のための手法28選, 2024.08 #Article #EfficiencyImprovement #Library #python #OpenWeight #LLMServing Issue Date: 2024-08-05 DeepSpeed, vLLM, CTranslate2 で rinna 3.6b の生成速度を比較する, 2024.06 Comment

[vllm]( https://github.com/vllm-project/vllm)を使うのが一番お手軽で、inference速度が速そう。PagedAttentionと呼ばれるキャッシュを利用して高速化しているっぽい。

（図はブログ中より引用）

こちらも参照のこと

vLLMの仕組みをざっくりと理解する： https://dalab.jp/archives/journal/vllm/#PagedAttention

vLLMでReasoning ModelをServingするときは、`--enable-reasoning`等の追加オプションを指定する必要がある点に注意
https://docs.vllm.ai/en/stable/features/reasoning_outputs.html

#Article Issue Date: 2024-07-29 2024年版のDockerfileの考え方＆書き方, 2024 Comment

マルチステージビルド、成果物の考え方など

#Article #ExperimentManagement Issue Date: 2024-07-09 Deepでポン用実験管理ツール（サービス）の比較2021 Comment

[TensorBoard]( https://www.tensorflow.org/tensorboard/)

[MLflow]( https://mlflow.org/)

[Neptune.ai]( https://neptune.ai/)

[Weights & Biases]( https://wandb.ai/site)

[Comet]( https://www.comet.ml/site/)

の比較がされている

#Article #ExperimentManagement Issue Date: 2024-07-09 5行でカッコいい可視化を「WandB」入門 #Article #Tutorial #Pretraining #NLP #LanguageModel Issue Date: 2024-07-08 GENIAC: 172B 事前学習知見, 2024 Comment

LLMの事前学習における知見がまとまっている記事とのこと

・Megatron LMで学習
　→ 3D Parallelismなどの分散学習手法によりHF Trainerより高速
　→ Data Parallelim、Tensor Parallelism、 Pipeline Parallelismを組み合わせたもの
・GPUメンテナンス、不良で学習が継続できなかった場合はcheckpointをロードして学習
・学習曲線が安定しているように見えるがSpikeは発生している。発生時はgradient normが急激に上昇する
・LlamaなどのLLMからの継続的事前学習ではなくfrom scratchから学習しているので透明性が高い
・Transformer engineを利用
・AdamWを利用
・attention dropout, hidden dropoutは0.0

>この際、通信を多く必要とする分散手法のワーカー（Tensor Parallelワーカー）はノード内に配置するようにMegatron-LMのデフォルトではなっているため、今回もそれを利用しました。このようにする理由は、ノード内の通信はNVLinkにより、ノード間通信よりも高速であるためです。また、Data Parallelの勾配平均化のための通信を考慮して、Data Parallelワーカーも可能な限りノード内に配置するMegatron-LMデフォルトの挙動を利用しました。
Pipeline Parallelismは他の並列化手法と比較して通信量が少ないP2P(Point-to-Point)通信であるため、パイプラインステージはノード間で配置するようにしました。これも、Megatron-LMデフォルトの挙動です。

勉強になる

・通常のデータ並列はoptimizer stateをworker間で複製するので遅い。Deep Speed Zero 1のように分散して保有することで高速化
・Tensor Parallelでself attention, MLPの計算を並列化できる
・LayerNormalization, Dropoutの演算もメモリ効率の観点から並列化
・学習を安定させるためにz-lossを利用
・batch skippingとは、gradient clippingを行っていてもなおspikeが生じる場合に、100 step前に戻り、spikeが生じた付近のデータを数百iteration程度スキップすること

#Article #RecommenderSystems #Tutorial Issue Date: 2024-04-26 推薦・機械学習勉強会, Wantedly Comment

WantedlyさんのRecSys勉強会の資料がまとまったリポジトリ。継続的に更新されており、最近この辺のトピックは追いきれていないので非常に有用。

#Article #Pretraining #Supervised-FineTuning (SFT) Issue Date: 2024-04-26 The End of Finetuning — with Jeremy Howard of Fast.ai, 2023.11 #Article Issue Date: 2024-04-21 「ビジネスロジック」とは何か、どう実装するのか Comment

普段あいまいに使いがちなビジネスロジックについて、勉強になった。

- プレゼンテーション層：ユーザからのI/Oのインタフェースに関する処理を実装

- データアクセス層：ファイルやDBに対してデータを読み書き

本記事によると上記以外が「ビジネスロジック」という整理。

たとえば、じゃんけんの実装を例に説明がなされており、

- 「じゃんけんの勝敗判定」：コアなルール系

- 「コンピュータとじゃんけんをして、その結果をどこかに保存する処理を呼び出すという流れ」：処理の流れ系

の両者はビジネスロジックに該当するとのこと。

#Article #Pocket #LanguageModel #MultiLingual Issue Date: 2024-04-12 The State of Multilingual AI, Sebastian Ruder, 2024 #Article Issue Date: 2024-04-08 Chat with RTX, NVIDIA #Article #Pocket #LanguageModel Issue Date: 2024-04-02 Mamba Explained #Article Issue Date: 2024-03-31 IT契約入門〜雇用契約、請負契約から準委任まで #Article Issue Date: 2024-03-21 生産性指標をFour Keysから変更した話, SanSan Tech Blog Comment

モバイルアプリ開発における生産性指標に関するお話。Four Keysをモバイルアプリに適用した場合の課題を分析し、自チームの中長期的な目標を達成するためにどのような生産性指標を採用すべきかが言語化されており、興味深かった。

Four Keysとは: https://blog.recruit.co.jp/rls/2021-03-31-four-keys/#whats-four-keys

#Article #NLP #LanguageModel Issue Date: 2024-03-18 Open Release of Grok-1 March 17, 2024 Comment

Apache2.0ライセンス, 314Bパラメータでモデルの重み、Mixture-of-Expertsを採用している。学習データ、学習に利用したコードはおそらく公開されていない。

Grok-1.5がリリース
https://x.ai/blog/grok-1.5

各種ベンチマークの性能、特にMathの性能が向上し、コンテキスト長が128kに

#Article #Tutorial #Survey #InformationRetrieval #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-03-05 RAG-Research-Insights Comment

RAGに関する研究が直近のものまでよくまとめられている

#Article #Survey #NLP #LanguageModel Issue Date: 2024-03-04 What are the most important LLMs to know about in March 2024? Comment

2024年3月時点で知っておくべきLLMに関するスレッド

#Article #Tutorial #Survey #InformationRetrieval #LanguageModel Issue Date: 2024-02-22 awesome-generative-information-retrieval #Article #NLP #InformationExtraction Issue Date: 2024-01-16 LLMにおける情報抽出（文章から必要な事柄を読み取る）タスクについての調査, AIDB #Article #NaturalLanguageGeneration #NLP #LanguageModel Issue Date: 2024-01-01 Decoding Strategies that You Need to Know for Response Generation Comment

言語モデルのdecodingの方法についてよくまとまっている。まとめられているdecoding方法は以下

- Greedy, BeamSearch, RandomSampling, Temperature, Top-K Sampling, Nucleus Sampling

こちらの記事ではHuggingFaceでの実装や他のdecoding方法等、より実装面での詳細が記述されている：

https://note.com/npaka/n/n9a8c85f2ef7a

#Article #InformationRetrieval #NLP #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-12-21 Structured Hierarchical Retrieval, llama-index Comment

元ツイート:

Loading…

#Article #InformationRetrieval #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-12-21 Build a search engine, not a vector DB #Article #LanguageModel Issue Date: 2023-12-20 ELYZA-tasks-100 でLLM14個の日本語性能を横断評価してみた #Article #LanguageModel Issue Date: 2023-12-13 大規模モデルを支える分散並列学習のしくみ Part1 #Article #NLP #LanguageModel #ProprietaryLLM Issue Date: 2023-12-07 Gemini, Google, 2023.12 Comment

多くのベンチマークでGPT4超えらしい

（追記1）
テクニカルレポートのp.44を見ると、ブログポスト中のGPT4のMMLUのスコアはGPT-4-0613のもののようなので、これが正しいとすると他のベンチマークのスコアも同モデルのものである可能性が高く、GPT-4-1163-preview（最新モデル）のスコアでは"ないかもしれない"点に注意。GPT4とどちらが実際に性能が良いか?については様子見した方が良さそう。

（追記2）
GSM8Kの結果も、GPT4に対してFair Comparisonではないかもしれない点に注意。Geminiは32個のCoTとSelf-Consistencyを利用しているが、GPT4では5-shotで単一のCoTのみであるため、prompting手法ではGeminiに有利な比較となっているように見える。ただしGPT4はGSM8Kの訓練データを事前学習時にMIXしている（SFT）ので、Geminiがこのようなことをしていないのであれば、この点ではGPT4が有利になっている“可能性”がある。

他にもFair Comparisonになっていないと推察されるものはTextモダリティでの評価の表の文言を見るとありそうなのでそこは念頭においた方が良さそうである。

テクニカルレポート: https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

Gemini Summary

Loading…

MMLUでの同じprompting手法でのGPT-4-0613との比較。32個のCoTでのSelf-Consistencyで比較した場合、GPT-4-0613に負けているが、閾値を設けてconfidenceが閾値以上の場合はSelf-consistency, そうでない場合はgreedyに生成した結果を選択する、というUncertain-Routed CoT@32では、Geminiのパフォーマンスgainが大きくGPT-4-0613よりも高い性能を示している。
ブログポスト中のGPT4のスコアは5-shotのもの（reportedと書かれているのでOpenAIが公表している数値と推察）であり、Geminiの結果はUncertain-Routed CoT@32の結果であるため、Fair Comparisonになっていないかもしれない？点には注意。

レポート中ではSelf-consistencyという単語でこの部分は書かれていないが、実は少しやっていること違ってたりする…？

#Article #LanguageModel Issue Date: 2023-12-05 もし明日、上司に「GPT-4を作れ」と言われたら？ Stability AIのシニアリサーチサイエンティストが紹介する「LLM構築タイムアタック」 Comment

StabilityAI Japan秋葉さん（元PFN）のW&B Conferenceでの発表に関する記事。
LLM構築タイムアタックでLLMをもし構築することになったら！？
のざっくりとしたプロセスや、次ページでOpenAIのGPT4のテクニカルレポートのクレジットから各チームの規模感を推定して、どの部分にどの程度の人員が割かれていたのかというのをベースに、各パートでどんなことがやられていそうかという話がされている。

LLM構築タイムアタックで、まずGPUを用意します！（ここが一番大変かも）の時点で、あっ察し（白目　という感じがして面白かった。

#Article #InformationRetrieval #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-12-04 kaggle LLM コンペ上位解法を自分なりにまとめてみた話 Comment

実践的な内容（チャンク生成時の工夫、クエリ生成時の工夫等）が網羅的にまとまっており非常に有用

個人的に、コンペ主催者側から提供されたデータが少なく、上位のほとんどのチームがChatGPT（3.5, 4）を用いて、QAデータを生成していた、というのが興味深かった。プロンプトはたとえば下記:

[（5th-place-solution）]( https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446293)より引用

```

system_content = """

Forget all the previous instruction and rigorously follow the rule specified by the user.

You are a professional scientist's assistant.

"""

user_content_template_qa = Template(

"""

Please consider 5 choices question and answer of the following TEXT.

The purpose of this question is to check respondent's deep science understanding of the TEXT.

We assume this question is for professional scientists, so consider super difficult question.

You can ask very detailed question, for example check specific sentence's understanding.

It is good practice to randomly choose specific sentence from given TEXT, and make QA based on this specific sentence.

You must make QA based on the fact written in the TEXT.

You may create wrong answers based on the correct answer's information, by modifying some parts of the correct answer.

Your response must be in following format, don't write any other information.

You must not include "new line" in each Q), 1), 2), 3), 4), 5), and A):

Q) `question text comes here`

1) `answer candidate 1`

2) `answer candidate 2`

3) `answer candidate 3`

4) `answer candidate 4`

5) `answer candidate 5`

A) `answer`

where only 1 `answer candidate` is the correct answer and other 4 choices must be wrong answer.

Note1: I want to make the question very difficult, so please make wrong answer to be not trivial incorrect.

Note2: The answer candidates should be long sentences around 30 words, not the single word.

Note3: `answer` must be 1, 2, 3, 4 or 5. `answer` must not contain any other words.

Note4: Example of the question are "What is ...", "Which of the following statements ...", "What did `the person` do",

and "What was ...".

Note5: Question should be science, technology, engineering and mathematics related topic.

If the given TEXT is completely difference from science, then just output "skip" instead of QA.

Here is an example of your response, please consider this kind of difficulty when you create Q&A:

Q) Which of the following statements accurately describes the impact of Modified Newtonian Dynamics (MOND) on the observed "missing baryonic mass" discrepancy in galaxy clusters?"

1) MOND is a theory that reduces the observed missing baryonic mass in galaxy clusters by postulating the existence of a new form of matter called "fuzzy dark matter."

2) MOND is a theory that increases the discrepancy between the observed missing baryonic mass in galaxy clusters and the measured velocity dispersions from a factor of around 10 to a factor of about 20.

3) MOND is a theory that explains the missing baryonic mass in galaxy clusters that was previously considered dark matter by demonstrating that the mass is in the form of neutrinos and axions.

4) MOND is a theory that reduces the discrepancy between the observed missing baryonic mass in galaxy clusters and the measured velocity dispersions from a factor of around 10 to a factor of about 2.

5) MOND is a theory that eliminates the observed missing baryonic mass in galaxy clusters by imposing a new mathematical formulation of gravity that does not require the existence of dark matter.

A) 4

Let's start. Here is TEXT: $title\n$text

"""

)

```

#Article #Mindset Issue Date: 2023-12-04 PMConf2023: シリコンバレーのプロダクトマネージャー達に見る、覚悟を決めたPMは何が違うのか？ Comment

視野、視座の話、StepChange、PMとして何に注力すべきか、クリティカルシンキング、Overcommunicationなどの考え方が参考になった。
結局どれだけ収益に繋がるのかという話。ユーザに価値を届けられて満足、で終わってはいけない。

#Article #Tutorial #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-11-22 Deconstructing RAG Comment

RAGにおける様々な戦略がまとまっている（リンク付き

#Article Issue Date: 2023-11-21 AWS FargateではなくECS on EC2を選ぶメリット〜コスト編〜 Comment

安く済ませたい・・・

#Article #NLP #LanguageModel #Evaluation #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-11-21 Zephyr-7B-beta, RAG Perf. Comment

Zephyr-7B-betaのRAGでの性能がデータセットで評価されている

下記Xポストによるとgpt-3.5-turboと同等

Loading…

#Article #Tutorial #NLP #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2023-11-20 Practical Tips for Finetuning LLMs Using LoRA （Low-Rank Adaptation）, SEBASTIAN RASCHKA, PHD, 2023.11 #Article #GenerativeAI Issue Date: 2023-11-17 生成系 AI でプロダクトの価値を高めるには, 2023 Comment

AWS久保さんの資料。後で読む

#Article #NLP #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-11-15 ChatGPTに社内文書に基づいた回答を生成させる仕組みを構築しました, 2023 Comment

低コストで社内文書に対するRAGを実現することに注力している。
以下、図はブログから引用。

基本的にはバッチジョブで社内文書をベクトル化しS3へ格納。アプリ起動時にS3から最新データを読み込み検索可能にしRAGするという流れ。
低コスト化のために、Embedding作成にOpenSourceの言語モデル（text-edbedding-ada002と同等の性能）を利用している。実装は基本的にllamaindexを利用している。

特に日本語テキストにおいてはtext-embedding-ada002は OpenAI の Embeddings API はイケてるのか、定量的に調べてみるにおいて、JSTSタスクにおいてあまり性能が高くない（ただし、OpenAI の Embeddings API はイケてるのか、定量的に調べてみるでの報告値は基本的にJSTSデータでfinetuningされてた結果と思われる）と言われているので、お金かけて無理して使う必要はないのかなという印象はある。

#Article #Library #Transformer Issue Date: 2023-11-13 Transformers.js, 2023 Comment

ブラウザ上でTransformerベースの様々なモデルを動作させることができるライブラリ

#Article #Pocket #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-11-13 Boosting RAG: Picking the Best Embedding & Reranker models #Article #Survey #NaturalLanguageGeneration #NLP #Dataset #DataToTextGeneration Issue Date: 2023-11-08 Data-to-Text Datasetまとめ, Akihiko Watanabe, 2022 Comment

Data-to-Textのデータセットを自分用に調べていたのですが、せっかくなのでスライドにまとめてみました。特にMR-to-Text, Table-to-Textあたりは網羅的にサーベイし、データセットの概要を紹介しているので、全体像を把握するのに良いのかなぁと思います。ただし、2022年12月時点で作成したので2023年以後のデータセットは含まれていません😅

#Article #Tutorial #NLP #LanguageModel #Alignment #GenerativeAI #Hallucination Issue Date: 2023-11-03 生成AIが抱えるリスクと対策, LYCorp‘23 Comment

この資料をスタートにReferしている論文などを勉強すると、GenerativeAIのリスク周りに詳しくなれそう。この辺は疎いので勉強になる。
しかし、LLMのAlignmentが不十分だったり、Hallucinationを100%防ぐことは原理的に不可能だと思われるので、この辺とどう付き合っていくかがLLMと付き合っていく上で難しいところ。この辺は自分たちが活用したいユースケースに応じて柔軟に対応しなければならず、この辺の細かいカスタマイズをする地道な作業はずっと残り続けるのではないかなあ

#Article #EfficiencyImprovement #NLP #LanguageModel #MultiModal #FoundationModel Issue Date: 2023-11-01 tsuzumi, NTT’23 Comment

NTT製のLLM。パラメータ数は7Bと軽量だが高性能。
MTBenchのようなGPT4に勝敗を判定させるベンチマークで、地理、歴史、政治、社会に関する質問応答タスク（図6）でgpt3.5turboと同等、国産LLMの中でトップの性能。GPT3.5turboには、コーディングや数学などの能力では劣るとのこと。

> ＊6 Rakudaベンチマーク
日本語の言語モデルの性能を評価するベンチマークの一つで、日本の地理・政治・歴史・社会に関する質問応答タスクによって評価を行う。
URL： https://yuzuai.jp/benchmark

>＊7 Japanese Vicuna QAベンチマーク
Rakudaよりもさらに幅広いカテゴリで言語モデルのQAや指示遂行の能力を問う評価方法。一般知識、ロールプレイなど多数の質問から構成される。
URL： https://github.com/hitoshizuku7/LLM_Judge_ku/blob/main/README.md

tsuzumiはアダプタを追加することで、モデル全体のパラメータを更新することなく、さまざまな知識を持たせたり、振る舞いを変えたりできるようになるとのこと（LoRAアダプタのようなものだと思われる）。
まて、将来的に視覚や聴覚などのマルチモーダル対応も実施。

思想がLoRA Hub LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA Composition, Chengsong Huang+, N/A, COLM'24 に近く、アダプタを着脱すれば柔軟に生成を変えられるのは有用だと思う。

#Article #EfficiencyImprovement #NLP #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #Catastrophic Forgetting Issue Date: 2023-10-29 大規模言語モデルのFine-tuningによるドメイン知識獲得の検討, PFN Blog, 2023.10 Comment

以下記事中で興味深かった部分を引用
> まとめると、LoRAは、[3]で言われている、事前学習モデルは大量のパラメータ数にもかかわらず低い固有次元を持ち、Fine-tuningに有効な低次元のパラメータ化も存在する、という主張にインスパイアされ、ΔWにおける重みの更新の固有次元も低いという仮説のもとで、低ランク行列で学習する手法になります。

LoRAが拠り所とする仮説が説明されており、勉強になった。

> こうしたニューラルネットワークを圧縮する他の技術には枝刈りや知識蒸留がありますが、量子化は、ほとんどの場合に枝刈りより優れているとされ[5]、蒸留よりも手軽に高精度なモデルが得られる可能性が高く、LLMにおいても有力な技術と考えられます。

これも知らなかったし、文献付きで記述されていることが大変ありがたい。

> QLoRA以外のLoRAの派生手法としては、ランクを適応的に定めるAdaLoRA[7] やDyLoRA[8]、コンテキスト長を拡大できるLongLoRA[9]、行列Aの重みをfreezeすることでさらに軽量化を行うLoRA-FA、行列積をアダマール積やクロネッカー積で計算するLoHAやLoKRなどがあります（一部はLLMではなくStable Diffusionの学習で用いられる手法の通称です）。

この辺は実際にLoRAを使うことになったら勉強したい。

> 言語モデルの学習は通常、Causal LMの場合は、Next Token PredictionにおけるPerplexityの最小化による教師なし学習によって最適化されます。

HuggingFaceの実装の話だと思うが、そうだろうなと思ってはいたがソースを確認できていなかったので勉強になった。

> 7Bのモデルでは、以下のグラフのように、データの件数を増やすと学習がうまくいかないという結果が得られました。また、LoRAのランクは低い方が学習が安定することがわかりました。正答率が著しく低いものは、学習時のロス（交差エントロピー）が非常に大きくなっており、選択肢を間違えるというよりは言語モデルとしての機能が失われていました。

> 他には、Instructionデータ（1つのクイズのQ&A）が2500件を超えるとロスが悪化することや、2000件でも2epoch繰り返すとcatastrophic forgettingが見られ、言語モデルそのものの性能が失われ意味のない出力をしていました。[17] でも言及されていますが、日本語の学習では、数BのモデルにおけるLoRAによるInstruction Tuningはあまり効果が得られない可能性が高いと考えられます。

> 一方、13Bのモデルでは、8、16、32、64いずれのランクでも大きな差は見られませんでした。
> これらから、Addtional Trainingで学習させるデータがInstruction Tuningに対して膨大である場合には先に学習した方がよく、少数の場合は後に学習させてもInstruction Tuningの効果には悪影響がないということが示唆されました。

> また学習は、初期学習率を小さくした方が安定する可能性が高いと思われます。LoRAの論文[2] ではGPTのFine-tuneは2e-4で行われており、hugging faceの実装でもデフォルトでは2e-4となっていますが、他の論文やブログでは3e-5での例などもあります。しかし、単に下げれば安定するということでもなく、１回の試行における計算コストとチューニングがトレードオフになる可能性はあります。

Additional TrainingとはFinetuningのことで便宜上の本ブログでの呼称。実際の文書中では図が複数個挟まれている。
こうした実際に手を動かした上でないと得られない知見を公開してくれるのは非常にありがたいことだし、日本語データでLoRAをする際に非常に参考になりそう。

#Article #Analysis #MachineLearning #Transformer Issue Date: 2023-10-29 大規模言語モデルにおいて､「知識は全結合層に蓄積される」という仮説についての文献調査 Comment

タイトルの通り、知識がFFNに蓄積されていると主張しているらしい原論文を読み解いている。まとめを引用すると

> 「知識は全結合層に蓄積される」という表現は､ややラジカルで､
少なくともこの論文では「全結合層は知識獲得において重要」という程度
の､もう少しマイルドな主張をしているように見受けられました｡

とのこと。

#Article #NeuralNetwork #ComputerVision #EfficiencyImprovement #NLP #LanguageModel #DiffusionModel Issue Date: 2023-10-29 StableDiffusion, LLMのGPUメモリ削減のあれこれ Comment

Gradient Accumulation, Gradient Checkpointingの説明が丁寧でわかりやすかった。

#Article #NLP #LanguageModel #Prompting Issue Date: 2023-10-29 LLMのプロンプト技術まとめ Comment

ざっと見たが現時点で主要なものはほぼ含まれているのでは、という印象
実際のプロンプト例が載っているので、理解しやすいかもしれない。

#Article #Tools #NLP #LanguageModel #Library #Evaluation #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-10-29 Evaluating RAG Pipelines Comment

RAG pipeline （retrieval + generation）を評価するライブラリRagasについて紹介されている。

評価に活用される指標は下記で、背後にLLMを活用しているため、大半の指標はラベルデータ不要。ただし、context_recallを測定する場合はreference answerが必要。
Ragasスコアとしてどのメトリックを利用するかは選択することができ、選択したメトリックのharmonic meanでスコアが算出される。

各種メトリックの内部的な処理は下記:
- faithfullness
- questionと生成された回答に基づいて、statementのリストをLLMで生成する。statementは回答が主張している内容をLLMが解釈したものだと思われる。
- statementのリストとcontextが与えられたときに、statementがcontextにsupportされているかをLLMで評価する。
- num. of supported statements / num. of statements でスコアが算出される
- Answer Relevancy
- LLMで生成された回答から逆に質問を生成し、生成された質問と実際の質問の類似度を測ることで評価
- Context Relevancy
- どれだけcontextにノイズが含まれるかを測定する。
- LLMでcontextの各文ごとに回答に必要な文か否かを判断する
- 回答に必要な文数 / 全文数でスコアを算出
- Context Recall
- 回答に必要な情報を全てretrieverが抽出できているか
- ground truthとなる回答からstatementをLLMで生成し、statementがcontextでどれだけカバーされているかで算出

また、LangSmithを利用して実験を管理する方法についても記述されている。

#Article #Tools #NLP #LanguageModel #Library #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-10-29 LangChainのRAGの改善法, LayerX機械学習勉強会 Comment

以下リンクからの引用。LangChainから提供されているRetrieverのcontext抽出の性能改善のためのソリューション

> Multi representation indexing：検索に適した文書表現（例えば要約）の作成
Query transformation：人間の質問を変換して検索を改善する方法
Query construction：人間の質問を特定のクエリ構文や言語に変換する方法

https://blog.langchain.dev/query-transformations/

#Article #NLP #LanguageModel #Evaluation Issue Date: 2023-10-27 日本語LLMのリーダーボード（LLM.jp） Comment

LLM.jpによる日本語LLMのリーダーボード。4-shotsでの結果、かつinstructionを与えた場合の生成テキストに対する評価、という点には留意したい。たとえばゼロショットで活用したい、という場合にこのリーダーボードの結果がそのまま再現される保証はないと推察される。

日本語LLMベンチマークと自動プロンプトエンジニアリング, PFN Blog, 2023.10 の知見でもあった通り、promptingの仕方によってもLLM間で順位が逆転する現象なども起こりうる。あくまでリーダーボードの値は参考値として留め、どのLLMを採用するかは、自分が利用するタスクやデータで検証した方がbetterだと思われる。

あとはそもそも本当にLLMを使う必要があるのか? Prompt2Model: Generating Deployable Models from Natural Language Instructions, Vijay Viswanathan+, N/A, EMNLP'23 のような手法ではダメなのか?みたいなところも考えられると良いのかもしれない。

以下サイトより引用
> 評価手法・ツール
このダッシュボードの内容はllm-jpで公開している評価ツール、llm-jp-evalで各モデルに対して評価を行なった結果である。llm-jp-evalは、既存のリーダボードとは行われている評価とは、主に以下のところで違っている。
AlpacaやBig-Benchなどを参考にした、インストラクションチューニングよりのプロンプトを入力として与えて、その入力に対するモデルの生成結果を評価する
>評価は基本、モデルが生成した文字列だけを使って行う
>Few shotでの評価を行っており、このダッシュボードには4-shotsでの結果を載せている

>評価手法・ツールの詳細はllm-jp-evalを是非参照されたい。

>評価項目・データセット
評価項目として、まず4つのカテゴリーにおける平均スコアを算出した。さらにその4カテゴリーの平均値の平均値をとった値がAVGである。
MC (Multi-Choice QA)：jcommonsenseqa
NLI (Natural Language Inference)：jamp、janli、jnli、jsem、jsick
QA (Question Answering)：jemhopqa、niilc
RC (Reading Comprehension)：jsquad

>それぞれのカテゴリの平均を出す方法に言語学的な意味はないため、最終的な平均値はあくまで参考値ということに注意されたい。

JGlueを利用した日本語LLMのリーダーボードとして Nejumi LLMリーダーボードなどもある

#Article #NLP #LanguageModel Issue Date: 2023-10-25 日本語大規模言語モデル「Japanese Stable LM 3B-4E1T」「Japanese Stable LM Gamma 7B」を公開しました, 2023 #Article #Mindset #Repository Issue Date: 2023-10-24 CTO handbook #Article #python Issue Date: 2023-10-17 Loggingモジュールではじめるログ出力入門 Comment

- ライブラリ開発の際は、ライブラリのトップレベルのLoggerにNullHandlerを設定して、詳細設定を呼び出し側に委ねるのがお作法
- NullHandlerは何もせずに上位ハンドラに伝搬させるため
- ライブラリ側でやることは、タイミングとメッセージ内容のみ
- loggerを利用するか否かは、「書き捨てか否か」
- 書き捨て例: 内容のちょっとした確認やデバッグ、局所的な出力、プログラムとログのライフタイムが短い
参考になる

propagateの仕組みや、構成要素、Loggerの恩恵はすべてのpythonモジュールがロギングに参加できること、モジュール名で基本的にはgetLoggerすることなど、勉強になった

#Article #Analysis #NLP #Prompting #AutomaticPromptEngineering Issue Date: 2023-10-13 日本語LLMベンチマークと自動プロンプトエンジニアリング, PFN Blog, 2023.10 Comment

面白かった。特に、promptingによってrinnaとcyberのLLMの順位が逆転しているのが興味深かった。GAを使ったプロンプトチューニングは最近論文も出ていたが、日本語LLMで試されているのは面白かった。

#Article #Mindset Issue Date: 2023-09-30 CTOの頭の中：技術を財務で表現する #Article #ComputerVision #NaturalLanguageGeneration #NLP Issue Date: 2023-08-16 走行動画を説明するLLMを作成し、80台のGPUで分散並列学習させた話 #Article #MachineLearning #Tools #LanguageModel #Supervised-FineTuning (SFT) #Repository Issue Date: 2023-07-11 Auto train advanced Comment

Hugging Face Hub上の任意のLLMに対して、localのカスタムトレーニングデータを使ってfinetuningがワンラインでできる。
peftも使える。

#Article #GenerativeAI #Game Issue Date: 2023-07-11 Open Source AI Game Jam, 2023 Comment

GenerativeAIを使ってゲームを作る取り組み

#Article #NLP #LanguageModel #LongSequence Issue Date: 2023-07-01 How Long Can Open-Source LLMs Truly Promise on Context Length?, 2023 Comment

LLMのcontext長を伸ばす際の方法と得られた知見がまとめられている

#Article #NLP #LanguageModel #Library Issue Date: 2023-06-25 OpenLLaMA 13B, 2023 Comment

そもそもOpenLLaMAには、オリジナルのLLaMAと比較して、tokenizerがスペースを無視するというissueがある模様。スペースの情報がクリティカルなタスク、たとえばcode generationなどには要注意。

https://github.com/openlm-research/open_llama/issues/40

#Article #Tutorial #NLP #LanguageModel #Prompting Issue Date: 2023-05-12 Prompt Engineering vs. Blind Prompting, 2023 Comment

experimentalな手法でprompt engineeringする際のoverview

#Article #NaturalLanguageGeneration #NLP #LanguageModel #FoundationModel #Coding Issue Date: 2023-05-06 StarCoderBase_StarCoder, 2023 Comment

・15.5Bパラメータ
・80種類以上のプログラミング言語で訓練
・Multi Query Attentionを利用
・context window size 8192
・Fill in the middle objectiveを利用

Instruction tuningがされておらず、prefixとsuffixの間を埋めるような訓練のされ方をしているので、たとえば関数名をinputして、そのmiddle（関数の中身）を出力させる、といった使い方になる模様。

paper: https://drive.google.com/file/d/1cN-b9GnWtHzQRoE7M7gAEyivY0kl4BYs/view

StarCoder:
https://huggingface.co/bigcode/starcoder

StarCoderBaseを35Bのpython tokenでfinetuningしたモデル。
既存モデルよりも高性能と主張

#Article #NLP #LanguageModel #Library Issue Date: 2023-05-06 MPT-7B, 2023 Comment

新たなオープンソースLLM。
下記ツイートより引用:

・商用利用可能
・6万5000トークン使用可能
・7Bと比較的小さいモデルながら高性能
・日本語を扱え性能が高い

とのこと。

Loading…

ChatGPTのLLMと比較すると、ざっと例を見た感じ質問応答としての能力はそこまで高くなさそうな印象。
finetuningしない限りはGPT3,GPT4で良さげ。

#Article #Pretraining #Pocket #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Chain-of-Thought #Evaluation #Reasoning Issue Date: 2023-05-04 Towards Complex Reasoning: the Polaris of Large Language Models, Yao Fu, 2023.05 #Article #NLP #LanguageModel #ChatGPT Issue Date: 2023-04-27 HuggingChat, 2023 Comment

closedな世界で開発されるOpenAIのChatGPTに対して、Openなものが必要ということで、huggingfaceが出したchatシステム

公開はすでに終了している模様

#Article #Mindset #DesignPattern Issue Date: 2023-04-26 More Design Patterns For Machine Learning Systems, 2023 Comment

MLのデザインパターンが記述されている

#Article #A/B Testing Issue Date: 2023-04-26 Controlled experiments on the web: survey and practical guide, 2023 Comment

A/Bテストのベストプラクティスが書かれているらしい

#Article #Library #python Issue Date: 2023-01-23 Polars, 2023 Comment

pandasより100倍高速で複雑なクエリも見やすく書けてindexも存在しないのでバグも出にくいという優れものらしい

#Article #Tools #GenerativeAI #Coding Issue Date: 2023-01-21 CodeGPT: The VSCode Extension with ChatGPT-Like Functionalities Comment

VSCodeの拡張で、//から始まるPromptをエディタ上で記載することで対応するコードをGPT3が生成してくれる模様。便利そう

#Article #ComputerVision #MachineLearning #NLP #Library #Explanation #Transformer Issue Date: 2022-12-01 Transformers Interpret, 2022 Comment

transformersのモデルをたった2行追加するだけで、explainableにするライブラリ

基本的にtextとvisionのclassificationをサポートしている模様
text classificationの場合、たとえばinput tokenの各トークンの分類に対する寄与度をoutputしてくれる。

#Article #Tools #Infrastructure #MLOps #Repository Issue Date: 2022-12-01 deploy-API-to-GCP Comment

FlaskAPIを（Flaskでなくても良い）Google Cloud Run上で、TerraFormで定義したインフラ環境でデプロイするためのリポジトリ

0. リポジトリをclone
1. Flaskアプリ作成
2. FlaskアプリをDocker化
3. TerraFormのStateを保存するためのCloudStorage作成
4. TerraFormのコード作成
5. GitHub Actionでデプロイ（CI/CD）

5によってmainブランチに対するプルリクが本番環境にデプロイされる。

Cloud Runについて
https://dev.classmethod.jp/articles/gc-cloud-run/

#Article #Infrastructure #MLOps Issue Date: 2022-04-27 MLOps: 機械学習における継続的デリバリーと自動化のパイプライン, Google Comment

機械学習（ML）システムの継続的インテグレーション（CI）、継続的デリバリー（CD）、継続的トレーニング（CT）の実装と自動化

MLOpsのレベルを0~2で表現しており、各レベルごとに何が達成されるべきかが図解されている。

#Article #Tutorial #Coding Issue Date: 2021-11-25 Pythonのオブジェクト指向プログラミングを完全理解, kaitolucifer （Kaito）, 2021 Comment

オブジェクト指向の歴史的背景から、SOLID、GRASP等が詳細に解説されている。辞書的に参照するのが良いかも。

#Article #Tutorial #Coding Issue Date: 2021-11-25 イラストで理解するSOLID原則, baby-degu, 2021 Comment

オブジェクト指向におけるSOLID原則をイラストで解説した記事。直感的で分かりやすい。

#Article #RecommenderSystems #Tutorial #CTRPrediction Issue Date: 2021-10-29 バンディットアルゴリズムを使って広告最適化のシミュレーションをしてみたよ, ysekky, 2014 Comment

なぜクリック率を上げたいのかという説明が非常に参考になる：

>しかしその広告を掲載する側から考えればクリック率の低い広告を出すことは売上が下がってしまうため，クリック率が>低いとなかなか広告を表示することができなくなってしまいます．

その際よく使われるのはeCPMという指標です．

eCPMはその広告を1000回表示していくらの売上を上げることができるかという指標であり，

クリック率1000クリック単価で求められます．

>EPCMが高い広告のほうが表示されやすいため，クリック率を上げることで同じクリック単価でたくさんのユーザを自社のランディングページに誘導することができるようになります．

>例えば今回のケースではクリック率1.2%でクリック単価が60円ですので，eCPMは720円です。

ここでクリック率が0.1％上がるとeCPMは780円になります．

>そのときクリック単価を56円にしてもeCPMは726円になるため，つまりクリック率が0.1%上がると同じだけのランディングページへの誘導を得るための単価を4円下げることができます．

>例えばそのランディングページでの商品の購入が1%で行われるとすると，商品を1つ売るためのコストが400円も下がる事になります．

>ケースバイケースではありますが，このようにクリック率を上げることはウェブ広告を通してものを売るために非常に重要な要素になります．

#Article #Tutorial #NLP #Legal Issue Date: 2021-10-26 自然言語系AIサービスと著作権侵害, 柿沼太一, 2021 #Article #Tutorial #BeamSearch Issue Date: 2021-06-24 beam search解説 _ コード付き, jonki, 2020.05 Comment

ビームサーチについて、コード付きで説明してくれており、大変わかりやすい。

heapqを使って実装している。また、ビームサーチをbatchに対して行う方法についても書いてある（ただ、一部に対してしかbatchでの処理は適用できていない）。

自分もバッチに対して効率的にビームサーチするにはどのように実装すれば良いのかよくわからないので、誰か教えて欲しい。

#Article #MachineLearning #Infrastructure #MLOps Issue Date: 2021-06-18 NVIDIA TRITON INFERENCE SERVER, 2021 Comment

Nvidiaのオープンソースのinference server

モデルのデプロイや管理、スケーリング等を良い感じにしてくれるフレームワーク？

#Article #NeuralNetwork #Tools #Library #python Issue Date: 2021-06-12 pytorch_lightning tips Comment

PyTorch Lightning 2021 (for MLコンペ)
https://qiita.com/fam_taro/items/df8656a6c3b277f58781

#Article #Tutorial #Pocket #ReinforcementLearning #Off-Policy Issue Date: 2021-06-07 ゼロから始めてオフライン強化学習とConservative Q-Learningを理解する, aiueola, 2021.05 #Article #EfficiencyImprovement #Library #python Issue Date: 2021-06-03 intel MKL Comment

intel CPUでpythonの数値計算を高速化するライブラリ(numpyとかはやくなるらしい; Anacondaだとデフォルトで入ってるとかなんとか)

#Article #NeuralNetwork #Tutorial #ComputerVision #EfficiencyImprovement #ImageClassification Issue Date: 2021-05-24 EfficientNet解説, omiita （オミータ）, 2019 Comment

既存画像認識モデルの構造は変化させず、広さ、深さ、解像度を複合スケーリングすることで、従来よりも少ないパラメータ数、かつ学習速度でSoTAを達成。広さ、深さ、解像度はそれぞれ性能に互いに影響しあっており、従来のように別々にスケーリングするのではなく、3つのバランスをとりながらスケーリングする。スケーリングする際は、結果的にはそれぞれをある値で定数倍すれば良く、そのある値は最大メモリや最大FLOPS数以下（およびFLOPSが2のΦ乗で増加するような）といった制約下でAccuracyが最大化される値をグリッドサーチで見つける（らしい。ざっくりとした理解）。
転移学習しても多くのタスクでSoTA達成した。

#Article #Tutorial #NLP #Dataset #Evaluation Issue Date: 2021-05-19 GLUE - 英語圏における自然言語処理の標準ベンチマーク, npaka, 2020 Comment

各タスクごとにサンプルとその説明が付与されており、ぱっと見でどんなタスクかすぐ分かる

#Article #RecommenderSystems #Dataset Issue Date: 2020-08-29 Open Bandit Dataset, ZOZO RESEARCH, 2020 Comment

Open Bandit pipelineも参照
資料: https://speakerdeck.com/usaito/off-policy-evaluationfalseji-chu-toopen-bandit-dataset-and-pipelinefalseshao-jie

#Article #RecommenderSystems #Tutorial #CollaborativeFiltering #ContrastiveLearning Issue Date: 2020-07-30 Collaborative Metric Learningまとめ, guglilac, 2020 Comment

userのembeddingに対し、このuserと共起した(購入やクリックされた)itemを近くに、共起していないitemを遠くに埋め込むような学習方法

#Article #NeuralNetwork #Tools #NLP #Dataset #LanguageModel #Library Issue Date: 2020-03-13 BERT 日本語Pre-trained Model, NICT, 2020 Comment

NICTが公開。既に公開されているBERTモデルとのベンチマークデータでの性能比較も行なっており、その他の公開済みBERTモデルをoutperformしている。

#Article #Tutorial #MachineLearning Issue Date: 2020-01-16 Key trends from NeurIPS 2019, Chip Huyen, 2019 #Article #Survey #MachineLearning #NLP Issue Date: 2020-01-13 10 ML & NLP Research Highlights of 2019, Sebastian Ruder, 2020