Blog
Identification and Analysis of Identity-Centric Elements of Character-Likeness from Game Scenario, Iwata+, SIGDIAL'25
Paper/Blog Link My Issue
#Analysis #NLP #Game Issue Date: 2025-08-24 Comment
arxivに無さそうなので、概要は元ポスト参照のこと。キャラクターらしさの構成要素とそれらがキャラクターらしさに関してどのように関係しているかを分析した研究な模様。
元ポスト:
[Paper Note] Chain of Agents: Large language models collaborating on long-context tasks, Google Research, 2025.01, NeurIPS'24
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AIAgents #NeurIPS Issue Date: 2025-01-25 Comment
元ポスト:
LLMがどこまでいってもcontext長の制約に直面する問題に対してLLM Agentを組み合わせて対処しました、的な話な模様
ブログ中にアプローチを解説した動画があるのでわかりやすい
Is the experimental code open source?
Thank you for your comment. I tried to find an official open-source implementation provided by the authors, but I was not able to locate one. In fact, I also checked the personal webpage of the first author, but there was no link to any released code.
Is seems that an unofficial implementation is listed under the “Code” tab on the NeurIPS page. I hope this is helpful. Thank you.
NeurIPS link:
https://nips.cc/virtual/2024/poster/95563
openreview:
https://openreview.net/forum?id=LuCLf4BJsr
Claude's new constitution, Anthropic, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Safety #One-Line Notes Issue Date: 2026-01-22 Comment
ClaudeのAI Modelで利用される新たなConstitution
関連:
- [Paper Note] Constitutional AI: Harmlessness from AI Feedback, Yuntao Bai+, arXiv'22
元ポスト:
Designing AI-resistant technical evaluations, Anthropic, 2026.01
Paper/Blog Link My Issue
#Article #LanguageModel #Education #AIAgents #read-later #Initial Impression Notes #Testing Issue Date: 2026-01-22 Comment
元ポスト:
Anthropicの採用における持ち帰り課題の変遷に関する記事。昔の持ち帰り課題では、応募者の大半よりもClaudeが上回るようになり採用におけるシグナルが拾いづらくなったのでリデザインが必要になった、そしてそれをどう変化させたか、といった話のようである。これは採用の話だがtestingという広い文脈で捉えるとかなり参考になる話に見える。
IsoCompute Playbook: Optimally Scaling Sampling Compute for RL Training of LLMs, Cheng+, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #PostTraining #KeyPoint Notes #Scalability Issue Date: 2026-01-22 Comment
元ポスト:
RLにおけるロールアウト数nのスケーリングは、シグモイド関数のような形状になりどこかのポイントで明確にサチるポイントが存在し、それ以上増やしても少量のゲインしか得られないポイントが存在する。これらのトレンドはeasy/hardな問題の双方で共通して見出されるが、原因は大きく異なっており、nを大きくするとeasyな問題ではworst@kが改善し、hardな問題ではbest@kが改善することで性能が向上する。つまり、簡単な問題に対してはより安定して正解できてミスが減り、困難な問題に対しては探索空間が広がり1回でも正解できる可能性が高まる。また、また、ハードウェア制約によりバッチサイズは基本的に固定されるので、ロールアウト数nと1バッチあたりに含められる問題数はトレードオフの関係となる。
このロールアウト数nに関する性質は、異なるベースモデル間で共通して生じるが、サチるポイントが異なる。問題セットのサイズで見ると、サイズが小さいと早々にoverfitするためサチるnのポイントも早くなる。問題難易度の分布がmixしているものであればnによるスケーリングのトレンドは維持されるが、評価する際のmetricsによってサチるぽいんとが左右される。nのスケーリングはdownstreamタスクの性能も向上させる。
と言った話らしい。
10,924x: The Instability Bomb at 1.7B Scale, TayKolasinski, 2026.01
Paper/Blog Link My Issue
#Article #Tutorial #MachineLearning #NLP #LanguageModel #Selected Papers/Blogs #Reproducibility #ResidualStream Issue Date: 2026-01-19 Comment
元ポスト:
関連:
- [Paper Note] mHC: Manifold-Constrained Hyper-Connections, Zhenda Xie+, arXiv'25, 2025.12
- [Paper Note] Hyper-Connections, Defa Zhu+, ICLR'25, 2024.09
part1:
https://taylorkolasinski.com/notes/mhc-reproduction/
HC, mHCの説明が美しい図解と数式で説明されている。分かりやすい!
HCの課題とmHCがどのように解決したかを数式的、直感的に理解でき非常に有用
A Visual Introduction to Rectified Flows, Alec Helbling, 2026.01
Paper/Blog Link My Issue
#Article #Tutorial #ComputerVision #MachineLearning #read-later #FlowMatching #RectifiedFlow Issue Date: 2026-01-19 Comment
元ポスト:
Revisiting Convergence Results in Convex Optimization (Part VI), 苏剑林, 2026.01
Paper/Blog Link My Issue
#Article #read-later #Scheduler Issue Date: 2026-01-17 Comment
元ポスト:
Neural OS, 2026.01
Paper/Blog Link My Issue
#Article #DiffusionModel #read-later Issue Date: 2026-01-17 Comment
元ポスト:
Context Rot: How Increasing Input Tokens Impacts LLM Performance, CHROMA TECHNICAL REPORT, 2025.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #LongSequence #read-later #ContextEngineering #ContextRot Issue Date: 2026-01-17
Anthropic Economic Index: new building blocks for understanding AI use, Anthropic, 2026.01
Paper/Blog Link My Issue
#Article #Analysis #GenerativeAI Issue Date: 2026-01-16 Comment
元ポスト:
Next generation medical image interpretation with MedGemma 1.5 and medical speech to text with MedASR, Google Research, 2026.01
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #SpeechProcessing #OpenWeight #AutomaticSpeechRecognition(ASR) #VisionLanguageModel #Medical Issue Date: 2026-01-14 Comment
元ポスト:
ポイント解説:
Cowork: Claude Code for the rest of your work, Anthropic, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #GenerativeAI Issue Date: 2026-01-13 Comment
元ポスト:
競合(こちらは完全にオフラインで動作する):
- 🍫 Local Cocoa: Your Personal AI Assistant, Fully Local 💻, synvo-ai, 2026.01
SETA: Scaling Environments for Terminal Agents, CAMEL-AI, 2026.01
Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #ReinforcementLearning #AIAgents #SyntheticData #Evaluation #Repository #SoftwareEngineering Issue Date: 2026-01-12 Comment
元ポスト:
HF: https://huggingface.co/datasets/camel-ai/seta-env
GitHubのreadmeに日本語がある!?
Demystifying evals for AI agents, Anthropic, 2026.01
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #AIAgents #Evaluation #Selected Papers/Blogs Issue Date: 2026-01-10 Comment
元ポスト:
NousCoder-14B: A Competitive Olympiad Programming Model, Joe Li, 2026.01
Paper/Blog Link My Issue
#Article #Pocket #NLP #LanguageModel #ReinforcementLearning #Coding #OpenWeight #PostTraining #read-later Issue Date: 2026-01-09 Comment
元ポスト:
HF:
https://huggingface.co/NousResearch/NousCoder-14B
Apache 2.0
PipelineRLを採用している模様。興味深い。
Introducing LFM2.5: The Next Generation of On-Device AI, LiquidAI, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #SmallModel #OpenWeight #Japanese #PostTraining #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes #AudioLanguageModel Issue Date: 2026-01-09 Comment
元ポスト:
日本語に特化した言語モデルも存在し、Sarashina2.2-1b-instruct-v0.1, TinySwallow-1.5B-InstructよりもJMMLU, M-IFEval (ja), GSM8K (ja)においてより高い性能を発揮している。
LFM2.5-1.2B-Base: [Hugging Face](
https://huggingface.co/LiquidAI/LFM2.5-1.2B-Base)
LFM2.5-1.2B-Instruct: [Hugging Face](
https://huggingface.co/LiquidAI/LFM2.5-1.2B-Instruct),
[LEAP](
https://leap.liquid.ai/models?model=lfm2.5-1.2b-instruct),
[Playground](
https://playground.liquid.ai/chat?model=cmk1jyp8f000204i56yy76uwh)
LFM2.5-1.2B-JP: [Hugging Face](
https://huggingface.co/LiquidAI/LFM2.5-1.2B-JP),
[LEAP](
https://leap.liquid.ai/models?model=lfm2.5-1.2b-jp)
LFM2.5-VL-1.6B: [Hugging Face](
https://huggingface.co/LiquidAI/LFM2.5-VL-1.6B),
[LEAP](
https://leap.liquid.ai/models?model=lfm2.5-vl-1.6b),
[Playground](
https://playground.liquid.ai/chat?model=cmk0wefde000204jp2knb2qr8),
[Demo](
https://huggingface.co/spaces/LiquidAI/LFM2.5-VL-1.6B-WebGPU)
LFM2.5-Audio-1.5B: [Hugging Face](
https://huggingface.co/LiquidAI/LFM2.5-Audio-1.5B),
[LEAP](
https://leap.liquid.ai/models?model=lfm2.5-audio-1.5b),
[Playground](
http://playground.liquid.ai/talk)
LiquidAIのモデルは日本語に特化したモデルが多く存在するのが特徴的に感じる。
ChatGPT ヘルスケアが登場, OpenAI, 2026.01
Paper/Blog Link My Issue
#Article #ChatGPT #GenerativeAI Issue Date: 2026-01-09 Comment
元ポスト:
Scaling Real-Time Voice Agents with Cache-Aware Streaming ASR, Nvidia, 2026.01
Paper/Blog Link My Issue
#Article #SpeechProcessing #AutomaticSpeechRecognition(ASR) #One-Line Notes #Realtime Issue Date: 2026-01-07 Comment
元ポスト:
過去のStreaming形式のASRではwindowを定義しwindow中のcontextを逐次計算するアーキテクチャだったが本質的に効率が悪いのでアーキテクチャを改善。エンコーダの表現を内部でキャッシュし新たなデータが来たらその差分に基づいて内部のキャッシュをアップデートする方式によって大幅にlatencyを改善している(エンコーダのconvのdownsamplingも従来の4xから8xにしているとのこと)、という感じらしい。
Google's year in review: 8 areas with research breakthroughs in 2025, Dean+, 2025.12
Paper/Blog Link My Issue
#Article #read-later Issue Date: 2026-01-02 Comment
元ポスト:
Recursive Language Models: the paradigm of 2026, PRIME Intellect, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #LongSequence #read-later #Selected Papers/Blogs #reading #RecursiveModels #ContextRot Issue Date: 2026-01-02 Comment
関連研究:
- [Paper Note] Recursive Language Models, Alex L. Zhang+, arXiv'25, 2025.12
- Context Rot: How Increasing Input Tokens Impacts LLM Performance, CHROMA TECHNICAL REPORT, 2025.07
- [Paper Note] Scaling Long-Horizon LLM Agent via Context-Folding, Weiwei Sun+, arXiv'25, 2025.10
- [Paper Note] AgentFold: Long-Horizon Web Agents with Proactive Context Management, Rui Ye+, arXiv'25, 2025.10
- [Paper Note] Agentic Context Engineering: Evolving Contexts for Self-Improving
Language Models, Qizheng Zhang+, arXiv'25, 2025.10
Deriving the DPO Loss from First Principles, aayush garg, 2025.12
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #ReinforcementLearning #DPO #read-later Issue Date: 2025-12-31 Comment
元ポスト:
関連:
- Deriving the PPO Loss from First Principles, aayush garg, 2025.12
SpecBundle & SpecForge v0.2: Production-Ready Speculative Decoding Models and Framework, Spec Forge Team+, lmsys org, 2025.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #LLMServing #SpeculativeDecoding Issue Date: 2025-12-28 Comment
元ポスト:
ノーコードで言語モデルの「学習」を体験できるMN-Core Playground _ SLM Customizeの遊び方, PFN, 2025.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SmallModel #Japanese #PostTraining Issue Date: 2025-12-27 Comment
元ポスト:
Aligning to What? Rethinking Agent Generalization in MiniMax M2, MiniMaxAI, 2025.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #AIAgents #Reasoning #read-later Issue Date: 2025-12-27 Comment
元ポスト:
Deriving the PPO Loss from First Principles, aayush garg, 2025.12
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #ReinforcementLearning #read-later Issue Date: 2025-12-27 Comment
元ポスト:
The Optimal Token Baseline: Variance Reduction for Long-Horizon LLM-RL, Li+, 2025.12
Paper/Blog Link My Issue
#Article #ReinforcementLearning #AIAgents #read-later Issue Date: 2025-12-27 Comment
元ポスト:
Qwen3-TTS Steps Up: Voice Cloning and Voice Design, Qwen Team, 2025.12
Paper/Blog Link My Issue
#Article #SpeechProcessing #Proprietary #TTS Issue Date: 2025-12-25 Comment
元ポスト:
日本語のVoice Cloneもサポートされている
OpenHands trajectories with Qwen3 Coder 480B, Nebius blog, 2025.12
Paper/Blog Link My Issue
#Article #Dataset #LanguageModel #ReinforcementLearning #AIAgents #Coding #Reasoning #SoftwareEngineering Issue Date: 2025-12-24 Comment
元ポスト:
MiniMax M2.1: Significantly Enhanced Multi-Language Programming, Built for Real-World Complex Tasks, MiniMax, 2025.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Coding #Reasoning #SmallModel #OpenWeight Issue Date: 2025-12-24 Comment
元ポスト:
解説:
論文解説:VoiceStar, Aratako, Zenn, 2025.12
Paper/Blog Link My Issue
#Article #SpeechProcessing #PositionalEncoding #Encoder-Decoder #TTS Issue Date: 2025-12-22 Comment
vector quantization:
- [Paper Note] Autoregressive Image Generation using Residual Quantization, Doyup Lee+, CVPR'22, 2022.03
- [Paper Note] Taming Transformers for High-Resolution Image Synthesis, Patrick Esser+, CVPR'21, 2020.12
OpenTinker Democratizing Agentic Reinforcement Learning as a Service, Zhu+, University of Illinois Urbana-Champaign, 2025.12
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Tools #NLP #LanguageModel #ReinforcementLearning #KeyPoint Notes Issue Date: 2025-12-22 Comment
元ポスト:
code: https://github.com/open-tinker/OpenTinker
関連:
- verl: Volcano Engine Reinforcement Learning for LLMs, ByteDance Seed Team, 2025.04
- Tinker is a training API for {developers, builders, researchers}, THINKING MACHINES, 2025.10
Tinkerに着想を得てクライアントとサーバを分離した設計になっており、バックエンド側のGPUクラスタでサーバを一度起動するだけでクライアント側がスケジューラにジョブを送ればRLが実行される(ローカルにGPUは不要)。クライアント側はRLを実施したい環境のみをローカルで定義しコンフィグをロードしfitを呼び出すだけ。verlよりもよりも手間が省けているらしい。
リポジトリを見る限りは、verlをRLのコアエンジンとして使ってる模様。
Circuit Tracing: Revealing Computational Graphs in Language Models, Anthropic, 2025.03
Paper/Blog Link My Issue
#Article #NeuralNetwork #NLP #LanguageModel #Transcoders #CircuitAnalysis #Interpretability Issue Date: 2025-12-21
Equipping agents for the real world with Agent Skills, Anthropic, 2025.10
Paper/Blog Link My Issue
#Article #Tutorial #NLP #AIAgents #Selected Papers/Blogs #AgentSkills Issue Date: 2025-12-21
Gemini 3 Flash: frontier intelligence built for speed, Google, 2025.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #Distillation #Proprietary #One-Line Notes #Reference Collection Issue Date: 2025-12-18 Comment
元ポスト:
Gemini 2.5 Proよりも3倍高速でかつ様々なベンチマークで上回っているとのこと。素晴らしい。Gemini 3 Proと比較しても基本的なQAや数学的な能力(reasoning能力)は性能に遜色なく、long sequence/contextの取り扱いでは明確に劣っている、という感じに見えるので、普段使いではこちらでも困らなそうに感じる。
Hallucination Rateが非常に高いとのことだが果たして:
Proからlogit baseな蒸留をして事前学習(=distillation pretraining)をしているっぽい?
GENIAC第3期で自律稼働デバイス向けの軽量な大規模視覚言語モデルPLaMo 2.1-8B-VLを開発, PFN, 2025.12
Paper/Blog Link My Issue
#Article #NLP #SmallModel #Japanese #VisionLanguageModel Issue Date: 2025-12-17 Comment
元ポスト:
PLaMo2.1-8BをベースにPLaMo翻訳を通じてVision Languageモデル用の合成データを学習し、既存の公開データと混ぜて学習することで学習されたVision Language Model Plamo2.1-8B-VLがのプロモーション用のブログ。
日本語でのVisual Question Answering (VQA)、Visual Groundingベンチマークにおいて、Qwen3-VL-8Bを上回るスコアを達成しているとのこと(具体的な数値は言及されていないが、いくつかの実例が見れる)。
現場での技術検証のためのモニター企業を募集している。
Interactive Intelligence from Human Xperience, Ropedia, 2025.12
Paper/Blog Link My Issue
#Article #Dataset #Robotics #WorldModels #VisionLanguageActionModel #EmbodiedAI #One-Line Notes #EgocentricView #Real-to-Sim Issue Date: 2025-12-17 Comment
pj page: https://ropedia.com/
元ポスト:
頭に装着するデバイスでegocentric viewのデータセットを収集し、実際の人間の様々な状況での経験を収集されたegocentric viewデータに基づいて活用し、より強力なworld model, Real-to-Sim, Vision Action Langauge Modelsを作ることをミッションとする新たなプロジェクト(?)な模様。
Rethinking SWA Why Short Sliding Window Attention Will Replace ShortConv in Modern Architectures, Yifan Zhang, 2025.12
Paper/Blog Link My Issue
#Article Issue Date: 2025-12-17 Comment
元ポスト:
ChatGPTの記憶システムはRAGを使っていなかった - 4層アーキテクチャの衝撃, UrayahaDays, 2025.12
Paper/Blog Link My Issue
#Article #ChatGPT Issue Date: 2025-12-15 Comment
元ポスト:
Just image Transformer: ピクセル空間で実画像を予測するフローマッチングモデル, Plat, 2025.12
Paper/Blog Link My Issue
#Article Issue Date: 2025-12-15 Comment
元ポスト:
2025 Open Models Year in Review, Interconnects AI, 2025.12
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel Issue Date: 2025-12-15 Comment
元ポスト:
言語生成の強化学習をやっていく(手法紹介 REINFORCE編), Seitaro Shinagawa, 2020.12
Paper/Blog Link My Issue
#Article #Tutorial #NLP #ReinforcementLearning Issue Date: 2025-12-14
15 Outstanding Research Papers from NeurIPS 2025, Kseniase, 2025.12
Paper/Blog Link My Issue
#Article #NeurIPS Issue Date: 2025-12-08 Comment
元ポスト:
論文リストと一言の解説付きポスト
Titans + MIRAS: Helping AI have long-term memory, Google Research, 2025.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Test-Time Scaling #memory Issue Date: 2025-12-07 Comment
元ポスト:
関連:
- [Paper Note] It's All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization, Ali Behrouz+, arXiv'25, 2025.04
- [Paper Note] Titans: Learning to Memorize at Test Time, Ali Behrouz+, NeurIPS'25, 2024.12
解説:
ポイント解説:
Architecting efficient context-aware multi-agent framework for production, Hangfei Lin, Google, 2025.12
Paper/Blog Link My Issue
#Article #NLP #AIAgents #read-later #Selected Papers/Blogs #ContextEngineering Issue Date: 2025-12-07 Comment
元ポスト:
The LLM Evaluation Guidebook, Fourrier+, HuggingFace, 2025.12
Paper/Blog Link My Issue
#Article #Tutorial #LanguageModel #Evaluation #read-later #Selected Papers/Blogs Issue Date: 2025-12-05 Comment
元ポスト:
Mismatch Praxis: Rollout Settings and IS Corrections, LLM Data, 2025.12
Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #ReinforcementLearning #SamplingParams #One-Line Notes #LongHorizon #train-inference-gap Issue Date: 2025-12-04 Comment
元ポスト:
on-policy RLにおけるロールアウト時のtemperature, top_p, top_kの設定、およびlong horizonの場合でのtrain-inference mismatchの関係性の分析
Improved accuracy in Smart Turn v3.1, Daily, 2025.12
Paper/Blog Link My Issue
#Article #NeuralNetwork #Transformer #AIAgents #SpeechProcessing #MultiLingual #OpenWeight #OpenSource #One-Line Notes #VAD Issue Date: 2025-12-04 Comment
dataset:
https://huggingface.co/pipecat-ai
code:
https://github.com/pipecat-ai/smart-turn
model:
https://huggingface.co/pipecat-ai/smart-turn-v3
オープンソースのVoice Activity Detection (VAD)モデル。本ブログのv3.1では、TTSデータだけでなく英語とスペイン語の人間によるaudio sampleも追加し学習し性能向上。23言語をサポートし、Accuracyは90%以上を達成。数msでのリアルタイムなlatencyを達成できる。
バックボーンはWhisper Tiny encoderで、headとしてshallow linear classifiesを利用しているとのこと。
Introducing Amazon Nova 2 Lite, a fast, cost-effective reasoning model, AWS, 2025.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #Proprietary Issue Date: 2025-12-03 Comment
元ポスト:
関連:
- Introducing Amazon Nova, our new generation of foundation models, AWS, 2024.12
Building Safer AI Browsers with BrowseSafe, Perplenity Team, 2025.12
Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #Prompting #Evaluation #OpenWeight #Safety #Safeguard Issue Date: 2025-12-03 Comment
元ポスト:
prompt injectionをリアルタイムに検知するモデルとそのベンチマークとのこと
dataset:
https://huggingface.co/datasets/perplexity-ai/browsesafe-bench
model:
https://huggingface.co/perplexity-ai/browsesafe
Introducing Mistral 3 The next generation of open multimodal and multilingual AI, Mistral AI, 2025.12
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #MultiLingual #OpenWeight #VisionLanguageModel #One-Line Notes Issue Date: 2025-12-03 Comment
元ポスト:
マルチモーダルなベンチマークがほとんどないように見えるMM-MT-Benchというもののみ?
Expert Parallel Deployment, vLLM, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MoE(Mixture-of-Experts) #Parallelism #One-Line Notes Issue Date: 2025-12-01 Comment
MoEアーキテクチャにおいて、eXertsの重みを複数のGPUに分散することで計算効率を増大させるexpert parallelによるデプロイ方法をexpert parallelの配列数はData Parallel数*tensor parallel数となる。
Evaluating honesty and lie detection techniques on a diverse suite of dishonest models, Wang+, 2025.11
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #read-later Issue Date: 2025-11-30 Comment
元ポスト:
LLMのための強化学習手法 2025 -PPO・DPO・GRPO・DAPO一気に理解する-, Keisuke Kamata, 2025.11
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #ReinforcementLearning #Selected Papers/Blogs Issue Date: 2025-11-29 Comment
元ポスト:
こちらもあわせて読むと良さそう
- 言語生成の強化学習をやっていく(手法紹介 REINFORCE編), Seitaro Shinagawa, 2020.12
- 深層強化学習アルゴリズムまとめ, Shion Honda, 2020.09
Ilya Sutskever – We're moving from the age of scaling to the age of research, DWARKESH PATEL, 2025.11
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #GenerativeAI #One-Line Notes Issue Date: 2025-11-29 Comment
元ポスト:
現在のnext token predictionに基づく事前学習とRLに基づくスケーリング則による性能改善の時代から(理解が進んでいない部分があり、特に現在のRLでは汎化性能が十分に獲得できないため)、人間のような高度な価値関数の探求を含む新たなパラダイムを研究する時代の到来に関する話な模様
Introducing the WeirdML Benchmark, Håvard Tveit Ihle, 2025.01
Paper/Blog Link My Issue
#Article #MachineLearning #NLP #LanguageModel #Evaluation Issue Date: 2025-11-29 Comment
著者ポスト:
元ポスト:
WeirdML v2: https://htihle.github.io/weirdml.html
MLにおけるあまり一般的ではない(=Weird)なタスクによるLLMのベンチマークらしい
生成AI革命の最前線:拡散を超える「流れ」の思想とMambaの台頭, laughman-ai, 2025.10
Paper/Blog Link My Issue
#Article #ComputerVision #FlowMatching #reading #RectifiedFlow #FlowMaps Issue Date: 2025-11-28
Flow With What You Know, Scott H. Hawley, 2024.11
Paper/Blog Link My Issue
#Article #ComputerVision #read-later #FlowMatching #RectifiedFlow #Physics Issue Date: 2025-11-28
Why (Senior) Engineers Struggle to Build AI Agents, PHILSCHMID, 2025.11
Paper/Blog Link My Issue
#Article Issue Date: 2025-11-27 Comment
元ポスト:
Effective harnesses for long-running agents, Anthropic, 2025.11
Paper/Blog Link My Issue
#Article Issue Date: 2025-11-27 Comment
元ポスト:
The Eiffel Tower Llama, David Louapre, 2025.11
Paper/Blog Link My Issue
#Article Issue Date: 2025-11-27 Comment
元ポスト:
Fara-7B: An Efficient Agentic Model for Computer Use, Microsoft, 2025.11
Paper/Blog Link My Issue
#Article #AIAgents #SmallModel #OpenWeight #ComputerUse #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-25 Comment
元ポスト:
computer useに特化したMS初のSLM(CUA)
関連:
- [Paper Note] AgentInstruct: Toward Generative Teaching with Agentic Flows, Arindam Mitra+, arXiv'24, 2024.07
- [Paper Note] Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasks, Adam Fourney+, arXiv'24, 2024.11
- [Paper Note] WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models, Hongliang He+, ACL'24, 2024.01
- [Paper Note] Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V, Jianwei Yang+, arXiv'23, 2023.10
- GPT-4V-Act, ddupont808, 2023.10
WebVoyagerでの評価によると、タスクに対するコスト性能比が非常に高いことがわかる。
MIT Licence
著者ポスト:
Sarashina2.2-Vision-3B: コンパクトかつ性能が高いVLMの公開, SB Intuitions, 2025.11
Paper/Blog Link My Issue
#Article #NLP #SmallModel #Japanese #VisionLanguageModel #Cultural Issue Date: 2025-11-25 Comment
元ポスト:
HF: https://huggingface.co/sbintuitions/sarashina2.2-vision-3b
Claude-Opus-4.5: Introducing advanced tool use on the Claude Developer Platform, Anthropic, 2025.11
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Proprietary #Selected Papers/Blogs #Reference Collection Issue Date: 2025-11-25 Comment
元ポスト:
AnthropicがClaude-Opus-4.5をリリース。AgenticなユースケースでClaudeがベンチマーク上の首位をGemini3 Proから奪還
システムカード:
https://assets.anthropic.com/m/64823ba7485345a7/Claude-Opus-4-5-System-Card.pdf
人間と比較した時のパフォーマンスの解説:
EpochAIによるFrontierMath Tier1-3での評価:
o3(high), Grok4と同等程度で、Gemini3 Pro, GPT-5.1(high)には劣る
ベンチマーク上でのコーディング能力やagenticなツール呼び出し能力の差は縮まっている:
Artificial Analysisの評価:
スライドをいい感じに作れるらしい:
50% time horizonは4時間49分で現在top。
Stanford Agentic Reviewer, Stanford University, 2025.11
Paper/Blog Link My Issue
#Article #NLP #AIAgents #GenerativeAI #One-Line Notes Issue Date: 2025-11-25 Comment
元ポスト:
Andrew Ng氏によるAI Agentによる論文のレビュワーシステムで、ICLR'25のレビューで学習し、テストセットで評価したところ、人間-人間間の相関と人間-AI間の相関係数が同等の水準に到達とのこと。ICLR'25のレビューで学習しているということは当該ドメインに近しい研究であるほど適切なレビューが実施されるであろう点に注意。
大規模言語モデルの次期バージョン PLaMo 3 シリーズにおける8B, 31Bの小規模モデルによる事前学習の検証, PFN, 2025.11
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Japanese Issue Date: 2025-11-21 Comment
元ポスト:
コーディング能力で大幅に性能向上している模様:
- Swallow LLM Leaderboard v2, Swallow LLM Team, 2025.08
Benchmark Scores = General Capability + Claudiness, EpochAI, 2025.11
Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #Evaluation #read-later Issue Date: 2025-11-21 Comment
元ポスト:
Claudiness=Claudeらしさ=エージェントタスクに優れている、しかしマルチモーダルや数学には弱いこと(皮肉を込めてこう呼んでいるらしい)
Claudeらしくないモデルとしては、o4-miniやGPT-5が挙げられる。
TAURO Project, note, 2024.10
Paper/Blog Link My Issue
#Article #Tutorial #ComputerVision #NLP #ScientificDiscovery #Japanese #Robotics Issue Date: 2025-11-20 Comment
元ポスト:
👀👀👀
Introducing zerank-2: The Most Accurate Multilingual Instruction-Following Reranker, ZeroEntropy, 2025.11
Paper/Blog Link My Issue
#Article #RecommenderSystems #Embeddings #InformationRetrieval #NLP #OpenWeight #Reranking Issue Date: 2025-11-20 Comment
HF: https://huggingface.co/zeroentropy/zerank-2
SoTA reranker
Introducing SAM 3D: Powerful 3D Reconstruction for Physical World Images, Meta, 2025.11
Paper/Blog Link My Issue
#Article #ComputerVision #FoundationModel #read-later #Selected Papers/Blogs #3D Reconstruction #3D (Scene) Issue Date: 2025-11-20 Comment
元ポスト:
解説:
Introducing Meta Segment Anything Model 3 and Segment Anything Playground, Meta, 2025.11
Paper/Blog Link My Issue
#Article #ComputerVision #ImageSegmentation #FoundationModel #read-later #Selected Papers/Blogs #2D (Image) #4D (Video) Issue Date: 2025-11-20 Comment
元ポスト:
今度はSAM3、最近毎日なんか新しいの出てるな
Introducing Navigator, Yutori team, 2025.11
Paper/Blog Link My Issue
#Article #NLP #AIAgents #Proprietary #ComputerUse #read-later #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-20 Comment
元ポスト:
gemini2.5, claude4.5, openaioperator等よりも性能が良いweb agentらしい
ACT-1: A Robot Foundation Model Trained on Zero Robot Data, Sunday Team, 2025.11
Paper/Blog Link My Issue
#Article #Zero/FewShotLearning #read-later #Generalization #Robotics #One-Line Notes #LongHorizon Issue Date: 2025-11-20 Comment
元ポスト:
テレオペレーション(遠隔操作; 模倣学習に使われるのだと思われる)ではなく、Skill Capture Gloveと呼ばれる手に装着するタイプのデバイスから収集したデータのみを収集して学習するらしい。手のデータは収集できるが、身長や腕の長さ、視覚的な情報が異なるではないか、という点については、グローブのデータを同等のロボットのデータに変換するみたいなことをするらしい。(ゆるふわ理解)
Previewing Locus, INTOLOGY, 2025.11
Paper/Blog Link My Issue
#Article #NLP #AIAgents #ScientificDiscovery #Test-Time Scaling #LongHorizon Issue Date: 2025-11-20 Comment
元ポスト:
所見:
AI Model Benchmarks Nov 2025, lmcouncil, 2025.11
Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #AIAgents #Evaluation Issue Date: 2025-11-19 Comment
元ポスト:
50% time horizonなどを含む良さそうなベンチマークと主要モデルの比較が簡単にできそうなサイト
Introducing Google Antigravity, a New Era in AI-Assisted Software Development, Google, 2025.11
Paper/Blog Link My Issue
#Article #LanguageModel #AIAgents #GenerativeAI #Proprietary #SoftwareEngineering Issue Date: 2025-11-19 Comment
元ポスト:
google謹製のAI Agent FirstなIDE、らしい
NVIDIA NeMoを利用したGPT-OSSの学習, Kazuki Fujii, 2025.11
Paper/Blog Link My Issue
#Article #read-later Issue Date: 2025-11-19 Comment
元ポスト:
Gemini 3 による知性の新時代, Google, 2025.11
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #GenerativeAI #Proprietary #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-11-19 Comment
所見:
GPT5.1に対して各種ベンチマークで上回る性能。
所見:
Gemini2.5 Proは回答が冗長で使いにくかったが、Gemini3は冗長さがなくなり、クリティカルな情報を簡潔に、しかし短すぎない、ちょうど良いくらいの応答に感じており、レスポンスもGPT5.1, GPT5と比べ早いので普段使いのLLMとしては非常に良いのではないか、という感想(2,3個のクエリを投げただけだが)を抱いた。
Oriol Vinyals氏のコメント:
LiveCodeBench ProでもSoTA:
Gemini Pro 3 Developer Guide:
https://ai.google.dev/gemini-api/docs/gemini-3?hl=ja
元ポスト:
GAIA Verified (Browser Use?)でもSoTA:
ただし、どのようなハーネスが使われているかは不明だし、それらが各モデルにとってフェアなものになってるかも不明
スクショのみでリンクも無し。
所見:
content window,pricingなどの情報:
一般的なユースケースでのBest Practice:
パラメータ数に関する考察:
韓国語でのベンチマークに関するポスト:
自身のハーネス、ユースケース、タスクではうまくいかなかったよという話(でもただのサンプル数1だよ、という話が記載されている):
結局のところベンチマークはあくまで参考程度であり、自分たちのタスク、データセットで性能を測らねばわからない。
Artificial Intelligenceによる評価:
MCP Universeでtop:
- [Paper Note] MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers, Ziyang Luo+, arXiv'25
Live SWE Agentと呼ばれるself-evolvingな枠組みを採用した場合(=scaffoldをbashのみから自己進化させる)のSWE Bench Vevifiedにやる評価でもSoTA:
- [Paper Note] Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?, Chunqiu Steven Xia+, arXiv'25, 2025.11
- SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez+, ICLR'24
この辺のsoftware agent系のベンチマークにおけるハーネスが具体的にどうなっているのか、中身を見たことないので見ておきたい。
(追記)
SWE Bench Verifiedのリーダーボードではmini-SWE-Agentを利用した公正な比較が行われており、こちらではGemini3がトップだったもののその後リリースされたClaude-Opus-4.5がtopを僅差で奪還しGemini3が2位とのこと。
ハーネスについてはこちらを読むと良さそう:
- [Paper Note] SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering, John Yang+, arXiv'24, 2024.05
EpochAIによる評価:
ECIでtop。ECIは39のベンチマークから算出されるスコア、らしい。
Scale AIのVisual Tool BenchでもSoTA:
- Beyond Seeing: Evaluating Multimodal LLMs On Tool-enabled Image Perception, Transformation, and Reasoning, Scale AI, 2025.10
CriPtと呼ばれるベンチマークにおける評価でもSoTA:
- [Paper Note] Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark, Minhui Zhu+, arXiv'25, 2025.09
最近提案された新たなtooluseベンチマークでもsecond placeらしい:
- [Paper Note] The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution, Junlong Li+, arXiv'25, 2025.10
IQ130らしい(果たして):
GPQA DiamondでSoTA:
Jeff Dean氏によるポスト:
AI in Practice Survey 2025, Theory Ventures, 2025.11
Paper/Blog Link My Issue
#Article #GenerativeAI Issue Date: 2025-11-19 Comment
元ポスト:
ParallelKittens: Simple and Fast Multi-GPU AI Kernels, Hazy Research, 2025.11
Paper/Blog Link My Issue
#Article #SoftwareEngineering #read-later #GPUKernel Issue Date: 2025-11-18 Comment
元ポスト:
読みたい
Grok 4.1, xAI, 2025.11
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #GenerativeAI #Proprietary #Selected Papers/Blogs Issue Date: 2025-11-18 Comment
元ポスト:
Third-Party Pangram Evaluations, Pangram., Destiny Akinode, 2025.11
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #GenerativeAI #text #AI Detector Issue Date: 2025-11-16 Comment
元ポスト:
ICLR 2026 - Submissions, Pangram Labs, 2025.11
Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #ICLR #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-11-15 Comment
元ポスト:
ICLR'26のsubmissionとreviewに対してLLMが生成したものが否かをDetectionした結果(検出性能は完璧な結果ではない点に注意)
この辺の議論が興味深い:
関連:
oh...
パイプライン解説:
母国語でレビューを書いて英語に翻訳している場合もAI判定される場合があるよという話:
ICLR公式が対応検討中とのこと:
ICLRからの続報:
> As such, reviewers who posted such poor quality reviews will also face consequences, including the desk rejection of their submitted papers.
> Authors who got such reviews (with many hallucinated references or false claims) should post a confidential message to ACs and SACs pointing out the poor quality reviews and provide the necessary evidence.
citationに明らかな誤植があり、LLMによるHallucinationが疑われる事例が多数見つかっている:
Oralに選ばれるレベルのスコアの研究論文にも多数のHallucinationが含まれており、1人の査読者がそれに気づきスコア0を与える、といった事態にもなっているようである:
当該論文はdesk rejectされたので現在は閲覧できないとのこと。
NeurIPS'25ではそもそも査読を通過した研究についても多くのHallucinationが見つかっているとのこと:
ACL2025@ウィーン 参加報告, shirotaro, 2025.10
Paper/Blog Link My Issue
#Article #Tutorial #NLP #ACL Issue Date: 2025-11-15
[Tips] PyTorchにおける動的リンク, Kazuki Fujii, 2025.05
Paper/Blog Link My Issue
#Article Issue Date: 2025-11-14
[Tips] PyTorchをself buildしてinstallする方法, Kazuki Fujii, 2025.03
Paper/Blog Link My Issue
#Article Issue Date: 2025-11-14
LLM開発の裏で行われるデバッグ作業: PyTorch DCP, Kazuki Fujii, 2025.11
Paper/Blog Link My Issue
#Article #LanguageModel #SoftwareEngineering #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-14 Comment
元ポスト:
関連:
- [Tips] PyTorchをself buildしてinstallする方法, Kazuki Fujii, 2025.03
- [Tips] PyTorchにおける動的リンク, Kazuki Fujii, 2025.05
自分たちの環境と目的を考えた時に、複数の選択肢を列挙し、それぞれの利点と欠点を明文化した上で最適なものを選択する。そしてそれを実現する上で見つかった挙動のおかしな部分について、怪しい部分にあたりをつけて、仮説を立てて、中身を確認し、時には一度問題ないと判断した部分にも立ち返りさらに深掘りし、原因を明確にする、といったデバッグ作業(の一つのケース)について詳述されている。
SIMA 2: An Agent that Plays, Reasons, and Learns With You in Virtual 3D Worlds, Google DeepMind, 2025.11
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Reasoning #ComputerUse #VisionLanguageModel #3D (Scene) #Game Issue Date: 2025-11-14 Comment
元ポスト:
もはやAIがゲームをできるのは当たり前の時代だが、どのくらいOODに汎化するのかは気になる。
Holo2: Cost-Efficient Models for Cross-Platform Computer-Use Agents, H Company, 2025.11
Paper/Blog Link My Issue
#Article #NLP #AIAgents #OpenWeight #ComputerUse #VisionLanguageModel Issue Date: 2025-11-14 Comment
HF: https://huggingface.co/collections/Hcompany/holo2
元ポスト:
関連:
- Holo1.5 - Open Foundation Models for Computer Use Agents, H Company, 2025.09
GPT-5.1: A smarter, more conversational ChatGPT, OpenAI, 2025.11
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ChatGPT #Reasoning #Proprietary #Selected Papers/Blogs #Routing #One-Line Notes #Reference Collection Issue Date: 2025-11-13 Comment
元ポスト:
instantモデルはよりあたたかい応答でより指示追従能力を高め、thinkingモデルは入力に応じてより適応的に思考トークン数を調整する。autoモデルは入力に応じてinstant, thinkingに適切にルーティングをする。
所見:
Artificial Analysisによるベンチマーキング:
GPT-5.1-Codex-maxの50% time horizon:
Mapping the AI Supply Chain, Cen+, Stanford University, 2025.11
Paper/Blog Link My Issue
#Article #GenerativeAI Issue Date: 2025-11-12 Comment
元ポスト:
Project AELLA: Custom LLMs to process 100 Million Research Papers, ssam Hogan, 2025.11
Paper/Blog Link My Issue
#Article #DocumentSummarization #NLP #LanguageModel #GenerativeAI #Science Issue Date: 2025-11-12 Comment
100M+の論文に対してAIによる要約を作成し構造化した上でvisualizeすることでよりscientificな情報へのアクセシビリティを高めたい、という話に見える
AI progress and recommendations, OpenAI, 2025.11
Paper/Blog Link My Issue
#Article #GenerativeAI #read-later Issue Date: 2025-11-10 Comment
元ポスト:
RL Learning with LoRA: A Diverse Deep Dive, kalomaze's kalomazing blog, 2025.11
Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #ReinforcementLearning #PEFT(Adaptor/LoRA) #PostTraining #read-later Issue Date: 2025-11-10 Comment
元ポスト:
所見:
Announcing Ironwood TPUs General Availability and new Axion VMs to power the age of inference, Google Cloud, 2025.11
Paper/Blog Link My Issue
#Article Issue Date: 2025-11-08 Comment
元ポスト:
KTransformers: A New Era of Open Source: Low-Barrier Multi-GPU Inference for Trillion_Trillion Models (w SGLang) and Local Fine-Tuning (w LLaMa-Factory)
Paper/Blog Link My Issue
#Article Issue Date: 2025-11-07 Comment
元ポスト:
Introducing Kimi K2 Thinking, MoonshotAI, 2025.11
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #OpenWeight #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-11-07 Comment
HF: https://huggingface.co/moonshotai
元ポスト:
coding系ベンチマークでは少しGPT5,Claude Sonnet-4.5に劣るようだが、HLE, BrowseCompなどではoutperform
tooluseのベンチマークであるtau^2 Bench TelecomではSoTA
モデルの図解:
INT4-QATに関する解説:
INT4-QATの解説:
Kimi K2 DeepResearch:
METRによる50% timehorizonの推定は54分:
ただしサードパーティのinference providerによってこれは実施されており、(providerによって性能が大きく変化することがあるため)信頼性は低い可能性があるとのこと。
METRでの評価でClaude 3.7 Sonnetと同等のスコア:
openweightモデルがproprietaryモデルに追いつくのはsoftwere engineeringタスク(agenticなlong horizon+reasoningタスク)9ヶ月程度を要しているとのこと
Mapping LLMs with Sparse Autoencoders, Hussein+, 2025.11
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #One-Line Notes #SparseAutoEncoder Issue Date: 2025-11-06 Comment
SparseAutoEncoderを用いた機械学習モデルの特徴の可視化方法に関するチュートリアル
Open-weight models lag state-of-the-art by around 3 months on average, EPOCH AI, 2025.10
Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #OpenWeight Issue Date: 2025-11-01 Comment
タイトルの通りな模様
元ポスト:
Emergent Introspective Awareness in Large Language Models, Jack Lindsey, Anthropic, 2025.10
Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #Selected Papers/Blogs Issue Date: 2025-10-31 Comment
元ポスト:
公式ポスト:
Unlocking On-Policy Distillation for Any Model Family, Patiño+, HuggingFace, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #ReinforcementLearning #Distillation #On-Policy #reading Issue Date: 2025-10-30 Comment
元ポスト:
- Unlocking On-Policy Distillation for Any Model Family, Patiño+, HuggingFace, 2025.10
で提案されている手法拡張してトークナイザが異なるモデル間でもオンポリシーRLを用いてknowledge distillationを実現できるようなGKD trainerがTRLに実装されたとのこと。
Everything About Transformers, Krupa Dave, 2025.10
Paper/Blog Link My Issue
#Article #Tutorial #NLP #Transformer #One-Line Notes Issue Date: 2025-10-30 Comment
元ポスト:
ざっと見た感じtransformerの基本的な内容の丁寧な解説に見える。literature(RNNや、LSTM、seq2seqなど)、self/cross-attention,LayerNorm, ResidualConnection, PositionalEncodingといった話の基礎が図解付きで説明されている。
Marin 32B Retrospective, marin-community, 2025.10
Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #OpenWeight #OpenSource #Selected Papers/Blogs Issue Date: 2025-10-30 Comment
元ポスト:
AIエージェントのためのコンテキストエンジニアリング:Manus構築から得た教訓, Manus AI, 2025.07
Paper/Blog Link My Issue
#Article #NLP #AIAgents #ContextEngineering #reading Issue Date: 2025-10-28 Comment
元ポスト:
KV Cacheのhit率がまず重要で、TTFTの速さと、コストの双方に影響する。1トークンでも異なるとCacheがhitしなくなるので、注意を払う。たとえば、Contextのfeedが決定論的であることを確認し、prompt冒頭にタイムスタンプを含めるなどは避ける。セルフホスティングの場合はルーティングによってCacheが働くように共通のワーカーを一貫して使う。
How we are building the personal health coach, Patel+, 2025.10
Paper/Blog Link My Issue
#Article #LanguageModel #GenerativeAI #Health Issue Date: 2025-10-28 Comment
元ポスト:
fitbitユーザなので普通に気になる
Advancing Claude for Financial Services, Anthropic, 2025.10
Paper/Blog Link My Issue
#Article #NLP #GenerativeAI #Financial #Proprietary Issue Date: 2025-10-28 Comment
元ポスト:
On-Policy Distillation, Thinking Machines, 2025.10
Paper/Blog Link My Issue
#Article #read-later Issue Date: 2025-10-27 Comment
元ポスト:
所見:
解説:
From Monolithic to Modular: Scaling Semantic Routing with Extensible LoRA, vLLM blog, 2025.10
Paper/Blog Link My Issue
#Article #Embeddings #NLP #Encoder #Routing Issue Date: 2025-10-27 Comment
元ポスト:
LangGraph と NeMo Agent Toolkit ではじめる ReAct エージェント, Masaomi Tokunaga+, 2025.10
Paper/Blog Link My Issue
#Article #Tutorial #AIAgents Issue Date: 2025-10-27 Comment
元ポスト:
langchain, langgraphを用いたReActエージェントの実装方法のチュートリアルと、さまざまなフレームワークで記述されたエージェントの差分を吸収して統一されたプラットフォーム上でエージェントを実装できる(framework-agnosticな)NeMo Agent Toolkitによる実装
Recursive Language Models, Zhang+, MIT CSAIL, 2025.10
Paper/Blog Link My Issue
#Article #LanguageModel #RecursiveModels Issue Date: 2025-10-27 Comment
元ポスト:
MiniMax-M2: Intelligence, Performance & Price Analysis, Artificial Analysis, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #Selected Papers/Blogs #Reference Collection Issue Date: 2025-10-26 Comment
元ポスト:
関連:
- [Paper Note] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning
Attention, MiniMax+, arXiv'25, 2025.06
CISPOを提案したMiniMax-M1の後続モデルと思われるMiniMax-M2-previewが中国製のモデルでArtificial Intelligenceでの評価でトップに立った模様。
所見:
モデルが公開:
https://huggingface.co/MiniMaxAI/MiniMax-M2
proprietaryモデルになるもんだと思ってた、、、これを公開するの凄すぎでは、、、
公式ポスト:
MITライセンス
vLLMでのserving方法:
https://docs.vllm.ai/projects/recipes/en/latest/MiniMax/MiniMax-M2.html
> You can use 4x H200/H20 or 4x A100/A800 GPUs to launch this model.
上記GPUにおいては--tensor-parallel-size 4で動作する模様。
SGLangでもサポートされている:
AnthropicのAPIの利用をお勧めする理由:
(以下管理人の補足を含みます)MiniMax-M2はAgenticなCoTをするモデルなので、contextの情報を正しく保持する必要がある。特に、マルチターンのやり取りをAPIを介してユーザが実行する場合、OpenAIのchatcompletionはCoTを返してくれず、マルチターンのやり取りをしても同じsessionで利用したとしても、前のターンと同じCoTが利用されないことがドキュメントに記述されている。このような使い方をサポートしているのはResponceAPIのみであるため、ResponceAPIでのみ適切なパフォーマンスが達成される。この点がconfusingなので、誤った使い方をするとMiniMaxの真価が発揮されず、しかもそれに気づけずに使い続けてしまう可能性がある。AnthropicのAPIではSonnet 4.5では全ての応答に明示的にCoTが含まれるため、その心配がない、だからAnthropicがおすすめ、みたいな話だと思われる。
アーキテクチャ解説:
解説:
Introducing torchforge – a PyTorch native library for scalable RL post-training and agentic development, PyTorch team at Meta, 2025.10
Paper/Blog Link My Issue
#Article #NLP #Library #ReinforcementLearning #AIAgents #Selected Papers/Blogs Issue Date: 2025-10-25 Comment
元ポスト:
No More Retokenization Drift: Returning Token IDs via the OpenAI Compatible API Matters in Agent RL, vLLM Blog, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Tokenizer #Stability #RetokenizationDrift Issue Date: 2025-10-24 Comment
推論時のトークン化と、結果として返される文字列の再トークン化の際に異なるcontextの元トークン化がされることで(e.g., 異なるテンプレートが利用されるなど)、トークン化の結果が異なりgapが生まれるという問題。この違いがオンポリシーRLなどで学習に不安定にするよ、という話で、vLLMがトークンIDそのものを返せるように仕様変更したよ、といった話らしい。
トークン化の不一致という文脈で言うと下記のような研究もある
- [Paper Note] Addressing Tokenization Inconsistency in Steganography and Watermarking Based on Large Language Models, Ruiyi Yan+, EMNLP'25
Introducing ControlArena: A library for running AI control experiments, AISI, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Safety Issue Date: 2025-10-23 Comment
元ポスト:
Introducing ChatGPT Atlas, OpenAI, 2025.10
Paper/Blog Link My Issue
#Article #ChatGPT #GenerativeAI Issue Date: 2025-10-23 Comment
元ポスト:
ブラウザのサイドバーでchatgptにサイトに関して質問できたり、agenticな使い方もできる模様?
The Continual Learning Problem, Jessy Lin, 2025.10
Paper/Blog Link My Issue
#Article #read-later #ContinualLearning Issue Date: 2025-10-23 Comment
元ポスト:
Production RAG: what I learned from processing 5M+ documents, Abdellatif Abdelfattah, 2025.10
Paper/Blog Link My Issue
#Article #RAG(RetrievalAugmentedGeneration) #SoftwareEngineering Issue Date: 2025-10-23 Comment
元ポスト:
NTT版大規模言語モデル「tsuzumi 2」, NTT人間情報研究所, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Proprietary Issue Date: 2025-10-22 Comment
日本語MT-benchでGPT-5と同等程度の性能とのこと。VRAM40GB未満の1GPUで動作させることを念頭に開発されており、フルスクラッチ、かつ学習データも完全にコントロールしデータの権利、品質、バイアスの管理可能にしているとのこと。
BERT is just a Single Text Diffusion Step, Nathan Barry, 2025.10
Paper/Blog Link My Issue
#Article #DiffusionModel Issue Date: 2025-10-21 Comment
元ポスト:
所見:
How to scale RL, NATHAN LAMBERT, 2025.10
Paper/Blog Link My Issue
#Article #NLP #ReinforcementLearning #Scaling Laws #read-later #Selected Papers/Blogs #reading Issue Date: 2025-10-21 Comment
元ポスト:
下記研究の内容を解説している。
- [Paper Note] The Art of Scaling Reinforcement Learning Compute for LLMs, Devvrit Khatri+, arXiv'25, 2025.10
事前学習におけるスケーリング測は大規模な事前学習実行時の最適な設定の選択に関するもの(e.g. chinchilla law)だったが、RL(=特定のベースモデルから最大限の性能を引き出すための手法)のスケーリング則においてはどのアルゴリズムをより長期間実行させるかという選択に焦点を当てている。
(後で続きを読む)
How Well Does RL Scale?, Toby Ord, 2025.10
Paper/Blog Link My Issue
#Article #NLP #ReinforcementLearning #Test-Time Scaling #Scaling Laws #PostTraining #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-21 Comment
元ポスト:
OpenAIやAnthropicが公表している学習に関するplot(と筆者の様々なアカデミアの研究の知見)に基づいて、RLによるスケーリングは、事前学習やTest-time Scalingよりも計算量の観点で効率が悪い、ということを分析している模様。
> So the evidence on RL-scaling and inference-scaling supports a general pattern:
>- a 10x scaling of RL is required to get the same performance boost as a 3x scaling of inference
> - a 10,000x scaling of RL is required to get the same performance boost as a 100x scaling of inference
>
> In general, to get the same benefit from RL-scaling as from inference-scaling required twice as many orders of magnitude. That’s not good.
その上で、RLによるコストが事前学習のコストと同等かそれ以上となったときに、モデルの性能をスケールさせる場合のコストが爆発的に増加することを指摘している(初期のRLによるコストが小さければ事前学習やtest-time scalingのデータを増やすよりも効率がよいスケーリング手法となっていたが、RLのコストが大きくなってくるとスケールさせる際の金額の絶対値が大きくなりすぎるという話)。
Andrej Karpathy — AGI is still a decade away, DWARKESH PATEL, 2025.10
Paper/Blog Link My Issue
#Article #Pretraining #MachineLearning #NLP #LanguageModel #ReinforcementLearning #AIAgents #In-ContextLearning #RewardHacking #PostTraining #Diversity #Selected Papers/Blogs #PRM #Generalization #Cultural #Emotion Issue Date: 2025-10-20 Comment
元ポスト:
関連:
- In-context Steerbility: [Paper Note] Spectrum Tuning: Post-Training for Distributional Coverage and
In-Context Steerability, Taylor Sorensen+, arXiv'25, 2025.10
(整理すると楽しそうなので後で関連しそうな研究を他にもまとめる)
とても勉強になる!AIに代替されない20%, 1%になるには果たして
所見:
modded-nanogpt medium world record: Re-using intermediate activations in the output latents, shimu's blog, 2025.10
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #read-later Issue Date: 2025-10-20 Comment
元ポスト:
Find3D: Localizing Semantic Concepts in the 3D Space , Ziqi Ma, 2025.10
Paper/Blog Link My Issue
#Article #ComputerVision #ObjectLocalization #3D (Scene) Issue Date: 2025-10-20 Comment
元ポスト:
Equipping agents for the real world with Agent Skills, Anthropic, 2025.10
Paper/Blog Link My Issue
#Article #NLP #AIAgents #read-later #ContextEngineering Issue Date: 2025-10-18 Comment
元ポスト:
Introducing SWE-grep and SWE-grep-mini: RL for Multi-Turn, Fast Context Retrieval, Cognition, 2025.10
Paper/Blog Link My Issue
#Article #Multi #EfficiencyImprovement #ReinforcementLearning #AIAgents #Proprietary #Parallelism #ContextEngineering #KeyPoint Notes Issue Date: 2025-10-18 Comment
元ポスト:
最大で4 turnの間8つのツールコール(guessingとしては従来モデルは1--2, Sonnet-4.5は1--4)を並列する(3 turnは探索、最後の1 turnをanswerのために使う) parallel tool calls を効果的に実施できるように、on policy RLでマルチターンのRLを実施することで、高速で正確なcontext retrievalを実現した、という感じらしい。
従来のembedding-basedなdense retrieverは速いが正確性に欠け、Agenticなsearchは正確だが遅いという双方の欠点を補う形。
parallel tool callというのは具体的にどういうtrajectoryになるのか…?
Context Engineering in Manus, Lance's Blog, 2025.10
Paper/Blog Link My Issue
#Article #Tutorial #NLP #AIAgents #ContextEngineering #One-Line Notes Issue Date: 2025-10-18 Comment
元ポスト:
- Reduce
- Offload
- Isolate
図解つきで各コンセプトについて非常に詳細に記述されている。最後のConclusionを見ればコンパクトに概要をつかめる。
Evaluating Long Context (Reasoning) Ability, wh., 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #Reasoning #LongSequence Issue Date: 2025-10-17 Comment
元ポスト:
Harnessを利用してLLMアプリケーション評価を自動化する, LINEヤフー テックブログ, 2024.12
Paper/Blog Link My Issue
#Article #LanguageModel #MLOps #AIAgents #SoftwareEngineering Issue Date: 2025-10-13
STATE OF AI REPORT 2025, Nathan Benaich, 2025.10
Paper/Blog Link My Issue
#Article #Survey #LanguageModel #GenerativeAI #read-later Issue Date: 2025-10-11 Comment
元ポスト:
所見:
A History of Large Language Models, Gregory Gundersen, 2025.10
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #read-later Issue Date: 2025-10-11 Comment
元ポスト:
画像生成AIにおけるEulerサンプラーの詳細解説, あらもり, 2024.07
Paper/Blog Link My Issue
#Article #ComputerVision #DiffusionModel #Samplers Issue Date: 2025-10-10
Stable Diffusionにおけるサンプラーの役割を理解する, moykeen, 2024.01
Paper/Blog Link My Issue
#Article #ComputerVision #DiffusionModel #Samplers Issue Date: 2025-10-10
Introducing Stable Diffusion 3.5, StabilityAI, 2024.10
Paper/Blog Link My Issue
#Article #ComputerVision #Transformer #DiffusionModel #TextToImageGeneration #OpenWeight #Selected Papers/Blogs Issue Date: 2025-10-10 Comment
SD3.5
Making AI citations count with Asta, AI2, 2025.10
Paper/Blog Link My Issue
#Article #Citations #NLP #AIAgents #ScientificDiscovery #One-Line Notes Issue Date: 2025-10-09 Comment
RAGベースの研究支援プラットフォームAstaに対して送信されたクエリに対して、システムが引用した研究論文に関する統計情報を公開したとのこと。興味深い。
citationに関するデータはこちら:
https://huggingface.co/datasets/allenai/asta-summary-citation-counts
定期的に更新するとのこと。
LFM2-8B-A1B: An Efficient On-device Mixture-of-Experts, LiquidAI, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SmallModel #OpenWeight #MoE(Mixture-of-Experts) #RecurrentModels Issue Date: 2025-10-08 Comment
HF: https://huggingface.co/LiquidAI/LFM2-8B-A1B
元ポスト:
日本語もサポートしているとのこと
関連:
- Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07
OpenAI DevDay 2025 発表まとめ, ぬこぬこ, 2025.10
Paper/Blog Link My Issue
#Article #Tutorial #ChatGPT Issue Date: 2025-10-08 Comment
元ポスト:
Anatomy of a Modern Finetuning API, Benjamin Anderson, 2025.10
Paper/Blog Link My Issue
#Article #MachineLearning #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #SoftwareEngineering #KeyPoint Notes Issue Date: 2025-10-06 Comment
関連:
- Tinker is a training API for {developers, builders, researchers}, THINKING MACHINES, 2025.10
2023年当時のFinetuningの設計について概観した後、TinkerのAPIの設計について説明。そのAPIの設計のstepごとにTinker側にデータを送るという設計について、一見すると課題があることを指摘(step単位の学習で数百msの通信オーバヘッドが生じて、その間Tinker側のGPUは待機状態になるため最大限GPUリソースを活用できない。これは設計ミスなのでは・・・?という仮説が成り立つという話)。が、仮にそうだとしても、実はよくよく考えるとその課題は克服する方法あるよ、それを克服するためにLoRAのみをサポートしているのもうなずけるよ、みたいな話である。
解決方法の提案(というより理論)として、マルチテナントを前提に特定ユーザがGPUを占有するのではなく、複数ユーザで共有するのではないか、LoRAはadapterの着脱のオーバヘッドは非常に小さいのでマルチテナントにしても(誰かのデータの勾配計算が終わったらLoRAアダプタを差し替えて別のデータの勾配計算をする、といったことを繰り返せば良いので待機時間はかなり小さくなるはずで、)GPUが遊ぶ時間が生じないのでリソースをTinker側は最大限に活用できるのではないか、といった考察をしている。
ブログの筆者は2023年ごろにFinetuningができるサービスを展開したが、データの準備をユーザにゆだねてしまったがために成功できなかった旨を述べている。このような知見を共有してくれるのは大変ありがたいことである。
Frontier AI performance becomes accessible on consumer hardware within a year, EPOCH AI, 2025.08
Paper/Blog Link My Issue
#Article #LanguageModel #read-later Issue Date: 2025-10-05 Comment
元ポスト:
The browser that works for you, Perplexity, 2025.10
Paper/Blog Link My Issue
#Article #GenerativeAI Issue Date: 2025-10-03 Comment
めちゃ使いたい
元ポスト:
OpenMoE 2: Sparse Diffusion Language Models, Ni+, 2025.10
Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #DiffusionModel #MoE(Mixture-of-Experts) #read-later Issue Date: 2025-10-03 Comment
元ポスト:
Ming-UniAudio: Speech LLM for Joint Understanding, Generation and Editing with Unified Representation, inclusionAI, 2025.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SpeechProcessing #OpenWeight #Editing Issue Date: 2025-10-03 Comment
元ポスト:
Ming-Omniの後継モデルで、スピーチに特化して書き起こし、理解、編集などができるモデル
HF: https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B
公式ポスト:
Tinker is a training API for {developers, builders, researchers}, THINKING MACHINES, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #PEFT(Adaptor/LoRA) #API #PostTraining #KeyPoint Notes Issue Date: 2025-10-03 Comment
元ポスト:
THINKING MACHINESによるOpenWeightモデルをLoRAによってpost-trainingするためのAPI。QwenとLlamaをベースモデルとしてサポート。現在はBetaでwaitlistに登録する必要がある模様。
(Llamaのライセンスはユーザ数がアクティブユーザが7億人を超えたらMetaの許諾がないと利用できなくなる気がするが、果たして、とふと思った)
この前のブログはこのためのPRも兼ねていたと考えられる:
- LoRA Without Regret, Schulman+, THINKING MACHINES, 2025.09
ドキュメントはこちら:
https://tinker-docs.thinkingmachines.ai
Tinkerは、従来の
- データセットをアップロード
- 学習ジョブを走らせる
というスタイルではなく、ローカルのコードでstep単位の学習のループを書き以下を実行する:
- forward_backwardデータ, loss_functionをAPIに送る
- これにより勾配をTinker側が蓄積する
- optim_step: 蓄積した勾配に基づいてモデルを更新する
- sample: モデルからサンプルを生成する
- save_state等: 重みの保存、ロード、optimizerのstateの保存をする
これらstep単位の学習に必要なプリミティブなインタフェースのみをAPIとして提供する。これにより、CPUマシンで、独自に定義したloss, dataset(あるいはRL用のenvironment)を用いて、学習ループをコントロールできるし、分散学習の複雑さから解放される、という代物のようである。LoRAのみに対応している。
なお、step単位のデータを毎回送信しなければならないので、stepごとに通信のオーバヘッドが発生するなんて、Tinker側がGPUを最大限に活用できないのではないか。設計としてどうなんだ?という点については、下記ブログが考察をしている:
- Anatomy of a Modern Finetuning API, Benjamin Anderson, 2025.10
ざっくり言うとマルチテナントを前提に特定ユーザがGPUを占有するのではなく、複数ユーザで共有するのではないか、adapterの着脱のオーバヘッドは非常に小さいのでマルチテナントにしても(誰かのデータの勾配計算が終わったらLoRAアダプタを差し替えて別のデータの勾配計算をする、といったことを繰り返せば良いので待機時間はかなり小さくなるはずで、)GPUが遊ぶ時間が生じないのでリソースをTinker側は最大限に活用できるのではないか、といった考察/仮説のようである。
所見:
Asyncな設定でRLしてもSyncな場合と性能は同等だが、学習が大幅に高速化されて嬉しいという話な模様(おまけにrate limitが現在は存在するので今後よりブーストされるかも
Information Bandwidth in Reinforcement Learning Understanding Sample Efficiency Through Signal Density, Yingru Li, 2025.10
Paper/Blog Link My Issue
#Article #Analysis #ReinforcementLearning #read-later Issue Date: 2025-10-03 Comment
元ポスト:
2025年10月1日 国立情報学研究所における大規模言語モデル構築への協力について, 国立国会図書館, 2025.09
Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #Japanese #Selected Papers/Blogs Issue Date: 2025-10-01 Comment
元ポスト:
日本語LLMの進展に極めて重要なニュースと思われる
Introducing Claude Sonnet 4.5, Anthropic, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Proprietary Issue Date: 2025-09-30 Comment
元ポスト:
Claude Sonnet 4.5 発表関連情報まとめ:
記事:
https://zenn.dev/schroneko/articles/claude-sonnet-4-5
元ポスト:
ブログを読むとImagine with Claudeの方がむしろ気になる...(残念ながら課金していない)
https://claude.ai/login?returnTo=%2Fimagine
Artificial Intelligenceによる評価:
LLM のアテンションと外挿, 佐藤竜馬, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Attention #read-later Issue Date: 2025-09-30 Comment
元ポスト:
LoRA Without Regret, Schulman+, THINKING MACHINES, 2025.09
Paper/Blog Link My Issue
#Article #PEFT(Adaptor/LoRA) #read-later #Selected Papers/Blogs Issue Date: 2025-09-30 Comment
元ポスト:
これはおそらく必読...
解説:
解説:
所見:
Failing to Understand the Exponential, Again, Julian Schrittwieser, 2025.09
Paper/Blog Link My Issue
#Article #LanguageModel #Evaluation #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-09-29 Comment
元ポスト:
関連:
- Measuring AI Ability to Complete Long Tasks, Thomas Kwa+, arXiv'25, 2025.03
- GDPVAL: EVALUATING AI MODEL PERFORMANCE ON REAL-WORLD ECONOMICALLY VALUABLE TASKS, Patwardhan+, 2025.09
AIの指数関数的な成長は続いているぞという話。
以下は管理人の感想だが、個々のベンチマークで見たらサチってきている(昔より伸び代が小さい)ように感じるが、人間が実施する複雑なタスクに対する上記ベンチマークなどを見るとスケーリングは続いている(むしろ加速している感がある)。シンプルなタスクのベンチマークの伸びは小さくとも、それらシンプルなタスクの積み重ねによって複雑なタスクは実施されるので、(現存するベンチマークが測定できている能力はLLMの部分的な能力だけなことも鑑みると)、複雑なタスクで評価した時の伸びは実は大きかったりする(スケーリングは続いている)のではないか、という感想。
Why GPT-5 used less training compute than GPT-4.5 (but GPT-6 probably won’t), EPOCH AI, 2025.09
Paper/Blog Link My Issue
#Article #Analysis #Pretraining #NLP #LanguageModel #ChatGPT #PostTraining Issue Date: 2025-09-29 Comment
元ポスト:
How to Fix Your Context, dbreunig.com, 2025.07
Paper/Blog Link My Issue
#Article #DocumentSummarization #InformationRetrieval #NLP #AIAgents #Pruning #RAG(RetrievalAugmentedGeneration) #SoftwareEngineering #ContextEngineering Issue Date: 2025-09-28 Comment
Context Poisoning, Context Distraction, Context Confusion,
Context Clashの定義とそれらの対処法について書かれている。後ほど追記する
Continuing to bring you our latest models, with an improved Gemini 2.5 Flash and Flash-Lite release, Google Deepmind, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #Proprietary Issue Date: 2025-09-28 Comment
元ポスト:
We reverse-engineered Flash Attention 4, Modal Blog, 2025.09
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #Attention #SoftwareEngineering #One-Line Notes Issue Date: 2025-09-28 Comment
元ポスト:
Flash Attention4は数学的なトリックよりも非同期処理の複雑なパイプライン、Blackwellに最適化、とのこと
RDT2: Enabling Zero-Shot Cross-Embodiment Generalization by Scaling Up UMI Data, RDT Team, 2025.09
Paper/Blog Link My Issue
#Article #FoundationModel #Robotics #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-27 Comment
元ポスト:
ロボットアームのさまざまなアクションをzeroshotで実現できる基盤モデルらしい
When Speed Kills Stability: Demystifying RL Collapse from the Training-Inference Mismatch, Liu+, 2025.09
Paper/Blog Link My Issue
#Article #Analysis #MachineLearning #NLP #LanguageModel #ReinforcementLearning #AIAgents #Selected Papers/Blogs #Stability #train-inference-gap Issue Date: 2025-09-27 Comment
元ポスト:
訓練時のエンジン(fsdp等)とロールアウト時のエンジン(vLLM等)が、OOVなトークンに対して(特にtooluseした場合に生じやすい)著しく異なる尤度を割り当てるため学習が崩壊し、それは利用するGPUによっても安定性が変化し(A100よりもL20, L20よりもH20)、tokenレベルのImporttance Weightingでは難しく、Sequenceレベルのサンプリングが必要、みたいな話な模様。
関連:
- Your Efficient RL Framework Secretly Brings You Off-Policy RL Training, Yao+, 2025.08
- [Paper Note] Group Sequence Policy Optimization, Chujie Zheng+, arXiv'25
FP16にするとtrain-inferenae gapが非常に小さくなるという報告:
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10
A100でvLLMをバックボーンにした時のdisable_cascade_attnの設定値による挙動の違い:
そもそもFlashAttnention-2 kernelにバグがあり、A100/L20で特定のカーネルが呼ばれるとミスマッチが起きるのだとか。vLLM Flashattentionリポジトリのissue 87によって解決済み。~~具体的にどのカーネル実装なのだろうか。~~ (vLLM Flashattentionリポジトリだった模様)
https://github.com/vllm-project/flash-attention
disable_cascade_attnの設定値を何回も変えたけどうまくいかないよという話がある:
Modular Manifolds, Jeremy Bernstein+, THINKING MACHINES, 2025.09
Paper/Blog Link My Issue
#Article #NeuralNetwork #MachineLearning #NLP #Optimizer #read-later Issue Date: 2025-09-27 Comment
関連:
Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #FoundationModel #OpenWeight #RecurrentModels Issue Date: 2025-09-26 Comment
元ポスト:
LiquidAIによるedgeデバイス向けのFoundation Model。品質、スピード、メモリ、ハードウェアのバランスを最適にしておるとのこと。たとえばQwenと比較して2倍のデコードとprefill速度とのこと。また、同サイズのモデル群よりも高い性能を実現しているらしい。
下記グラフはMMLU, IFEval,IFBENCH,GSM8K,MMMLUでの評価の平均。他にもGPQA,MGSMでも評価しており、同サイズのモデルと比べて同等か少し劣るくらい。
アーキテクチャはRNNをベースにしており、従来の時間がstepごとに発展するRNNではなく、連続時間を扱えるようなRNNの変種なようでより柔軟に時間スケールを扱えるようなアーキテクチャらしい。また、LIV Operatorと呼ばれる入力に応じて動的に異なる線形変換を実施するOperatorを採用している模様。たとえば入力に応じて、convolution, attention, recurrenceなどのoperationが変化する。これに基づいて、さまざまなアーキテクチャのNNを定義できるようになったので、最適なアーキテクチャを模索するためにSTARと呼ばれるアルゴリズムでNeural Architecture Searchを実施した模様。
メモリに制約があるエッジデバイス向けにKVCache不要で現在の隠れ状態のみを保持すれば良いRNNベースのアーキテクチャを採用するのは理に適っている。
様々なコンテキスト長における LLM の Self-Attention の Query と Key の分析, ABEJA Tech Blog, 2025.09
Paper/Blog Link My Issue
#Article #Analysis #NLP #Attention Issue Date: 2025-09-26 Comment
元ポスト:
以下の研究を参考に分析している:
- [Paper Note] Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding, Mingyu Jin+, ICML'25, 2025.02
Massive ValueはtransformerのQ,Kの活性値に現れる極端に大きな値のことで、Massive Valueは文脈的な知識の理解において重要とのこと(Massive Valueを破壊すると文脈理解が重要なタスクのスコアは著しく低下したが、パラメトリックな知識が重要なタスクは性能が少し低下するのみ、かつ非Massive Valueを破壊しても大きな変化は無かったため)。またMassive ValueはRoPEを使ったモデルのみQ, Kの特定の次元にのみ集中して出現する。これはRoPEでは回転行列をQ, Kにのみ適用していることに起因している可能性があるが、回転行列の積の前後でもMassive Valueが出現することは変わらないことから、回転行列そのものに起因するものというより、回転行列がアーキテクチャに組み込まれることで結果的に学習されるものなのではないか、という感じらしい。
HMMT. HMMT 2025, 2025.09
Paper/Blog Link My Issue
#Article #Dataset #Evaluation #Mathematics Issue Date: 2025-09-24 Comment
サイト内部の説明によると、ハーバード、MIT、そして近隣の学校の学生たちによって運営されている世界で最大、かつ最も権威のある高校生向けの国際的な数学のコンペティション、とのこと。
Qwen3-Max: Just Scale it, Qwen Team, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Proprietary #MoE(Mixture-of-Experts) Issue Date: 2025-09-24 Comment
元ポスト:
現在はnon-thinkingモデルのみのようだがthinkingモデルも学習中で、GPQA, HMMT, AIME25でのベンチマーク結果のみ掲載されている。
HMMTというのは以下な模様:
- HMMT. HMMT 2025, 2025.09
Qwen3‑LiveTranslate: Real‑Time Multimodal Interpretation — See It, Hear It, Speak It!, Qwen Team, 2025.09
Paper/Blog Link My Issue
#Article #MachineTranslation #NLP #LanguageModel #MultiModal #Proprietary Issue Date: 2025-09-24 Comment
元ポスト:
Vibe Coding Cleanup as a Service, Donado Labs, 2025.09
Paper/Blog Link My Issue
#Article #AIAgents #Coding Issue Date: 2025-09-23 Comment
元ポスト:
LoRAの進化:基礎から最新のLoRA-Proまで , 松尾研究所テックブログ, 2025.09
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2025-09-22 Comment
元ポスト:
関連:
- [Paper Note] LoRA-Pro: Are Low-Rank Adapters Properly Optimized?, Zhengbo Wang+, ICLR'25, 2024.07
- LoRA+: Efficient Low Rank Adaptation of Large Models, Soufiane Hayou+, N/A, ICML'24
Grok 4 Fast, xAI, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MultiModal #Reasoning #VisionLanguageModel Issue Date: 2025-09-21 Comment
ベンチマークに対する評価結果以外の情報はほぼ記述されていないように見える(RL使いました程度)
Artificial Analysisによる評価:
コスト性能比の所見:
Agent Payments Protocol (AP2), Google, 2025.09
Paper/Blog Link My Issue
#Article #AIAgents Issue Date: 2025-09-17 Comment
AI Agentにpaymentをさせるためのsecureなプロトコルな模様
元ポスト:
Large reasoning models research at COLM 2025 - State of research in scaling reasoning, the current paradigm for improving LLMs, PRAKASH KAGITHA, 2025.09
Paper/Blog Link My Issue
#Article #Survey #LanguageModel #Reasoning #COLM Issue Date: 2025-09-15 Comment
COLM'25における30個程度のReasoningに関わる論文をカバーしたブログらしい。
元ポスト:
ここの論文のサマリのまとめといった感じなので、indexとして利用すると良さそう。
Kimi-Researcher End-to-End RL Training for Emerging Agentic Capabilities, MoonshotAI, 2025.06
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Proprietary #DeepResearch Issue Date: 2025-09-13
Cosmopedia: how to create large-scale synthetic data for pre-training, Allal+(HuggingFace), 2024.03
Paper/Blog Link My Issue
#Article #Pretraining #NLP #Dataset #LanguageModel #SyntheticData Issue Date: 2025-09-13 Comment
cosmopedia dataset: https://huggingface.co/datasets/HuggingFaceTB/cosmopedia
大部分を合成データで学習したPhi-1.5(Textbooks Are All You Need II: phi-1.5 technical report, Yuanzhi Li+, N/A, arXiv'23
)のデータ合成のレシピの詳細は明かされておらず、学習データ自体も公開されていないことを受け、事前学習で利用可能な数百Mサンプルの合成データを生成するレシピはなんなのか?を探った話。
最終的に、30Mのpromptをprompt engineeringをMixtral-8x7B-Instruct-v0.1を通じて作成し、高品質なpretrainingのための広範なトピックの文書群を作成。合成された内容の重複は1%未満。
Phi-1.5の論文の記述に基づくと、20k topicsをseedとし新たなsynthetic dataを作成、web sampleを活用して多様性を担保した、という記述がある。これに基づくと、仮に1ファイルの長さを1000 tokenであると仮定すると、20Mのpromptが活用されたことになる。しかしながら、web sampleを組み合わせる方法と、多様性を増やす方法がクリアではなかった。
Cosmopediaのアプローチとしては、2つのアプローチがある。まず curated educational sources (Khan Academy, OpenStax, WikiHow, Stanford courses)を利用する方法で、これらの全てのユニットを合計しても260k程度であった。これでは到底20Mには届かないため、生成する文書の `style` と `audience` に幅を持たせることで、promptの数を増やした。
具体的には、styleとして、academic textbook / blog post / wikihow articles の3種類、audienceとして young children / high school students / college students / researchers の4種類を用意した。このとき、単にprompt中で特定のaudience/styleで記述するよう指示をしても、同じような内容しか出力されない課題があったため、prompt engineeringによって、より具体的な指示を加えることで解決(Figure3)。
続いてのアプローチはweb dataを活用するアプローチで、収集されたweb samplesを145のクラスタに分類し、各クラスタごとに10個のランダムなサンプルを抽出し、Mixtralにサンプルから共通のトピックを抽出させることでクラスタのトピックを得る。
その後不適切なトピックは除外(e.g., アダルトコンテンツ, ゴシップ等)。その後、クラスタのweb sampleとトピックの双方をpromptに与えて関連するtextbookを生成させるpromptを作成 (Figure 4)。このとき、トピックラベルの生成がうまくいっていない可能性も考慮し、トピックをgivenにしないpromptも用意した。最終的にこれにより23Mのpromptを得た。また、scientificな内容を増やすために、AutoMathText (数学に関して収集されたデータセット)も加えた。
上記promptで合成したデータでモデルを学習したところ、モデルにcommon senseやgrade school educationにおける典型的な知識が欠けていることが判明したため、UltraChatやOpenHermes2.5から日常に関するストーリーを抽出してseed dataに加えた。
下記が最終的なseed-data/format/audienceの分布となる。seed-dataの大部分はweb-dataであることがわかる。
最終的に合成データのうち、10-gram overlapに基づいて、contaminationの疑いがある合成データを抽出。ベンチマークデータのうち、50%のsub-stringとマッチした文書は除外することでdecontaminationを実施。
下表がdecontaminationの結果で、()内の数字がユニーク数。decontaminationをしなければこれらが学習データに混入し、ベンチマーキング性能に下駄をはかせることになってしまっていたことになる。
1Bモデルを訓練した結果、半分程度のベンチマークでTinyLlama 1.1Bよりも高いスコアを達成。Qwen-1.5-1BやPhi-1.5に対しては全体としてスコアでは負けているように見える。このことより、より高品質な合成データ生成方法があることが示唆される。
以後、SmolLM構築の際にCosmopediaのpromptに挿入するサンプルをトピックごとにより適切に選択する(文書を合成するモデルをMixtralから他のモデルに変更してもあまり効果がなかったとのこと)などの改善を実施したCosmopedia v2が構築されている。
画像モデルのバックボーンとして最初に何を選ぶべきか?, ちくわぶ, 2025.09
Paper/Blog Link My Issue
#Article #ComputerVision #Analysis #Backbone Issue Date: 2025-09-13 Comment
こちらの論文を参考にしている:
- [Paper Note] Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks, Micah Goldblum+, NeurIPS'23
Backbone選定の際は参照のこと。2024年以後のモデルは含まれていない点に注意。
Attention ls Off By One, Evanmiller.org, 2023.07
Paper/Blog Link My Issue
#Article #Attention Issue Date: 2025-09-12
Qwen3-Next: Towards Ultimate Training & Inference Efficiency, Qwen Team, 2025.09
Paper/Blog Link My Issue
#Article #read-later Issue Date: 2025-09-12 Comment
元ポスト:
関連:
- [Paper Note] Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free, Zihan Qiu+, NeurIPS'25 Best Paper
- [Paper Note] A Systematic Analysis of Hybrid Linear Attention, Dustin Wang+, arXiv'25
Artificial Intelligenceによる評価:
Context Engineering - Short-Term Memory Management with Sessions from OpenAI Agents SDK, OpenAI, 2025.09
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #AIAgents #ContextEngineering Issue Date: 2025-09-11 Comment
元ポスト:
Defeating Nondeterminism in LLM Inference, Horace He in collaboration with others at Thinking Machines, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #python #read-later #Selected Papers/Blogs #Non-Determinism Issue Date: 2025-09-11 Comment
元ポスト:
ポイント解説:
vLLMにおいてinferenceをdeterministicにする方法が、vLLMのissue number 24583に記載されているので参照のこと。
transformersでの実装例:
Scaling Laws for Value-Based RL, Fu+, 2025.09
Paper/Blog Link My Issue
#Article #ReinforcementLearning #Scaling Laws #read-later Issue Date: 2025-09-10 Comment
元ポスト:
元論文:
- [Paper Note] Compute-Optimal Scaling for Value-Based Deep RL, Preston Fu+, arXiv'25
- [Paper Note] Value-Based Deep RL Scales Predictably, Oleh Rybkin+, ICML'25
オープンデータセットのライセンスガイド, サナミ, 2024.12
Paper/Blog Link My Issue
#Article #Tutorial #Dataset Issue Date: 2025-09-07
Writing Code Was Never The Bottleneck, ordep.dev, 2025.06
Paper/Blog Link My Issue
#Article #GenerativeAI #Coding Issue Date: 2025-09-07 Comment
元ポスト:
From f(x) and g(x) to f(g(x)): LLMs Learn New Skills in RL by Composing Old Ones, Yuan+, 2025.09
Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #ReinforcementLearning #Composition #read-later #Selected Papers/Blogs Issue Date: 2025-09-06 Comment
元ポスト:
コントロールされた実験において、深さ2のnestedなcompostition g(f(x))のデータでRLした場合は、テスト時に深さ6までのcompostitionを実行できるようになったが(=メタスキルとしてcompostitionを獲得した)、深さ1のnon-nestedなデータでRLした場合は複雑なcompostitionが必要なタスクを解けなかった。また、一般的にベースモデルがある程度解ける問題に対してRLを適用したモデルのpass@1000はあまり向上しないことから、RLは新しいスキルを何も教えていないのではないか、といった解釈がされることがあるが、より高次のcompostitionが必要なタスクで評価すると明確に性能が良くなるので、実はより高次のcompostitionが必要なタスクに対する汎化性能を伸ばしている。compostitionでの能力を発揮するにはまず幅広いatomicなスキルが必要なので、しっかりそれを事前学習で身につけさせ、その後post-trainingによって解決したいタスクのためのatomic skillのcompostitionの方法を学習させると効果的なのではないか、といった話な模様。
この辺のICLの話と似ている
- What Do Language Models Learn in Context? The Structured Task Hypothesis, Jiaoda Li+, N/A, ACL'24
FineVision: Open Data Is All You Need, Wiedmann+, Hugging Face, 2025.09
Paper/Blog Link My Issue
#Article #ComputerVision #Pretraining #NLP #Dataset #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-09-05 Comment
HF: https://huggingface.co/datasets/HuggingFaceM4/FineVision
元ポスト:
信頼できるLLM-as-a-Judgeの構築に向けた研究動向, tsurubee, 2025.09
Paper/Blog Link My Issue
#Article #Survey #NLP #LLM-as-a-Judge #read-later Issue Date: 2025-09-04 Comment
ブログ中で解説されているサーベイ論文は下記:
- A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24
Inside vLLM: Anatomy of a High-Throughput LLM Inference System, Aleksa Gordić blog, 2025.08
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #python #LLMServing #read-later #Selected Papers/Blogs Issue Date: 2025-09-03 Comment
めっちゃ良さそう
Probing LLM Social Intelligence via Werewolf, foaster.ai, 2025.08
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #Reasoning Issue Date: 2025-08-31 Comment
元ポスト:
fastvlm-webgpu, Apple, 2025.08
Paper/Blog Link My Issue
#Article #ComputerVision #EfficiencyImprovement #NLP #SmallModel #VisionLanguageModel Issue Date: 2025-08-30 Comment
元ポスト:
pj page: https://fastvlm.net
Introducing Research-Eval: A Benchmark for Search-Augmented LLMs, Reka, 2025.08
Paper/Blog Link My Issue
#Article #Evaluation Issue Date: 2025-08-29 Comment
元ポスト:
Introducing Gemini 2.5 Flash Image, our state-of-the-art image model, Google, 2025.08
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #TextToImageGeneration #Proprietary #Editing Issue Date: 2025-08-28 Comment
nano banana
ベストプラクティス:
プロンプトガイドと戦略:
https://ai.google.dev/gemini-api/docs/image-generation?hl=ja#prompt-guide
元ポスト:
「推論する生成AI」は事前学習されていない課題を正しく推論することができない(共変量シフトに弱い), TJO, 2025.08
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Chain-of-Thought #Reasoning #CovarianceShift Issue Date: 2025-08-27 Comment
- [Paper Note] Physics of Language Models: Part 2.1, Grade-School Math and the Hidden Reasoning Process, Tian Ye+, ICLR'25
でLLMは未知の問題を解ける(学習データに存在しない同等のlengthの未知のサンプルを解ける/テストデータで訓練データよりもより複雑な長いlengthの問題を解ける)と比べると、両者から得られる結論から何が言えるのだろうか?観測できるCoTとhidden mental reasoning process (probingで表出させて分析)は分けて考える必要があるのかもしれない。元論文をきちんと読めていないから考えてみたい。
あと、ブログ中で紹介されている論文中ではPhysics of Language Modelsが引用されていないように見えるが、論文中で引用され、関連性・差別化について言及されていた方が良いのではないか?という感想を抱いた。
関連:
- [Paper Note] Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens, Chengshuai Zhao+, arXiv'25
- [Paper Note] Understanding deep learning requires rethinking generalization, Chiyuan Zhang+, ICLR'17
- [Paper Note] UQ: Assessing Language Models on Unsolved Questions, Fan Nie+, arXiv'25
元ポスト:
NEC、暗黙知をデータ化し学習・活用することでWeb業務を自動化するエージェント技術「cotomi Act」を開発 〜世界初、人間を超えるWebタスク成功率80.4%を達成〜, NEC, 2025.08
Paper/Blog Link My Issue
#Article #NLP #AIAgents #ComputerUse Issue Date: 2025-08-27 Comment
元ポスト:
WebArena:
- WebArena: A Realistic Web Environment for Building Autonomous Agents, Shuyan Zhou+, ICLR'24
Your Efficient RL Framework Secretly Brings You Off-Policy RL Training, Yao+, 2025.08
Paper/Blog Link My Issue
#Article #Library #ReinforcementLearning #Selected Papers/Blogs #On-Policy #KeyPoint Notes #Reference Collection #train-inference-gap Issue Date: 2025-08-26 Comment
元ポスト:
元々
- verl: Volcano Engine Reinforcement Learning for LLMs, ByteDance Seed Team, 2025.04
のスレッド中にメモっていたが、アップデートがあったようなので新たにIssue化
trainingのエンジン(FSDP等)とロールアウトに使うinferenceエンジン(SGLang,vLLM)などのエンジンのミスマッチにより、学習がうまくいかなくなるという話。
アップデートがあった模様:
- Parallelismのミスマッチでロールアウトと学習のギャップを広げてしまうこと(特にsequence parallelism)
- Longer Sequenceの方が、ギャップが広がりやすいこと
- Rolloutのためのinferenceエンジンを修正する(SGLang w/ deterministic settingすることも含む)だけでは効果は限定的
といった感じな模様。
さらにアップデート:
FP16にするとtrain-inferenae gapが非常に小さくなるという報告:
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10
vLLMがtrain inference mismatchを防ぐアップデートを実施:
Why Stacking Sliding Windows Can't See Very Far, Guangxuan Xiao , 2025.08
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Attention Issue Date: 2025-08-26 Comment
元ポスト:
Best Practices for Building Agentic AI Systems: What Actually Works in Production, Shayan Taslim, 2025.08
Paper/Blog Link My Issue
#Article #Tutorial #AIAgents Issue Date: 2025-08-25 Comment
元ポスト:
vLLMのSpeculative Decodingによる推論高速化を試す, Aratako, 2025.05
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #LanguageModel #python #LLMServing #Decoding #SpeculativeDecoding Issue Date: 2025-08-21
One Month in MCP: What I Learned the Hard Way, r_mcp, 2025.05
Paper/Blog Link My Issue
#Article #MCP Issue Date: 2025-08-20 Comment
元ポスト:
ProRL V2 - Prolonged Training Validates RL Scaling Laws, Hu+, 2025.08
Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #ReinforcementLearning #read-later Issue Date: 2025-08-12 Comment
元ポスト:
RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation, Jiang+, Alibaba, 2025.08
Paper/Blog Link My Issue
#Article #NLP #Transformer #VariationalAutoEncoder #OpenWeight #VideoGeneration/Understandings #Robotics #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-08-12 Comment
TL;DRは下記。
> We introduce RynnVLA-001, a vision-language-action model built upon large-scale video generative pre-training.
> - RynnVLA-001 is pretrained on ~12M ego-centric manipulation videos.
> - We unify next-frame prediction and next-action prediction into a single transformer.
> - We train a lightweight VAE to accurately compress action chunks into action embeddings.
> - Our RynnVLA-001 outperforms Pi-0 and GR00T-N1.5, in terms of both real-world task success rate and instruction-following capability.
まず、11.93Mの一人称視点での人間が操作(特に手の操作)をする動画と、244Kのrobotが操作をする動画でTransformerを事前学習する。このとき、actionラベルは一切用いず、pixelの情報から物理世界のダイナミクスを理解させる。続いて、Action Chunks(複数のアクションの少量のかたまり)を、dense embeddingにエンコードするVAEを学習する。チャンクを用いる理由は、ピクセルの変化が微小な場合、同じアクションが連続して予測されてしまいstuckしめしまう現象を防ぐこと、予測の効率が良いからとのこと。これによりVLAは単一のembedding vectorを予測するだけで、一貫性のあるアクション系列にデコードできる。最後に、step1で学習したvideo generationモデルと、step2で学習したVAEによるaction representationを統合する。具体的には、next frame prediction(visual tokenを予測; cross entropy loss)とnext action prediction(action edbeddingを予測する)を統合して学習する。action embeddingはcontinuousなベクトルなので異なるヘッドを用意して学習する(L1 Loss)。inference時はRGBのobservationと、テキストによるinstructionを入力として受け取り、action embeddingを予測する。action edbeddingはVAE decoderに渡され、low levelなaction系列に変換される。robotは予測されたアクションを実行し、observationが変化するのでまた予測する、といったiterationを実施する。visual tokenによる予測は不要なので、計算効率の観点から実施しない。
元ポスト:
HF: https://huggingface.co/Alibaba-DAMO-Academy/RynnVLA-001-7B-Base
Breakdown: Kimi K2, DeepSeek-R1, Qwen3 (+Coder), and GLM-4.5, TuringPost, 2025.08
Paper/Blog Link My Issue
#Article #NLP #Reasoning #OpenWeight Issue Date: 2025-08-11 Comment
元ポスト:
中国初のOpenLLMについて、それぞれの強みとおすすめのユースケースがまとまっている
ポスト中で紹介されているのは下記
- Kimi K2: Open Agentic Intelligence, moonshotai, 2025.07
- GLM-4.5: Reasoning, Coding, and Agentic Abililties, Zhipu AI Inc., 2025.07
- DeepSeek-R1, DeepSeek, 2025.01
- Qwen3-235B-A22B-Instruct-2507, Qwen Team, 2025.08
- Qwen3-Coder-30B-A3B-Instruct, QwenTeam, 2025.08
以下のようなものもある:
- MiniMax-M1, MiniMax, 2025.06
- Hunyuan-A13B-Instruct, tencent, 2025.06
Agent Maze, LlamaIndex, 2025.08
Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #Evaluation Issue Date: 2025-08-08 Comment
元ポスト:
最小限のツール利用することを前提に迷路をクリアする必要があるベンチマークな模様。難易度を調整可能で、GPT-5でも難易度の高い迷路には苦戦しているとのこと。
難易度調整可能なものとしては以下のようなものもある:
- Sudoku-bench, SakanaAI, 2025.03
- [Paper Note] SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond, Junteng Liu+, arXiv'25
Genie 3: A new frontier for world models, Google DeepMind, 2025.08
Paper/Blog Link My Issue
#Article #ComputerVision #Online/Interactive #read-later #WorldModels Issue Date: 2025-08-06 Comment
元ポスト:
ライブ操作が可能な世界モデル
日本語解説:
デモ:
すごいなあ
Introducing Kaggle Game Arena, Meg Risdal, 2025.08
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Evaluation #Game Issue Date: 2025-08-06 Comment
元ポスト:
現在はチェスのみの模様
チェスときくとこの研究を思い出す:
- Learning to Generate Move-by-Move Commentary for Chess Games from Large-Scale Social Forum Data, Jhamtani+, ACL'18
Claude Opus 4.1, Anthropic, 2025.08
Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #AIAgents #Coding #Proprietary Issue Date: 2025-08-06 Comment
他モデルとの性能比較:
やはりコーディングでは(SNS上での口コミでは非常に高評価なように見えており、かつ)o3やGeminiと比較してClaudeがベンチ上でも高い性能を示している模様。
元ポスト:
The Big LLM Architecture Comparison, Sebastian Laschka, 2025.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Transformer #Architecture #Selected Papers/Blogs Issue Date: 2025-08-06 Comment
Qwen3とGPT-OSSの比較はこちら:
最新のモデルも含めて内容が更新:
DeepSeek V3/R1
- MLA
- MoE
OLMo2
- LayerNorm → RMSNorm
- PreLN → PostNorm (Post RMSNorm)
- ただしオリジナルのtransformerとは異なり、residual connectionの内側にRMSNormが入る
- QK-Norm
- PostNorm + QK-Normによりpost normalizationのアーキテクチャでも学習が安定
Gemma3
- 27B程度の性能がそこそこ良く使いやすいサイズにフォーカス
- Sliding Window Attention / Local Attention
- Gemma2はlocal:global比はり1:1で、window幅は4kだったが、Gemma3は5:1となり、localの比率が5倍になり、window幅も1024となり1/4に
- ablation実験の結果性能の低下はminimumであることが示されている
- GQA
- Pre-RMSNorm + Post-RMSNorm
- これもresidual connectionの内側
あとで書く
日本語ModernBERTの開発: トークナイザと性能の関係編 (3_3), SBIntuitions, 2025.05
Paper/Blog Link My Issue
#Article #Analysis #NLP #Tokenizer #Finetuning #Encoder Issue Date: 2025-08-02 Comment
SBIntuitionsが公開している事前学習済みModernBertは4.4Tトークンの超大規模なトークンで学習されており、それらには多様な表現が出現するため通常では大幅に性能が劣化してしまうトークナイザの事後的にトークナイザを変換し、変換後トークナイザ→サブワード化を実施した場合に、downstreamタスクの性能が劣化するかを調査。その結果、性能の劣化がほとんど表出しなかった(特にモデルサイズが310mの場合は性能の劣化はほぼなさそう)。また、MeCab(Unidic)でわかち書きかれている前提の固有表現認識ベンチマークでの評価の結果、同様の条件でトークナイズをするモデル(パラメータサイズも同等)と、同等程度の性能を示した。ので、SBIntuitionsが公開している日本語ModernBERTにおいては、トークナイザを事後的に変換したのちにサブワード化を実施しモデルのinputとするような方法をしても、問題なさそう、という感じな模様。興味深い。
元ポスト:
大規模言語モデルPLaMo 2シリーズの事後学習, PFN, 2025.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #PostTraining Issue Date: 2025-07-31 Comment
元ポスト:
9 new policy optimization techniques, Kseniase, 2025.07
Paper/Blog Link My Issue
#Article #Survey #NLP #LanguageModel #ReinforcementLearning Issue Date: 2025-07-27 Comment
元ポスト:
Amazon S3 Vectorsで激安RAGシステムを構築する, とすり, 2025.07
Paper/Blog Link My Issue
#Article #AWS #RAG(RetrievalAugmentedGeneration) #SoftwareEngineering Issue Date: 2025-07-17 Comment
元ポスト:
Asymmetry of verification and verifier’s law, Jason Wei, 2025.07
Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #Verification Issue Date: 2025-07-17 Comment
元ポスト:
個人を活かしてチーム力も最大化する、属人性解消への取り組み方, エムスリーテックブログ, 2025.07
Paper/Blog Link My Issue
#Article #Mindset Issue Date: 2025-07-15 Comment
属人性と向き合いチームの成果を最大化する
推薦システムにおけるPost Processの取り組み, Wantedly, 2025.07
Paper/Blog Link My Issue
#Article #RecommenderSystems #Slide Issue Date: 2025-07-15 Comment
元ポスト:
Wantedlyスカウトにおいて、オンラインで動的にスカウト利用者から指定されるフィルタリング要件に対して、未閲覧のユーザの比率を動的に調整してランキングするPost Processによって、主要KPIが大幅に改善した話。モデル改善に興味が行きがちだが、顧客理解に基づくPost Processでここまで主要KPIが改善するのは美しく、非常に興味深い。
スライド資料:
きみはNanoGPT speedrunを知っているか?, PredNext, 2025.07
Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #Optimizer Issue Date: 2025-07-15
H-Nets - the Past, Goomba Lab, 2025.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Tokenizer Issue Date: 2025-07-12 Comment
元ポスト:
tokenizerも含めてデータに対して最適なinputの粒度を学習
公式ポスト(?):
関連:
- Byte Latent Transformer: Patches Scale Better Than Tokens, Artidoro Pagnoni+, ICML'25 Workshop Tokshop
- [Paper Note] From Bytes to Ideas: Language Modeling with Autoregressive U-Nets, Mathurin Videau+, NeurIPS'25
ByteLatentTransformerなどとはどう違うのだろうか?
解説ポスト:
PLaMo翻訳による英語ベンチマークの翻訳, PFN, 2025.07
Paper/Blog Link My Issue
#Article #MachineTranslation #NLP #Dataset #SyntheticData Issue Date: 2025-07-09
New methods boost reasoning in small and large language models, Zhang+, Microsoft, 2025.06
Paper/Blog Link My Issue
#Article #Reasoning #read-later Issue Date: 2025-07-08 Comment
元ポスト:
Context Engineering - What it is, and techniques to consider, llamaindex, 2025.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #SoftwareEngineering #ContextEngineering Issue Date: 2025-07-04 Comment
元ポスト:
The New Skill in AI is Not Prompting, It's Context Engineering, PHLSCHMID, 2025.06
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #SoftwareEngineering #ContextEngineering Issue Date: 2025-07-04 Comment
元ポスト:
日経電子版のアプリトップ「おすすめ」をTwo Towerモデルでリプレースしました, NIKKEI, 2025.05
Paper/Blog Link My Issue
#Article #RecommenderSystems #NeuralNetwork #Embeddings #EfficiencyImprovement #AWS #MLOps #A/B Testing #TwoTowerModel Issue Date: 2025-06-29 Comment
リアルタイム推薦をするユースケースにおいて、ルールベース+協調フィルタリング(Jubatus)からTwo Towerモデルに切り替えた際にレイテンシが300ms増えてしまったため、ボトルネックを特定し一部をパッチ処理にしつつもリアルタイム性を残すことで解決したという話。AWSの構成、A/Bテストや負荷テストの話もあり、実用的で非常に興味深かった。
LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05
Paper/Blog Link My Issue
#Article #Tutorial #Pretraining #NLP #Dataset #LanguageModel #Evaluation #OpenWeight #Japanese #PostTraining Issue Date: 2025-06-25 Comment
関連
- [Paper Note] Instruction Pre-Training: Language Models are Supervised Multitask Learners, Daixuan Cheng+, EMNLP'24
- [Paper Note] Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data, Fahim Tajwar+, ICML'24
- [Paper Note] AnswerCarefully: A Dataset for Improving the Safety of Japanese LLM Output, Hisami Suzuki+, arXiv'25
人間を騙してサボるAIたち, 佐藤竜馬, 2025.06
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #RLHF #Verification Issue Date: 2025-06-24
AI Agent Manager (AAM) として生きていく : 作業環境とワークフローの設計, icoxfog417, 2025.06
Paper/Blog Link My Issue
#Article #NLP #AIAgents #Coding #SoftwareEngineering Issue Date: 2025-06-23 Comment
元ポスト:
Nano-vLLM, GeeeekExplorer, 2025.06
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #python #Repository #LLMServing #MinimalCode Issue Date: 2025-06-22 Comment
元ポスト:
vLLMと同等のinference speedを実現するミニマムでクリーンな実装。勉強用に良さそう。
AI-assisted coding for teams that can't get away with vibes, Atharva Raykar, 2025.05
Paper/Blog Link My Issue
#Article #AIAgents #Coding #read-later Issue Date: 2025-06-21 Comment
元ポスト:
Single vs Multi-Agent System?, PHILSCHMID, 2025.06
Paper/Blog Link My Issue
#Article #NLP #AIAgents #read-later Issue Date: 2025-06-21 Comment
元ポスト:
Q-learning is not yet scalable, Seohong Park, UC Berkeley, 2025.06
Paper/Blog Link My Issue
#Article #Tutorial #ReinforcementLearning #Off-Policy #On-Policy Issue Date: 2025-06-19 Comment
元ポスト:
on-policy RLでは、現在の状態からポリシーに従ってアクションを選択して、実際に選択したアクションのrewardとQ値をシグナルにしてポリシーを更新するけど、off-policy RLでは、未来において現在の(Q関数で)Q値が最大となるアクションを選択した場合に得られる価値はどんなもん?というQ関数の学習が甘い状態だととあるアクションを過大評価してしまう(=バイアス)ようなシグナルに基づいて更新されるから、系列が長くなるとバイアスが蓄積して適切なQ関数が学習できなくなってdepth方向にスケールしづらいんだよ、という話っぽい?
Don’t Build Multi-Agents, Cognition, 2025.06
Paper/Blog Link My Issue
#Article #Multi #NLP #AIAgents #read-later #ContextEngineering Issue Date: 2025-06-17 Comment
元ポスト:
まとめ:
Webスケールの日本語-画像のインターリーブデータセット「MOMIJI」の構築 _巨大テキストデータをAWSで高速に処理するパイプライン, Turing (studio_graph), 2025.05
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Dataset #LanguageModel #AWS #MultiModal #Japanese Issue Date: 2025-05-20 Comment
貴重なVLMデータセット構築ノウハウ
青塗りのフィルタリングタスクを具体的にどうやっているのか気になる
Lesson.3 秋葉氏に学ぶ AI 研究の最前線から見るこれまでとこれから, EM.FM, 2025.05
Paper/Blog Link My Issue
#Article #read-later Issue Date: 2025-05-18 Comment
元ポスト:
OpenAI-Codex, OpenAI, 2025.05
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding Issue Date: 2025-05-18 Comment
OpenHandsのNeubig氏が、OpenAIのブログポスト中で報告されているSWE-Bench Verifiedのスコアについて、言及している。OpenAIは23個サンプルについて(internal infrastructureで動作させられないため)除外しているので、その分スコアに下駄が履かれているようで、ブログ中のpassNのスコアを他のリーダーボードのスコアと比較する際には注意が必要っぽい。
The Second Half, Shunyu Yao, 2025.05
Paper/Blog Link My Issue
#Article Issue Date: 2025-05-12 Comment
元ポスト:
ms-swiftによるMegatron-LMベースのQwen3のファインチューニング, Aratako, 2025.05
Paper/Blog Link My Issue
#Article #NLP #Library #Supervised-FineTuning (SFT) #OpenWeight #MoE(Mixture-of-Experts) #PostTraining Issue Date: 2025-05-11 Comment
元ポスト:
Megatron-SWIFTというAlibaba製のライブラリを利用しQwen3の継続事前学習とSFTを実施する方法を、ベストプラクティスに則って記述し、かつ著者自身が学習したモデルも公開している。(おそらくインスタンス代は自腹なので)すごい...!!
Megatron-SWIFTはMoEアーキテクチャを採用したモデルであれば、DeepSpeed Zero3 [^1]と比べて10倍程度のスループットで学習できる模様(早い)。一方MoEアーキテクチャでないモデルの場合はそこまで大きな差はない。
[^1]: A100 80GB 2ノードでは、Qwen3-30B-A3Bは、DeepSpeed-Zero2ではOOMとなり載らないようだ…。なんとリソースに厳しいこと…(涙)
時系列データのvalidationに関する質問に回答します, カレーちゃん, 2022.07
Paper/Blog Link My Issue
#Article #TimeSeriesDataProcessing #Evaluation Issue Date: 2025-05-09 Comment
元スレッド:
めちゃめちゃ参考になる・・・
Agent Frameworkはどれを使うべきか [タスク性能編], はち, 2025.05
Paper/Blog Link My Issue
#Article #Analysis #NLP #Library #AIAgents Issue Date: 2025-05-06 Comment
各フレームワーク毎の性能の違いや消費したトークン数、実装の微妙や違いがまとめられており、太字でtakeawayが記述されているので非常にわかりやすい。
元ポスト:
React がビルドされるまでの流れを理解したい, ツチノコ, 2023.12
Paper/Blog Link My Issue
#Article #Frontend #React (Frontend) Issue Date: 2025-05-01 Comment
Reactがビルドされる流れは、
- Webpackでバンドル(アセットをまとめる)し
- Babelでトランスパイルし(ES5(古い仕様のJS) に変換)し
- tscでJavaScriptに変換
する
Qwen3, Qwen Team, 2025.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #InstructionTuning #LongSequence #MultiLingual #OpenWeight #MoE(Mixture-of-Experts) #PostTraining Issue Date: 2025-04-29 Comment
- 119言語をサポート
- MoEモデル Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer, Noam Shazeer+, ICLR'17
- 30B-A3B / 235B-A22N
- 128K context window
- Qwen2.5はMoEを採用していないので新たなアーキテクチャとなる
- Denseモデル(非MoEモデル)も公開
- 0.6B -- 32B
- 32K -- 128K context window
- Thinking/Non-thinking の切り替えが切り替えが可能
- スイッチは自動的に実施されるが、ユーザが明示的に `/think`, `/no_think` を user_promptの末尾に追加することで制御することも可能
- Pre-training
- データ
- 36 trillion tokensによって学習(Qwen-2.5の2倍)
- 学習データではwebデータに加えて、PDF-likeな文書群からQwen2.5-VL Qwen2.5-VL-32B-Instruct, Qwen Team, 2025.03
によってテキストを抽出し、Qwen2.5 で抽出された内容の品質を改善し利用
- また、math / code に関するデータを追加するために、Qwen2.5-Math / Qwen2.5-Coderを用いて合成データを作成(textbooks / QA pairs / code snippets Textbooks Are All You Need, Suriya Gunasekar+, N/A, arXiv'23
)
- 事前学習のステップ
- S1: context長が4kの30 trillion tokenで事前学習
- S2: STEM / coding / reasoning task などのknowledge-intensiveデータの比率を増やして継続事前学習 (これがおそらく 5 trillion token程度?)
- Final Stage: context長を32kに拡大し高品質なlong-context dataで継続事前学習
- これによりBaseモデルが完成し、Qwen3-235B全体のうち10%程度のActive Parameterの利用するだけで(i.e., 22Bで)、Qwen2.5-72B Baseと同等以上の性能達成
- Post-training
- S1: long-CoT cold start
- 数学/coding/logical reasoning/STEMなどの多様なlong CoTデータを用いてSFT s1: Simple test-time scaling, Niklas Muennighoff+, arXiv'25
- S2: reasoning-based RL
- rule-based (verifiable) rewards によるRL DeepSeek-R1, DeepSeek, 2025.01
- S1/S2の流れは [Paper Note] Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, arXiv'25
に有効性が示されている通り、long CoT DataによるSFT -> RLを実施
- S3: thinking mode fusion
- S2データを用いてlong CoTデータとinstruction tuningデータ(非Long CoT)を生成し、Thinking/Non-thinkingを自動的に選択し生成するように学習(SFT or RLは記述なし)
- S4: general RL
- 20以上の一般的なドメインのタスクを通じて一般的な能力の向上と、safetyに関するalignmentの実施(e.g., instruction following, format following, agent能力など)
BestPracticeに関するポスト:
解説:
Improving Recommendation Systems & Search in the Age of LLMs, eugeneyan, 2025.04
Paper/Blog Link My Issue
#Article #RecommenderSystems #LanguageModel Issue Date: 2025-04-28
Deepwiki, Cognition, 2025.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Repository Issue Date: 2025-04-26 Comment
githubリポジトリに関するリッチなドキュメントに対してDevinを通じて対話的に質問ができる模様。サインアップ不要で、githubリポジトリのドメインをdeepwikiに変えるだけで利用可能
Introducing UI-TARS-1.5, ByteDance, 2025.04
Paper/Blog Link My Issue
#Article #ComputerVision #Pocket #NLP #LanguageModel #AIAgents #MultiModal #Reasoning #OpenWeight #ComputerUse #VisionLanguageModel Issue Date: 2025-04-18 GPT Summary- UI-TARSは、スクリーンショットを入力として人間のようにインタラクションを行うネイティブGUIエージェントモデルであり、従来の商業モデルに依存せず、エンドツーエンドで優れた性能を発揮します。実験では、10以上のベンチマークでSOTA性能を達成し、特にOSWorldやAndroidWorldで他のモデルを上回るスコアを記録しました。UI-TARSは、強化された知覚、統一アクションモデリング、システム-2推論、反射的オンライントレースによる反復トレーニングなどの革新を取り入れ、最小限の人間の介入で適応し続ける能力を持っています。 Comment
paper: https://arxiv.org/abs/2501.12326
色々と書いてあるが、ざっくり言うとByteDanceによる、ImageとTextをinputとして受け取り、TextをoutputするマルチモーダルLLMによるComputer Use Agent (CUA)
関連
- OpenAI API での Computer use の使い方, npaka, 2025.03
元ポスト:
研究者向けの技術研修資料を公開します, CyberAgent, 2025.04
Paper/Blog Link My Issue
#Article #Tutorial Issue Date: 2025-04-18 Comment
気になる
あえて予測の更新頻度を落とす| サプライチェーンの現場目線にたった機械学習の導入, モノタロウ Tech Blog, 2022.03
Paper/Blog Link My Issue
#Article #MachineLearning Issue Date: 2025-04-18 Comment
とても面白かった。需要予測の予測性能を追求すると現場にフィットしない話が示唆に富んでいて、とてもリアルで興味深い。
ジュニアエンジニアからシニアエンジニアになるまでに自分がやっていたことまとめ, yasuhisa's blog, 2025.04
Paper/Blog Link My Issue
#Article #Mindset #SoftwareEngineering Issue Date: 2025-04-01
Recommendation Systems • LLM, vinjia.ai, 2025.03
Paper/Blog Link My Issue
#Article #RecommenderSystems #Survey #NLP #LanguageModel Issue Date: 2025-03-31 Comment
言語モデルの物理学, 佐藤竜馬, 2025.03
Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #Selected Papers/Blogs Issue Date: 2025-03-25 Comment
必読
Nemotron-H: A Family of Accurate, Efficient Hybrid Mamba-Transformer Models, Nvidia, 2025.03
Paper/Blog Link My Issue
#Article #ComputerVision #EfficiencyImprovement #Pretraining #NLP #LanguageModel #Transformer #Supervised-FineTuning (SFT) #MultiModal #SSM (StateSpaceModel) #Selected Papers/Blogs Issue Date: 2025-03-24 Comment
関連:
- Hunyuan T1, Tencent, 2025.03
TransformerのSelf-attention LayerをMamba2 Layerに置換することで、様々なベンチマークで同等の性能、あるいは上回る性能で3倍程度のInference timeの高速化をしている(65536 input, 1024 output)。
56B程度のmediumサイズのモデルと、8B程度の軽量なモデルについて述べられている。特に、8BモデルでMambaとTransformerのハイブリッドモデルと、通常のTransformerモデルを比較している。学習データに15 Trillion Tokenを利用しており、このデータ量でのApple to Appleのアーキテクチャ間の比較は、現状では最も大規模なものとのこと。性能は多くのベンチマークでハイブリッドにしても同等、Commonsense Understandingでは上回っている。
また、学習したNemotron-Hをバックボーンモデルとして持つVLMについてもモデルのアーキテクチャが述べられている。
8 Types of RoPE, Kseniase, 2025.03
Paper/Blog Link My Issue
#Article #Survey #Embeddings #Pocket #NLP #LanguageModel #PositionalEncoding Issue Date: 2025-03-23 Comment
元ポスト: https://huggingface.co/posts/Kseniase/498106595218801
RoPEについてサーベイが必要になったら見る
The "think" tool: Enabling Claude to stop and think in complex tool use situations, Anthropic, 2025.03
Paper/Blog Link My Issue
#Article #Tools #Pocket #NLP #LanguageModel #Chain-of-Thought #Reasoning Issue Date: 2025-03-23 Comment
"考える"ことをツールとして定義し利用することで、externalなthinkingを明示的に実施した上でタスクを遂行させる方法を紹介している
15 types of attention mechanisms, Kseniase, 2025.03
Paper/Blog Link My Issue
#Article #Survey #Attention Issue Date: 2025-03-18 Comment
Luongらのアテンションやsoft, globalアテンションなど、古くからあるattentionも含まれている。
Model Context Protocol (MCP), Anthropic
Paper/Blog Link My Issue
#Article #AIAgents Issue Date: 2025-03-15 Comment
下記リンクのMCPサーバ/クライアントの作り方を読むとだいぶ理解が捗る:
https://modelcontextprotocol.io/quickstart/server
https://modelcontextprotocol.io/quickstart/client
browser-useの基礎理解, むさし, 2024.12
Paper/Blog Link My Issue
#Article #AIAgents #ComputerUse Issue Date: 2025-03-15 Comment
公式リポジトリ: https://github.com/browser-use/browser-use
BrowserUseはDoMを解析するということは内部的にテキストをLLMで処理してアクションを生成するのだろうか。OpenAIのComputer useがスクリーンショットからアクションを生成するのとは対照的だと感じた(小並感)。
- OpenAI API での Computer use の使い方, npaka, 2025.03
OpenAI API での Computer use の使い方, npaka, 2025.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #ComputerUse Issue Date: 2025-03-12 Comment
OpenAIのCompute Useがどのようなものかコンパクトにまとまっている。勉強になりました。
公式: https://platform.openai.com/docs/guides/tools-computer-use
The State of LLM Reasoning Models, Sebastian Raschka, 2025.03
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Reasoning #Test-Time Scaling Issue Date: 2025-03-09
GRPO Judge Experiments: Findings & Empirical Observations, kalomaze's kalomazing blog, 2025.03
Paper/Blog Link My Issue
#Article #MachineLearning #NLP #LanguageModel #ReinforcementLearning #GRPO Issue Date: 2025-03-05 Comment
一意に解が決まる問題ではなく、ある程度の主観的な判断が必要なタスクについてのGRPOの分析。
2つのテキストを比較するタスクで、一方のタスクはLLMによって摂動を与えている(おそらく意図的にcorruptさせている)。
GRPOではlinearやcosineスケジューラはうまく機能せず、warmupフェーズ有りの小さめの定数が有効らしい。また、max_grad_normを0.2にしまgradient clippingが有効とのこと。
他にもrewardの与え方をx^4にすることや、length, xmlフォーマットの場合にボーナスのrewardを与えるなどの工夫を考察している。
強化学習「GRPO」をCartPoleタスクで実装しながら解説, 小川雄太郎, 2025.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #GRPO Issue Date: 2025-02-19 Comment
元ポスト:
DeepScaleR: Surpassing O1-Preview with a 1.5B Model by Scaling RL, Luo+, 2025.02
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #ContextWindow #One-Line Notes Issue Date: 2025-02-12 Comment
日本語解説: https://jobirun.com/deepscaler-1-5b-surpasses-o1-preview-rl-scaling/
openreview:
https://openreview.net/forum?id=I6GzDCne7U
Iterative Context Lengtheningと呼ばれる、RLの学習時に最初から固定された大きなcontext(24Kなど)ではなく、学習の過程で小さなcontext windowから始め、効率的なreasoningを学習させながら、段階的にモデルのcontext windowを引き上げる手法(論文中では8K->16K->24K)を提案している。
DeepSeek-R1の論文読んだ?【勉強になるよ】 , asap, 2025.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #FoundationModel #RLHF #Selected Papers/Blogs Issue Date: 2025-02-01 Comment
- DeepSeek-R1, DeepSeek, 2025.01
- DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open
Language Models, Zhihong Shao+, arXiv'24
とても丁寧でわかりやすかった。後で読んだ内容を書いて復習する。ありがとうございます。
How to fine-tune open LLMs in 2025 with Hugging Face, PHILSCHMID, 2024.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #PostTraining Issue Date: 2025-01-25 Comment
SFTTrainerを用いたLLMのSFTについて、実用的、かつ基礎的な内容がコード付きでまとまっている。
How to align open LLMs in 2025 with DPO & and synthetic data, PHILSCHMID, 2025.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #DPO #PostTraining Issue Date: 2025-01-25 Comment
元ポスト:
- DPOの概要やRLHFと比較した利点
- ルールベース、あるいはLLM as a Judgeを用いたOn-policy preference pair(現在のSFTしたモデルの出力から生成したpreference data)の作り方とその利点(現在のモデルのoutput distributionを反映しているので学習が効率化される)
- 環境構築方法
- DPOTrainer/TRLParserの使い方/DPODatasetの作り方
- DPOのハイパーパラメータβの意味合い
- DPOではSFTと比べて10-100x小さい学習率を使う必要があること
- Evaluation Harnessを用いた評価方法
- TGIを用いたモデルのデプロイとテスト
などが丁寧なサンプルコードと注釈、reference付きで説明されている。
Japan as an international hub for AI, Jerry Chi and Ilya Kulyatin, 2025.01
Paper/Blog Link My Issue
#Article #GenerativeAI Issue Date: 2025-01-06
DeepSeek-V2のアーキテクチャを徹底解説:MLA と DeepSeekMoE, kernelian, 2024.05
Paper/Blog Link My Issue
#Article #NLP #LanguageModel Issue Date: 2025-01-05 Comment
AI Agents 2024 Rewind - A Year of Building and Learning, VICTOR DIBIA, 2025.01
Paper/Blog Link My Issue
#Article #LanguageModel #AIAgents Issue Date: 2025-01-05
AI Agent Era, 福島良典 | LayerX, 2024.12
Paper/Blog Link My Issue
#Article #LanguageModel #AIAgents Issue Date: 2025-01-05
LLMがオワコン化した2024年, らんぶる, 2025.01
Paper/Blog Link My Issue
#Article #LanguageModel Issue Date: 2025-01-05 Comment
LLMを(呼び出す|呼び出される)SaaS企業が今後どのような戦略で動いていくかが考察されており興味深かった。
pydantic-settingsで環境変数からもオプション引数を指定できるCLIを作る 〜サブコマンド篇〜, nikkie-ftnextの日記, 2025.01
Paper/Blog Link My Issue
#Article #python Issue Date: 2025-01-04 Comment
pydantic-settingsを使ったCLI作成に関する記事。環境変数からオプションを指定できるので、コマンドライン引数を動的に柔軟に変更したい場合に便利そう
browser-use やばいです, Syoitu, 2024.12
Paper/Blog Link My Issue
#Article #NLP #AIAgents #python #API #ComputerUse Issue Date: 2025-01-04 Comment
すごい手軽に使えそうだが、クローリング用途に使おうとするとhallucinationが起きた時に困るのでうーんと言ったところ。
Things we learned about LLMs in 2024, Simon Willson's blog, 2024.12
Paper/Blog Link My Issue
#Article #Pocket #NLP #GenerativeAI Issue Date: 2025-01-03 Comment
元ポスト:
To fine-tune or not to fine-tune, Meta, 2024.08
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-01-02 Comment
LLMをSFTする際の注意点やユースケースについて記述されている。
- full parameterのファインチューニングやPEFT手法のピークGPUメモリ
- full parameterのファインチューニングではcatastrophic forgettingに気をつける必要があること
- Finetuningが有用なユースケースとして以下が挙げられている
- トーン、スタイル、フォーマットのカスタマイザーション
- prompt engineeringやICLで達成するには困難なAccuracyの向上やエッジケースへの対応
- ドメイン適応
- より大きいモデルを蒸留することによるコスト削減
- 新たなタスクへの適応や能力の獲得
また、RAGとFinetuningどちらを選択すべきかに関する話題も記述されている(が、多くの場合はハイブリッドアプローチがベストだ、といった話も書いてある)。
元ポスト:
MHA vs MQA vs GQA vs MLA, Zain ul Abideen, 2024.07
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Attention Issue Date: 2024-12-28 Comment
DeepSeekで使われているMulti Head Latent Attention(MLA)ってなんだ?と思い読んだ。端的に言うと、GQAやMQAは、KVのヘッドをそもそも減らしてKV Cacheを抑えよう、という手法だったが、MLAはKVを低ランクなベクトルに圧縮して保持し、使う時に復元するといった操作をすることで、MHAのパフォーマンスを落とすことなく(むしろ上がるらしい?)、利用するKV Cacheで利用するメモリを大幅に減らせるという手法らしい。
- GQA: Training Generalized Multi-Query Transformer Models from Multi-Head
Checkpoints, Joshua Ainslie+, N/A, arXiv'23
MQA, GQAの概要については上記参照のこと。
LLM-as-a-Judge をサーベイする, Ayako, 2024.12
Paper/Blog Link My Issue
#Article #Survey #NLP #LanguageModel #Evaluation #LLM-as-a-Judge Issue Date: 2024-12-25 Comment
- A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24
を読んだ結果を日本語でまとめてくださっている。
モデル選択について、外部APIに依存するとコストやプライバシー、再現性などの問題があるためOpenLLMをFinetuningすることで対応していることが論文中に記載されているようだが、評価能力にはまだ限界があるとのこと。
記事中ではLlama, Vicunaなどを利用している旨が記述されているが、どの程度のパラメータサイズのモデルをどんなデータでSFTし、どのようなタスクを評価したのだろうか(あとで元論文を見て確認したい)。
また、後処理としてルールマッチで抽出する必要あがるが、モデルのAlignmentが低いと成功率が下がるとのことである。
個人的には、スコアをテキストとして出力する形式の場合生成したテキストからトークンを抽出する方式ではなく、G-Eva のようにスコアと関連するトークン(e.g. 1,2,3,4,5)とその尤度の加重平均をとるような手法が後処理が楽で良いと感じる。
ICLR2025の査読にLLM-as-a-Judgeが導入されるというのは知らなかったので、非常に興味深い。
LLMが好む回答のバイアス(冗長性、位置など)別に各LLMのメタ評価をしている模様。また、性能を改善するための施策を実施した場合にどの程度メタ評価で性能が向上するかも評価している。特に説明を出力させても効果は薄く、また、複数LLMによる投票にしても位置バイアスの軽減に寄与する程度の改善しかなかったとのこと。また、複数ラウンドでの結果の要約をさせる方法がバイアスの低減に幅広く寄与したとのこと。
うーん、バイアスを低減するうまい方法がまだ無さそうなのがなかなか厳しい感じがする。
そもそも根本的に人間に人手評価をお願いする時もめちゃめちゃマニュアルとかガイドラインを作り込んだりした上でもagreementが高くなかったりするので、やはり難しそうである。
ただ、MTBenchでは人間の評価結果とLLMの評価結果の相関(agreementだっけか…?)が高かったことなどが報告されているし、LLMあるあるのタスクごとに得意不得意があります、という話な気もする。
OpenAI o3は,人間とは全く異質の汎用知能である危険性【東大解説】, 神楽坂やちま, 2024.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #GenerativeAI Issue Date: 2024-12-24 Comment
様々な有識者の見解をまとめつつ、文献を引用しつつ、かつ最終的に「人間が知能というものに対してなんらかのバイアスを持っている」可能性がある、という話をしており興味深い。
一部の有識者はARC-AGIの一部の、人間なら見た瞬間に分かるようなパターン認識の問題でも解けていないことから、AGIではないと主張しているとのことだったが、人間目線で簡単な問題が解けることはAGIとして必須な条件ではないよね、といった話が書かれており、そもそも有識者がどのようなものさしや観点でAGIを見ているのか、どういう視点があるのか、ということが感覚的に分かる内容であり、おもしろかった。
しかし、そもそも何がどうなったらAGIが実現できたと言えるのだろうか?定義がわからない(定義、あるのか…?)
完全にオープンな約1,720億パラメータ(GPT-3級)の大規模言語モデル 「llm-jp-3-172b-instruct3」を一般公開 ~GPT-3.5を超える性能を達成~ , NII, 2024.12
Paper/Blog Link My Issue
#Article #Tools #NLP #Dataset #LanguageModel #OpenWeight #Japanese Issue Date: 2024-12-24 Comment
GPT3.5と同程度のパラメータ数のコーパス、モデル、ツール、全てを公開。学習データまで含めてオープンなモデルとしては世界最大規模とのこと。
Instructionチューニング済みのモデルはライセンスを読むと、ライセンスに記述されている内容を遵守すれば、誰でも(日本人なら18歳以上とかはあるが)アクセス可能、用途の制限(商用・非商用問わず)なく利用でき、かつ再配布や派生物の生成などが許されているように見える。
が、baseモデルの方はコンタクト情報を提供のうえ承認を受けないと利用できない模様。また、再配布と一部の使途に制限がある模様。
SNSではオープンソースではないなどという言説も出ており、それはbaseモデルの方を指しているのだろうか?よくわからない。
実用上はinstructionチューニング済みのモデルの方がbaseモデルよりも使いやすいと思うので、問題ない気もする。
やはりbaseとinstructでライセンスは2種類あるとのこと:
OpenAI o1を再現しよう(Reasoningモデルの作り方), はち, 2024.12
Paper/Blog Link My Issue
#Article #Pocket #LanguageModel #Reasoning #SelfCorrection Issue Date: 2024-12-22 Comment
Reflection after Thinkingを促すためのプロンプトが興味深い
Netflixの推薦&検索システム最前線 - QCon San Francisco 2024現地レポート, UZABASE, 2024.12
Paper/Blog Link My Issue
#Article #RecommenderSystems Issue Date: 2024-12-20 Comment
インフラ構成の部分が面白い。モデルの構築方法などは、まず軽量なモデルやヒューリスティックで候補を絞り、その後計算量が重いモデルでリランキングする典型的な手法。
Netflixのインフラによって、以下のようなことを
>1~2秒前の最新データを参照でき、推薦生成に反映させることが可能です
latencyを40msに抑えつつ実現しているとのこと。直前のアクションをinferenceで考慮できるのは相当性能に影響あると思われる。
また、検索と推薦をマルチタスク学習しパラメータをシェアすることで両者の性能を挙げているのが興味深い。
モデル自体は近年のLLMを用いた推薦では無く、Deepなニューラルネットに基づくモデルを採用
(まあLLMなんかにリアルタイムで推論させたらlatency 40ms未満という制約はだいぶきついと思われるしそもそも性能向上するかもわからん。予測性能とかよりも、推薦理由の生成などの他タスクも同時に実施できるのは強みではあるとは思うが…)。
まあしかし、すごい目新しい情報があったかと言われると基本的な内容に留まっているのでそうでもないという感想ではある。
Alignment faking in large language models, Anthropic, 2024.12
Paper/Blog Link My Issue
#Article #Pocket #Alignment Issue Date: 2024-12-19 Comment
RLHF_DPO 小話, 和地瞭良_ Akifumi Wachi, 2024.04
Paper/Blog Link My Issue
#Article #MachineLearning #NLP #LanguageModel #Alignment #RLHF #DPO Issue Date: 2024-12-18 Comment
めちゃめちゃ勉強になる…
Scaling test-time-compute, Huggingface, 2024.12
Paper/Blog Link My Issue
#Article #Pocket #LanguageModel #Test-Time Scaling Issue Date: 2024-12-17 Comment
これは必読
Fast LLM Inference From Scratch, Andrew Chan, 2024.12
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Pocket #LanguageModel Issue Date: 2024-12-17 Comment
ライブラリを使用せずにC++とCUDAを利用してLLMの推論を実施する方法の解説記事
株式会社NexaScienceはじめます。, Yoshitaka Ushiku, 2024.12
Paper/Blog Link My Issue
#Article Issue Date: 2024-12-12 Comment
全部読んだ。めちゃめちゃ共感できる。
Augmenting Recommendation Systems With LLMs, Dave AI, 2024.08
Paper/Blog Link My Issue
#Article #RecommenderSystems #Pocket #LanguageModel Issue Date: 2024-12-03
BM42: New Baseline for Hybrid Search, Qdrant, 2024.07
Paper/Blog Link My Issue
#Article #InformationRetrieval #Pocket #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-12-01
道は続く, Ryo Kobayashi, 2024.11
Paper/Blog Link My Issue
#Article #Mindset Issue Date: 2024-11-30 Comment
「道は続く」、心に刻みたい言葉
【総集編)】15年間のC向けサービスづくりで 得た学び, Shota Horii, 2024.11
Paper/Blog Link My Issue
#Article Issue Date: 2024-11-18 Comment
具体的だがシンプルに知見がまとまっていてとても分かりやすい。
顧客開発モデルに基づいた考え方のみならず、仮設整理のために実際に使われているシートなどの実用的なツール群や、
顧客とのチャネル構築方法、プロダクトのスケールするための知見、チームビルディング、カルチャーの作り方の作法など(他にも透明性とかサンクコストを恐れずシンプルさを保つことのコスト削減効果などここには書ききれない)、
実体験を具体的に交えながら説明されており、盛りだくさんで非常に勉強になる。
ローカルLLMのリリース年表, npaka, 随時更新, 2024.11
Paper/Blog Link My Issue
#Article #Survey #NLP #LanguageModel #OpenWeight #OpenSource Issue Date: 2024-11-15 Comment
ローカルLLMを含むOpenLLMのリリース日が年表としてまとまっており、随時更新されている模様。すごい。
The Surprising Effectiveness of Test-Time Training for Abstract Reasoning, 2024.11
Paper/Blog Link My Issue
#Article Issue Date: 2024-11-11
ほぼリアルタイム!?爆速で動作する日本語特化の文字起こしAI!『kotoba-whisper-v2.0』, 遼介 大堀, 2024.11
Paper/Blog Link My Issue
#Article #NLP #SpeechProcessing #AutomaticSpeechRecognition(ASR) Issue Date: 2024-11-07 Comment
whisper large-v3を蒸留したkotoba-whisper-v1.0に対して、日本語のオーディオデータで追加学習をしたモデル、kotoba-whisper-v2.0を利用するための環境構築方法やコードの例が記述されている。
公式によると、whisper-large-v3よりも6.3倍のスループットとのこと。また、qiita記事中ではwhisper large-v2に対して約6.0倍のスループットであることが言及されている。
学習に用いられたデータは、ReasonSpeechデータ(日本語のテレビの録音データ) ReazonSpeech: A Free and Massive Corpus for Japanese ASR, Yin+, NLP'23
をWERに基づくフィルタリングによって良質なデータのみを抽出することで作成されたデータの模様
公式のモデルカードも参照のこと:
https://huggingface.co/kotoba-tech/kotoba-whisper-v2.0
日本のテレビ番組のデータで学習されているので、それを念頭に置いた上で、自分が適用したいデータとの相性を考えると良さそうである。
また、動作速度が速いのはシンプルにありがたい。
Introducing quantized Llama models with increased speed and a reduced memory footprint, Meta, 2024.10
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #Quantization Issue Date: 2024-10-26
Ilya Sutskever’s Top 30 Reading List
Paper/Blog Link My Issue
#Article Issue Date: 2024-10-25
生成AIを活用したシステム開発 の現状と展望 - 生成AI時代を見据えたシステム開発に向けて-, 株式会社日本総合研究所 先端技術ラボ, 2024.09
Paper/Blog Link My Issue
#Article #Survey #GenerativeAI Issue Date: 2024-10-01 Comment
ソフトウェア開発で利用され始めている生成AIのプロダクト群と、それらに関連するソースコード生成やテストコード生成、エージェントによる自動システム開発等の研究動向、今後の展望について具体的に記述されている。
SIerやITベンダー内では、実際に活用しているところも一部あるようだが、まだ検証や改革の途中の模様。要件定義に対するLLMの活用も模索されているようだが、産業側もアカデミックも研究段階。
web系では、サイバーやLINEヤフーが全社的にすでにGithub Copilotを導入しているとのこと。
Devin AIのように、Github上のオープンソースのIssueをもとにしたベンチマークで、2294件中13.86%のIssueを解決した、みたいな話を見ると、そのうちコードを書く仕事はIssueを立てる仕事に置き換わるんだろうなあ、という所感を得た(小並感
非プロダクトマネージャーのためのプロダクトマネジメント入門, 神原淳史, 2024.09
Paper/Blog Link My Issue
#Article #Management Issue Date: 2024-09-30 Comment
プロダクトマネジメントについて初心者向けに書かれた記事。勉強になった。
JTBDフレームワークは顧客開発モデルなどでも出てくるので、もう一度復習しておきたい。
>When (Situation) I want to (Motivation) So I can (Expected outcome)
ビルドトラップについても勉強になった。ミニマムでユーザの課題(ニーズ)を解決(満たす)する価値を提供することが重要。この辺は、技術にこだわりや興味、自信がある人ほど作り込みすぎてしまう印象がある。
https://product-managers-club.jp/blog/post/build-traps-fall
レベル2生産性の簡易的な計算方法のフレームワーク。知っておくと役に立つ場面がありそう。考え方として知っておくだけでも良い。confidenceの定義が難しそう。
>・Reach: どれだけ多くの顧客/ユーザーにとっての問題か
・Impact: その問題は個々の顧客/ユーザーにとってどれだけ深刻か
・Conficence: ReachとImpactがどれだけ確からしいか (Effortの確からしさも含むことがある)
・Effort: 問題解決の実装に必要な工数
計算式は以下の通りです。
RICEスコア = Reach * Impact * Confidence / Effort
と思ったが、一応参考として以下のようなものが紹介されている。この辺はプロダクトやチームごとにより具体的なものを決めていくと良いのだろうと思う。特に発案者やその同僚が信じている、の部分は深掘りできそうな気がする。その人にしか見えておらず、定量化できない感覚のような部分があったとしたら、この基準では低いスコアを付与してしまう。ユーザに近しい人ほどそういう感覚を持っており、軽視すべきでないと個人的には考える(が、発言者によって熱量のオフセットが異なるのでその辺も考慮しないといけないから判断難しそう)。
>・発案者やその同僚が信じている (0.01 - 0.2)
・複数の顧客からリクエストがあった (0.5 - 1)
・市場リサーチ結果 (1 - 2)
・一定量以上のユーザーインタビュー結果 (3)
・実際のプロダクト上での検証結果 (5 - 10)
記事のまとめ
>・ソリューションよりも問題の明確化にフォーカスしよう。そのための手法の1つにJTBDフレームワークがある。
・問題解決の優先度を評価するための観点を知ろう。その観点リストの1つにRICEフレームワークがある。
・PBIの相対的な優先順位づけも大事だが、その前に必ずプロダクト戦略へのアラインを確認しよう。
API設計まとめ, KNR109, 2024.02
Paper/Blog Link My Issue
#Article #Pocket #API Issue Date: 2024-09-30
Evaluating the Effectiveness of LLM-Evaluators (aka LLM-as-Judge), 2024.09
Paper/Blog Link My Issue
#Article #Pocket #NLP #LanguageModel #Evaluation #LLM-as-a-Judge Issue Date: 2024-09-30 Comment
LLM-as-a-judgeについて網羅的に書かれた記事
RAGの実装戦略まとめ, Jin Watanabe, 2024.03
Paper/Blog Link My Issue
#Article #InformationRetrieval #Pocket #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-09-29
Llama 3.2: Revolutionizing edge AI and vision with open, customizable models, Meta, 2024.09
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #OpenWeight Issue Date: 2024-09-25 Comment
11Bと90BのVLMと、エッジデバイス向けの1B, 3BのSLMを発表。
Llama3.2のVLMでは、事前学習されたimage encoderを事前学習された言語モデルに対して組み合わせるためのAdapterを複数学習することによって実現。
具体的には、Llama 3.1(text only model)に対して、image encoderとAdapterを追加し、大規模でノイジーな(image,text)ペアで事前学習。続いて、中規模のサイズの高品質なin-domain(i.e. 様々なドメインの)の知識を高めるような(image,text)ペアで学習した。
事後学習では、Llama3.1と同様にSFT, Rejection Sampling, DPOのラウンドを複数回繰り返した。Llama3.1を用いて、in-domainの画像に対するQAをData Augmentationし、フィルタリングすることで合成データを作成。さらに報酬モデルを活用して全ての回答候補をランクづけして高品質なSFTデータを取得。また、モデルの安全性が高まるようなデータも追加した。
Llama3.1の事後学習のプロセスについては 論文紹介 / The Llama 3 Herd of Models, 2024.08
も参照のこと。
Pluggyとは, 2023.02
Paper/Blog Link My Issue
#Article #Library #python Issue Date: 2024-09-12 Comment
pluggyに関する概要が説明されている。
公式の説明を読むとpytestで採用されており、pluggyは関数フックを可能にし、プラグインをインストールするだけでホストプログラムの動作を拡張、または変更できるようになる代物とのこと(=プラガブル?)。
pluggyがなぜ有用なのかの説明については、Pythonでは、他のプログラムやライブラリの動作を変更するための既存のメカニズムとして、メソッドのオーバーライドやモンキーパッチが存在するが、複数の関係者が同じプログラムの変更に参加したい場合、これらが問題を引き起こすので、pluggyはこれらのメカニズムに依存せず、より構造化されたアプローチを可能にし、状態や動作の不必要な露出を避けるとのこと。これにより、ホストとプラグインの間が疎結合になるので、問題が軽減されるとのこと。
Late Chunking: Balancing Precision and Cost in Long Context Retrieval, Pierse+, 2024.09
Paper/Blog Link My Issue
#Article #Embeddings #InformationRetrieval #NLP #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-09-08 Comment
chunkingしてからembeddingを取得するより、全体のドキュメントに対してcontextualなtoken embeddingを取得し、その後chunkingをしてpoolingしてsingle vectorにする方が、文書の文脈情報がembedding内で保持されやすいので、precisionが上がりますよ、という話
スクショは記事中より引用
NewsPicksに推薦システムを本番投入する上で一番優先すべきだったこと, 2024.08
Paper/Blog Link My Issue
#Article #RecommenderSystems #NeuralNetwork #CTRPrediction #NewsRecommendation #MLOps #Evaluation #A/B Testing Issue Date: 2024-08-31 Comment
>推薦モデルの良し悪しをより高い確度で評価できる実験を、より簡単に実行できる状態を作ることでした。平たく言えば「いかにA/Bテストしやすい推薦システムを設計するか」が最も重要だった訳です。
オフライン評価とオンライン評価の相関がない系の話で、A/Bテストを容易に実施できる環境になかった、かつCTRが実際に向上したモデルがオフライン評価での性能が現行モデルよりも悪く、意思決定がなかなかできなかった、という話。
うーんやはり、推薦におけるオフライン評価ってあまりあてにできないよね、、、
そもそも新たなモデルをデプロイした時点で、テストした時とデータの分布が変わるわけだし、、、
Off-Policy Evaluationの話は勉強したい。
あと、定性評価は重要
AutoMLOpsを使って機械学習CI_CDパイプラインを組んでみた, 2024.08
Paper/Blog Link My Issue
#Article #MLOps #python #SoftwareEngineering Issue Date: 2024-08-27 Comment
pythonコードでコンポーネントや、パイプラインを関数の形で記述するだけで、MLのCI/CDパイプラインをVertexAI上に自動構築できる模様。非常にお手軽で、多くの設定ファイルなどは自動生成されるようなので、簡単に始めることができそう。
記事中では、多クラス分類器を学習するためのデータをBigQueryから取得、モデル訓練、デプロイ、推論エンドポイント生成、モニタリングなどを簡単なコードベースで実現できている。便利そうではある。
細かいチューニングも自動生成された設定ファイルをいじれば可能だと思われる。
10Xの推薦を作るチームとML platform, 2024.08
Paper/Blog Link My Issue
#Article #RecommenderSystems #Pocket Issue Date: 2024-08-27 Comment
初期開発における定性評価の重要性やインターリービングの話題など実用的な内容が書かれているように見える。あとで読む。
定性評価が重要という話は、NewsPicksに推薦システムを本番投入する上で一番優先すべきだったこと, 2024.08 でも言及されている
RAG入門: 精度改善のための手法28選, 2024.08
Paper/Blog Link My Issue
#Article #InformationRetrieval #Pocket #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-08-09
DeepSpeed, vLLM, CTranslate2 で rinna 3.6b の生成速度を比較する, 2024.06
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Library #python #OpenWeight #LLMServing Issue Date: 2024-08-05 Comment
[vllm](
https://github.com/vllm-project/vllm)を使うのが一番お手軽で、inference速度が速そう。PagedAttentionと呼ばれるキャッシュを利用して高速化しているっぽい。
(図はブログ中より引用)
こちらも参照のこと
vLLMの仕組みをざっくりと理解する:
https://dalab.jp/archives/journal/vllm/#PagedAttention
vLLMでReasoning ModelをServingするときは、`--enable-reasoning`等の追加オプションを指定する必要がある点に注意
https://docs.vllm.ai/en/stable/features/reasoning_outputs.html
2024年版のDockerfileの考え方&書き方, 2024
Paper/Blog Link My Issue
#Article Issue Date: 2024-07-29 Comment
マルチステージビルド、成果物の考え方など
Deepでポン用実験管理ツール(サービス)の比較2021
Paper/Blog Link My Issue
#Article #ExperimentManagement Issue Date: 2024-07-09 Comment
[TensorBoard](
https://www.tensorflow.org/tensorboard/)
[MLflow](
https://mlflow.org/)
[Neptune.ai](
https://neptune.ai/)
[Weights & Biases](
https://wandb.ai/site)
[Comet](
https://www.comet.ml/site/)
の比較がされている
5行でカッコいい可視化を「WandB」入門
Paper/Blog Link My Issue
#Article #ExperimentManagement Issue Date: 2024-07-09
GENIAC: 172B 事前学習知見, 2024
Paper/Blog Link My Issue
#Article #Tutorial #Pretraining #NLP #LanguageModel Issue Date: 2024-07-08 Comment
LLMの事前学習における知見がまとまっている記事とのこと
・Megatron LMで学習
→ 3D Parallelismなどの分散学習手法によりHF Trainerより高速
→ Data Parallelim、Tensor Parallelism、 Pipeline Parallelismを組み合わせたもの
・GPUメンテナンス、不良で学習が継続できなかった場合はcheckpointをロードして学習
・学習曲線が安定しているように見えるがSpikeは発生している。発生時はgradient normが急激に上昇する
・LlamaなどのLLMからの継続的事前学習ではなくfrom scratchから学習しているので透明性が高い
・Transformer engineを利用
・AdamWを利用
・attention dropout, hidden dropoutは0.0
>この際、 通信を多く必要とする分散手法のワーカー(Tensor Parallelワーカー)はノード内に配置するようにMegatron-LMのデフォルトではなっているため、今回もそれを利用しました。このようにする理由は、ノード内の通信はNVLinkにより、ノード間通信よりも高速であるためです。また、Data Parallelの勾配平均化のための通信を考慮して、Data Parallelワーカーも可能な限りノード内に配置するMegatron-LMデフォルトの挙動を利用しました。
Pipeline Parallelismは他の並列化手法と比較して通信量が少ないP2P(Point-to-Point)通信であるため、パイプラインステージはノード間で配置するようにしました。これも、Megatron-LMデフォルトの挙動です。
勉強になる
・通常のデータ並列はoptimizer stateをworker間で複製するので遅い。Deep Speed Zero 1のように分散して保有することで高速化
・Tensor Parallelでself attention, MLPの計算を並列化できる
・LayerNormalization, Dropoutの演算もメモリ効率の観点から並列化
・学習を安定させるためにz-lossを利用
・batch skippingとは、gradient clippingを行っていてもなおspikeが生じる場合に、100 step前に戻り、spikeが生じた付近のデータを数百iteration程度スキップすること
推薦・機械学習勉強会, Wantedly
Paper/Blog Link My Issue
#Article #RecommenderSystems #Tutorial Issue Date: 2024-04-26 Comment
WantedlyさんのRecSys勉強会の資料がまとまったリポジトリ。継続的に更新されており、最近この辺のトピックは追いきれていないので非常に有用。
The End of Finetuning — with Jeremy Howard of Fast.ai, 2023.11
Paper/Blog Link My Issue
#Article #Pretraining #Supervised-FineTuning (SFT) Issue Date: 2024-04-26
「ビジネスロジック」とは何か、どう実装するのか
Paper/Blog Link My Issue
#Article Issue Date: 2024-04-21 Comment
普段あいまいに使いがちなビジネスロジックについて、勉強になった。
- プレゼンテーション層:ユーザからのI/Oのインタフェースに関する処理を実装
- データアクセス層:ファイルやDBに対してデータを読み書き
本記事によると上記以外が「ビジネスロジック」という整理。
たとえば、じゃんけんの実装を例に説明がなされており、
- 「じゃんけんの勝敗判定」:コアなルール系
- 「コンピュータとじゃんけんをして、その結果をどこかに保存する処理を呼び出すという流れ」:処理の流れ系
の両者はビジネスロジックに該当するとのこと。
The State of Multilingual AI, Sebastian Ruder, 2024
Paper/Blog Link My Issue
#Article #Pocket #LanguageModel #MultiLingual Issue Date: 2024-04-12
Chat with RTX, NVIDIA
Paper/Blog Link My Issue
#Article Issue Date: 2024-04-08
Mamba Explained
Paper/Blog Link My Issue
#Article #Pocket #LanguageModel Issue Date: 2024-04-02
IT契約入門〜雇用契約、請負契約から準委任まで
Paper/Blog Link My Issue
#Article Issue Date: 2024-03-31
生産性指標をFour Keysから変更した話, SanSan Tech Blog
Paper/Blog Link My Issue
#Article Issue Date: 2024-03-21 Comment
モバイルアプリ開発における生産性指標に関するお話。Four Keysをモバイルアプリに適用した場合の課題を分析し、自チームの中長期的な目標を達成するためにどのような生産性指標を採用すべきかが言語化されており、興味深かった。
Four Keysとは:
https://blog.recruit.co.jp/rls/2021-03-31-four-keys/#whats-four-keys
Open Release of Grok-1 March 17, 2024
Paper/Blog Link My Issue
#Article #NLP #LanguageModel Issue Date: 2024-03-18 Comment
Apache2.0ライセンス, 314Bパラメータでモデルの重み、Mixture-of-Expertsを採用している。学習データ、学習に利用したコードはおそらく公開されていない。
Grok-1.5がリリース
https://x.ai/blog/grok-1.5
各種ベンチマークの性能、特にMathの性能が向上し、コンテキスト長が128kに
RAG-Research-Insights
Paper/Blog Link My Issue
#Article #Tutorial #Survey #InformationRetrieval #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-03-05 Comment
RAGに関する研究が直近のものまでよくまとめられている
What are the most important LLMs to know about in March 2024?
Paper/Blog Link My Issue
#Article #Survey #NLP #LanguageModel Issue Date: 2024-03-04 Comment
2024年3月時点で知っておくべきLLMに関するスレッド
awesome-generative-information-retrieval
Paper/Blog Link My Issue
#Article #Tutorial #Survey #InformationRetrieval #LanguageModel Issue Date: 2024-02-22
LLMにおける情報抽出(文章から必要な事柄を読み取る)タスクについての調査, AIDB
Paper/Blog Link My Issue
#Article #NLP #InformationExtraction Issue Date: 2024-01-16
Decoding Strategies that You Need to Know for Response Generation
Paper/Blog Link My Issue
#Article #NaturalLanguageGeneration #NLP #LanguageModel Issue Date: 2024-01-01 Comment
言語モデルのdecodingの方法についてよくまとまっている。まとめられているdecoding方法は以下
- Greedy, BeamSearch, RandomSampling, Temperature, Top-K Sampling, Nucleus Sampling
こちらの記事ではHuggingFaceでの実装や他のdecoding方法等、より実装面での詳細が記述されている:
https://note.com/npaka/n/n9a8c85f2ef7a
Structured Hierarchical Retrieval, llama-index
Paper/Blog Link My Issue
#Article #InformationRetrieval #NLP #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-12-21 Comment
元ツイート:
Build a search engine, not a vector DB
Paper/Blog Link My Issue
#Article #InformationRetrieval #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-12-21
ELYZA-tasks-100 でLLM14個の日本語性能を横断評価してみた
Paper/Blog Link My Issue
#Article #LanguageModel Issue Date: 2023-12-20
大規模モデルを支える分散並列学習のしくみ Part1
Paper/Blog Link My Issue
#Article #LanguageModel Issue Date: 2023-12-13
Gemini, Google, 2023.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Proprietary Issue Date: 2023-12-07 Comment
多くのベンチマークでGPT4超えらしい
(追記1)
テクニカルレポートのp.44を見ると、ブログポスト中のGPT4のMMLUのスコアはGPT-4-0613のもののようなので、これが正しいとすると他のベンチマークのスコアも同モデルのものである可能性が高く、GPT-4-1163-preview(最新モデル)のスコアでは"ないかもしれない"点に注意。GPT4とどちらが実際に性能が良いか?については様子見した方が良さそう。
(追記2)
GSM8Kの結果も、GPT4に対してFair Comparisonではないかもしれない点に注意。Geminiは32個のCoTとSelf-Consistencyを利用しているが、GPT4では5-shotで単一のCoTのみであるため、prompting手法ではGeminiに有利な比較となっているように見える。ただしGPT4はGSM8Kの訓練データを事前学習時にMIXしている(SFT)ので、Geminiがこのようなことをしていないのであれば、この点ではGPT4が有利になっている“可能性”がある。
他にもFair Comparisonになっていないと推察されるものはTextモダリティでの評価の表の文言を見るとありそうなのでそこは念頭においた方が良さそうである。
テクニカルレポート: https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
Gemini Summary
MMLUでの同じprompting手法でのGPT-4-0613との比較。32個のCoTでのSelf-Consistencyで比較した場合、GPT-4-0613に負けているが、閾値を設けてconfidenceが閾値以上の場合はSelf-consistency, そうでない場合はgreedyに生成した結果を選択する、というUncertain-Routed CoT@32では、Geminiのパフォーマンスgainが大きくGPT-4-0613よりも高い性能を示している。
ブログポスト中のGPT4のスコアは5-shotのもの(reportedと書かれているのでOpenAIが公表している数値と推察)であり、Geminiの結果はUncertain-Routed CoT@32の結果であるため、Fair Comparisonになっていないかもしれない?点には注意。
レポート中ではSelf-consistencyという単語でこの部分は書かれていないが、実は少しやっていること違ってたりする…?
もし明日、上司に「GPT-4を作れ」と言われたら? Stability AIのシニアリサーチサイエンティストが紹介する「LLM構築タイムアタック」
Paper/Blog Link My Issue
#Article #LanguageModel Issue Date: 2023-12-05 Comment
StabilityAI Japan秋葉さん(元PFN)のW&B Conferenceでの発表に関する記事。
LLM構築タイムアタックでLLMをもし構築することになったら!?
のざっくりとしたプロセスや、次ページでOpenAIのGPT4のテクニカルレポートのクレジットから各チームの規模感を推定して、どの部分にどの程度の人員が割かれていたのかというのをベースに、各パートでどんなことがやられていそうかという話がされている。
LLM構築タイムアタックで、まずGPUを用意します!(ここが一番大変かも)の時点で、あっ察し(白目 という感じがして面白かった。
kaggle LLM コンペ 上位解法を自分なりにまとめてみた話
Paper/Blog Link My Issue
#Article #InformationRetrieval #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-12-04 Comment
実践的な内容(チャンク生成時の工夫、クエリ生成時の工夫等)が網羅的にまとまっており非常に有用
個人的に、コンペ主催者側から提供されたデータが少なく、上位のほとんどのチームがChatGPT(3.5, 4)を用いて、QAデータを生成していた、というのが興味深かった。プロンプトはたとえば下記:
[(5th-place-solution)](
https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446293)より引用
```
system_content = """
Forget all the previous instruction and rigorously follow the rule specified by the user.
You are a professional scientist's assistant.
"""
user_content_template_qa = Template(
"""
Please consider 5 choices question and answer of the following TEXT.
The purpose of this question is to check respondent's deep science understanding of the TEXT.
We assume this question is for professional scientists, so consider super difficult question.
You can ask very detailed question, for example check specific sentence's understanding.
It is good practice to randomly choose specific sentence from given TEXT, and make QA based on this specific sentence.
You must make QA based on the fact written in the TEXT.
You may create wrong answers based on the correct answer's information, by modifying some parts of the correct answer.
Your response must be in following format, don't write any other information.
You must not include "new line" in each Q), 1), 2), 3), 4), 5), and A):
Q) `question text comes here`
1) `answer candidate 1`
2) `answer candidate 2`
3) `answer candidate 3`
4) `answer candidate 4`
5) `answer candidate 5`
A) `answer`
where only 1 `answer candidate` is the correct answer and other 4 choices must be wrong answer.
Note1: I want to make the question very difficult, so please make wrong answer to be not trivial incorrect.
Note2: The answer candidates should be long sentences around 30 words, not the single word.
Note3: `answer` must be 1, 2, 3, 4 or 5. `answer` must not contain any other words.
Note4: Example of the question are "What is ...", "Which of the following statements ...", "What did `the person` do",
and "What was ...".
Note5: Question should be science, technology, engineering and mathematics related topic.
If the given TEXT is completely difference from science, then just output "skip" instead of QA.
Here is an example of your response, please consider this kind of difficulty when you create Q&A:
Q) Which of the following statements accurately describes the impact of Modified Newtonian Dynamics (MOND) on the observed "missing baryonic mass" discrepancy in galaxy clusters?"
1) MOND is a theory that reduces the observed missing baryonic mass in galaxy clusters by postulating the existence of a new form of matter called "fuzzy dark matter."
2) MOND is a theory that increases the discrepancy between the observed missing baryonic mass in galaxy clusters and the measured velocity dispersions from a factor of around 10 to a factor of about 20.
3) MOND is a theory that explains the missing baryonic mass in galaxy clusters that was previously considered dark matter by demonstrating that the mass is in the form of neutrinos and axions.
4) MOND is a theory that reduces the discrepancy between the observed missing baryonic mass in galaxy clusters and the measured velocity dispersions from a factor of around 10 to a factor of about 2.
5) MOND is a theory that eliminates the observed missing baryonic mass in galaxy clusters by imposing a new mathematical formulation of gravity that does not require the existence of dark matter.
A) 4
Let's start. Here is TEXT: $title\n$text
"""
)
```
PMConf2023: シリコンバレーのプロダクトマネージャー達に見る、 覚悟を決めたPMは何が違うのか?
Paper/Blog Link My Issue
#Article #Mindset Issue Date: 2023-12-04 Comment
視野、視座の話、StepChange、PMとして何に注力すべきか、クリティカルシンキング、Overcommunicationなどの考え方が参考になった。
結局どれだけ収益に繋がるのかという話。ユーザに価値を届けられて満足、で終わってはいけない。
Deconstructing RAG
Paper/Blog Link My Issue
#Article #Tutorial #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-11-22 Comment
RAGにおける様々な戦略がまとまっている(リンク付き
AWS FargateではなくECS on EC2を選ぶメリット〜コスト編〜
Paper/Blog Link My Issue
#Article Issue Date: 2023-11-21 Comment
安く済ませたい・・・
Zephyr-7B-beta, RAG Perf.
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-11-21 Comment
Zephyr-7B-betaのRAGでの性能がデータセットで評価されている
下記Xポストによるとgpt-3.5-turboと同等
Practical Tips for Finetuning LLMs Using LoRA (Low-Rank Adaptation), SEBASTIAN RASCHKA, PHD, 2023.11
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2023-11-20
生成系 AI でプロダクトの価値を高めるには, 2023
Paper/Blog Link My Issue
#Article #GenerativeAI Issue Date: 2023-11-17 Comment
AWS久保さんの資料。後で読む
ChatGPTに社内文書に基づいた回答を生成させる仕組みを構築しました, 2023
Paper/Blog Link My Issue
#Article #NLP #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-11-15 Comment
低コストで社内文書に対するRAGを実現することに注力している。
以下、図はブログから引用。
基本的にはバッチジョブで社内文書をベクトル化しS3へ格納。アプリ起動時にS3から最新データを読み込み検索可能にしRAGするという流れ。
低コスト化のために、Embedding作成にOpenSourceの言語モデル(text-edbedding-ada002と同等の性能)を利用している。実装は基本的にllamaindexを利用している。
特に日本語テキストにおいてはtext-embedding-ada002は OpenAI の Embeddings API はイケてるのか、定量的に調べてみる において、JSTSタスクにおいてあまり性能が高くない(ただし、OpenAI の Embeddings API はイケてるのか、定量的に調べてみる での報告値は基本的にJSTSデータでfinetuningされてた結果と思われる)と言われているので、お金かけて無理して使う必要はないのかなという印象はある。
Transformers.js, 2023
Paper/Blog Link My Issue
#Article #Library #Transformer Issue Date: 2023-11-13 Comment
ブラウザ上でTransformerベースの様々なモデルを動作させることができるライブラリ
Boosting RAG: Picking the Best Embedding & Reranker models
Paper/Blog Link My Issue
#Article #Pocket #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-11-13
Data-to-Text Datasetまとめ, Akihiko Watanabe, 2022
Paper/Blog Link My Issue
#Article #Survey #NaturalLanguageGeneration #NLP #Dataset #DataToTextGeneration Issue Date: 2023-11-08 Comment
Data-to-Textのデータセットを自分用に調べていたのですが、せっかくなのでスライドにまとめてみました。特にMR-to-Text, Table-to-Textあたりは網羅的にサーベイし、データセットの概要を紹介しているので、全体像を把握するのに良いのかなぁと思います。ただし、2022年12月時点で作成したので2023年以後のデータセットは含まれていません😅
生成AIが抱えるリスクと対策, LYCorp‘23
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Alignment #GenerativeAI #Hallucination Issue Date: 2023-11-03 Comment
この資料をスタートにReferしている論文などを勉強すると、GenerativeAIのリスク周りに詳しくなれそう。この辺は疎いので勉強になる。
しかし、LLMのAlignmentが不十分だったり、Hallucinationを100%防ぐことは原理的に不可能だと思われるので、この辺とどう付き合っていくかがLLMと付き合っていく上で難しいところ。この辺は自分たちが活用したいユースケースに応じて柔軟に対応しなければならず、この辺の細かいカスタマイズをする地道な作業はずっと残り続けるのではないかなあ
tsuzumi, NTT’23
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #MultiModal #FoundationModel Issue Date: 2023-11-01 Comment
NTT製のLLM。パラメータ数は7Bと軽量だが高性能。
MTBenchのようなGPT4に勝敗を判定させるベンチマークで、地理、歴史、政治、社会に関する質問応答タスク(図6)でgpt3.5turboと同等、国産LLMの中でトップの性能。GPT3.5turboには、コーディングや数学などの能力では劣るとのこと。
> *6 Rakudaベンチマーク
日本語の言語モデルの性能を評価するベンチマークの一つで、日本の地理・政治・歴史・社会に関する質問応答タスクによって評価を行う。
URL:
https://yuzuai.jp/benchmark
>*7 Japanese Vicuna QAベンチマーク
Rakudaよりもさらに幅広いカテゴリで言語モデルのQAや指示遂行の能力を問う評価方法。一般知識、ロールプレイなど多数の質問から構成される。
URL:
https://github.com/hitoshizuku7/LLM_Judge_ku/blob/main/README.md
tsuzumiはアダプタを追加することで、モデル全体のパラメータを更新することなく、さまざまな知識を持たせたり、振る舞いを変えたりできるようになるとのこと(LoRAアダプタのようなものだと思われる)。
まて、将来的に視覚や聴覚などのマルチモーダル対応も実施。
思想がLoRA Hub LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA Composition, Chengsong Huang+, N/A, COLM'24 に近く、アダプタを着脱すれば柔軟に生成を変えられるのは有用だと思う。
大規模言語モデルのFine-tuningによるドメイン知識獲得の検討, PFN Blog, 2023.10
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #Catastrophic Forgetting Issue Date: 2023-10-29
大規模言語モデルにおいて、「知識は全結合層に蓄積される」という仮説についての文献調査
Paper/Blog Link My Issue
#Article #Analysis #MachineLearning #Transformer Issue Date: 2023-10-29 Comment
タイトルの通り、知識がFFNに蓄積されていると主張しているらしい原論文を読み解いている。まとめを引用すると
> 「知識は全結合層に蓄積される」という表現は、ややラジカルで、
少なくともこの論文では「全結合層は知識獲得において重要」という程度
の、もう少しマイルドな主張をしているように見受けられました。
とのこと。
StableDiffusion, LLMのGPUメモリ削減のあれこれ
Paper/Blog Link My Issue
#Article #NeuralNetwork #ComputerVision #EfficiencyImprovement #NLP #LanguageModel #DiffusionModel Issue Date: 2023-10-29 Comment
Gradient Accumulation, Gradient Checkpointingの説明が丁寧でわかりやすかった。
LLMのプロンプト技術まとめ
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Prompting Issue Date: 2023-10-29 Comment
ざっと見たが現時点で主要なものはほぼ含まれているのでは、という印象
実際のプロンプト例が載っているので、理解しやすいかもしれない。
Evaluating RAG Pipelines
Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #Library #Evaluation #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-10-29 Comment
RAG pipeline (retrieval + generation)を評価するライブラリRagasについて紹介されている。
評価に活用される指標は下記で、背後にLLMを活用しているため、大半の指標はラベルデータ不要。ただし、context_recallを測定する場合はreference answerが必要。
Ragasスコアとしてどのメトリックを利用するかは選択することができ、選択したメトリックのharmonic meanでスコアが算出される。
各種メトリックの内部的な処理は下記:
- faithfullness
- questionと生成された回答に基づいて、statementのリストをLLMで生成する。statementは回答が主張している内容をLLMが解釈したものだと思われる。
- statementのリストとcontextが与えられたときに、statementがcontextにsupportされているかをLLMで評価する。
- num. of supported statements / num. of statements でスコアが算出される
- Answer Relevancy
- LLMで生成された回答から逆に質問を生成し、生成された質問と実際の質問の類似度を測ることで評価
- Context Relevancy
- どれだけcontextにノイズが含まれるかを測定する。
- LLMでcontextの各文ごとに回答に必要な文か否かを判断する
- 回答に必要な文数 / 全文数 でスコアを算出
- Context Recall
- 回答に必要な情報を全てretrieverが抽出できているか
- ground truthとなる回答からstatementをLLMで生成し、statementがcontextでどれだけカバーされているかで算出
また、LangSmithを利用して実験を管理する方法についても記述されている。
LangChainのRAGの改善法, LayerX機械学習勉強会
Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #Library #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-10-29 Comment
以下リンクからの引用。LangChainから提供されているRetrieverのcontext抽出の性能改善のためのソリューション
> Multi representation indexing:検索に適した文書表現(例えば要約)の作成
Query transformation:人間の質問を変換して検索を改善する方法
Query construction:人間の質問を特定のクエリ構文や言語に変換する方法
https://blog.langchain.dev/query-transformations/
日本語LLMのリーダーボード(LLM.jp)
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation Issue Date: 2023-10-27 Comment
LLM.jpによる日本語LLMのリーダーボード。4-shotsでの結果、かつinstructionを与えた場合の生成テキストに対する評価、という点には留意したい。たとえばゼロショットで活用したい、という場合にこのリーダーボードの結果がそのまま再現される保証はないと推察される。
日本語LLMベンチマークと自動プロンプトエンジニアリング, PFN Blog, 2023.10
の知見でもあった通り、promptingの仕方によってもLLM間で順位が逆転する現象なども起こりうる。あくまでリーダーボードの値は参考値として留め、どのLLMを採用するかは、自分が利用するタスクやデータで検証した方がbetterだと思われる。
あとはそもそも本当にLLMを使う必要があるのか? [Paper Note] Prompt2Model: Generating Deployable Models from Natural Language Instructions, Vijay Viswanathan+, EMNLP'23 System Demonstrations, 2023.08
のような手法ではダメなのか?みたいなところも考えられると良いのかもしれない。
以下サイトより引用
> 評価手法・ツール
このダッシュボードの内容はllm-jpで公開している評価ツール、llm-jp-evalで各モデルに対して評価を行なった結果である。llm-jp-evalは、既存のリーダボードとは行われている評価とは、主に以下のところで違っている。
AlpacaやBig-Benchなどを参考にした、インストラクションチューニングよりのプロンプトを入力として与えて、その入力に対するモデルの生成結果を評価する
>評価は基本、モデルが生成した文字列だけを使って行う
>Few shotでの評価を行っており、このダッシュボードには4-shotsでの結果を載せている
>評価手法・ツールの詳細はllm-jp-evalを是非参照されたい。
>評価項目・データセット
評価項目として、まず4つのカテゴリーにおける平均スコアを算出した。さらにその4カテゴリーの平均値の平均値をとった値がAVGである。
MC (Multi-Choice QA):jcommonsenseqa
NLI (Natural Language Inference):jamp、janli、jnli、jsem、jsick
QA (Question Answering):jemhopqa、niilc
RC (Reading Comprehension):jsquad
>それぞれのカテゴリの平均を出す方法に言語学的な意味はないため、最終的な平均値はあくまで参考値ということに注意されたい。
JGlueを利用した日本語LLMのリーダーボードとして Nejumi LLMリーダーボード などもある
日本語大規模言語モデル「Japanese Stable LM 3B-4E1T」「Japanese Stable LM Gamma 7B」を公開しました, 2023
Paper/Blog Link My Issue
#Article #NLP #LanguageModel Issue Date: 2023-10-25
CTO handbook
Paper/Blog Link My Issue
#Article #Mindset #Repository Issue Date: 2023-10-24
Loggingモジュールではじめるログ出力入門
Paper/Blog Link My Issue
#Article #python Issue Date: 2023-10-17 Comment
- ライブラリ開発の際は、ライブラリのトップレベルのLoggerにNullHandlerを設定して、詳細設定を呼び出し側に委ねるのがお作法
- NullHandlerは何もせずに上位ハンドラに伝搬させるため
- ライブラリ側でやることは、タイミングとメッセージ内容のみ
- loggerを利用するか否かは、「書き捨てか否か」
- 書き捨て例: 内容のちょっとした確認やデバッグ、局所的な出力、プログラムとログのライフタイムが短い
参考になる
propagateの仕組みや、構成要素、Loggerの恩恵はすべてのpythonモジュールがロギングに参加できること、モジュール名で基本的にはgetLoggerすることなど、勉強になった
日本語LLMベンチマークと自動プロンプトエンジニアリング, PFN Blog, 2023.10
Paper/Blog Link My Issue
#Article #Analysis #NLP #Prompting #AutomaticPromptEngineering Issue Date: 2023-10-13 Comment
面白かった。特に、promptingによってrinnaとcyberのLLMの順位が逆転しているのが興味深かった。GAを使ったプロンプトチューニングは最近論文も出ていたが、日本語LLMで試されているのは面白かった。
CTOの頭の中:技術を財務で表現する
Paper/Blog Link My Issue
#Article #Mindset Issue Date: 2023-09-30
走行動画を説明するLLMを作成し、80台のGPUで分散並列学習させた話
Paper/Blog Link My Issue
#Article #ComputerVision #NaturalLanguageGeneration #NLP Issue Date: 2023-08-16
Auto train advanced
Paper/Blog Link My Issue
#Article #MachineLearning #Tools #LanguageModel #Supervised-FineTuning (SFT) #Repository Issue Date: 2023-07-11 Comment
Hugging Face Hub上の任意のLLMに対して、localのカスタムトレーニングデータを使ってfinetuningがワンラインでできる。
peftも使える。
Open Source AI Game Jam, 2023
Paper/Blog Link My Issue
#Article #GenerativeAI #Game Issue Date: 2023-07-11 Comment
GenerativeAIを使ってゲームを作る取り組み
How Long Can Open-Source LLMs Truly Promise on Context Length?, 2023
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #LongSequence Issue Date: 2023-07-01 Comment
LLMのcontext長を伸ばす際の方法と得られた知見がまとめられている
OpenLLaMA 13B, 2023
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library Issue Date: 2023-06-25 Comment
そもそもOpenLLaMAには、オリジナルのLLaMAと比較して、tokenizerがスペースを無視するというissueがある模様。スペースの情報がクリティカルなタスク、たとえばcode generationなどには要注意。
https://github.com/openlm-research/open_llama/issues/40
Prompt Engineering vs. Blind Prompting, 2023
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Prompting Issue Date: 2023-05-12 Comment
experimentalな手法でprompt engineeringする際のoverview
StarCoderBase_StarCoder, 2023
Paper/Blog Link My Issue
#Article #NaturalLanguageGeneration #NLP #LanguageModel #FoundationModel #Coding Issue Date: 2023-05-06 Comment
・15.5Bパラメータ
・80種類以上のプログラミング言語で訓練
・Multi Query Attentionを利用
・context window size 8192
・Fill in the middle objectiveを利用
Instruction tuningがされておらず、prefixとsuffixの間を埋めるような訓練のされ方をしているので、たとえば関数名をinputして、そのmiddle(関数の中身)を出力させる、といった使い方になる模様。
paper: https://drive.google.com/file/d/1cN-b9GnWtHzQRoE7M7gAEyivY0kl4BYs/view
StarCoder:
https://huggingface.co/bigcode/starcoder
StarCoderBaseを35Bのpython tokenでfinetuningしたモデル。
既存モデルよりも高性能と主張
MPT-7B, 2023
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library Issue Date: 2023-05-06 Comment
新たなオープンソースLLM。
下記ツイートより引用:
・商用利用可能
・6万5000トークン使用可能
・7Bと比較的小さいモデルながら高性能
・日本語を扱え性能が高い
とのこと。
ChatGPTのLLMと比較すると、ざっと例を見た感じ質問応答としての能力はそこまで高くなさそうな印象。
finetuningしない限りはGPT3,GPT4で良さげ。
Towards Complex Reasoning: the Polaris of Large Language Models, Yao Fu, 2023.05
Paper/Blog Link My Issue
#Article #Pretraining #Pocket #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Chain-of-Thought #Evaluation #Reasoning Issue Date: 2023-05-04
HuggingChat, 2023
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ChatGPT Issue Date: 2023-04-27 Comment
closedな世界で開発されるOpenAIのChatGPTに対して、Openなものが必要ということで、huggingfaceが出したchatシステム
公開はすでに終了している模様
More Design Patterns For Machine Learning Systems, 2023
Paper/Blog Link My Issue
#Article #Mindset #DesignPattern Issue Date: 2023-04-26 Comment
MLのデザインパターンが記述されている
Controlled experiments on the web: survey and practical guide, 2023
Paper/Blog Link My Issue
#Article #A/B Testing Issue Date: 2023-04-26 Comment
A/Bテストのベストプラクティスが書かれているらしい
Polars, 2023
Paper/Blog Link My Issue
#Article #Library #python Issue Date: 2023-01-23 Comment
pandasより100倍高速で複雑なクエリも見やすく書けてindexも存在しないのでバグも出にくいという優れものらしい
CodeGPT: The VSCode Extension with ChatGPT-Like Functionalities
Paper/Blog Link My Issue
#Article #Tools #GenerativeAI #Coding Issue Date: 2023-01-21 Comment
VSCodeの拡張で、//から始まるPromptをエディタ上で記載することで対応するコードをGPT3が生成してくれる模様。便利そう
Transformers Interpret, 2022
Paper/Blog Link My Issue
#Article #ComputerVision #MachineLearning #NLP #Library #Explanation #Transformer Issue Date: 2022-12-01 Comment
transformersのモデルをたった2行追加するだけで、explainableにするライブラリ
基本的にtextとvisionのclassificationをサポートしている模様
text classificationの場合、たとえばinput tokenの各トークンの分類に対する寄与度をoutputしてくれる。
deploy-API-to-GCP
Paper/Blog Link My Issue
#Article #Tools #Infrastructure #MLOps #Repository Issue Date: 2022-12-01 Comment
FlaskAPIを(Flaskでなくても良い)Google Cloud Run上で、TerraFormで定義したインフラ環境でデプロイするためのリポジトリ
0. リポジトリをclone
1. Flaskアプリ作成
2. FlaskアプリをDocker化
3. TerraFormのStateを保存するためのCloudStorage作成
4. TerraFormのコード作成
5. GitHub Actionでデプロイ(CI/CD)
5によってmainブランチに対するプルリクが本番環境にデプロイされる。
Cloud Runについて
https://dev.classmethod.jp/articles/gc-cloud-run/
MLOps: 機械学習における継続的デリバリーと自動化のパイプライン, Google
Paper/Blog Link My Issue
#Article #Infrastructure #MLOps Issue Date: 2022-04-27 Comment
機械学習(ML)システムの継続的インテグレーション(CI)、継続的デリバリー(CD)、継続的トレーニング(CT)の実装と自動化
MLOpsのレベルを0~2で表現しており、各レベルごとに何が達成されるべきかが図解されている。


Pythonのオブジェクト指向プログラミングを完全理解, kaitolucifer (Kaito), 2021
Paper/Blog Link My Issue
#Article #Tutorial #Coding Issue Date: 2021-11-25 Comment
オブジェクト指向の歴史的背景から、SOLID、GRASP等が詳細に解説されている。辞書的に参照するのが良いかも。
イラストで理解するSOLID原則, baby-degu, 2021
Paper/Blog Link My Issue
#Article #Tutorial #Coding Issue Date: 2021-11-25 Comment
オブジェクト指向におけるSOLID原則をイラストで解説した記事。直感的で分かりやすい。
バンディットアルゴリズムを使って広告最適化のシミュレーションをしてみたよ, ysekky, 2014
Paper/Blog Link My Issue
#Article #RecommenderSystems #Tutorial #CTRPrediction Issue Date: 2021-10-29 Comment
なぜクリック率を上げたいのかという説明が非常に参考になる:
>しかしその広告を掲載する側から考えればクリック率の低い広告を出すことは売上が下がってしまうため,クリック率が>低いとなかなか広告を表示することができなくなってしまいます.
その際よく使われるのはeCPMという指標です.
eCPMはその広告を1000回表示していくらの売上を上げることができるかという指標であり,
クリック率1000クリック単価で求められます.
>EPCMが高い広告のほうが表示されやすいため,クリック率を上げることで同じクリック単価でたくさんのユーザを自社のランディングページに誘導することができるようになります.
>例えば今回のケースではクリック率1.2%でクリック単価が60円ですので,eCPMは720円です。
ここでクリック率が0.1%上がるとeCPMは780円になります.
>そのときクリック単価を56円にしてもeCPMは726円になるため,つまりクリック率が0.1%上がると同じだけのランディングページへの誘導を得るための単価を4円下げることができます.
>例えばそのランディングページでの商品の購入が1%で行われるとすると,商品を1つ売るためのコストが400円も下がる事になります.
>ケースバイケースではありますが,このようにクリック率を上げることはウェブ広告を通してものを売るために非常に重要な要素になります.
自然言語系AIサービスと著作権侵害, 柿沼太一, 2021
Paper/Blog Link My Issue
#Article #Tutorial #NLP #Legal Issue Date: 2021-10-26
beam search解説 _ コード付き, jonki, 2020.05
Paper/Blog Link My Issue
#Article #Tutorial #BeamSearch Issue Date: 2021-06-24 Comment
ビームサーチについて、コード付きで説明してくれており、大変わかりやすい。
heapqを使って実装している。また、ビームサーチをbatchに対して行う方法についても書いてある(ただ、一部に対してしかbatchでの処理は適用できていない)。
自分もバッチに対して効率的にビームサーチするにはどのように実装すれば良いのかよくわからないので、誰か教えて欲しい。
NVIDIA TRITON INFERENCE SERVER, 2021
Paper/Blog Link My Issue
#Article #MachineLearning #Infrastructure #MLOps Issue Date: 2021-06-18 Comment
Nvidiaのオープンソースのinference server
モデルのデプロイや管理、スケーリング等を良い感じにしてくれるフレームワーク?
pytorch_lightning tips
Paper/Blog Link My Issue
#Article #NeuralNetwork #Tools #Library #python Issue Date: 2021-06-12 Comment
PyTorch Lightning 2021 (for MLコンペ)
https://qiita.com/fam_taro/items/df8656a6c3b277f58781
ゼロから始めてオフライン強化学習とConservative Q-Learningを理解する, aiueola, 2021.05
Paper/Blog Link My Issue
#Article #Tutorial #Pocket #ReinforcementLearning #Off-Policy Issue Date: 2021-06-07
intel MKL
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Library #python Issue Date: 2021-06-03 Comment
intel CPUでpythonの数値計算を高速化するライブラリ(numpyとかはやくなるらしい; Anacondaだとデフォルトで入ってるとかなんとか)
EfficientNet解説, omiita (オミータ), 2019
Paper/Blog Link My Issue
#Article #NeuralNetwork #Tutorial #ComputerVision #EfficiencyImprovement #ImageClassification Issue Date: 2021-05-24 Comment
既存画像認識モデルの構造は変化させず、広さ、深さ、解像度を複合スケーリングすることで、従来よりも少ないパラメータ数、かつ学習速度でSoTAを達成。広さ、深さ、解像度はそれぞれ性能に互いに影響しあっており、従来のように別々にスケーリングするのではなく、3つのバランスをとりながらスケーリングする。スケーリングする際は、結果的にはそれぞれをある値で定数倍すれば良く、そのある値は最大メモリや最大FLOPS数以下(およびFLOPSが2のΦ乗で増加するような)といった制約下でAccuracyが最大化される値をグリッドサーチで見つける(らしい。ざっくりとした理解)。
転移学習しても多くのタスクでSoTA達成した。
GLUE - 英語圏における自然言語処理の標準ベンチマーク, npaka, 2020
Paper/Blog Link My Issue
#Article #Tutorial #NLP #Dataset #Evaluation Issue Date: 2021-05-19 Comment
各タスクごとにサンプルとその説明が付与されており、ぱっと見でどんなタスクかすぐ分かる
Open Bandit Dataset, ZOZO RESEARCH, 2020
Paper/Blog Link My Issue
#Article #RecommenderSystems #Dataset Issue Date: 2020-08-29 Comment
Open Bandit pipelineも参照
資料:
https://speakerdeck.com/usaito/off-policy-evaluationfalseji-chu-toopen-bandit-dataset-and-pipelinefalseshao-jie
Collaborative Metric Learningまとめ, guglilac, 2020
Paper/Blog Link My Issue
#Article #RecommenderSystems #Tutorial #CollaborativeFiltering #ContrastiveLearning Issue Date: 2020-07-30 Comment
userのembeddingに対し、このuserと共起した(購入やクリックされた)itemを近くに、共起していないitemを遠くに埋め込むような学習方法
BERT 日本語Pre-trained Model, NICT, 2020
Paper/Blog Link My Issue
#Article #NeuralNetwork #Tools #NLP #Dataset #LanguageModel #Library Issue Date: 2020-03-13 Comment
NICTが公開。既に公開されているBERTモデルとのベンチマークデータでの性能比較も行なっており、その他の公開済みBERTモデルをoutperformしている。
Key trends from NeurIPS 2019, Chip Huyen, 2019
Paper/Blog Link My Issue
#Article #Tutorial #MachineLearning Issue Date: 2020-01-16
10 ML & NLP Research Highlights of 2019, Sebastian Ruder, 2020
Paper/Blog Link My Issue
#Article #Survey #MachineLearning #NLP Issue Date: 2020-01-13