python
[Paper Note] Efficient Memory Management for Large Language Model Serving with PagedAttention, Woosuk Kwon+, SOSP'23
Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #Transformer #Attention #LLMServing #Selected Papers/Blogs Issue Date: 2025-08-19 GPT Summary- PagedAttentionを用いたvLLMシステムを提案し、KVキャッシュメモリの無駄を削減し、リクエスト間での柔軟な共有を実現。これにより、同レベルのレイテンシでLLMのスループットを2-4倍向上。特に長いシーケンスや大規模モデルで効果が顕著。ソースコードは公開中。 Comment
(今更ながら)vLLMはこちら:
https://github.com/vllm-project/vllm
現在の主要なLLM Inference/Serving Engineのひとつ。
[Paper Note] SARATHI: Efficient LLM Inference by Piggybacking Decodes with Chunked Prefills, Amey Agrawal+, arXiv'23
Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #LLMServing #read-later #Inference Issue Date: 2025-06-12 GPT Summary- SARATHIは、LLMの推論効率を向上させる手法で、プレフィルリクエストをチャンクに分割し、デコードマキシマルバッチを構築することで計算利用率を最大化します。これにより、デコードスループットを最大10倍向上させ、エンドツーエンドスループットも改善。特に、A6000 GPU上のLLaMA-13Bモデルで顕著な性能向上を示し、パイプラインバブルを大幅に削減しました。 Comment
vLLMでも採用されている `Chunked Prefills` と `Decode-Maximal Batching` を提案している。

コミュニティサービスにおけるレコメンデーションの変遷とMLパイプラインについて, PyCon'21
Paper/Blog Link My Issue
#RecommenderSystems #Tutorial #Infrastructure #Slide Issue Date: 2021-10-21 Comment
・ママ向けのQ&AサービスにおけるレコメンドとMLパイプラインについて紹介
◆レコメンドエンジンの変遷
・Tensorflowで実装したMFから始まり、その後トピックを絞り込んだ上で推薦するためにLDAを活用したレコメンド、最終的にSoftmax Recommendationを開発
* Softmax Recommendation:
https://developers.google.com/machine-learning/recommendation/dnn/softmax
* ユーザプロファイル(e.g. 行動ベクトル, ユーザの属性情報)等を入力とし、hidden layerをかませて最終的にアイテム次元数分のスコアベクトルを得る手法
* 行動ベクトル=ユーザが過去にクリックしたQ&Aだが、質問ベクトルを得るために内容テキストは利用せず行動ログ+word2vecで学習
* 類似質問検索による定性評価の結果良い結果、関連質問を抽出できるベクトルとなっていることを確認
→ レコメンド手法の変遷につれ、ベンチマークを上回るようになっていった
◆MLパイプラインについて
・AWS Step FunctionsとAmazon Sagemakerを利用
・AWS Step Functions
* AWS上の様々なサービスをワークフローとして定義できる(json形式でワークフローを記述)
・Amazon Sagemaker
* 機械学習向けのIDE
* notebook上でのデータ分析・モデル学習、実験管理や学習済みモデルのデプロイが可能
* Sagemaker Processingを用いることで、実行したい処理やインスタンスタイプを指定することで、notebookとは別の実行環境(コンテナ)で任意のpythonスクリプトを実行可

・ワークフローの定義=AWS Stepfunctions, スクリプト実行のリソース=Sagemaker Processingとして利用
MLパイプラインについては下記資料により詳しい情報が書かれている
https://speakerdeck.com/takapy/sagemaker-studiotostep-functionswoyong-itemlopshefalse-bu-wota-michu-sou
Pocket Flow: 100-line LLM framework. Let Agents build Agents, The-Rocket, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs #MinimalCode Issue Date: 2026-01-19 Comment
元ポスト:
たったの100行で実現されるミニマルなAI Agent/LLMフレームワークで、9種類の抽象化(Node, Flow, Shared, ...)でchat, agent, workflow, RAG, MCP, A2Aなどの様々なLLMをベースとした機能を実装できるフレームワークな模様。コード読みたい
LLMRouter: An Open-Source Library for LLM Routing, Feng+, 2025.12
Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #Library #SoftwareEngineering #Routing Issue Date: 2025-12-30 Comment
元ポスト:
mini-sglang: A compact implementation of SGLang, designed to demystify the complexities of modern LLM serving systems, sgl-project, 2025
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #Repository #LLMServing #SoftwareEngineering #read-later #Selected Papers/Blogs #MinimalCode Issue Date: 2025-12-28 Comment
元ポスト:
めっちゃ勉強したい
Introducing Bloom: an open source tool for automated behavioral evaluations, Anthropic, 2025.12
Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #Alignment #AIAgents #Evaluation #Safety Issue Date: 2025-12-21 Comment
元ポスト:
[Paper Note] Pushing the Frontier of Audiovisual Perception with Large-Scale Multimodal Correspondence Learning, Meta, 2025.12
Paper/Blog Link My Issue
#Article #ComputerVision #Pocket #Library #MultiModal #SpeechProcessing #Encoder #2D (Image) #4D (Video) #audio Issue Date: 2025-12-19 Comment
元ポスト:
様々なモダリティ(画像・動画・音声等)をエンコードできるPerception Encoderに最近リリースされたSAM Audio (Audio-Visual / Audio-frame) も組み込まれた模様
code:
https://github.com/facebookresearch/perception_models
Defeating Nondeterminism in LLM Inference, Horace He in collaboration with others at Thinking Machines, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #read-later #Selected Papers/Blogs #Non-Determinism Issue Date: 2025-09-11 Comment
元ポスト:
ポイント解説:
vLLMにおいてinferenceをdeterministicにする方法が、vLLMのissue number 24583に記載されているので参照のこと。
transformersでの実装例:
Inside vLLM: Anatomy of a High-Throughput LLM Inference System, Aleksa Gordić blog, 2025.08
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #LLMServing #read-later #Selected Papers/Blogs Issue Date: 2025-09-03 Comment
めっちゃ良さそう
vLLMのSpeculative Decodingによる推論高速化を試す, Aratako, 2025.05
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #LanguageModel #Blog #LLMServing #Decoding #SpeculativeDecoding Issue Date: 2025-08-21
reasoning-minimal, torotoki, 2025.08
Paper/Blog Link My Issue
#Article #NLP #ReinforcementLearning #Repository #GRPO #On-Policy #MinimalCode Issue Date: 2025-08-19 Comment
TRLのGRPOTrainer、および独自定義のReward(フォーマット/acc)を用いたミニマルなGRPOの実装。GRPOを実施する際には参照のこと。
simple-paged-attention, torotoki, 2025.06
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #Attention #Repository #read-later #MinimalCode Issue Date: 2025-08-19 Comment
CUDA + C++によるミニマルなpaged-attentionの実装。アルゴリズムの理解+実装理解の参考に非常に良さそう。
PagedAttentionは 現在の主要なLLM Inference/Serving EngineのひとつであるvLLM で(提案|実装)された技術であり、元論文は下記:
- [Paper Note] Efficient Memory Management for Large Language Model Serving with PagedAttention, Woosuk Kwon+, SOSP'23
この辺もあわせて読むとおもしろいかもしれない:
https://nttdocomo-developers.jp/entry/2024/12/19/090000_6
LMCache, LMCache, 2025.07
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #LanguageModel #Library #LLMServing Issue Date: 2025-08-03 Comment
元ポスト:
KV Cacheを色々なところにキャッシュしておいて、prefixだけでなく全てのreused可能なものをキャッシュすることで、TTFTとスループットを大幅に向上するらしい。特にlong contextなタスクで力を発揮し、vLLMと組み合わせると下記のようなパフォーマンス向上結果
Python Template for Claude Code (Cookiecutter), zerebom, 2025.07
Paper/Blog Link My Issue
#Article #AIAgents #project_template #Coding #SoftwareEngineering Issue Date: 2025-07-26 Comment
元ポスト:
Nano-vLLM, GeeeekExplorer, 2025.06
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #Repository #LLMServing #MinimalCode Issue Date: 2025-06-22 Comment
元ポスト:
vLLMと同等のinference speedを実現するミニマムでクリーンな実装。勉強用に良さそう。
Mirage Persistent Kernel: Compiling LLMs into a MegaKernel, 2025.06
Paper/Blog Link My Issue
#Article #NLP #LLMServing Issue Date: 2025-06-20 Comment
vLLM, SGLangよりもデコーディングが早い模様(図は下記ブログより引用)
ブログ:
https://zhihaojia.medium.com/compiling-llms-into-a-megakernel-a-path-to-low-latency-inference-cf7840913c17
元ポスト:
verl: Volcano Engine Reinforcement Learning for LLMs, ByteDance Seed Team, 2025.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #ReinforcementLearning Issue Date: 2025-05-16 Comment
SoTAなRLアルゴリズムを数行のコードで実装可能で、Sequence Parallelismがサポートされているので長い系列を扱える。FSDP, Megatron-LM,vLLM,SGLangなどとシームレスに統合できるっぽい?
注意点(超重要):
inference backend(ブログ中ではvLLM, SGLangなどを仮定。ロールアウトに利用する)とtrainingのbackend(モデルを学習するフレームワーク, FSDPなどを仮定する)のミスマッチによってトークンの生起確率に差が生じ、ポリシーの更新がうまくいかなくなる。
- 論文では語られないLLM開発において重要なこと Swallow Projectを通して, Kazuki Fujii, NLPコロキウム, 2025.07
でも言われているように、ライブラリにはバグがあるのが普通なのね、、、。
Open Reasoner Zero, Open-Reasoner-Zero, 2024.02
Paper/Blog Link My Issue
#Article #MachineLearning #NLP #LanguageModel #Library #ReinforcementLearning #Reasoning Issue Date: 2025-03-02 GPT Summary- Open-Reasoner-Zeroは、推論指向の強化学習のオープンソース実装で、スケーラビリティとアクセスのしやすさに重点を置いています。AGI研究の促進を目指し、ソースコードやトレーニングデータを公開しています。 Comment
元ポスト:
Docling, DS4SD, 2024.07
Paper/Blog Link My Issue
#Article #LanguageModel Issue Date: 2025-02-12 Comment
Unstructuredとどちらが良いだろうか?
SGlang, sgl-project, 2024.01
Paper/Blog Link My Issue
#Article #LanguageModel #LLMServing #Selected Papers/Blogs Issue Date: 2025-02-12 GPT Summary- SGLangは、大規模言語モデルと視覚言語モデルのための高速サービングフレームワークで、バックエンドとフロントエンドの共同設計により迅速なインタラクションを実現します。主な機能には、高速バックエンドランタイム、柔軟なフロントエンド言語、広範なモデルサポートがあり、オープンソースの活発なコミュニティに支えられています。 Comment
- Open R1, HuggingFace, 2025.01
のUpdate2でMath Datasetの生成に利用されたLLM Servingフレームワーク。利用前と比較してスループットが2倍になったとのこと。
CPU, external storageを利用することでTTFTを改善するようになったようで、最大80%TTFTが削減されるとの記述がある。
(原理的には元来可能だが計算効率の最適化に基づく誤差によって実装上の問題で実現できていなかった) Deterministic Inferenceをサポート:
Structured Outputs OpenAI Platform, 2025.01
Paper/Blog Link My Issue
#Article #LanguageModel #Chain-of-Thought #StructuredData Issue Date: 2025-01-25 Comment
pydanticを用いて、CoT+構造化されたoutputを実施するサンプル
pydantic-settingsで環境変数からもオプション引数を指定できるCLIを作る 〜サブコマンド篇〜, nikkie-ftnextの日記, 2025.01
Paper/Blog Link My Issue
#Article #Blog Issue Date: 2025-01-04 Comment
pydantic-settingsを使ったCLI作成に関する記事。環境変数からオプションを指定できるので、コマンドライン引数を動的に柔軟に変更したい場合に便利そう
browser-use やばいです, Syoitu, 2024.12
Paper/Blog Link My Issue
#Article #NLP #AIAgents #Blog #API #ComputerUse Issue Date: 2025-01-04 Comment
すごい手軽に使えそうだが、クローリング用途に使おうとするとhallucinationが起きた時に困るのでうーんと言ったところ。
LiteLLM, BerriAI, 2023.08
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #Repository #API Issue Date: 2025-01-03 Comment
様々なLLMのAPIを共通のインタフェースで呼び出せるライブラリ
- aisuite, andrewyng, 2024.11
とどちらがいいんだ・・・?
aisuiteのissueの113番のスレッドを見ると、
- LiteLLMはもはやLiteではなくなっており、コードベースの保守性が低い
- aisuiteは複数のLLMプロバイダーをシンプルに利用する方法を提供する
- 今後発表されるロードマップを見れば、LiteLLMとの差別化の方向性が分かるはずだ
といった趣旨のことが記述されていた。
aisuite, andrewyng, 2024.11
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #Repository #API Issue Date: 2024-11-28 Comment
複数のLLM Providerの呼び出しを共通のインタフェースで呼び出せる。変更するのは、モデルを指定するパラメータのみ。
元ポスト:
https://www.linkedin.com/posts/andrewyng_announcing-new-open-source-python-package-activity-7266851242604134400-Davp?utm_source=share&utm_medium=member_ios
Streamlit, 2020.12
Paper/Blog Link My Issue
#Article #Library Issue Date: 2024-10-07 Comment
データを用いたアプリを簡単に作れるpythonライブラリ
データ/モデルを用いたvisualization等を実施するアプリを、数行で作れてしまう。綺麗なUIつき。便利。
Pluggyとは, 2023.02
Paper/Blog Link My Issue
#Article #Library #Blog Issue Date: 2024-09-12 Comment
pluggyに関する概要が説明されている。
公式の説明を読むとpytestで採用されており、pluggyは関数フックを可能にし、プラグインをインストールするだけでホストプログラムの動作を拡張、または変更できるようになる代物とのこと(=プラガブル?)。
pluggyがなぜ有用なのかの説明については、Pythonでは、他のプログラムやライブラリの動作を変更するための既存のメカニズムとして、メソッドのオーバーライドやモンキーパッチが存在するが、複数の関係者が同じプログラムの変更に参加したい場合、これらが問題を引き起こすので、pluggyはこれらのメカニズムに依存せず、より構造化されたアプローチを可能にし、状態や動作の不必要な露出を避けるとのこと。これにより、ホストとプラグインの間が疎結合になるので、問題が軽減されるとのこと。
NanoFlow, 2024.08
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #Repository #LLMServing Issue Date: 2024-08-31 Comment
vLLMよりも2倍程度高速なLLM serving framework。
オフライン評価
オンラインでのlatency評価
機能はvLLMの方が多いが、速度はこちらの方がかなり速そうではある。latencyのrequirementが厳しい場合などは検討しても良いかもしれない。
しかしLLM serving frameworkも群雄割拠ですね。
元ポスト:
DeepSpeed, vLLM, CTranslate2 で rinna 3.6b の生成速度を比較する, 2024.06 も参照のこと
AutoMLOpsを使って機械学習CI_CDパイプラインを組んでみた, 2024.08
Paper/Blog Link My Issue
#Article #MLOps #Blog #SoftwareEngineering Issue Date: 2024-08-27 Comment
pythonコードでコンポーネントや、パイプラインを関数の形で記述するだけで、MLのCI/CDパイプラインをVertexAI上に自動構築できる模様。非常にお手軽で、多くの設定ファイルなどは自動生成されるようなので、簡単に始めることができそう。
記事中では、多クラス分類器を学習するためのデータをBigQueryから取得、モデル訓練、デプロイ、推論エンドポイント生成、モニタリングなどを簡単なコードベースで実現できている。便利そうではある。
細かいチューニングも自動生成された設定ファイルをいじれば可能だと思われる。
DeepSpeed, vLLM, CTranslate2 で rinna 3.6b の生成速度を比較する, 2024.06
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Library #Blog #OpenWeight #LLMServing Issue Date: 2024-08-05 Comment
[vllm](
https://github.com/vllm-project/vllm)を使うのが一番お手軽で、inference速度が速そう。PagedAttentionと呼ばれるキャッシュを利用して高速化しているっぽい。
(図はブログ中より引用)
こちらも参照のこと
vLLMの仕組みをざっくりと理解する:
https://dalab.jp/archives/journal/vllm/#PagedAttention
vLLMでReasoning ModelをServingするときは、`--enable-reasoning`等の追加オプションを指定する必要がある点に注意
https://docs.vllm.ai/en/stable/features/reasoning_outputs.html
lifestar
Paper/Blog Link My Issue
#Article #Library Issue Date: 2023-11-19 Comment
非常に高速なpythonのASGIライブラリ。WSGIとは異なり非同期処理なためリアルタイムアプリケーションに向いているっぽい。
Loggingモジュールではじめるログ出力入門
Paper/Blog Link My Issue
#Article #Blog Issue Date: 2023-10-17 Comment
- ライブラリ開発の際は、ライブラリのトップレベルのLoggerにNullHandlerを設定して、詳細設定を呼び出し側に委ねるのがお作法
- NullHandlerは何もせずに上位ハンドラに伝搬させるため
- ライブラリ側でやることは、タイミングとメッセージ内容のみ
- loggerを利用するか否かは、「書き捨てか否か」
- 書き捨て例: 内容のちょっとした確認やデバッグ、局所的な出力、プログラムとログのライフタイムが短い
参考になる
propagateの仕組みや、構成要素、Loggerの恩恵はすべてのpythonモジュールがロギングに参加できること、モジュール名で基本的にはgetLoggerすることなど、勉強になった
Ascender
Paper/Blog Link My Issue
#Article #MachineLearning #project_template Issue Date: 2023-05-25 Comment
pythonを利用した研究開発する上でのプロジェクトテンプレート
Assisted Generation: a new direction toward low-latency text generation, 2023
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #Library #Transformer Issue Date: 2023-05-11 Comment
1 line加えるとtransformerのgenerationが最大3倍程度高速化されるようになったらしい
assistant modelをロードしgenerateに引数として渡すだけ
Polars, 2023
Paper/Blog Link My Issue
#Article #Library #Blog Issue Date: 2023-01-23 Comment
pandasより100倍高速で複雑なクエリも見やすく書けてindexも存在しないのでバグも出にくいという優れものらしい
pytorch_lightning tips
Paper/Blog Link My Issue
#Article #NeuralNetwork #Tools #Library #Blog Issue Date: 2021-06-12 Comment
PyTorch Lightning 2021 (for MLコンペ)
https://qiita.com/fam_taro/items/df8656a6c3b277f58781
最先端自然言語処理ライブラリの最適な選択と有用な利用方法 _ pycon-jp-2020
Paper/Blog Link My Issue
#Article #Tutorial #Tools #NLP #Library #Slide Issue Date: 2021-06-11 Comment
各形態素解析ライブラリの特徴や比較がされていて、自分の用途・目的に合わせてどの形態素解析器が良いか意思決定する際に有用

TRTorch
Paper/Blog Link My Issue
#Article #NeuralNetwork #Tutorial #Tools #Library Issue Date: 2021-06-06 Comment
pytorchの推論を高速化できるライブラリ。6倍ほど早くなった模様。TorchScriptを介して変換するので、PythonだけでなくC++でも動作できるらしい。
pytorch tips
My Issue
#Article #Tutorial #Tools #Library Issue Date: 2021-06-05 Comment
【PyTorchでたまに使うけどググって情報探すのに時間かかるやつ】
https://trap.jp/post/1122/
- scatter_add, einsum, Bilinear あたりが説明されている
【NLLossの細かい挙動】
https://tatsukawa.hatenablog.com/entry/2020/04/06/054700
【PyTorchで絶対nanを出したいマン】
https://qiita.com/syoamakase/items/40a716f93dc8afa8fd12
PyTorchでnanが出てしまう原因とその対策が色々書いてある
【pipで様々なCuda versionのpytorchをinstallする方法】
https://stackoverflow.com/questions/65980206/cuda-10-2-not-recognised-on-pip-installed-pytorch-1-7-1
intel MKL
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Library #Blog Issue Date: 2021-06-03 Comment
intel CPUでpythonの数値計算を高速化するライブラリ(numpyとかはやくなるらしい; Anacondaだとデフォルトで入ってるとかなんとか)
locust
Paper/Blog Link My Issue
#Article #Tools #PerformanceTesting Issue Date: 2021-05-26 Comment
負荷テスト用のツール
JMeterと違って、pythonコードでテスト内容を制御できるらしく、かなり使いやすいらしい。
mrec recommender systems library, mrec, 2013.11
Paper/Blog Link My Issue
#Article #RecommenderSystems #Library #One-Line Notes Issue Date: 2018-01-01 Comment
実装:python
※ Mendeleyによるpythonライブラリ
参考:
http://www.kamishima.net/archive/recsysdoc.pdf
https://takuti.me/note/recommender-libraries/
Surprise: A Python library for recommender systems, Nicolas Hug, 2016.10
Paper/Blog Link My Issue
#Article #RecommenderSystems #Library #Selected Papers/Blogs #One-Line Notes Issue Date: 2018-01-01 Comment
実装されているアルゴリズム:協調フィルタリング、Matrix Factorizationなど
実装:python
使用方法:pythonライブラリとして利用
※ pythonで利用できる数少ない推薦システムライブラリ
参考:
http://www.kamishima.net/archive/recsysdoc.pdf
https://takuti.me/note/recommender-libraries/