APIに関する論文・技術記事メモの一覧

API

[Paper Note] Detecting Adversarial Fine-tuning with Auditing Agents, Sarah Egler+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AIAgents #Safety #PostTraining #Safeguard Issue Date: 2025-10-22 GPT Summary- ファインチューニングAPIの悪用に対する検出メカニズムを提案。ファインチューニング監査エージェントを導入し、有害なファインチューニングを事前に検出可能であることを示す。1400以上の監査を通じて、56.2%の敵対的ファインチューニング検出率を達成。良性ファインチューニングによる安全性の低下も課題として残るが、今後の研究の基盤を提供。監査エージェントは公開済み。 Comment

元ポスト:

Loading…

finetueing APIを通じて悪意のあるデータセットが与えられたとき悪意のあるモデルができあがってしまう。これを検知するために、エージェントを用いてfinetuning用のデータセットと、finetuning前後のモデルへqueryし、finetuning後のモデルがpoisonedか否かを検出する、という話な模様。

Gorilla: Large Language Model Connected with Massive APIs, Shishir G. Patil+, NeurIPS'24

Paper/Blog Link My Issue
#Tools #Pocket #NLP #Dataset #LanguageModel #NeurIPS Issue Date: 2025-04-08 GPT Summary- Gorillaは、API呼び出しの生成においてGPT-4を上回るLLaMAベースのモデルであり、文書検索システムと組み合わせることで、テスト時の文書変更に適応し、ユーザーの柔軟な更新を可能にします。幻覚の問題を軽減し、APIをより正確に使用する能力を示します。Gorillaの評価には新たに導入したデータセット「APIBench」を使用し、信頼性と適用性の向上を実現しています。 Comment

APIBench: https://huggingface.co/datasets/gorilla-llm/APIBench

OpenReview: https://openreview.net/forum?id=tBRNC6YemY

Beyond Browsing: API-Based Web Agents, Yueqi Song+, arXiv'24

Paper/Blog Link My Issue
#Pocket #NLP #AIAgents Issue Date: 2024-11-11 GPT Summary- APIを利用するAIエージェントの研究を行い、従来のウェブブラウジングエージェントと比較。API呼び出しエージェントはオンラインタスクをAPI経由で実行し、ハイブリッドエージェントはウェブブラウジングとAPIの両方を活用。実験結果では、ハイブリッドエージェントが他のエージェントを上回り、タスク非依存の最先端パフォーマンスを達成。APIの利用がウェブブラウジングよりも優れた選択肢であることを示唆。 Comment

CMUの研究。後で読みたい

supermemory, supermemoryai, 2025.10

Paper/Blog Link My Issue
#Article #NLP #AIAgents #Personalization #Repository #SoftwareEngineering #memory Issue Date: 2025-10-13

Tinker is a training API for {developers, builders, researchers}, THINKING MACHINES, 2025.10

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #PEFT(Adaptor/LoRA) #PostTraining #KeyPoint Notes Issue Date: 2025-10-03 Comment

元ポスト:

Loading…

THINKING MACHINESによるOpenWeightモデルをLoRAによってpost-trainingするためのAPI。QwenとLlamaをベースモデルとしてサポート。現在はBetaでwaitlistに登録する必要がある模様。

（Llamaのライセンスはユーザ数がアクティブユーザが7億人を超えたらMetaの許諾がないと利用できなくなる気がするが、果たして、とふと思った）

この前のブログはこのためのPRも兼ねていたと考えられる:
- LoRA Without Regret, Schulman+, THINKING MACHINES, 2025.09

ドキュメントはこちら:
https://tinker-docs.thinkingmachines.ai

Tinkerは、従来の
- データセットをアップロード
- 学習ジョブを走らせる

というスタイルではなく、ローカルのコードでstep単位の学習のループを書き以下を実行する:
- forward_backwardデータ, loss_functionをAPIに送る
- これにより勾配をTinker側が蓄積する
- optim_step: 蓄積した勾配に基づいてモデルを更新する
- sample: モデルからサンプルを生成する
- save_state等: 重みの保存、ロード、optimizerのstateの保存をする

これらstep単位の学習に必要なプリミティブなインタフェースのみをAPIとして提供する。これにより、CPUマシンで、独自に定義したloss, dataset(あるいはRL用のenvironment）を用いて、学習ループをコントロールできるし、分散学習の複雑さから解放される、という代物のようである。LoRAのみに対応している。

なお、step単位のデータを毎回送信しなければならないので、stepごとに通信のオーバヘッドが発生するなんて、Tinker側がGPUを最大限に活用できないのではないか。設計としてどうなんだ？という点については、下記ブログが考察をしている:
- Anatomy of a Modern Finetuning API, Benjamin Anderson, 2025.10

ざっくり言うとマルチテナントを前提に特定ユーザがGPUを占有するのではなく、複数ユーザで共有するのではないか、adapterの着脱のオーバヘッドは非常に小さいのでマルチテナントにしても（誰かのデータの勾配計算が終わったらLoRAアダプタを差し替えて別のデータの勾配計算をする、といったことを繰り返せば良いので待機時間はかなり小さくなるはずで、）GPUが遊ぶ時間が生じないのでリソースをTinker側は最大限に活用できるのではないか、といった考察/仮説のようである。

所見:

Loading…

Asyncな設定でRLしてもSyncな場合と性能は同等だが、学習が大幅に高速化されて嬉しいという話な模様（おまけにrate limitが現在は存在するので今後よりブーストされるかも

BFCLv2, UC Berkeley, 2024.08

Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #AIAgents #Evaluation #Selected Papers/Blogs Issue Date: 2025-04-08 Comment

LLMのTool Useを評価するための現在のデファクトスタンダードとなるベンチマーク

BFCLv3:
https://gorilla.cs.berkeley.edu/blogs/13_bfcl_v3_multi_turn.html

browser-use やばいです, Syoitu, 2024.12

Paper/Blog Link My Issue
#Article #NLP #AIAgents #python #Blog #ComputerUse Issue Date: 2025-01-04 Comment

すごい手軽に使えそうだが、クローリング用途に使おうとするとhallucinationが起きた時に困るのでうーんと言ったところ。

LiteLLM, BerriAI, 2023.08

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #python #Repository Issue Date: 2025-01-03 Comment

様々なLLMのAPIを共通のインタフェースで呼び出せるライブラリ

- aisuite, andrewyng, 2024.11

とどちらがいいんだ・・・？

aisuiteのissueの113番のスレッドを見ると、

- LiteLLMはもはやLiteではなくなっており、コードベースの保守性が低い

- aisuiteは複数のLLMプロバイダーをシンプルに利用する方法を提供する

- 今後発表されるロードマップを見れば、LiteLLMとの差別化の方向性が分かるはずだ

といった趣旨のことが記述されていた。

aisuite, andrewyng, 2024.11

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #python #Repository Issue Date: 2024-11-28 Comment

複数のLLM Providerの呼び出しを共通のインタフェースで呼び出せる。変更するのは、モデルを指定するパラメータのみ。

元ポスト: https://www.linkedin.com/posts/andrewyng_announcing-new-open-source-python-package-activity-7266851242604134400-Davp?utm_source=share&utm_medium=member_ios

API設計まとめ, KNR109, 2024.02

Paper/Blog Link My Issue
#Article #Pocket #Blog Issue Date: 2024-09-30

LitServe, 2024.04

Paper/Blog Link My Issue
#Article #MachineLearning #Library #Repository Issue Date: 2024-08-25 Comment

FastAPIより2倍早いAPIライブラリ。LLMやVisionなど多くのモーダルに対応し、マルチワーカーでオートスケーリングやバッチングやストリーミングにも対応。PyTorchモデルだけでなく、JAXなど様々なフレームワークのモデルをデプロイ可能
元ツイート:

Loading…

画像は元ツイートより引用