API
[Paper Note] Detecting Adversarial Fine-tuning with Auditing Agents, Sarah Egler+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Safety #PostTraining #Safeguard Issue Date: 2025-10-22 GPT Summary- ファインチューニングAPIの悪用に対する検出メカニズムを提案。ファインチューニング監査エージェントを導入し、有害なファインチューニングを事前に検出可能であることを示す。1400以上の監査を通じて、56.2%の敵対的ファインチューニング検出率を達成。良性ファインチューニングによる安全性の低下も課題として残るが、今後の研究の基盤を提供。監査エージェントは公開済み。 Comment
元ポスト:
finetueing APIを通じて悪意のあるデータセットが与えられたとき悪意のあるモデルができあがってしまう。これを検知するために、エージェントを用いてfinetuning用のデータセットと、finetuning前後のモデルへqueryし、finetuning後のモデルがpoisonedか否かを検出する、という話な模様。
[Paper Note] Gorilla: Large Language Model Connected with Massive APIs, Shishir G. Patil+, NeurIPS'24
Paper/Blog Link My Issue
#Tools #NLP #Dataset #LanguageModel #NeurIPS Issue Date: 2025-04-08 GPT Summary- Gorillaは、API呼び出しの生成においてGPT-4を上回るLLaMAベースのモデルであり、文書検索システムと組み合わせることで、テスト時の文書変更に適応し、ユーザーの柔軟な更新を可能にします。幻覚の問題を軽減し、APIをより正確に使用する能力を示します。Gorillaの評価には新たに導入したデータセット「APIBench」を使用し、信頼性と適用性の向上を実現しています。 Comment
APIBench: https://huggingface.co/datasets/gorilla-llm/APIBench
OpenReview: https://openreview.net/forum?id=tBRNC6YemY
[Paper Note] Beyond Browsing: API-Based Web Agents, Yueqi Song+, arXiv'24, 2024.10
Paper/Blog Link My Issue
#NLP #AIAgents #read-later Issue Date: 2024-11-11 GPT Summary- APIを利用したAIエージェントの研究が進んでおり、従来のウェブブラウジングタスクに新たなアプローチを提供する。2種類のエージェントを提案:API呼び出しエージェントはAPIのみを使用し、ハイブリッドエージェントはウェブ閲覧とAPIの両方を活用する。実験結果では、APIエージェントがウェブブラウジングエージェントを上回り、ハイブリッドエージェントは全タスクで優れた性能を示し、成功率は38.9%に達するなど、APIの利用が効果的であることを示唆している。 Comment
CMUの研究。後で読みたい
[Paper Note] ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs, Yujia Qin+, arXiv'23, 2023.07
Paper/Blog Link My Issue
#Tools #NLP #Dataset #LanguageModel #AIAgents #SyntheticData #ICLR #One-Line Notes #ToolUse Issue Date: 2023-08-08 GPT Summary- オープンソースのLLMにおけるツール使用能力の限界を克服するため、ToolLLMフレームワークを提案。ToolBenchデータセットを用いて、ChatGPTに指示を与え実世界のAPIを収集し、多様なシナリオをカバー。新しい探索手法DFSDTを開発することで、LLMsの推論能力を高め、ToolLLaMAが複雑な指示を効果的に実行できることを示した。ToolEvalにより評価を行い、ToolLLaMAはChatGPTと同等の性能を発揮する。さらに、適切なAPIを推奨するニューラルAPIリトリーバーを導入し、手動の選択を不要にした。 Comment
16000のreal worldのAPIとインタラクションし、データの準備、訓練、評価などを一貫してできるようにしたフレームワーク。LLaMAを使った場合、ツール利用に関してturbo-16kと同等の性能に達したと主張。
openreview: https://openreview.net/forum?id=dHng2O0Jjr
supermemory, supermemoryai, 2025.10
Paper/Blog Link My Issue
#Article #NLP #AIAgents #Personalization #Repository #SoftwareEngineering #memory Issue Date: 2025-10-13
Tinker is a training API for {developers, builders, researchers}, THINKING MACHINES, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #PEFT(Adaptor/LoRA) #PostTraining #KeyPoint Notes Issue Date: 2025-10-03 Comment
元ポスト:
THINKING MACHINESによるOpenWeightモデルをLoRAによってpost-trainingするためのAPI。QwenとLlamaをベースモデルとしてサポート。現在はBetaでwaitlistに登録する必要がある模様。
(Llamaのライセンスはユーザ数がアクティブユーザが7億人を超えたらMetaの許諾がないと利用できなくなる気がするが、果たして、とふと思った)
この前のブログはこのためのPRも兼ねていたと考えられる:
- LoRA Without Regret, Schulman+, THINKING MACHINES, 2025.09
ドキュメントはこちら:
https://tinker-docs.thinkingmachines.ai
Tinkerは、従来の
- データセットをアップロード
- 学習ジョブを走らせる
というスタイルではなく、ローカルのコードでstep単位の学習のループを書き以下を実行する:
- forward_backwardデータ, loss_functionをAPIに送る
- これにより勾配をTinker側が蓄積する
- optim_step: 蓄積した勾配に基づいてモデルを更新する
- sample: モデルからサンプルを生成する
- save_state等: 重みの保存、ロード、optimizerのstateの保存をする
これらstep単位の学習に必要なプリミティブなインタフェースのみをAPIとして提供する。これにより、CPUマシンで、独自に定義したloss, dataset(あるいはRL用のenvironment)を用いて、学習ループをコントロールできるし、分散学習の複雑さから解放される、という代物のようである。LoRAのみに対応している。
なお、step単位のデータを毎回送信しなければならないので、stepごとに通信のオーバヘッドが発生するなんて、Tinker側がGPUを最大限に活用できないのではないか。設計としてどうなんだ?という点については、下記ブログが考察をしている:
- Anatomy of a Modern Finetuning API, Benjamin Anderson, 2025.10
ざっくり言うとマルチテナントを前提に特定ユーザがGPUを占有するのではなく、複数ユーザで共有するのではないか、adapterの着脱のオーバヘッドは非常に小さいのでマルチテナントにしても(誰かのデータの勾配計算が終わったらLoRAアダプタを差し替えて別のデータの勾配計算をする、といったことを繰り返せば良いので待機時間はかなり小さくなるはずで、)GPUが遊ぶ時間が生じないのでリソースをTinker側は最大限に活用できるのではないか、といった考察/仮説のようである。
所見:
Asyncな設定でRLしてもSyncな場合と性能は同等だが、学習が大幅に高速化されて嬉しいという話な模様(おまけにrate limitが現在は存在するので今後よりブーストされるかも
BFCLv2, UC Berkeley, 2024.08
Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #AIAgents #Evaluation #Selected Papers/Blogs #One-Line Notes #ToolUse Issue Date: 2025-04-08 Comment
LLMのTool Useを評価するための現在のデファクトスタンダードとなるベンチマーク
BFCLv3:
https://gorilla.cs.berkeley.edu/blogs/13_bfcl_v3_multi_turn.html
browser-use やばいです, Syoitu, 2024.12
Paper/Blog Link My Issue
#Article #NLP #AIAgents #python #Blog #ComputerUse #Reading Reflections Issue Date: 2025-01-04 Comment
すごい手軽に使えそうだが、クローリング用途に使おうとするとhallucinationが起きた時に困るのでうーんと言ったところ。
LiteLLM, BerriAI, 2023.08
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #python #Repository #One-Line Notes Issue Date: 2025-01-03 Comment
様々なLLMのAPIを共通のインタフェースで呼び出せるライブラリ
- aisuite, andrewyng, 2024.11
とどちらがいいんだ・・・?
aisuiteのissueの113番のスレッドを見ると、
- LiteLLMはもはやLiteではなくなっており、コードベースの保守性が低い
- aisuiteは複数のLLMプロバイダーをシンプルに利用する方法を提供する
- 今後発表されるロードマップを見れば、LiteLLMとの差別化の方向性が分かるはずだ
といった趣旨のことが記述されていた。
v1.82.7--v1.82.8において、機密情報を漏洩させるマルウェアが仕込まれていたとのこと。
Karpathy氏の所見:
aisuite, andrewyng, 2024.11
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #python #Repository #One-Line Notes Issue Date: 2024-11-28 Comment
複数のLLM Providerの呼び出しを共通のインタフェースで呼び出せる。変更するのは、モデルを指定するパラメータのみ。
元ポスト:
https://www.linkedin.com/posts/andrewyng_announcing-new-open-source-python-package-activity-7266851242604134400-Davp?utm_source=share&utm_medium=member_ios
API設計まとめ, KNR109, 2024.02
Paper/Blog Link My Issue
#Article #Blog Issue Date: 2024-09-30
Firecrawl, 2024.09
Paper/Blog Link My Issue
#Article #Dataset #LanguageModel #Repository #One-Line Notes Issue Date: 2024-08-30 Comment
sitemapなしでWebサイト全体をクローリングできるAPI。LLMで利用可能なマークダウンや、構造化データに変換もしてくれる模様。
LitServe, 2024.04
Paper/Blog Link My Issue
#Article #MachineLearning #Library #MultiModal #Repository #One-Line Notes #EfficientEvaluation Issue Date: 2024-08-25 Comment
FastAPIより2倍早いAPIライブラリ。LLMやVisionなど多くのモーダルに対応し、マルチワーカーでオートスケーリングやバッチングやストリーミングにも対応。PyTorchモデルだけでなく、JAXなど様々なフレームワークのモデルをデプロイ可能
元ツイート:
OpenLLM: Self-Hosting LLMs Made Easy
Paper/Blog Link My Issue
#Article #NLP #Library #OpenWeight #Frontend #One-Line Notes Issue Date: 2024-08-01 Comment
OpenLLMをself hostingする際に、OpenAIなどと同じインタフェースのAPIやChatを提供するライブラリ
deploy-API-to-GCP
Paper/Blog Link My Issue
#Article #Tools #Infrastructure #MLOps #Blog #Repository #SoftwareEngineering Issue Date: 2022-12-01 Comment
FlaskAPIを(Flaskでなくても良い)Google Cloud Run上で、TerraFormで定義したインフラ環境でデプロイするためのリポジトリ
0. リポジトリをclone
1. Flaskアプリ作成
2. FlaskアプリをDocker化
3. TerraFormのStateを保存するためのCloudStorage作成
4. TerraFormのコード作成
5. GitHub Actionでデプロイ(CI/CD)
5によってmainブランチに対するプルリクが本番環境にデプロイされる。
Cloud Runについて
https://dev.classmethod.jp/articles/gc-cloud-run/
