A/B Testing
日経電子版のアプリトップ「おすすめ」をTwo Towerモデルでリプレースしました, NIKKEI, 2025.05
Paper/Blog Link My Issue
#Article #RecommenderSystems #NeuralNetwork #Embeddings #EfficiencyImprovement #AWS #MLOps #Blog #TwoTowerModel Issue Date: 2025-06-29 Comment
リアルタイム推薦をするユースケースにおいて、ルールベース+協調フィルタリング(Jubatus)からTwo Towerモデルに切り替えた際にレイテンシが300ms増えてしまったため、ボトルネックを特定し一部をパッチ処理にしつつもリアルタイム性を残すことで解決したという話。AWSの構成、A/Bテストや負荷テストの話もあり、実用的で非常に興味深かった。
NewsPicksに推薦システムを本番投入する上で一番優先すべきだったこと, 2024.08
Paper/Blog Link My Issue
#Article #RecommenderSystems #NeuralNetwork #CTRPrediction #NewsRecommendation #MLOps #Evaluation #Blog Issue Date: 2024-08-31 Comment
>推薦モデルの良し悪しをより高い確度で評価できる実験を、より簡単に実行できる状態を作ることでした。平たく言えば「いかにA/Bテストしやすい推薦システムを設計するか」が最も重要だった訳です。
オフライン評価とオンライン評価の相関がない系の話で、A/Bテストを容易に実施できる環境になかった、かつCTRが実際に向上したモデルがオフライン評価での性能が現行モデルよりも悪く、意思決定がなかなかできなかった、という話。
うーんやはり、推薦におけるオフライン評価ってあまりあてにできないよね、、、
そもそも新たなモデルをデプロイした時点で、テストした時とデータの分布が変わるわけだし、、、
Off-Policy Evaluationの話は勉強したい。
あと、定性評価は重要
Controlled experiments on the web: survey and practical guide, 2023
Paper/Blog Link My Issue
#Article #Blog Issue Date: 2023-04-26 Comment
A/Bテストのベストプラクティスが書かれているらしい