VAD


Paper/Blog Link My Issue
#Article #NeuralNetwork #Transformer #AIAgents #SpeechProcessing #Blog #MultiLingual #OpenWeight #OpenSource #One-Line Notes Issue Date: 2025-12-04 Comment

dataset: https://huggingface.co/pipecat-ai
code: https://github.com/pipecat-ai/smart-turn
model: https://huggingface.co/pipecat-ai/smart-turn-v3

オープンソースのVoice Activity Detection (VAD)モデル。本ブログのv3.1では、TTSデータだけでなく英語とスペイン語の人間によるaudio sampleも追加し学習し性能向上。23言語をサポートし、Accuracyは90%以上を達成。数msでのリアルタイムなlatencyを達成できる。

バックボーンはWhisper Tiny encoderで、headとしてshallow linear classifiesを利用しているとのこと。

Whisper:
- [Paper Note] Robust Speech Recognition via Large-Scale Weak Supervision, Alec Radford+, ICML'23, 2022.12