VAD
Improved accuracy in Smart Turn v3.1, Daily, 2025.12
Paper/Blog Link My Issue
#Article #NeuralNetwork #Transformer #AIAgents #SpeechProcessing #Blog #MultiLingual #OpenWeight #OpenSource #One-Line Notes Issue Date: 2025-12-04 Comment
dataset:
https://huggingface.co/pipecat-ai
code:
https://github.com/pipecat-ai/smart-turn
model:
https://huggingface.co/pipecat-ai/smart-turn-v3
オープンソースのVoice Activity Detection (VAD)モデル。本ブログのv3.1では、TTSデータだけでなく英語とスペイン語の人間によるaudio sampleも追加し学習し性能向上。23言語をサポートし、Accuracyは90%以上を達成。数msでのリアルタイムなlatencyを達成できる。
バックボーンはWhisper Tiny encoderで、headとしてshallow linear classifiesを利用しているとのこと。