TTS

#Pocket #Transformer #SpeechProcessing
Issue Date: 2025-09-11 [Paper Note] Streaming Sequence-to-Sequence Learning with Delayed Streams Modeling, Neil Zeghidour+, arXiv'25 GPT Summary- Delayed Streams Modeling (DSM)は、ストリーミングおよびマルチモーダルなシーケンス・ツー・シーケンス学習のための新しい手法で、入力シーケンスを完全に消費するオフライン方式とは異なり、出力タイミングを学習するストリーミング方式を採用しています。DSMはデコーダー専用の言語モデルを用いて、時間的に整列されたストリームをモデル化し、遅延を導入することで任意の出力シーケンスのストリーミング推論を実現します。特に、テキストと音声のストリームにおいて、自動音声認識(ASR)やテキスト・トゥ・スピーチ(TTS)モデルに対して優れた性能を示し、オフラインベースラインと競争できることが実験で確認されました。 Comment

元ポスト:

Loading…


#Article #SpeechProcessing #MultiLingual #OpenWeight
Issue Date: 2025-10-09 commonvoice22_sidon, sarulab-speech, 2025.10 Comment

元ポスト:

Loading…

134言語サポートのTTS



#Article #NLP #LanguageModel #SmallModel
Issue Date: 2025-09-17 VoxCPM-0.5B, openbmb, 2025.09 Comment

元ポスト:

Loading…

- [Paper Note] MiniCPM4: Ultra-Efficient LLMs on End Devices, MiniCPM Team+, arXiv'25

をバックボーンとするTTS



#Article #LanguageModel #SpeechProcessing #LongSequence #MultiLingual #OpenWeight Issue Date: 2025-08-25 VibeVoice-1.5B, microsoft, 2025.08 Comment

元ポスト:

Loading…

> Unsupported language – the model is trained only on English and Chinese data; outputs in other languages are unsupported and may be unintelligible or offensive.

日本語は対応していないので注意

outputできるspeechのlengthが先行研究より非常に長く、90分近く生成できる模様?

image