TTS
#Pocket
#Transformer
#SpeechProcessing
Issue Date: 2025-09-11 [Paper Note] Streaming Sequence-to-Sequence Learning with Delayed Streams Modeling, Neil Zeghidour+, arXiv'25 GPT Summary- Delayed Streams Modeling (DSM)は、ストリーミングおよびマルチモーダルなシーケンス・ツー・シーケンス学習のための新しい手法で、入力シーケンスを完全に消費するオフライン方式とは異なり、出力タイミングを学習するストリーミング方式を採用しています。DSMはデコーダー専用の言語モデルを用いて、時間的に整列されたストリームをモデル化し、遅延を導入することで任意の出力シーケンスのストリーミング推論を実現します。特に、テキストと音声のストリームにおいて、自動音声認識(ASR)やテキスト・トゥ・スピーチ(TTS)モデルに対して優れた性能を示し、オフラインベースラインと競争できることが実験で確認されました。 Comment
#Article #SpeechProcessing #MultiLingual #OpenWeight
Issue Date: 2025-10-09 commonvoice22_sidon, sarulab-speech, 2025.10 Comment
#Article #NLP #LanguageModel #SmallModel
Issue Date: 2025-09-17 VoxCPM-0.5B, openbmb, 2025.09 Comment
Issue Date: 2025-09-11 [Paper Note] Streaming Sequence-to-Sequence Learning with Delayed Streams Modeling, Neil Zeghidour+, arXiv'25 GPT Summary- Delayed Streams Modeling (DSM)は、ストリーミングおよびマルチモーダルなシーケンス・ツー・シーケンス学習のための新しい手法で、入力シーケンスを完全に消費するオフライン方式とは異なり、出力タイミングを学習するストリーミング方式を採用しています。DSMはデコーダー専用の言語モデルを用いて、時間的に整列されたストリームをモデル化し、遅延を導入することで任意の出力シーケンスのストリーミング推論を実現します。特に、テキストと音声のストリームにおいて、自動音声認識(ASR)やテキスト・トゥ・スピーチ(TTS)モデルに対して優れた性能を示し、オフラインベースラインと競争できることが実験で確認されました。 Comment
元ポスト:
#Article #SpeechProcessing #MultiLingual #OpenWeight
Issue Date: 2025-10-09 commonvoice22_sidon, sarulab-speech, 2025.10 Comment
元ポスト:
134言語サポートのTTS
#Article #NLP #LanguageModel #SmallModel
Issue Date: 2025-09-17 VoxCPM-0.5B, openbmb, 2025.09 Comment
元ポスト:
- [Paper Note] MiniCPM4: Ultra-Efficient LLMs on End Devices, MiniCPM Team+, arXiv'25
をバックボーンとするTTS
#Article
#LanguageModel
#SpeechProcessing
#LongSequence
#MultiLingual
#OpenWeight
Issue Date: 2025-08-25
VibeVoice-1.5B, microsoft, 2025.08
Comment
元ポスト:
> Unsupported language – the model is trained only on English and Chinese data; outputs in other languages are unsupported and may be unintelligible or offensive.
日本語は対応していないので注意
outputできるspeechのlengthが先行研究より非常に長く、90分近く生成できる模様?