TTSに関する論文・技術記事メモの一覧

TTS

[Paper Note] DiffuSpeech: Silent Thought, Spoken Answer via Unified Speech-Text Diffusion, Yuxuan Lou+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Dataset #Chain-of-Thought #SpeechProcessing #DiffusionModel #Reasoning #Architecture #Selected Papers/Blogs #AudioLanguageModel #Initial Impression Notes Issue Date: 2026-02-02 GPT Summary- 音声LMMが直接応答を生成する際に発生するエラーを解決するため、「沈黙の思考、話された答え」という新たなパラダイムを提案。内部のテキスト推論と共に音声応答を生成する拡散ベースの音声-テキスト言語モデル\method{}を開発。モダリティ固有のマスキングを使用し、推論過程と音声トークンを共同生成。初の音声QAデータセット\dataset{}も構築し、26,000サンプルを含む。実験結果はQA精度で最先端を達成し、最高のTTS品質を維持しつつ言語理解も促進。拡散アーキテクチャの効果も実証。 Comment

元ポスト:

Loading…

音声合成、AudioLanguageModelの枠組みにおいてreasoningを導入する新たなアーキテクチャを提案し、そのためのデータを収集して性能が向上しているように見え、重要研究に感じる。

[Paper Note] LEMAS: Large A 150K-Hour Large-scale Extensible Multilingual Audio Suite with Generative Speech Models, Zhiyuan Zhao+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Dataset #SpeechProcessing #Speech #MultiLingual #One-Line Notes Issue Date: 2026-01-14 GPT Summary- LEMAs-Datasetは、150,000時間以上の音声データから構築された、大規模で多言語対応のオープンソース音声コーパスです。特に、単語レベルのタイムスタンプを持ち、効率的なデータ処理パイプラインによって品質が保証されています。このデータセットを利用して、異なるアーキテクチャによる二つのベンチマークモデルを訓練し、多言語合成や音声編集における高品質なパフォーマンスを実現しました。実験結果は、LEMAs-Datasetが音声生成システムの発展に寄与することを示しています。 Comment

pj page: https://lemas-project.github.io/LEMAS-Project/

データセットに日本語が含まれてないように見える😭

元ポスト:

Loading…

[Paper Note] VoiceStar: Robust Zero-Shot Autoregressive TTS with Duration Control and Extrapolation, Puyuan Peng+, arXiv'25, 2025.05

Paper/Blog Link My Issue
#SpeechProcessing Issue Date: 2025-12-22 GPT Summary- VoiceStarは、持続時間制御と外挿を実現する初のゼロショットTTSモデルで、自己回帰型エンコーダ-デコーダニューラルコーデック言語モデルを使用。新しいPM-RoPEを活用し、CPMトレーニングで音声の品質を向上。短いベンチマークで最先端モデルと同等またはそれを上回り、長い形式では理解可能性や自然さで大幅に優れた性能を示す。 Comment

日本語解説:
- [Paper Note] VoiceStar: Robust Zero-Shot Autoregressive TTS with Duration Control and Extrapolation, Puyuan Peng+, arXiv'25, 2025.05

[Paper Note] VoxCPM: Tokenizer-Free TTS for Context-Aware Speech Generation and True-to-Life Voice Cloning, Yixuan Zhou+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#SpeechProcessing #OpenWeight Issue Date: 2025-12-10 GPT Summary- 音声合成の生成モデルは、安定性と表現力のトレードオフに直面している。これを解決するために、半離散残差表現を用いた新しいトークナイザー不要のTTSモデルVoxCPMを提案。テキスト-セマンティック言語モデル（TSLM）が意味的計画を生成し、残差音響モデル（RALM）が音響の詳細を復元。180万時間のデータで訓練されたVoxCPM-0.5Bモデルは、最先端のゼロショットTTSパフォーマンスを達成し、文脈に応じた自然な音声を生成する能力を示す。VoxCPMはApache 2.0の下で公開され、コミュニティの研究開発を促進する。 Comment

HF: https://huggingface.co/openbmb/VoxCPM1.5

元ポスト:

Loading…

[Paper Note] VibeVoice Technical Report, Zhiliang Peng+, arXiv'25, 2025.08

Paper/Blog Link My Issue
#NLP #LanguageModel #SpeechProcessing #SmallModel #AudioLanguageModel Issue Date: 2025-12-07 GPT Summary- 新モデル「VibeVoice」は、次トークン拡散を用いて複数の話者による長形式の音声を合成する。新しい音声トークナイザーにより、データ圧縮を80倍向上させつつ、音声の忠実度を保ち、計算効率を改善。最大4人の話者による90分の音声合成が可能で、対話モデルを上回る性能を示す。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B

Qwen2-2.5-0.5Bベースでdiffusionベースなheadを用いる。Acoustic Tokenizerを事前学習しtokenizerをfrozenしheadとLLMのパラメータを追加で学習。おそらくら英語のみをサポート。

[Paper Note] Paper2Video: Automatic Video Generation from Scientific Papers, Zeyu Zhu+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #NLP #SpeechProcessing #VideoGeneration/Understandings #VisionLanguageModel #Science #4D (Video) #TextToVideoGeneration Issue Date: 2025-11-29 GPT Summary- Paper2Videoは、研究論文から学術プレゼンテーション動画を自動生成するための新しいベンチマークとフレームワークを提案。101の研究論文に基づくデータセットを用い、動画生成のための評価指標を設計。PaperTalkerは、スライド生成や字幕、音声合成を統合し、効率的な生成を実現。実験により、提案手法が既存の方法よりも情報量が多く、忠実な動画を生成することを示した。データセットやコードは公開されている。 Comment

pj page: https://showlab.github.io/Paper2Video/

元ポスト:

Loading…

[Paper Note] Step-Audio-EditX Technical Report, Chao Yan+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#LanguageModel #SpeechProcessing #OpenWeight #Editing #AudioLanguageModel Issue Date: 2025-11-09 GPT Summary- 初のオープンソースLLMベースの音声モデル「Step-Audio-EditX」を発表。感情や話し方の編集に優れ、ゼロショットのテキスト音声合成機能も搭載。大きなマージンの合成データを活用し、従来のアプローチからの転換を実現。評価では、感情編集や細かい制御タスクで他のモデルを上回る性能を示した。 Comment

元ポスト:

Loading…

[Paper Note] VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction, Chaoyou Fu+, NeurIPS'25, 2025.01

Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #Speech #NeurIPS #VisionLanguageModel #2D (Image) #AudioLanguageModel Issue Date: 2025-11-05 GPT Summary- 音声の役割を重視したマルチモーダル大規模言語モデル（MLLM）の訓練手法を提案。視覚と音声の相互作用を強化し、ASRやTTSモジュールなしで効率的な音声対話を実現。ベンチマークで最先端手法と比較し、リアルタイムの視覚と音声の相互作用が可能であることを示す。 Comment

元ポスト:

Loading…

image/video, speechを入力として受けとりリアルタイムに音声を出力するマルチモーダルモデル。

[Paper Note] OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM, Hanrong Ye+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #NLP #Temporal #LanguageModel #SyntheticData #MultiModal #SpeechProcessing #Architecture #2D (Image) #4D (Video) #Omni #audio #text Issue Date: 2025-10-21 GPT Summary- OmniVinciは、視覚と音声を統合したオムニモーダルLLMを構築するプロジェクトであり、3つの革新（OmniAlignNet、Temporal Embedding Grouping、Constrained Rotary Time Embedding）を提案。2400万の会話データを用いて、モダリティ間の相互強化を実現。DailyOmni、MMAR、Video-MMEでの性能向上を達成し、トレーニングトークンの使用量を大幅に削減。ロボティクスや医療AIなどの応用におけるオムニモーダルの利点を示す。 Comment

pj page: https://nvlabs.github.io/OmniVinci/

元ポスト:

Loading…

image, video, テキスト, 音声を理解しテキストを出力（TTSも可）するモデルに関する新たなアーキテクチャとデータキュレーションパイプラインを提案している模様

[Paper Note] DiaMoE-TTS: A Unified IPA-Based Dialect TTS Framework with Mixture-of-Experts and Parameter-Efficient Zero-Shot Adaptation, Ziqi Chen+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#Transformer #SpeechProcessing #DiffusionModel #MoE(Mixture-of-Experts) #FlowMatching #LowResource #ConvolutionalModels Issue Date: 2025-10-18 GPT Summary- DiaMoE-TTSは、方言の音声合成のためのIPAベースのフレームワークを提案し、音声表現の標準化と曖昧さの解決を図る。F5-TTSアーキテクチャを基に、方言に対応したMixture-of-Expertsを導入し、効率的なパラメータ適応を実現。スケーラブルでオープンデータ駆動のアプローチにより、数時間のデータで未見の方言や専門的なドメインに対して自然で表現力豊かな音声生成を達成。 Comment

元ポスト:

Loading…

[Paper Note] Streaming Sequence-to-Sequence Learning with Delayed Streams Modeling, Neil Zeghidour+, arXiv'25

Paper/Blog Link My Issue
#Transformer #SpeechProcessing Issue Date: 2025-09-11 GPT Summary- Delayed Streams Modeling (DSM)は、ストリーミングおよびマルチモーダルなシーケンス・ツー・シーケンス学習のための新しい手法で、入力シーケンスを完全に消費するオフライン方式とは異なり、出力タイミングを学習するストリーミング方式を採用しています。DSMはデコーダー専用の言語モデルを用いて、時間的に整列されたストリームをモデル化し、遅延を導入することで任意の出力シーケンスのストリーミング推論を実現します。特に、テキストと音声のストリームにおいて、自動音声認識（ASR）やテキスト・トゥ・スピーチ（TTS）モデルに対して優れた性能を示し、オフラインベースラインと競争できることが実験で確認されました。 Comment

元ポスト:

Loading…

MiniCPM-o-4_5, OpenBMB, 2026.02

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #SpeechProcessing #DiffusionModel #OpenWeight #AutomaticSpeechRecognition(ASR) #VisionLanguageModel #Omni #AudioLanguageModel Issue Date: 2026-02-05 Comment

元ポスト:

Loading…

Qwen3-TTS Steps Up: Voice Cloning and Voice Design, Qwen Team, 2025.12

Paper/Blog Link My Issue
#Article #SpeechProcessing #Blog #OpenWeight #Proprietary Issue Date: 2025-12-25 Comment

元ポスト:

Loading…

日本語のVoice Cloneもサポートされている

HF: https://huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-Base

論文解説：VoiceStar, Aratako, Zenn, 2025.12

Paper/Blog Link My Issue
#Article #SpeechProcessing #Blog #PositionalEncoding #Encoder-Decoder Issue Date: 2025-12-22 Comment

vector quantization:
- [Paper Note] Autoregressive Image Generation using Residual Quantization, Doyup Lee+, CVPR'22, 2022.03
- [Paper Note] Taming Transformers for High-Resolution Image Synthesis, Patrick Esser+, CVPR'21, 2020.12

chatterbox-turbo, ResembleAI, 2025.12

Paper/Blog Link My Issue
#Article #SpeechProcessing #OpenWeight #One-Line Notes #Realtime Issue Date: 2025-12-17 Comment

元ポスト:

Loading…

realtime（最初の発話まで<150ms）のlatencyが実現されたOpenWeightなTTSで、multilingualモデルは日本語にも対応している模様。テクニカルレポートがないのでよくわからないが、githubがあるのでソースコードを見ればアーキテクチャがわかりそうではある。たとえばVoiceEncoderには（おそらく速度を重視するために）LSTMが利用されていた。

github: https://github.com/resemble-ai/chatterbox

Qwen3-TTS Update 49 Timbres + 10 Languages + 9 Dialects, Qwen Team, 2025.12

Paper/Blog Link My Issue
#Article #SpeechProcessing #MultiLingual #Proprietary #One-Line Notes Issue Date: 2025-12-06 Comment

元ポスト:

Loading…

日本語を含む10ヶ国語をサポートしているのは素晴らしい。ただ、デモの日本語を聞いてみると、イントネーションがまだおかしいなぁ、と感じる。聞き取り自体に問題はない。

Ming-flash-omni-Preview, inclusionAI, 2025.10

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #Routing #UMM #Omni #Sparse #ImageSynthesis #Initial Impression Notes Issue Date: 2025-10-28 Comment

元ポスト:

Loading…

過去一番多くのタグを付与した気がするが、果たして大規模、Omniモーダルかつ、UMMにしたことによる恩恵（＝様々なモダリティを統一された空間上に学習させる恩恵）はどの程度あるのだろうか？

アーキテクチャを見ると、モダリティごとに（モダリティ単位でのバイアスがかかった）Routerが用意されexpertにルーティングされるような構造になっている。

OmniモーダルでUMMを大規模にスクラッチから事前学習:
- [Paper Note] ERNIE 5.0 Technical Report, Haifeng Wang+, arXiv'26, 2026.02

commonvoice22_sidon, sarulab-speech, 2025.10

Paper/Blog Link My Issue
#Article #SpeechProcessing #MultiLingual #OpenWeight Issue Date: 2025-10-09 Comment

元ポスト:

Loading…

134言語サポートのTTS

VoxCPM-0.5B, openbmb, 2025.09

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SmallModel Issue Date: 2025-09-17 Comment

元ポスト:

Loading…

- [Paper Note] MiniCPM4: Ultra-Efficient LLMs on End Devices, MiniCPM Team+, arXiv'25

をバックボーンとするTTS

VibeVoice-1.5B, microsoft, 2025.08

Paper/Blog Link My Issue
#Article #LanguageModel #SpeechProcessing #LongSequence #MultiLingual #OpenWeight Issue Date: 2025-08-25 Comment

元ポスト:

Loading…

> Unsupported language – the model is trained only on English and Chinese data; outputs in other languages are unsupported and may be unintelligible or offensive.

日本語は対応していないので注意

outputできるspeechのlengthが先行研究より非常に長く、90分近く生成できる模様？