TTS

#Pocket #LanguageModel #SpeechProcessing #OpenWeight #Editing #AudioLanguageModel
Issue Date: 2025-11-09 [Paper Note] Step-Audio-EditX Technical Report, Chao Yan+, arXiv'25, 2025.11 GPT Summary- 初のオープンソースLLMベースの音声モデル「Step-Audio-EditX」を発表。感情や話し方の編集に優れ、ゼロショットのテキスト音声合成機能も搭載。大きなマージンの合成データを活用し、従来のアプローチからの転換を実現。評価では、感情編集や細かい制御タスクで他のモデルを上回る性能を示した。 Comment

元ポスト:

Loading…


#ComputerVision #Pocket #NLP #LanguageModel #MultiModal #SpeechProcessing #Speech #NeurIPS #VisionLanguageModel #2D (Image) #AudioLanguageModel
Issue Date: 2025-11-05 [Paper Note] VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction, Chaoyou Fu+, NeurIPS'25, 2025.01 GPT Summary- 音声の役割を重視したマルチモーダル大規模言語モデル(MLLM)の訓練手法を提案。視覚と音声の相互作用を強化し、ASRやTTSモジュールなしで効率的な音声対話を実現。ベンチマークで最先端手法と比較し、リアルタイムの視覚と音声の相互作用が可能であることを示す。 Comment

元ポスト:

Loading…

image/video, speechを入力として受けとりリアルタイムに音声を出力するマルチモーダルモデル。
image



#ComputerVision #Pocket #NLP #Temporal #LanguageModel #SyntheticData #MultiModal #SpeechProcessing #Architecture #2D (Image) #4D (Video) #Omni #audio #text
Issue Date: 2025-10-21 [Paper Note] OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM, Hanrong Ye+, arXiv'25, 2025.10 GPT Summary- OmniVinciは、視覚と音声を統合したオムニモーダルLLMを構築するプロジェクトであり、3つの革新(OmniAlignNet、Temporal Embedding Grouping、Constrained Rotary Time Embedding)を提案。2400万の会話データを用いて、モダリティ間の相互強化を実現。DailyOmni、MMAR、Video-MMEでの性能向上を達成し、トレーニングトークンの使用量を大幅に削減。ロボティクスや医療AIなどの応用におけるオムニモーダルの利点を示す。 Comment

pj page: https://nvlabs.github.io/OmniVinci/

元ポスト:

Loading…

image, video, テキスト, 音声を理解しテキストを出力(TTSも可)するモデルに関する新たなアーキテクチャとデータキュレーションパイプラインを提案している模様



#Pocket #Transformer #SpeechProcessing #DiffusionModel #MoE(Mixture-of-Experts) #FlowMatching #LowResource #ConvolutionalModels Issue Date: 2025-10-18 [Paper Note] DiaMoE-TTS: A Unified IPA-Based Dialect TTS Framework with Mixture-of-Experts and Parameter-Efficient Zero-Shot Adaptation, Ziqi Chen+, arXiv'25, 2025.09 GPT Summary- DiaMoE-TTSは、方言の音声合成のためのIPAベースのフレームワークを提案し、音声表現の標準化と曖昧さの解決を図る。F5-TTSアーキテクチャを基に、方言に対応したMixture-of-Expertsを導入し、効率的なパラメータ適応を実現。スケーラブルでオープンデータ駆動のアプローチにより、数時間のデータで未見の方言や専門的なドメインに対して自然で表現力豊かな音声生成を達成。 Comment

元ポスト:

Loading…


#Pocket #Transformer #SpeechProcessing Issue Date: 2025-09-11 [Paper Note] Streaming Sequence-to-Sequence Learning with Delayed Streams Modeling, Neil Zeghidour+, arXiv'25 GPT Summary- Delayed Streams Modeling (DSM)は、ストリーミングおよびマルチモーダルなシーケンス・ツー・シーケンス学習のための新しい手法で、入力シーケンスを完全に消費するオフライン方式とは異なり、出力タイミングを学習するストリーミング方式を採用しています。DSMはデコーダー専用の言語モデルを用いて、時間的に整列されたストリームをモデル化し、遅延を導入することで任意の出力シーケンスのストリーミング推論を実現します。特に、テキストと音声のストリームにおいて、自動音声認識(ASR)やテキスト・トゥ・スピーチ(TTS)モデルに対して優れた性能を示し、オフラインベースラインと競争できることが実験で確認されました。 Comment

元ポスト:

Loading…


#Article #ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #Routing #UMM #Omni #Sparse #ImageSynthesis Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25

過去一番多くのタグを付与した気がするが、果たして大規模、Omniモデルかつ、UMMにしたことによる恩恵(=様々なモダリティを統一された空間上に学習させる恩恵)はどの程度あるのだろうか?

アーキテクチャを見ると、モダリティごとに(モダリティ単位でのバイアスがかかった)Routerが用意されexpertにルーティングされるような構造になっている。



#Article #SpeechProcessing #MultiLingual #OpenWeight Issue Date: 2025-10-09 commonvoice22_sidon, sarulab-speech, 2025.10 Comment

元ポスト:

Loading…

134言語サポートのTTS



#Article #NLP #LanguageModel #SmallModel Issue Date: 2025-09-17 VoxCPM-0.5B, openbmb, 2025.09 Comment

元ポスト:

Loading…

- [Paper Note] MiniCPM4: Ultra-Efficient LLMs on End Devices, MiniCPM Team+, arXiv'25

をバックボーンとするTTS



#Article #LanguageModel #SpeechProcessing #LongSequence #MultiLingual #OpenWeight Issue Date: 2025-08-25 VibeVoice-1.5B, microsoft, 2025.08 Comment

元ポスト:

Loading…

> Unsupported language – the model is trained only on English and Chinese data; outputs in other languages are unsupported and may be unintelligible or offensive.

日本語は対応していないので注意

outputできるspeechのlengthが先行研究より非常に長く、90分近く生成できる模様?

image