Speech
[Paper Note] MoST: Mixing Speech and Text with Modality-Aware Mixture of Experts, Yuxuan Lou+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #MultiModal #SpeechProcessing #UMM #text Issue Date: 2026-01-16 GPT Summary- 「MoST(Mixture of Speech and Text)」という新しいマルチモーダル言語モデルを提案。MAMoEアーキテクチャに基づき、専門的なルーティングパスを導入して音声とテキストの処理を統合。モデルはモダリティ特有のエキスパートと共有エキスパートを活用し、音声-テキストの効率的な変換パイプラインを開発。テスト結果は、MoSTが既存モデルを上回る性能を示し、特にルーティングメカニズムと共有エキスパートの影響が顕著であった。本モデルは、初の完全オープンソース音声-テキストLLMとして重要な意義を持つ。 Comment
元ポスト:
テキストとスピーチのUMMで、テキスト・音声生成の両方が可能
[Paper Note] LEMAS: Large A 150K-Hour Large-scale Extensible Multilingual Audio Suite with Generative Speech Models, Zhiyuan Zhao+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Dataset #SpeechProcessing #MultiLingual #TTS #One-Line Notes Issue Date: 2026-01-14 GPT Summary- LEMAs-Datasetは、150,000時間以上の音声データから構築された、大規模で多言語対応のオープンソース音声コーパスです。特に、単語レベルのタイムスタンプを持ち、効率的なデータ処理パイプラインによって品質が保証されています。このデータセットを利用して、異なるアーキテクチャによる二つのベンチマークモデルを訓練し、多言語合成や音声編集における高品質なパフォーマンスを実現しました。実験結果は、LEMAs-Datasetが音声生成システムの発展に寄与することを示しています。 Comment
pj page: https://lemas-project.github.io/LEMAS-Project/
データセットに日本語が含まれてないように見える😭
元ポスト:
[Paper Note] VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction, Chaoyou Fu+, NeurIPS'25, 2025.01
Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #MultiModal #SpeechProcessing #NeurIPS #VisionLanguageModel #2D (Image) #TTS #AudioLanguageModel Issue Date: 2025-11-05 GPT Summary- 音声の役割を重視したマルチモーダル大規模言語モデル(MLLM)の訓練手法を提案。視覚と音声の相互作用を強化し、ASRやTTSモジュールなしで効率的な音声対話を実現。ベンチマークで最先端手法と比較し、リアルタイムの視覚と音声の相互作用が可能であることを示す。 Comment
元ポスト:
image/video, speechを入力として受けとりリアルタイムに音声を出力するマルチモーダルモデル。
[Paper Note] UniTok-Audio: A Unified Audio Generation Framework via Generative Modeling on Discrete Codec Tokens, Chengwei Liu+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #SpeechProcessing #UMM #AudioLanguageModel #text Issue Date: 2025-11-04 GPT Summary- UniTok-Audioは、音声生成タスクのための統一されたスケーラブルフレームワークで、条件の特徴を抽出し、音声の離散トークンを生成。特別なタスク識別トークンにより、複数のタスクの学習を統一し、高忠実度の波形再構築を実現。実験では、音声復元や音声変換など5つのタスクで競争力のある性能を示し、将来的にオープンソース化予定。 Comment
元ポスト:
A Large-Scale Evaluation of Speech Foundation Models, Shu-wen Yang+, N_A, arXiv'24
Paper/Blog Link My Issue
#Survey #Pocket #SpokenLanguageProcessing #Evaluation #FoundationModel Issue Date: 2024-04-21 GPT Summary- 基盤モデルパラダイムは、共有基盤モデルを使用して最先端のパフォーマンスを達成し、下流特有のモデリングやデータ注釈を最小限に抑えることを目指す。このアプローチは、自然言語処理(NLP)の分野で成功しているが、音声処理分野では類似したセットアップが不足している。本研究では、音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を設立し、音声に対する基盤モデルパラダイムの効果を調査する。凍結された基盤モデルに続いて、タスク専用の軽量な予測ヘッドを使用して、SUPERB内の音声処理タスクに取り組むための統一されたマルチタスキングフレームワークを提案する。結果は、基盤モデルパラダイムが音声に有望であり、提案されたマルチタスキングフレームワークが効果的であることを示し、最も優れた基盤モデルがほとんどのSUPERBタスクで競争力のある汎化性能を持つことを示している。 Comment
Speech関連のFoundation Modelの評価結果が載っているらしい。
図は下記ツイートより引用
参考:
Simple and Effective Unsupervised Speech Translation, ACL'23
Paper/Blog Link My Issue
#MachineTranslation #Unsupervised #NLP #SpeechProcessing Issue Date: 2023-07-15 GPT Summary- 音声翻訳のためのラベル付きデータが限られているため、非教師あり手法を使用して音声翻訳システムを構築する方法を研究している。パイプラインアプローチや擬似ラベル生成を使用し、非教師ありドメイン適応技術を提案している。実験の結果、従来の手法を上回る性能を示している。