Speech
[Paper Note] ERNIE 5.0 Technical Report, Haifeng Wang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #Proprietary #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #2D (Image) #UMM #4D (Video) #Omni #text #Initial Impression Notes Issue Date: 2026-02-06 GPT Summary- ERNIE 5.0は、テキスト、画像、ビデオ、音声に対応したマルチモーダル理解と生成のための基盤モデルです。超スパースな専門家の混合アーキテクチャを使用し、依存しないルーティングでトークン予測を行います。新たなトレーニングパラダイムにより、モデルは性能、サイズ、推論レイテンシを柔軟に調整可能です。幅広い実験において、ERNIE 5.0は複数のモダリティで優れた性能を示し、初の商用規模の兆パラメータモデルとして注目されています。 Comment
元ポスト:
リリース時の公式ポスト:
あくまでskim readingをして得た印象なのだが、非常に興味深い研究で、Omniモダリティを超大規模モデルでスクラッチからUnified Multimodal Modelとして学習し、MoEで効率的に推論するというアーキテクチャと手法に見え(個人的にこういう手法でやったらどうなるのだろう?と思っていたドンピシャな設定)、各種ベンチマークの性能指標を見ると多くの指標で全体的に良いスコアを達成しており様々なタスクを高性能で実現できる一方、特定の分野のベンチマークでGemini Pro 3の方が強い面が多く(たとえばテキストモダリティのstem, coding, vision全般, ASR全般)、Omniモダリティの統合は一筋縄ではいかず、どのようにモダリティを統合し、学習することが効果的なのか?という根源的な問いがあらためて思い浮かぶ。
Ming Omniでも同様のことがやられていた:
- [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25, 2025.06
[Paper Note] MoST: Mixing Speech and Text with Modality-Aware Mixture of Experts, Yuxuan Lou+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #MultiModal #SpeechProcessing #UMM #text Issue Date: 2026-01-16 GPT Summary- 「MoST(Mixture of Speech and Text)」という新しいマルチモーダル言語モデルを提案。MAMoEアーキテクチャに基づき、専門的なルーティングパスを導入して音声とテキストの処理を統合。モデルはモダリティ特有のエキスパートと共有エキスパートを活用し、音声-テキストの効率的な変換パイプラインを開発。テスト結果は、MoSTが既存モデルを上回る性能を示し、特にルーティングメカニズムと共有エキスパートの影響が顕著であった。本モデルは、初の完全オープンソース音声-テキストLLMとして重要な意義を持つ。 Comment
元ポスト:
テキストとスピーチのUMMで、テキスト・音声生成の両方が可能
[Paper Note] LEMAS: Large A 150K-Hour Large-scale Extensible Multilingual Audio Suite with Generative Speech Models, Zhiyuan Zhao+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Dataset #SpeechProcessing #MultiLingual #TTS #One-Line Notes Issue Date: 2026-01-14 GPT Summary- LEMAs-Datasetは、150,000時間以上の音声データから構築された、大規模で多言語対応のオープンソース音声コーパスです。特に、単語レベルのタイムスタンプを持ち、効率的なデータ処理パイプラインによって品質が保証されています。このデータセットを利用して、異なるアーキテクチャによる二つのベンチマークモデルを訓練し、多言語合成や音声編集における高品質なパフォーマンスを実現しました。実験結果は、LEMAs-Datasetが音声生成システムの発展に寄与することを示しています。 Comment
pj page: https://lemas-project.github.io/LEMAS-Project/
データセットに日本語が含まれてないように見える😭
元ポスト:
[Paper Note] VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction, Chaoyou Fu+, NeurIPS'25, 2025.01
Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #NeurIPS #VisionLanguageModel #2D (Image) #TTS #AudioLanguageModel Issue Date: 2025-11-05 GPT Summary- 音声の役割を重視したマルチモーダル大規模言語モデル(MLLM)の訓練手法を提案。視覚と音声の相互作用を強化し、ASRやTTSモジュールなしで効率的な音声対話を実現。ベンチマークで最先端手法と比較し、リアルタイムの視覚と音声の相互作用が可能であることを示す。 Comment
元ポスト:
image/video, speechを入力として受けとりリアルタイムに音声を出力するマルチモーダルモデル。
[Paper Note] UniTok-Audio: A Unified Audio Generation Framework via Generative Modeling on Discrete Codec Tokens, Chengwei Liu+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #LanguageModel #SpeechProcessing #UMM #AudioLanguageModel #text Issue Date: 2025-11-04 GPT Summary- UniTok-Audioは、音声生成タスクのための統一されたスケーラブルフレームワークで、条件の特徴を抽出し、音声の離散トークンを生成。特別なタスク識別トークンにより、複数のタスクの学習を統一し、高忠実度の波形再構築を実現。実験では、音声復元や音声変換など5つのタスクで競争力のある性能を示し、将来的にオープンソース化予定。 Comment
元ポスト:
[Paper Note] A Large-Scale Evaluation of Speech Foundation Models, Shu-wen Yang+, arXiv'24, 2024.04
Paper/Blog Link My Issue
#Survey #Evaluation #FoundationModel #SpeechProcessing #One-Line Notes Issue Date: 2024-04-21 GPT Summary- 音声処理の基盤モデルパラダイムを探求するため、新たにSpeech processing Universal PERformance Benchmark(SUPERB)を設立。凍結された基盤モデルに軽量な予測ヘッドを適用したマルチタスキングフレームワークを提案し、音声タスクにおける基盤モデルの有効性を実証。結果は、競争力のある一般化能力を示し、決定論的なベンチマークとオンラインリーダーボードを導入し、コミュニティのコラボレーションを促進。最後に、タスク間の情報フローやベンチマークの統計的有意性を分析。 Comment
Speech関連のFoundation Modelの評価結果が掲載されており、大変興味深い。
参考:
Simple and Effective Unsupervised Speech Translation, ACL'23
Paper/Blog Link My Issue
#MachineTranslation #Unsupervised #NLP #SpeechProcessing Issue Date: 2023-07-15 GPT Summary- 音声翻訳のためのラベル付きデータが限られているため、非教師あり手法を使用して音声翻訳システムを構築する方法を研究している。パイプラインアプローチや擬似ラベル生成を使用し、非教師ありドメイン適応技術を提案している。実験の結果、従来の手法を上回る性能を示している。
[Paper Note] Large-scale Contrastive Language-Audio Pretraining with Feature Fusion and Keyword-to-Caption Augmentation, Yusong Wu+, ICASSP'23, 2022.11
Paper/Blog Link My Issue
#NeuralNetwork #Embeddings #Pretraining #NLP #Library #RepresentationLearning #MultiModal #SpeechProcessing #ContrastiveLearning #One-Line Notes #text #ICASSP Issue Date: 2023-04-25 GPT Summary- 音声データと自然言語説明を組み合わせたコントラスト学習による音声表現開発のパイプラインを提案。633,526の音声-テキストペアからなるLAION-Audio-630Kを公開し、音声エンコーダとテキストエンコーダを用いたモデルを構築。特徴融合メカニズムを採用し、可変長の音声入力に対応。テキストから音声検索や音声分類に関する実験により、特にテキスト検索で優れた性能を示し、ゼロショット設定でも最先端の結果を達成。LAION-Audio-630Kとモデルは公開済み。 Comment
テキストとオーディオをエンコードするMLPエンコーダをそれぞれ用意し、大量のペアをcontrastive learningで事前学習することで、テキストとオーディオ間を同じ空間に写像し、類似度を測れるようにしたモデル。zero-shotでaudio分類などが可能。
Ming-flash-omni-2.0, inclusionAI, 2026.02
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Transformer #MultiModal #SpeechProcessing #DiffusionModel #OpenWeight #MoE(Mixture-of-Experts) #2D (Image) #Omni #text Issue Date: 2026-02-12 Comment
元ポスト:
関連:
- Ming-flash-omni-Preview, inclusionAI, 2025.10
- [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25, 2025.06
公式ポスト:
