AudioLanguageModelに関する論文・技術記事メモの一覧

AudioLanguageModel

[Paper Note] DiffuSpeech: Silent Thought, Spoken Answer via Unified Speech-Text Diffusion, Yuxuan Lou+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#Dataset #Chain-of-Thought #SpeechProcessing #DiffusionModel #Reasoning #Architecture #Selected Papers/Blogs #TTS #Initial Impression Notes Issue Date: 2026-02-02 GPT Summary- 音声LMMが直接応答を生成する際に発生するエラーを解決するため、「沈黙の思考、話された答え」という新たなパラダイムを提案。内部のテキスト推論と共に音声応答を生成する拡散ベースの音声-テキスト言語モデル\method{}を開発。モダリティ固有のマスキングを使用し、推論過程と音声トークンを共同生成。初の音声QAデータセット\dataset{}も構築し、26,000サンプルを含む。実験結果はQA精度で最先端を達成し、最高のTTS品質を維持しつつ言語理解も促進。拡散アーキテクチャの効果も実証。 Comment

元ポスト:

Loading…

音声合成、AudioLanguageModelの枠組みにおいてreasoningを導入する新たなアーキテクチャを提案し、そのためのデータを収集して性能が向上しているように見え、重要研究に感じる。

[Paper Note] HeartMuLa: A Family of Open Sourced Music Foundation Models, Dongchao Yang+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #MultiModal #FoundationModel #SpeechProcessing #OpenWeight #Music Issue Date: 2026-01-17 GPT Summary- オープンソースの音楽基盤モデルファミリーを提案し、音楽理解と生成を促進する。主要な4つのコンポーネントは、音声・テキストアラインメント、堅牢な歌詞認識、高忠実度音楽コーデック、ユーザー制御可能な条件での歌生成を含む。特化モードでは、音楽属性の制御と短い魅力的な生成が可能。これにより、商業グレードのシステムを再現し、多モーダルコンテンツ制作を促進する基盤を構築。 Comment

pj page: https://heartmula.github.io/
HF: https://huggingface.co/HeartMuLa/HeartMuLa-oss-3B

元ポスト:

Loading…

[Paper Note] VibeVoice Technical Report, Zhiliang Peng+, arXiv'25, 2025.08

Paper/Blog Link My Issue
#NLP #LanguageModel #SpeechProcessing #SmallModel #TTS Issue Date: 2025-12-07 GPT Summary- 新モデル「VibeVoice」は、次トークン拡散を用いて複数の話者による長形式の音声を合成する。新しい音声トークナイザーにより、データ圧縮を80倍向上させつつ、音声の忠実度を保ち、計算効率を改善。最大4人の話者による90分の音声合成が可能で、対話モデルを上回る性能を示す。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B

Qwen2-2.5-0.5Bベースでdiffusionベースなheadを用いる。Acoustic Tokenizerを事前学習しtokenizerをfrozenしheadとLLMのパラメータを追加で学習。おそらくら英語のみをサポート。

[Paper Note] Step-Audio-EditX Technical Report, Chao Yan+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#LanguageModel #SpeechProcessing #OpenWeight #Editing #TTS Issue Date: 2025-11-09 GPT Summary- 初のオープンソースLLMベースの音声モデル「Step-Audio-EditX」を発表。感情や話し方の編集に優れ、ゼロショットのテキスト音声合成機能も搭載。大きなマージンの合成データを活用し、従来のアプローチからの転換を実現。評価では、感情編集や細かい制御タスクで他のモデルを上回る性能を示した。 Comment

元ポスト:

Loading…

[Paper Note] VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction, Chaoyou Fu+, NeurIPS'25, 2025.01

Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #Speech #NeurIPS #VisionLanguageModel #2D (Image) #TTS Issue Date: 2025-11-05 GPT Summary- 音声の役割を重視したマルチモーダル大規模言語モデル（MLLM）の訓練手法を提案。視覚と音声の相互作用を強化し、ASRやTTSモジュールなしで効率的な音声対話を実現。ベンチマークで最先端手法と比較し、リアルタイムの視覚と音声の相互作用が可能であることを示す。 Comment

元ポスト:

Loading…

image/video, speechを入力として受けとりリアルタイムに音声を出力するマルチモーダルモデル。

[Paper Note] UniTok-Audio: A Unified Audio Generation Framework via Generative Modeling on Discrete Codec Tokens, Chengwei Liu+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #LanguageModel #SpeechProcessing #Speech #UMM #text Issue Date: 2025-11-04 GPT Summary- UniTok-Audioは、音声生成タスクのための統一されたスケーラブルフレームワークで、条件の特徴を抽出し、音声の離散トークンを生成。特別なタスク識別トークンにより、複数のタスクの学習を統一し、高忠実度の波形再構築を実現。実験では、音声復元や音声変換など5つのタスクで競争力のある性能を示し、将来的にオープンソース化予定。 Comment

元ポスト:

Loading…

[Paper Note] Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap, Yueqian Lin+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#Dataset #Evaluation #SpeechProcessing #Reasoning #audio Issue Date: 2025-10-21 GPT Summary- 音声インタラクティブシステムの推論能力を評価するためのベンチマーク「VERA」を提案。2,931の音声エピソードを5つのトラックに整理し、音声インタラクションに適応。12の音声システムをテキストベースラインと比較した結果、音声モデルの精度は著しく低く、特に数学トラックでは74.8%対6.1%の差が見られた。レイテンシと精度の分析から、迅速な音声システムは約10%の精度に集約され、リアルタイム性を犠牲にしないとテキストパフォーマンスには近づけないことが示された。VERAは、音声アシスタントの推論能力向上に向けた再現可能なテストベッドを提供する。 Comment

元ポスト:

Loading…

latencyとAccuracyのトレードオフ

[Paper Note] AHELM: A Holistic Evaluation of Audio-Language Models, Tony Lee+, arXiv'25

Paper/Blog Link My Issue
#Dataset #LanguageModel #Evaluation #SpeechProcessing #read-later #Selected Papers/Blogs Issue Date: 2025-09-03 GPT Summary- 音声言語モデル（ALMs）の評価には標準化されたベンチマークが欠如しており、これを解決するためにAHELMを導入。AHELMは、ALMsの多様な能力を包括的に測定するための新しいデータセットを集約し、10の重要な評価側面を特定。プロンプトや評価指標を標準化し、14のALMsをテストした結果、Gemini 2.5 Proが5つの側面でトップにランクされる一方、他のモデルは不公平性を示さなかった。AHELMは今後も新しいデータセットやモデルを追加予定。 Comment

元ポスト:

Loading…