AudioLanguageModelに関する論文・技術記事メモの一覧

AudioLanguageModel

[Paper Note] VibeVoice Technical Report, Zhiliang Peng+, arXiv'25, 2025.08

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #SpeechProcessing #SmallModel #TTS Issue Date: 2025-12-07 GPT Summary- 新モデル「VibeVoice」は、次トークン拡散を用いて複数の話者による長形式の音声を合成する。新しい音声トークナイザーにより、データ圧縮を80倍向上させつつ、音声の忠実度を保ち、計算効率を改善。最大4人の話者による90分の音声合成が可能で、対話モデルを上回る性能を示す。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B

Qwen2-2.5-0.5Bベースでdiffusionベースなheadを用いる。Acoustic Tokenizerを事前学習しtokenizerをfrozenしheadとLLMのパラメータを追加で学習。おそらくら英語のみをサポート。

[Paper Note] Step-Audio-EditX Technical Report, Chao Yan+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#Pocket #LanguageModel #SpeechProcessing #OpenWeight #Editing #TTS Issue Date: 2025-11-09 GPT Summary- 初のオープンソースLLMベースの音声モデル「Step-Audio-EditX」を発表。感情や話し方の編集に優れ、ゼロショットのテキスト音声合成機能も搭載。大きなマージンの合成データを活用し、従来のアプローチからの転換を実現。評価では、感情編集や細かい制御タスクで他のモデルを上回る性能を示した。 Comment

元ポスト:

Loading…

[Paper Note] VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction, Chaoyou Fu+, NeurIPS'25, 2025.01

Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #MultiModal #SpeechProcessing #Speech #NeurIPS #VisionLanguageModel #2D (Image) #TTS Issue Date: 2025-11-05 GPT Summary- 音声の役割を重視したマルチモーダル大規模言語モデル（MLLM）の訓練手法を提案。視覚と音声の相互作用を強化し、ASRやTTSモジュールなしで効率的な音声対話を実現。ベンチマークで最先端手法と比較し、リアルタイムの視覚と音声の相互作用が可能であることを示す。 Comment

元ポスト:

Loading…

image/video, speechを入力として受けとりリアルタイムに音声を出力するマルチモーダルモデル。

[Paper Note] UniTok-Audio: A Unified Audio Generation Framework via Generative Modeling on Discrete Codec Tokens, Chengwei Liu+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #SpeechProcessing #Speech #UMM #text Issue Date: 2025-11-04 GPT Summary- UniTok-Audioは、音声生成タスクのための統一されたスケーラブルフレームワークで、条件の特徴を抽出し、音声の離散トークンを生成。特別なタスク識別トークンにより、複数のタスクの学習を統一し、高忠実度の波形再構築を実現。実験では、音声復元や音声変換など5つのタスクで競争力のある性能を示し、将来的にオープンソース化予定。 Comment

元ポスト:

Loading…

[Paper Note] Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap, Yueqian Lin+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#Pocket #Dataset #Evaluation #SpeechProcessing #Reasoning #audio Issue Date: 2025-10-21 GPT Summary- 音声インタラクティブシステムの推論能力を評価するためのベンチマーク「VERA」を提案。2,931の音声エピソードを5つのトラックに整理し、音声インタラクションに適応。12の音声システムをテキストベースラインと比較した結果、音声モデルの精度は著しく低く、特に数学トラックでは74.8%対6.1%の差が見られた。レイテンシと精度の分析から、迅速な音声システムは約10%の精度に集約され、リアルタイム性を犠牲にしないとテキストパフォーマンスには近づけないことが示された。VERAは、音声アシスタントの推論能力向上に向けた再現可能なテストベッドを提供する。 Comment

元ポスト:

Loading…

latencyとAccuracyのトレードオフ

[Paper Note] AHELM: A Holistic Evaluation of Audio-Language Models, Tony Lee+, arXiv'25

Paper/Blog Link My Issue
#Pocket #Dataset #LanguageModel #Evaluation #SpeechProcessing #read-later #Selected Papers/Blogs Issue Date: 2025-09-03 GPT Summary- 音声言語モデル（ALMs）の評価には標準化されたベンチマークが欠如しており、これを解決するためにAHELMを導入。AHELMは、ALMsの多様な能力を包括的に測定するための新しいデータセットを集約し、10の重要な評価側面を特定。プロンプトや評価指標を標準化し、14のALMsをテストした結果、Gemini 2.5 Proが5つの側面でトップにランクされる一方、他のモデルは不公平性を示さなかった。AHELMは今後も新しいデータセットやモデルを追加予定。 Comment

元ポスト:

Loading…