AudioLanguageModel
[Paper Note] ChildVox: A Speech, Audio, and Large Audio-Language Model Benchmark in Understanding and Characterizing Sound across Childhood, Tiantian Feng+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#Evaluation #SpeechProcessing #AutomaticSpeechRecognition(ASR) Issue Date: 2026-06-05 GPT Summary- ChildVoxは、出生から就学年齢までの子どもが用いる多様な音響信号を特徴づける新しいベンチマークで、17の子ども中心のデータセットを統合し、20以上のサブタスクを提供します。生理的音や非言語的発声を含む音声タスクで、自己教師付きや大規模音声モデルを評価することで、高性能な認識モデルを示し、子どもの言語発達や発話の変化を追跡することを支援します。 Comment
元ポスト:
興味深い
[Paper Note] MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation, Szu-Chi Chen+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #SyntheticData #SpeechProcessing #PEFT(Adaptor/LoRA) #MoE(Mixture-of-Experts) #TTS Issue Date: 2026-04-27 GPT Summary- 音声対音声翻訳(S2ST)システムはNVsを一貫して除去しており、実用性を制限。これを解決するために、(i) 拡張可能なデータセットを構築する合成パイプライン、(ii) MoVEアーキテクチャの提案、(iii) AudioLLMsによる高いデータ効率を示す。英語-中国語のS2STにおいてMoVEは76%のNVsを再現し、最も高い自然さと感情忠実性を獲得。既存システムは最大14%のみ保持。 Comment
元ポスト:
関連:
- Gemini 3.1 Flash TTS: the next generation of expressive AI speech, Google, 2026.04
[Paper Note] LongSpeech: A Scalable Benchmark for Transcription, Translation and Understanding in Long Speech, Fei Yang+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #Dataset #Evaluation #SpeechProcessing #LongSequence #ICASSP #Author Thread-Post Issue Date: 2026-04-25 GPT Summary- LongSpeechは、長時間音声処理のための大規模なベンチマークで、10万件超の約10分の音声セグメントを含む。ASRや音声翻訳、要約など多様なアノテーションがあり、長時間音声の性能評価を促進。初期の実験では、モデルが特定のタスクに特化し、他を犠牲にしていることが示された。これにより、ベンチマークの挑戦的な特性が明らかにされ、今後の研究に貢献する予定である。 Comment
元ポスト:
dataset: https://huggingface.co/datasets/AIDC-AI/Marco_Longspeech
[Paper Note] Context Unrolling in Omni Models, Ceyuan Yang+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #Reasoning #VisionLanguageModel #2D (Image) #3D (Scene) #UMM #4D (Video) #Omni #One-Line Notes #Reference Collection #Fidelity #audio #text Issue Date: 2026-04-24 GPT Summary- Omniは、多様なモダリティにネイティブに訓練されたマルチモーダルモデルで、Context Unrollingを通じて異なるモダリティの情報を統合。これにより、下流の推論忠実度が向上し、高い生成・理解性能を発揮。テキスト、画像、動画、3Dジオメトリを用いた高度な推論能力を示す。 Comment
元ポスト:
モダリティを跨いでtaskに対してrelevantなcontextを活性化させることで、omniモデルの生成時の推論能力と、忠実度を向上させる
[Paper Note] DiffuSpeech: Silent Thought, Spoken Answer via Unified Speech-Text Diffusion, Yuxuan Lou+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Dataset #Chain-of-Thought #SpeechProcessing #DiffusionModel #Reasoning #Architecture #Selected Papers/Blogs #TTS #Initial Impression Notes Issue Date: 2026-02-02 GPT Summary- 音声LMMが直接応答を生成する際に発生するエラーを解決するため、「沈黙の思考、話された答え」という新たなパラダイムを提案。内部のテキスト推論と共に音声応答を生成する拡散ベースの音声-テキスト言語モデル\method{}を開発。モダリティ固有のマスキングを使用し、推論過程と音声トークンを共同生成。初の音声QAデータセット\dataset{}も構築し、26,000サンプルを含む。実験結果はQA精度で最先端を達成し、最高のTTS品質を維持しつつ言語理解も促進。拡散アーキテクチャの効果も実証。 Comment
元ポスト:
音声合成、AudioLanguageModelの枠組みにおいてreasoningを導入する新たなアーキテクチャを提案し、そのためのデータを収集して性能が向上しているように見え、重要研究に感じる。
[Paper Note] HeartMuLa: A Family of Open Sourced Music Foundation Models, Dongchao Yang+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #MultiModal #FoundationModel #SpeechProcessing #OpenWeight #Music Issue Date: 2026-01-17 GPT Summary- オープンソースの音楽基盤モデルファミリーを提案し、音楽理解と生成を促進する。主要な4つのコンポーネントは、音声・テキストアラインメント、堅牢な歌詞認識、高忠実度音楽コーデック、ユーザー制御可能な条件での歌生成を含む。特化モードでは、音楽属性の制御と短い魅力的な生成が可能。これにより、商業グレードのシステムを再現し、多モーダルコンテンツ制作を促進する基盤を構築。 Comment
pj page:
https://heartmula.github.io/
HF:
https://huggingface.co/HeartMuLa/HeartMuLa-oss-3B
元ポスト:
[Paper Note] VibeVoice Technical Report, Zhiliang Peng+, arXiv'25, 2025.08
Paper/Blog Link My Issue
#NLP #LanguageModel #SpeechProcessing #SmallModel #TTS Issue Date: 2025-12-07 GPT Summary- 新モデル「VibeVoice」は、次トークン拡散を用いて複数の話者による長形式の音声を合成する。新しい音声トークナイザーにより、データ圧縮を80倍向上させつつ、音声の忠実度を保ち、計算効率を改善。最大4人の話者による90分の音声合成が可能で、対話モデルを上回る性能を示す。 Comment
元ポスト:
HF: https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B
Qwen2-2.5-0.5Bベースでdiffusionベースなheadを用いる。Acoustic Tokenizerを事前学習しtokenizerをfrozenしheadとLLMのパラメータを追加で学習。おそらくら英語のみをサポート。
[Paper Note] Step-Audio-EditX Technical Report, Chao Yan+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#LanguageModel #SpeechProcessing #OpenWeight #Editing #TTS Issue Date: 2025-11-09 GPT Summary- 初のオープンソースLLMベースの音声モデル「Step-Audio-EditX」を発表。感情や話し方の編集に優れ、ゼロショットのテキスト音声合成機能も搭載。大きなマージンの合成データを活用し、従来のアプローチからの転換を実現。評価では、感情編集や細かい制御タスクで他のモデルを上回る性能を示した。 Comment
元ポスト:
[Paper Note] VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction, Chaoyou Fu+, NeurIPS'25, 2025.01
Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #Speech #NeurIPS #VisionLanguageModel #2D (Image) #TTS Issue Date: 2025-11-05 GPT Summary- 音声の役割を重視したマルチモーダル大規模言語モデル(MLLM)の訓練手法を提案。視覚と音声の相互作用を強化し、ASRやTTSモジュールなしで効率的な音声対話を実現。ベンチマークで最先端手法と比較し、リアルタイムの視覚と音声の相互作用が可能であることを示す。 Comment
元ポスト:
image/video, speechを入力として受けとりリアルタイムに音声を出力するマルチモーダルモデル。
[Paper Note] UniTok-Audio: A Unified Audio Generation Framework via Generative Modeling on Discrete Codec Tokens, Chengwei Liu+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #LanguageModel #SpeechProcessing #Speech #UMM #text Issue Date: 2025-11-04 GPT Summary- UniTok-Audioは、音声生成タスクのための統一されたスケーラブルフレームワークで、条件の特徴を抽出し、音声の離散トークンを生成。特別なタスク識別トークンにより、複数のタスクの学習を統一し、高忠実度の波形再構築を実現。実験では、音声復元や音声変換など5つのタスクで競争力のある性能を示し、将来的にオープンソース化予定。 Comment
元ポスト:
[Paper Note] Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap, Yueqian Lin+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#Dataset #Evaluation #SpeechProcessing #Reasoning #audio Issue Date: 2025-10-21 GPT Summary- 音声インタラクティブシステムの推論能力を評価するためのベンチマーク「VERA」を提案。2,931の音声エピソードを5つのトラックに整理し、音声インタラクションに適応。12の音声システムをテキストベースラインと比較した結果、音声モデルの精度は著しく低く、特に数学トラックでは74.8%対6.1%の差が見られた。レイテンシと精度の分析から、迅速な音声システムは約10%の精度に集約され、リアルタイム性を犠牲にしないとテキストパフォーマンスには近づけないことが示された。VERAは、音声アシスタントの推論能力向上に向けた再現可能なテストベッドを提供する。 Comment
元ポスト:
latencyとAccuracyのトレードオフ
[Paper Note] AHELM: A Holistic Evaluation of Audio-Language Models, Tony Lee+, arXiv'25
Paper/Blog Link My Issue
#Dataset #LanguageModel #Evaluation #SpeechProcessing #read-later #Selected Papers/Blogs Issue Date: 2025-09-03 GPT Summary- 音声言語モデル(ALMs)の評価には標準化されたベンチマークが欠如しており、これを解決するためにAHELMを導入。AHELMは、ALMsの多様な能力を包括的に測定するための新しいデータセットを集約し、10の重要な評価側面を特定。プロンプトや評価指標を標準化し、14のALMsをテストした結果、Gemini 2.5 Proが5つの側面でトップにランクされる一方、他のモデルは不公平性を示さなかった。AHELMは今後も新しいデータセットやモデルを追加予定。 Comment
元ポスト:
関連:
- [Paper Note] Holistic Evaluation of Language Models, Percy Liang+, arXiv'22, 2022.11
Introducing Gemma 4 12B: a unified, encoder-free multimodal model, Google, 2026.06
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #OpenWeight #VisionLanguageModel #2D (Image) #UMM #SpatialUnderstanding #One-Line Notes #Reference Collection #audio #Author Thread-Post Issue Date: 2026-06-04 Comment
元ポスト:
vision/audioエンコーダーを無くしたvision/audio nativeなマルチモーダルLLM
HF: https://huggingface.co/google/gemma-4-12B
アーキテクチャ図:
smol-audio, Deep-unlearning, 2026.04
Paper/Blog Link My Issue
#Article #Tutorial #NLP #SpeechProcessing #Repository #Finetuning #TTS Issue Date: 2026-04-28 Comment
元ポスト:
Qwen3.5-Omni: Scaling Up, Toward Native Omni-Modal AGI, Qwen Team, 2026.04
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #SpeechProcessing #Proprietary #VisionLanguageModel #2D (Image) #4D (Video) #Omni #audio #text Issue Date: 2026-04-04 Comment
元ポスト:
MiniCPM-o-4_5, OpenBMB, 2026.02
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #SpeechProcessing #DiffusionModel #OpenWeight #AutomaticSpeechRecognition(ASR) #VisionLanguageModel #TTS #Omni Issue Date: 2026-02-05 Comment
元ポスト:
Qwen3-ASR & Qwen3-ForcedAligner is Now Open Sourced: Robust, Streaming and Multilingual, Qwen Team, 2026.01
Paper/Blog Link My Issue
#Article #SpeechProcessing #LongSequence #MultiLingual #OpenWeight #AutomaticSpeechRecognition(ASR) #Robustness Issue Date: 2026-01-30 Comment
HF:
https://huggingface.co/collections/Qwen/qwen3-asr
technical report:
https://github.com/QwenLM/Qwen3-ASR/blob/main/assets/Qwen3_ASR.pdf
元ポスト:
Introducing LFM2.5: The Next Generation of On-Device AI, LiquidAI, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Blog #SmallModel #OpenWeight #Japanese #PostTraining #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes Issue Date: 2026-01-09 Comment
元ポスト:
日本語に特化した言語モデルも存在し、Sarashina2.2-1b-instruct-v0.1, TinySwallow-1.5B-InstructよりもJMMLU, M-IFEval (ja), GSM8K (ja)においてより高い性能を発揮している。
LFM2.5-1.2B-Base: [Hugging Face](
https://huggingface.co/LiquidAI/LFM2.5-1.2B-Base)
LFM2.5-1.2B-Instruct: [Hugging Face](
https://huggingface.co/LiquidAI/LFM2.5-1.2B-Instruct),
[LEAP](
https://leap.liquid.ai/models?model=lfm2.5-1.2b-instruct),
[Playground](
https://playground.liquid.ai/chat?model=cmk1jyp8f000204i56yy76uwh)
LFM2.5-1.2B-JP: [Hugging Face](
https://huggingface.co/LiquidAI/LFM2.5-1.2B-JP),
[LEAP](
https://leap.liquid.ai/models?model=lfm2.5-1.2b-jp)
LFM2.5-VL-1.6B: [Hugging Face](
https://huggingface.co/LiquidAI/LFM2.5-VL-1.6B),
[LEAP](
https://leap.liquid.ai/models?model=lfm2.5-vl-1.6b),
[Playground](
https://playground.liquid.ai/chat?model=cmk0wefde000204jp2knb2qr8),
[Demo](
https://huggingface.co/spaces/LiquidAI/LFM2.5-VL-1.6B-WebGPU)
LFM2.5-Audio-1.5B: [Hugging Face](
https://huggingface.co/LiquidAI/LFM2.5-Audio-1.5B),
[LEAP](
https://leap.liquid.ai/models?model=lfm2.5-audio-1.5b),
[Playground](
http://playground.liquid.ai/talk)
LiquidAIのモデルは日本語に特化したモデルが多く存在するのが特徴的に感じる。
Omnilingual ASR: Advancing Automatic Speech Recognition for 1,600+ Languages, Meta, 2025.11
Paper/Blog Link My Issue
#Article #Transformer #SpeechProcessing #MultiLingual #OpenWeight #AutomaticSpeechRecognition(ASR) #Selected Papers/Blogs Issue Date: 2025-11-12 Comment
Introducing MiMo-Audio, LLM-Core Xiaomi, 2025.10
Paper/Blog Link My Issue
#Article #Pretraining #InstructionTuning #SpeechProcessing #Reasoning #SmallModel #OpenWeight #Zero/FewShotLearning #Selected Papers/Blogs #UMM Issue Date: 2025-10-25 Comment
HF: https://huggingface.co/collections/XiaomiMiMo/mimo-audio
元ポスト:
text, audioを入力として受け取り、text, audioを出力するAudioLanguageModel
