ICASSPに関する論文・技術記事メモの一覧

ICASSP

[Paper Note] KAME: Tandem Architecture for Enhancing Knowledge in Real-Time Speech-to-Speech Conversational AI, So Kuroki+, ICASSP'26, 2025.09

Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #SpeechProcessing #read-later #Selected Papers/Blogs #One-Line Notes #Realtime #Author Thread-Post #SpeechToSpeech Issue Date: 2026-05-01 GPT Summary- 音声-音声モデルは低遅延で自然な応答を生成するものの、知識や意味理解に欠ける。一方、ASRとLLMを組み合わせたカスケード型システムは知識表現に優れるが、遅延が大きくなる。そこで本研究は、即時応答を実現する新たなハイブリッドアーキテクチャを提案。ユーザーの音声をS2Sトランスフォーマーで処理しつつ、クエリをLLMに並行伝送。これにより、遅延を増加させずに豊富な知識を応答に組み込むことが可能となる。MT-Benchベンチマークを用いた評価により、提案システムはS2Sモデルを大幅に上回りつつ、遅延は同等であることが示された。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/SakanaAI/kame

SpeechToSpeechのエンコーダ・デコーダモデルの裏で同時並行してLLMを走らせ、随時生成されるOracle Streamを考慮してデコードすることで、latencyと知識・推論性能を両立する。

著者ポスト:

Loading…

[Paper Note] LongSpeech: A Scalable Benchmark for Transcription, Translation and Understanding in Long Speech, Fei Yang+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #Dataset #Evaluation #SpeechProcessing #LongSequence #AudioLanguageModel #Author Thread-Post Issue Date: 2026-04-25 GPT Summary- LongSpeechは、長時間音声処理のための大規模なベンチマークで、10万件超の約10分の音声セグメントを含む。ASRや音声翻訳、要約など多様なアノテーションがあり、長時間音声の性能評価を促進。初期の実験では、モデルが特定のタスクに特化し、他を犠牲にしていることが示された。これにより、ベンチマークの挑戦的な特性が明らかにされ、今後の研究に貢献する予定である。 Comment

元ポスト:

Loading…

dataset: https://huggingface.co/datasets/AIDC-AI/Marco_Longspeech

[Paper Note] Large-scale Contrastive Language-Audio Pretraining with Feature Fusion and Keyword-to-Caption Augmentation, Yusong Wu+, ICASSP'23, 2022.11

Paper/Blog Link My Issue
#NeuralNetwork #Embeddings #Pretraining #NLP #Library #RepresentationLearning #MultiModal #SpeechProcessing #ContrastiveLearning #Speech #One-Line Notes #text Issue Date: 2023-04-25 GPT Summary- 音声データと自然言語説明を組み合わせたコントラスト学習による音声表現開発のパイプラインを提案。633,526の音声-テキストペアからなるLAION-Audio-630Kを公開し、音声エンコーダとテキストエンコーダを用いたモデルを構築。特徴融合メカニズムを採用し、可変長の音声入力に対応。テキストから音声検索や音声分類に関する実験により、特にテキスト検索で優れた性能を示し、ゼロショット設定でも最先端の結果を達成。LAION-Audio-630Kとモデルは公開済み。 Comment

テキストとオーディオをエンコードするMLPエンコーダをそれぞれ用意し、大量のペアをcontrastive learningで事前学習することで、テキストとオーディオ間を同じ空間に写像し、類似度を測れるようにしたモデル。zero-shotでaudio分類などが可能。