SpeechToSpeechに関する論文・技術記事メモの一覧

SpeechToSpeech

[Paper Note] Multi-Faceted Interactivity Alignment in Full-Duplex Speech Models, Atsumoto Ohashi+, arXiv'26, 2026.06

Paper/Blog Link My Issue
#ReinforcementLearning #PostTraining #read-later #interactive #Realtime #Author Thread-Post Issue Date: 2026-06-11 GPT Summary- 全二重音声対話モデルのインタラクティブ性を向上させるため、RLを使用したポスト訓練後のアライメント手法を提案。ポーズ処理、ターン取り、バックチャネル、ユーザーの中断にフォーカスし、人間の会話データから抽出した音声セグメントで特有の報酬関数を最適化。LLMベースの報酬を加えることで応答品質を保持。MoshiとPersonaPlexモデルでの評価により、一貫したインタラクティブ性の改善を確認。 Comment

元ポスト:

Loading…

[Paper Note] MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction, Junbo Cui+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#ComputerVision #NLP #SpeechProcessing #Speech #SmallModel #OpenWeight #VisionLanguageModel #2D (Image) #3D (Video) #Omni #audio #text #Realtime Issue Date: 2026-05-12 GPT Summary- MiniCPM-o 4.5は、リアルタイムの全二重オムニモーダル対話を実現する最新の進展であり、視覚・聴覚・発話を同時に処理可能。Omni-Flowを用いた統一的なフレームワークにより、知覚と応答を融合させ、能動的な行動を促進する。90億パラメータを持ち、Gemini 2.5 Flashに近い性能を発揮し、エッジデバイス上でもリアルタイム処理が可能となる。 Comment

HF: https://huggingface.co/openbmb/MiniCPM-o-4_5

元ポスト:

Loading…

[Paper Note] KAME: Tandem Architecture for Enhancing Knowledge in Real-Time Speech-to-Speech Conversational AI, So Kuroki+, ICASSP'26, 2025.09

Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #SpeechProcessing #read-later #Selected Papers/Blogs #One-Line Notes #Realtime #ICASSP #Author Thread-Post Issue Date: 2026-05-01 GPT Summary- 音声-音声モデルは低遅延で自然な応答を生成するものの、知識や意味理解に欠ける。一方、ASRとLLMを組み合わせたカスケード型システムは知識表現に優れるが、遅延が大きくなる。そこで本研究は、即時応答を実現する新たなハイブリッドアーキテクチャを提案。ユーザーの音声をS2Sトランスフォーマーで処理しつつ、クエリをLLMに並行伝送。これにより、遅延を増加させずに豊富な知識を応答に組み込むことが可能となる。MT-Benchベンチマークを用いた評価により、提案システムはS2Sモデルを大幅に上回りつつ、遅延は同等であることが示された。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/SakanaAI/kame

SpeechToSpeechのエンコーダ・デコーダモデルの裏で同時並行してLLMを走らせ、随時生成されるOracle Streamを考慮してデコードすることで、latencyと知識・推論性能を両立する。

著者ポスト:

Loading…