Speech

#Survey#Pocket#SpokenLanguageProcessing#Evaluation#FoundationModel
Issue Date: 2024-04-21 A Large-Scale Evaluation of Speech Foundation Models, Shu-wen Yang+, N_A, arXiv24 Summary基盤モデルパラダイムは、共有基盤モデルを使用して最先端のパフォーマンスを達成し、下流特有のモデリングやデータ注釈を最小限に抑えることを目指す。このアプローチは、自然言語処理(NLP)の分野で成功しているが、音声処理分野では類似したセットアップが不足している。本研究では、音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を設立し、音声に対する基盤モデルパラダイムの効果を調査する。凍結された基盤モデルに続いて、タスク専用の軽量な予測ヘッドを使用して、SUPERB内の音声処理タスクに取り組むための統一されたマルチタスキングフレームワークを提案する。結果は、基盤モデルパラダイムが音声に有望であり、提案されたマルチタスキングフレームワークが効果的であることを示し、最も優れた基盤モデルがほとんどのSUPERBタスクで競争力のある汎化性能を持つことを示している。 CommentSpeech関連のFoundation Modelの評価結果が載っているらしい。図は下記ツイートより引用参考:https://x.com/unilightwf/status/1781659340065345766?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... image#MachineTranslation#Unsupervised#NLP#AudioProcessing
Issue Date: 2023-07-15 Simple and Effective Unsupervised Speech Translation, ACL23 Summary音声翻訳のためのラベル付きデータが限られているため、非教師あり手法を使用して音声翻訳システムを構築する方法を研究している。パイプラインアプローチや擬似ラベル生成を使用し、非教師ありドメイン適応技術を提案している。実験の結果、従来の手法を上回る性能を示している。