<h2 id=AutomaticSpeechRecognition(ASR)> AutomaticSpeechRecognition(ASR)</h2><div class="visible-content"> #NeuralNetwork #EfficiencyImprovement #Pocket #NLP #EMNLP #Encoder-Decoder
Issue Date: 2025-08-22 [Paper Note] LiteASR: Efficient Automatic Speech Recognition with Low-Rank Approximation, Keisuke Kamahori+, EMNLP’25 GPT Summary- LiteASRは、現代の自動音声認識モデルのエンコーダを低ランク圧縮する手法で、推論コストを大幅に削減しつつ転写精度を維持します。主成分分析を用いて低ランク行列の乗算を近似し、自己注意機構を最適化することで、Whisper large-v3のエンコーダサイズを50%以上圧縮し、Whisper mediumと同等のサイズでより良い転写精度を実現しました。 Comment<p>元ポスト:
</p><p>現代のASRモデルはencoderが計算効率の上でボトルネックとなっていたが、Forward Passにおける activatrion Y を PCA (式2, 3)に基づいて2つの低ランク行列の積(とバイアス項の加算; 式5)によって近似し計算効率を大幅に向上させた、という話な模様。weightを低ランクに写像するV_kとバイアス項のY_M(データセット全体に対するactivation Yの平均)はcalibrfationデータによって事前に計算可能とのこと。また、PCAのrank kがattention headの次元数より小さい場合、self-attentionの計算もより(QWKへ写像するWを低ランク行列で近似することで)効率的な手法を採用でき、そちらについても提案されている模様。(ざっくりしか読めていないので誤りがあるかもしれない。)
<img width=”592” height=”449” alt=”Image” src=”
<a href=”https://github.com/user-attachments/assets/38c8aa6a-cad3-42d1-af6a-9102ed1df3f5”” target=”_blank” rel=”noopener noreferrer”>https://github.com/user-attachments/assets/38c8aa6a-cad3-42d1-af6a-9102ed1df3f5”</a>
/>
<img width=”484” height=”415” alt=”Image” src=”
<a href=”https://github.com/user-attachments/assets/f8fa8cd1-2b6a-405a-88ec-3bfd2158dffb”” target=”_blank” rel=”noopener noreferrer”>https://github.com/user-attachments/assets/f8fa8cd1-2b6a-405a-88ec-3bfd2158dffb”</a>
/></p></span>
#Metrics
#Pocket
#Evaluation
#NAACL
#SimulST(SimultaneousSpeechTranslation)
Issue Date: 2025-04-30
Over-Generation Cannot Be Rewarded: Length-Adaptive Average Lagging for Simultaneous Speech Translation, Sara Papi+, NAACL’22
GPT Summary- SimulSTシステムの遅延評価において、ALが長い予測に対して過小評価される問題を指摘。過剰生成の傾向を持つシステムに対し、過小生成と過剰生成を公平に評価する新指標LAALを提案。
Comment<p>同時翻訳研究で主要なmetricの一つ
関連:
- SimulMT to SimulST: Adapting Simultaneous Text Translation to End-to-End Simultaneous Speech Translation, Xutai Ma+, AACL’20
</p>
#Metrics
#Pocket
#NLP
#Evaluation
#AACL
#SimulST(SimultaneousSpeechTranslation)
Issue Date: 2025-04-30
SimulMT to SimulST: Adapting Simultaneous Text Translation to End-to-End Simultaneous Speech Translation, Xutai Ma+, AACL’20
GPT Summary- 同時テキスト翻訳手法をエンドツーエンドの同時音声翻訳に適応させる研究を行い、事前決定モジュールを導入。レイテンシと品質のトレードオフを分析し、新しいレイテンシメトリックを設計。
Comment<p>同時翻訳研究で主要なmetricの一つ
関連:
- Over-Generation Cannot Be Rewarded: Length-Adaptive Average Lagging for Simultaneous Speech Translation, Sara Papi+, NAACL’22
</p>
</div>
元ポスト:
オープンソースのOLMOシリーズから英語のASRが登場
モデルとトークナイザはWhisperと同様な模様
technical report:
https://github.com/allenai/OLMoASR/blob/main/tech_report/olmoasr_tech_report.pdf
#Article #Dataset #SpeechProcessing #SimulST(SimultaneousSpeechTranslation) Issue Date: 2025-08-17 Granary, Nvidia, 2025.08 Comment
元ポスト:
#Article #SpeechProcessing #OpenSource Issue Date: 2025-05-06 parakeet-tdt-0.6b-v2, Nvidia, 2025.05 Comment
元ポスト:
2025.05.06時点でOpenASR Leaderboardでトップ:
https://huggingface.co/spaces/hf-audio/open_asr_leaderboard
Already supports Nvidia Parakeet
Simultaneously supporting Linux/Windows/macOS
https://github.com/patui/Nosub
#Article #NLP #SpeechProcessing #Blog Issue Date: 2024-11-07 ほぼリアルタイム!?爆速で動作する日本語特化の文字起こしAI!『kotoba-whisper-v2.0』, 遼介 大堀, 2024.11 Comment
whisper large-v3を蒸留したkotoba-whisper-v1.0に対して、日本語のオーディオデータで追加学習をしたモデル、kotoba-whisper-v2.0を利用するための環境構築方法やコードの例が記述されている。
公式によると、whisper-large-v3よりも6.3倍のスループットとのこと。また、qiita記事中ではwhisper large-v2に対して約6.0倍のスループットであることが言及されている。
学習に用いられたデータは、ReasonSpeechデータ(日本語のテレビの録音データ) ReazonSpeech: A Free and Massive Corpus for Japanese ASR, Yin+, NLP'23
をWERに基づくフィルタリングによって良質なデータのみを抽出することで作成されたデータの模様
公式のモデルカードも参照のこと:
https://huggingface.co/kotoba-tech/kotoba-whisper-v2.0
日本のテレビ番組のデータで学習されているので、それを念頭に置いた上で、自分が適用したいデータとの相性を考えると良さそうである。
また、動作速度が速いのはシンプルにありがたい。