<h2 id=AutomaticSpeechRecognition(ASR)> AutomaticSpeechRecognition(ASR)</h2><div class="visible-content"> #NeuralNetwork #EfficiencyImprovement #Pocket #NLP #EMNLP #Encoder-Decoder


Issue Date: 2025-08-22 [Paper Note] LiteASR: Efficient Automatic Speech Recognition with Low-Rank Approximation, Keisuke Kamahori+, EMNLP’25 GPT Summary- LiteASRは、現代の自動音声認識モデルのエンコーダを低ランク圧縮する手法で、推論コストを大幅に削減しつつ転写精度を維持します。主成分分析を用いて低ランク行列の乗算を近似し、自己注意機構を最適化することで、Whisper large-v3のエンコーダサイズを50%以上圧縮し、Whisper mediumと同等のサイズでより良い転写精度を実現しました。 Comment<p>元ポスト:

Loading…

</p><p>現代のASRモデルはencoderが計算効率の上でボトルネックとなっていたが、Forward Passにおける activatrion Y を PCA (式2, 3)に基づいて2つの低ランク行列の積(とバイアス項の加算; 式5)によって近似し計算効率を大幅に向上させた、という話な模様。weightを低ランクに写像するV_kとバイアス項のY_M(データセット全体に対するactivation Yの平均)はcalibrfationデータによって事前に計算可能とのこと。また、PCAのrank kがattention headの次元数より小さい場合、self-attentionの計算もより(QWKへ写像するWを低ランク行列で近似することで)効率的な手法を採用でき、そちらについても提案されている模様。(ざっくりしか読めていないので誤りがあるかもしれない。)

<img width=”592” height=”449” alt=”Image” src=”

<a href=”https://github.com/user-attachments/assets/38c8aa6a-cad3-42d1-af6a-9102ed1df3f5”” target=”_blank” rel=”noopener noreferrer”>https://github.com/user-attachments/assets/38c8aa6a-cad3-42d1-af6a-9102ed1df3f5”</a>

/>

<img width=”484” height=”415” alt=”Image” src=”

<a href=”https://github.com/user-attachments/assets/f8fa8cd1-2b6a-405a-88ec-3bfd2158dffb”” target=”_blank” rel=”noopener noreferrer”>https://github.com/user-attachments/assets/f8fa8cd1-2b6a-405a-88ec-3bfd2158dffb”</a>

/></p></span>

#Metrics #Pocket #Evaluation #NAACL #SimulST(SimultaneousSpeechTranslation)


Issue Date: 2025-04-30 Over-Generation Cannot Be Rewarded: Length-Adaptive Average Lagging for Simultaneous Speech Translation, Sara Papi+, NAACL’22 GPT Summary- SimulSTシステムの遅延評価において、ALが長い予測に対して過小評価される問題を指摘。過剰生成の傾向を持つシステムに対し、過小生成と過剰生成を公平に評価する新指標LAALを提案。 Comment<p>同時翻訳研究で主要なmetricの一つ
関連:
- SimulMT to SimulST: Adapting Simultaneous Text Translation to End-to-End Simultaneous Speech Translation, Xutai Ma+, AACL’20 </p>


#Metrics #Pocket #NLP #Evaluation #AACL #SimulST(SimultaneousSpeechTranslation)


Issue Date: 2025-04-30 SimulMT to SimulST: Adapting Simultaneous Text Translation to End-to-End Simultaneous Speech Translation, Xutai Ma+, AACL’20 GPT Summary- 同時テキスト翻訳手法をエンドツーエンドの同時音声翻訳に適応させる研究を行い、事前決定モジュールを導入。レイテンシと品質のトレードオフを分析し、新しいレイテンシメトリックを設計。 Comment<p>同時翻訳研究で主要なmetricの一つ
関連:
- Over-Generation Cannot Be Rewarded: Length-Adaptive Average Lagging for Simultaneous Speech Translation, Sara Papi+, NAACL’22 </p>


</div>

#Article #SpeechProcessing #OpenWeight #OpenSource Issue Date: 2025-08-29 OLMoASR: A series of open speech recognition models, Ai2, 2025.08 Comment

元ポスト:

Loading…

オープンソースのOLMOシリーズから英語のASRが登場

モデルとトークナイザはWhisperと同様な模様

technical report: https://github.com/allenai/OLMoASR/blob/main/tech_report/olmoasr_tech_report.pdf



#Article #Dataset #SpeechProcessing #SimulST(SimultaneousSpeechTranslation) Issue Date: 2025-08-17 Granary, Nvidia, 2025.08 Comment

元ポスト:

Loading…


#Article #SpeechProcessing #OpenSource Issue Date: 2025-05-06 parakeet-tdt-0.6b-v2, Nvidia, 2025.05 Comment

元ポスト:

Loading…

2025.05.06時点でOpenASR Leaderboardでトップ:
https://huggingface.co/spaces/hf-audio/open_asr_leaderboard

Already supports Nvidia Parakeet

Simultaneously supporting Linux/Windows/macOS

https://github.com/patui/Nosub



#Article #NLP #SpeechProcessing #Blog Issue Date: 2024-11-07 ほぼリアルタイム!?爆速で動作する日本語特化の文字起こしAI!『kotoba-whisper-v2.0』, 遼介 大堀, 2024.11 Comment

whisper large-v3を蒸留したkotoba-whisper-v1.0に対して、日本語のオーディオデータで追加学習をしたモデル、kotoba-whisper-v2.0を利用するための環境構築方法やコードの例が記述されている。

公式によると、whisper-large-v3よりも6.3倍のスループットとのこと。また、qiita記事中ではwhisper large-v2に対して約6.0倍のスループットであることが言及されている。

学習に用いられたデータは、ReasonSpeechデータ(日本語のテレビの録音データ) ReazonSpeech: A Free and Massive Corpus for Japanese ASR, Yin+, NLP'23 をWERに基づくフィルタリングによって良質なデータのみを抽出することで作成されたデータの模様

公式のモデルカードも参照のこと: https://huggingface.co/kotoba-tech/kotoba-whisper-v2.0

日本のテレビ番組のデータで学習されているので、それを念頭に置いた上で、自分が適用したいデータとの相性を考えると良さそうである。

また、動作速度が速いのはシンプルにありがたい。