SpeechProcessing

#Pocket #Transformer #TTS
Issue Date: 2025-09-11 [Paper Note] Streaming Sequence-to-Sequence Learning with Delayed Streams Modeling, Neil Zeghidour+, arXiv'25 GPT Summary- Delayed Streams Modeling (DSM)は、ストリーミングおよびマルチモーダルなシーケンス・ツー・シーケンス学習のための新しい手法で、入力シーケンスを完全に消費するオフライン方式とは異なり、出力タイミングを学習するストリーミング方式を採用しています。DSMはデコーダー専用の言語モデルを用いて、時間的に整列されたストリームをモデル化し、遅延を導入することで任意の出力シーケンスのストリーミング推論を実現します。特に、テキストと音声のストリームにおいて、自動音声認識(ASR)やテキスト・トゥ・スピーチ(TTS)モデルに対して優れた性能を示し、オフラインベースラインと競争できることが実験で確認されました。 Comment

元ポスト:

Loading…


#Pocket #Dataset #LanguageModel #Evaluation #read-later #Selected Papers/Blogs #AudioLanguageModel
Issue Date: 2025-09-03 [Paper Note] AHELM: A Holistic Evaluation of Audio-Language Models, Tony Lee+, arXiv'25 GPT Summary- 音声言語モデル(ALMs)の評価には標準化されたベンチマークが欠如しており、これを解決するためにAHELMを導入。AHELMは、ALMsの多様な能力を包括的に測定するための新しいデータセットを集約し、10の重要な評価側面を特定。プロンプトや評価指標を標準化し、14のALMsをテストした結果、Gemini 2.5 Proが5つの側面でトップにランクされる一方、他のモデルは不公平性を示さなかった。AHELMは今後も新しいデータセットやモデルを追加予定。 Comment

元ポスト:

Loading…

関連:
- Holistic Evaluation of Language Models, Percy Liang+, TMLR'23



#ComputerVision #Pocket #NLP #MultiModal #Reasoning #OpenWeight #VisionLanguageActionModel
Issue Date: 2025-08-12 [Paper Note] MolmoAct: Action Reasoning Models that can Reason in Space, Jason Lee+, arXiv'25 GPT Summary- アクション推論モデル(ARMs)であるMolmoActは、知覚、計画、制御を三段階のパイプラインで統合し、説明可能で操作可能な行動を実現。シミュレーションと実世界で高いパフォーマンスを示し、特にSimplerEnv Visual Matchingタスクで70.5%のゼロショット精度を達成。MolmoAct Datasetを公開し、トレーニングによりベースモデルのパフォーマンスを平均5.5%向上。全てのモデルの重みやデータセットを公開し、ARMsの構築に向けたオープンな設計図を提供。 Comment

`Action Reasoning Models (ARMs)`

元ポスト:

Loading…

blog: https://allenai.org/blog/molmoact

関連:
- Molmo, AI2, 2024.09

models:
- https://huggingface.co/allenai/MolmoAct-7B-D-Pretrain-0812
- https://huggingface.co/allenai/MolmoAct-7B-D-0812

datasets:
- https://huggingface.co/datasets/allenai/MolmoAct-Dataset
- https://huggingface.co/datasets/allenai/MolmoAct-Pretraining-Mixture
- https://huggingface.co/datasets/allenai/MolmoAct-Midtraining-Mixture

データは公開されているが、コードが見当たらない?

チェックポイントとコードも公開された模様:
-

Loading…

- https://github.com/allenai/MolmoAct


#ComputerVision #Pocket #NLP #LanguageModel #MultiModal #OpenWeight #UMM Issue Date: 2025-07-26 [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25 GPT Summary- Ming-Omniは、画像、テキスト、音声、動画を処理できる統一マルチモーダルモデルで、音声生成と画像生成において優れた能力を示す。専用エンコーダを用いて異なるモダリティからトークンを抽出し、MoEアーキテクチャで処理することで、効率的にマルチモーダル入力を融合。音声デコーダと高品質な画像生成を統合し、コンテキストに応じたチャットやテキストから音声への変換、画像編集が可能。Ming-Omniは、GPT-4oに匹敵する初のオープンソースモデルであり、研究と開発を促進するためにコードとモデルの重みを公開。 Comment

image

元ポスト:

Loading…


現在はv1.5も公開されておりさらに性能が向上している模様?

HF: https://huggingface.co/inclusionAI/Ming-Lite-Omni



#ComputerVision #Pocket #NLP #LanguageModel #MultiModal #OpenWeight #Video Issue Date: 2025-03-31 Qwen2.5-Omni Technical Report, Jin Xu+, arXiv'25 GPT Summary- マルチモーダルモデル「Qwen2.5-Omni」は、テキスト、画像、音声、動画を認識し、ストリーミング方式で自然な音声応答を生成する。音声と視覚エンコーダはブロック処理を用い、TMRoPEによる新しい位置埋め込みで音声と動画の同期を実現。Thinker-Talkerアーキテクチャにより、テキスト生成と音声出力を干渉なく行う。Qwen2.5-Omniは、エンドツーエンドで訓練され、音声指示に対する性能がテキスト入力と同等で、ストリーミングTalkerは既存手法を上回る自然さを持つ。 Comment

Qwen TeamによるマルチモーダルLLM。テキスト、画像、動画音声をinputとして受け取り、テキスト、音声をoutputする。
image

weight: https://huggingface.co/collections/Qwen/qwen25-omni-67de1e5f0f9464dc6314b36e

元ポスト: https://www.linkedin.com/posts/niels-rogge-a3b7a3127_alibabas-qwen-team-has-done-it-again-this-activity-7311036679627132929-HUqy?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4



#ComputerVision #EfficiencyImprovement #NLP #LanguageModel #Transformer #MultiModal #Architecture #TMLR #UMM Issue Date: 2024-11-12 Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models, Weixin Liang+, TMLR'25 GPT Summary- 大規模言語モデル(LLMs)のマルチモーダル処理を効率化するために、Mixture-of-Transformers(MoT)を提案。MoTは計算コストを削減し、モダリティごとにパラメータを分離して特化した処理を実現。Chameleon 7B設定では、55.8%のFLOPsで密なベースラインに匹敵する性能を示し、音声を含む場合も37.2%のFLOPsで同様の結果を達成。さらに、Transfusion設定では、7BのMoTモデルが密なベースラインの画像性能に対してFLOPsの3分の1で匹敵し、760Mのモデルは主要な画像生成指標で上回る結果を得た。MoTは実用的な利点も示し、画像品質を47.2%、テキスト品質を75.6%の経過時間で達成。 #ComputerVision #Pretraining #Pocket #NLP #Transformer #InstructionTuning #MultiModal #CVPR #Selected Papers/Blogs #Encoder-Decoder #Robotics #UMM #EmbodiedAI Issue Date: 2023-12-29 Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action, Jiasen Lu+, N_A, CVPR'24 GPT Summary- Unified-IO 2は、最初の自己回帰型のマルチモーダルモデルであり、画像、テキスト、音声、アクションを理解し生成することができます。異なるモダリティを統一するために、共有の意味空間に入力と出力を配置し、単一のエンコーダ・デコーダトランスフォーマーモデルで処理します。さまざまなアーキテクチャの改善を提案し、大規模なマルチモーダルな事前トレーニングコーパスを使用してモデルをトレーニングします。Unified-IO 2は、GRITベンチマークを含む35以上のベンチマークで最先端のパフォーマンスを発揮します。 Comment

画像、テキスト、音声、アクションを理解できる初めてのautoregressive model。AllenAI

モデルのアーキテクチャ図
image

マルチモーダルに拡張したことで、訓練が非常に不安定になったため、アーキテクチャ上でいくつかの工夫を加えている:

- 2D Rotary Embedding
- Positional EncodingとしてRoPEを採用
- 画像のような2次元データのモダリティの場合はRoPEを2次元に拡張する。具体的には、位置(i, j)のトークンについては、Q, Kのembeddingを半分に分割して、それぞれに対して独立にi, jのRoPE Embeddingを適用することでi, j双方の情報を組み込む。
- QK Normalization
- image, audioのモダリティを組み込むことでMHAのlogitsが非常に大きくなりatteetion weightが0/1の極端な値をとるようになり訓練の不安定さにつながった。このため、dot product attentionを適用する前にLayerNormを組み込んだ。
- Scaled Cosine Attention
- Image Historyモダリティにおいて固定長のEmbeddingを得るためにPerceiver Resamplerを扱ったているが、こちらも上記と同様にAttentionのlogitsが極端に大きくなったため、cosine類似度をベースとしたScaled Cosine Attention [Paper Note] Swin Transformer V2: Scaling Up Capacity and Resolution, Ze Liu+, arXiv'21 を利用することで、大幅に訓練の安定性が改善された。
- その他
- attention logitsにはfp32を適用
- 事前学習されたViTとASTを同時に更新すると不安定につながったため、事前学習の段階ではfreezeし、instruction tuningの最後にfinetuningを実施

image

目的関数としては、Mixture of Denoisers (UL2: Unifying Language Learning Paradigms, Yi Tay+, N/A, ICLR'23 )に着想を得て、Multimodal Mixture of Denoisersを提案。MoDでは、
- \[R\]: 通常のspan corruption (1--5 token程度のspanをmaskする)
- \[S\]: causal language modeling (inputを2つのサブシーケンスに分割し、前方から後方を予測する。前方部分はBi-directionalでも可)
- \[X\]: extreme span corruption (12>=token程度のspanをmaskする)

の3種類が提案されており、モダリティごとにこれらを使い分ける:
- text modality: UL2 (UL2: Unifying Language Learning Paradigms, Yi Tay+, N/A, ICLR'23 )を踏襲
- image, audioがtargetの場合: 2つの類似したパラダイムを定義し利用
- \[R\]: patchをランダムにx%マスクしre-constructする
- \[S\]: inputのtargetとは異なるモダリティのみの情報から、targetモダリティを生成する

訓練時には prefixとしてmodality token \[Text\], \[Image\], \[Audio\] とparadigm token \[R\], \[S\], \[X\] をタスクを指示するトークンとして利用している。

また、image, audioのマスク部分のdenoisingをautoregressive modelで実施する際には普通にやるとdecoder側でリークが発生する(a)。これを防ぐには、Encoder側でマスクされているトークンを、Decoder側でteacher-forcingする際にの全てマスクする方法(b)があるが、この場合、生成タスクとdenoisingタスクが相互に干渉してしまいうまく学習できなくなってしまう(生成タスクでは通常Decoderのinputとして[mask]が入力され次トークンを生成する、といったことは起きえないが、愚直に(b)をやるとそうなってしまう)。ので、(c)に示したように、マスクされているトークンをinputとして生成しなければならない時だけ、マスクを解除してdecoder側にinputする、という方法 (Dynamic Masking) でこの問題に対処している。
<img width="597" height="394" alt="Image" src=" <a href="https://github.com/user-attachments/assets/0dba8d5d-0c93-4c56-852b-fce9869428e7"" target="_blank" rel="noopener noreferrer">https://github.com/user-attachments/assets/0dba8d5d-0c93-4c56-852b-fce9869428e7"</a> />



#ComputerVision #NLP #LanguageModel #MultiModal #AAAI Issue Date: 2023-04-26 AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head, AAAI'24 GPT Summary- AudioGPTは、複雑な音声情報を処理し、音声対話をサポートするマルチモーダルAIシステムである。基盤モデルとASR、TTSインターフェースを組み合わせ、音声、音楽、トーキングヘッドの理解と生成を行う。実験により、AudioGPTが多様なオーディオコンテンツの創造を容易にする能力を示した。 Comment

text, audio, imageといったマルチモーダルなpromptから、audioに関する様々なタスクを実現できるシステム

マルチモーダルデータをjointで学習したというわけではなく、色々なモデルの組み合わせてタスクを実現しているっぽい

image



#ComputerVision #Pocket #NLP #Transformer #MultiModal #Architecture #Normalization Issue Date: 2025-04-19 Foundation Transformers, Hongyu Wang+, PMLR'23 GPT Summary- 言語、視覚、音声、マルチモーダルにおけるモデルアーキテクチャの収束が進む中、異なる実装の「Transformers」が使用されている。汎用モデリングのために、安定性を持つFoundation Transformerの開発が提唱され、Magnetoという新しいTransformer変種が紹介される。Sub-LayerNormと理論に基づく初期化戦略を用いることで、さまざまなアプリケーションにおいて優れたパフォーマンスと安定性を示した。 Comment

マルチモーダルなモデルなモデルの事前学習において、PostLNはvision encodingにおいてsub-optimalで、PreLNはtext encodingにおいてsub-optimalであることが先行研究で示されており、マルタモーダルを単一のアーキテクチャで、高性能、かつ学習の安定性な高く、try and error無しで適用できる基盤となるアーキテクチャが必要というモチベーションで提案された手法。具体的には、Sub-LayerNorm(Sub-LN)と呼ばれる、self attentionとFFN部分に追加のLayerNormを適用するアーキテクチャと、DeepNetを踏襲しLayer数が非常に大きい場合でも学習が安定するような重みの初期化方法を理論的に分析し提案している。

具体的には、Sub-LNの場合、LayerNormを
- SelfAttention計算におけるQKVを求めるためのinput Xのprojectionの前とAttentionの出力projectionの前
- FFNでの各Linear Layerの前
に適用し、

初期化をする際には、FFNのW, およびself-attentionのV_projと出力のout_projの初期化をγ(=sqrt(log(2N))によってスケーリングする方法を提案している模様。

image

関連:
- DeepNet: Scaling Transformers to 1,000 Layers, Hongyu Wang+, arXiv'22



#NLP #Dataset Issue Date: 2023-08-16 ReazonSpeech: A Free and Massive Corpus for Japanese ASR, Yin+, NLP'23 Comment

https://prtimes.jp/main/html/rd/p/000000003.000102162.html

超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開

ワンセグのデータにから生成

ライブラリ:

Loading…


#ComputerVision #Pocket #NLP #LanguageModel #SpokenLanguageProcessing #MultiModal Issue Date: 2023-07-22 Meta-Transformer: A Unified Framework for Multimodal Learning, Yiyuan Zhang+, N_A, arXiv'23 GPT Summary- 本研究では、マルチモーダル学習のためのMeta-Transformerというフレームワークを提案しています。このフレームワークは、異なるモダリティの情報を処理し関連付けるための統一されたネットワークを構築することを目指しています。Meta-Transformerは、対応のないデータを使用して12のモダリティ間で統一された学習を行うことができ、テキスト、画像、ポイントクラウド、音声、ビデオなどの基本的なパーセプションから、X線、赤外線、高分光、IMUなどの実用的なアプリケーション、グラフ、表形式、時系列などのデータマイニングまで、幅広いタスクを処理することができます。Meta-Transformerは、トランスフォーマーを用いた統一されたマルチモーダルインテリジェンスの開発に向けた有望な未来を示しています。 Comment

12種類のモダリティに対して学習できるTransformerを提案
Dataをsequenceにtokenizeし、unifiedにfeatureをencodingし、それぞれのdownstreamタスクで学習
image



#MachineTranslation #Unsupervised #NLP #Speech Issue Date: 2023-07-15 Simple and Effective Unsupervised Speech Translation, ACL'23 GPT Summary- 音声翻訳のためのラベル付きデータが限られているため、非教師あり手法を使用して音声翻訳システムを構築する方法を研究している。パイプラインアプローチや擬似ラベル生成を使用し、非教師ありドメイン適応技術を提案している。実験の結果、従来の手法を上回る性能を示している。 #NLP #LanguageModel #MultiModal Issue Date: 2023-06-26 AudioPaLM: A Large Language Model That Can Speak and Listen, Paul K. Rubenstein+, N_A, arXiv'23 GPT Summary- 本研究では、音声理解と生成のためのマルチモーダルアーキテクチャであるAudioPaLMを紹介する。AudioPaLMは、テキストと音声を処理および生成することができ、PaLM-2とAudioLMを統合している。テキストのみの大規模言語モデルの重みを使用してAudioPaLMを初期化することで、音声処理を改善し、多くの言語に対してゼロショット音声対テキスト翻訳を実行する能力を持つことができることを示す。また、AudioPaLMは、音声言語モデルの機能も示している。 Comment

参考:

Loading…


#NeuralNetwork #ComputerVision #MachineLearning #Pocket #NLP #MultitaskLearning #MultiModal #ICLR Issue Date: 2025-07-10 [Paper Note] Perceiver IO: A General Architecture for Structured Inputs & Outputs, Andrew Jaegle+, ICLR'22 GPT Summary- 汎用アーキテクチャPerceiver IOを提案し、任意のデータ設定に対応し、入力と出力のサイズに対して線形にスケール可能。柔軟なクエリメカニズムを追加し、タスク特有の設計を不要に。自然言語、視覚理解、マルチタスクで強力な結果を示し、GLUEベンチマークでBERTを上回る性能を達成。 Comment

当時相当話題となったさまざまなモーダルを統一された枠組みで扱えるPerceiver IO論文
image



#NeuralNetwork #Pocket #Selected Papers/Blogs Issue Date: 2025-06-13 [Paper Note] WaveNet: A Generative Model for Raw Audio, Aaron van den Oord+, arXiv'16 GPT Summary- 本論文では、音声波形を生成する深層ニューラルネットワークWaveNetを提案。自己回帰的なモデルでありながら、効率的に音声データを訓練可能。テキストから音声への変換で最先端の性能を示し、人間のリスナーに自然な音と評価される。話者の特性を忠実に捉え、アイデンティティに基づく切り替えが可能。音楽生成にも応用でき、リアルな音楽の断片を生成。また、音素認識のための有望な識別モデルとしての利用も示唆。 #Article #MultiLingual #OpenWeight #TTS Issue Date: 2025-10-09 commonvoice22_sidon, sarulab-speech, 2025.10 Comment

元ポスト:

Loading…

134言語サポートのTTS



#Article #NLP #LanguageModel #Blog #OpenWeight #Editing Issue Date: 2025-10-03 Ming-UniAudio: Speech LLM for Joint Understanding, Generation and Editing with Unified Representation, inclusionAI, 2025.07 Comment

元ポスト:

Loading…

Ming-Omniの後継モデルで、スピーチに特化して書き起こし、理解、編集などができるモデル

- [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25

HF: https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B

公式ポスト:

Loading…


#Article #OpenWeight #AutomaticSpeechRecognition(ASR) #OpenSource Issue Date: 2025-08-29 OLMoASR: A series of open speech recognition models, Ai2, 2025.08 Comment

元ポスト:

Loading…

オープンソースのOLMOシリーズから英語のASRが登場

モデルとトークナイザはWhisperと同様な模様

technical report: https://github.com/allenai/OLMoASR/blob/main/tech_report/olmoasr_tech_report.pdf



#Article #LanguageModel #LongSequence #MultiLingual #OpenWeight #TTS Issue Date: 2025-08-25 VibeVoice-1.5B, microsoft, 2025.08 Comment

元ポスト:

Loading…

> Unsupported language – the model is trained only on English and Chinese data; outputs in other languages are unsupported and may be unintelligible or offensive.

日本語は対応していないので注意

outputできるspeechのlengthが先行研究より非常に長く、90分近く生成できる模様?

image



#Article #Dataset #AutomaticSpeechRecognition(ASR) #SimulST(SimultaneousSpeechTranslation) Issue Date: 2025-08-17 Granary, Nvidia, 2025.08 Comment

元ポスト:

Loading…


#Article #Transformer #Conversation #Slide #read-later Issue Date: 2025-07-15 【輪講資料】Moshi: a speech-text foundation model for real-time dialogue, Hayato Tsukagoshi, 2025.07 #Article #AutomaticSpeechRecognition(ASR) #OpenSource Issue Date: 2025-05-06 parakeet-tdt-0.6b-v2, Nvidia, 2025.05 Comment

元ポスト:

Loading…

2025.05.06時点でOpenASR Leaderboardでトップ:
https://huggingface.co/spaces/hf-audio/open_asr_leaderboard

Already supports Nvidia Parakeet

Simultaneously supporting Linux/Windows/macOS

https://github.com/patui/Nosub



#Article #NLP #DialogueGeneration #Japanese Issue Date: 2025-01-28 日本語Full-duplex音声対話システムの試作, 大橋+, J-Moshi #Article #NLP #Blog #AutomaticSpeechRecognition(ASR) Issue Date: 2024-11-07 ほぼリアルタイム!?爆速で動作する日本語特化の文字起こしAI!『kotoba-whisper-v2.0』, 遼介 大堀, 2024.11 Comment

whisper large-v3を蒸留したkotoba-whisper-v1.0に対して、日本語のオーディオデータで追加学習をしたモデル、kotoba-whisper-v2.0を利用するための環境構築方法やコードの例が記述されている。

公式によると、whisper-large-v3よりも6.3倍のスループットとのこと。また、qiita記事中ではwhisper large-v2に対して約6.0倍のスループットであることが言及されている。

学習に用いられたデータは、ReasonSpeechデータ(日本語のテレビの録音データ) ReazonSpeech: A Free and Massive Corpus for Japanese ASR, Yin+, NLP'23 をWERに基づくフィルタリングによって良質なデータのみを抽出することで作成されたデータの模様

公式のモデルカードも参照のこと: https://huggingface.co/kotoba-tech/kotoba-whisper-v2.0

日本のテレビ番組のデータで学習されているので、それを念頭に置いた上で、自分が適用したいデータとの相性を考えると良さそうである。

また、動作速度が速いのはシンプルにありがたい。



#Article #MachineLearning #Dataset Issue Date: 2023-08-16 CommonVoice Comment

音声対応のアプリケーションをトレーニングするために誰でも使用できるオープンソースの多言語音声データセット

image



#Article #Survey #ComputerVision #NLP #LanguageModel #MultiModal Issue Date: 2023-07-03 Awesome Multimodal LLMs Comment

マルチモーダルなLLMのリストがまとめられている