SpeechProcessing

#ComputerVision #Pocket #NLP #MulltiModal #Reasoning #OpenWeight #VisionLanguageActionModel
Issue Date: 2025-08-12 [Paper Note] MolmoAct: Action Reasoning Models that can Reason in Space, Jason Lee+, arXiv'25 Summaryアクション推論モデル(ARMs)であるMolmoActは、知覚、計画、制御を三段階のパイプラインで統合し、説明可能で操作可能な行動を実現。シミュレーションと実世界で高いパフォーマンスを示し、特にSimplerEnv Visual Matchingタスクで70.5%のゼロショット精度を達成。MolmoAct Datasetを公開し、トレーニングによりベースモデルのパフォーマンスを平均5.5%向上。全てのモデルの重みやデータセットを公開し、ARMsの構築に向けたオープンな設計図を提供。 Comment`Action Reasoning Models (ARMs)`

元ポスト:https://x.com/gm8xx8/status/1955168414294589844?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q
blog: https://allenai.org/blog/molmoact関連:
・1426models:
・https://huggingface.co/allenai/MolmoAct-7B-D-Pretrain-0812
・https://huggingface.co/allenai/MolmoAct-7B-D-0812

datasets:
・https://huggingface.co/datasets/allenai/MolmoAct-Dataset
・https://huggingface.co/datasets/allenai/MolmoAct-Pretraining-Mixture
・https://huggingface.co/datasets/allenai/MolmoAct-Midtraining-Mixtureデータは公開されているが、コードが見当たらない?
#ComputerVision #Pocket #NLP #LanguageModel #MulltiModal #OpenWeight #VisionLanguageModel
Issue Date: 2025-07-26 [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25 SummaryMing-Omniは、画像、テキスト、音声、動画を処理できる統一マルチモーダルモデルで、音声生成と画像生成において優れた能力を示す。専用エンコーダを用いて異なるモダリティからトークンを抽出し、MoEアーキテクチャで処理することで、効率的にマルチモーダル入力を融合。音声デコーダと高品質な画像生成を統合し、コンテキストに応じたチャットやテキストから音声への変換、画像編集が可能。Ming-Omniは、GPT-4oに匹敵する初のオープンソースモデルであり、研究と開発を促進するためにコードとモデルの重みを公開。 Commentimage元ポスト:https://x.com/gm8xx8/status/1948878025757446389?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q

現在はv1.5も公開されておりさらに性能が向上している模様?HF:https://huggingface.co/inclusionAI/Ming-Lite-Omni
#ComputerVision #Pocket #NLP #LanguageModel #MulltiModal #OpenWeight #Video
Issue Date: 2025-03-31 Qwen2.5-Omni Technical Report, Jin Xu+, arXiv'25 Summaryマルチモーダルモデル「Qwen2.5-Omni」は、テキスト、画像、音声、動画を認識し、ストリーミング方式で自然な音声応答を生成する。音声と視覚エンコーダはブロック処理を用い、TMRoPEによる新しい位置埋め込みで音声と動画の同期を実現。Thinker-Talkerアーキテクチャにより、テキスト生成と音声出力を干渉なく行う。Qwen2.5-Omniは、エンドツーエンドで訓練され、音声指示に対する性能がテキスト入力と同等で、ストリーミングTalkerは既存手法を上回る自然さを持つ。 CommentQwen TeamによるマルチモーダルLLM。テキスト、画像、動画音声をinputとして受け取り、テキスト、音声をoutputする。
image

weight:https://huggingface.co/collections/Qwen/qwen25-omni-67de1e5f0f9464dc6314b36e元ポスト:https://www.linkedin.com/posts/niels-rogge-a3b7a3127_alibabas-qwen-team-has-done-it-again-this-activity-7311036679627132929-HUqy?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

#ComputerVision #EfficiencyImprovement #NLP #Transformer #MulltiModal #Architecture Issue Date: 2024-11-12 Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models, Weixin Liang+, arXiv'24 Summary大規模言語モデル(LLMs)のマルチモーダル処理を効率化するために、Mixture-of-Transformers(MoT)を提案。MoTは計算コストを削減し、モダリティごとにパラメータを分離して特化した処理を実現。Chameleon 7B設定では、55.8%のFLOPsで密なベースラインに匹敵する性能を示し、音声を含む場合も37.2%のFLOPsで同様の結果を達成。さらに、Transfusion設定では、7BのMoTモデルが密なベースラインの画像性能に対してFLOPsの3分の1で匹敵し、760Mのモデルは主要な画像生成指標で上回る結果を得た。MoTは実用的な利点も示し、画像品質を47.2%、テキスト品質を75.6%の経過時間で達成。 Commentimage #ComputerVision #Pretraining #Pocket #NLP #Transformer #InstructionTuning #MulltiModal #CVPR #Encoder-Decoder #Robotics Issue Date: 2023-12-29 Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action, Jiasen Lu+, N_A, CVPR'24 SummaryUnified-IO 2は、最初の自己回帰型のマルチモーダルモデルであり、画像、テキスト、音声、アクションを理解し生成することができます。異なるモダリティを統一するために、共有の意味空間に入力と出力を配置し、単一のエンコーダ・デコーダトランスフォーマーモデルで処理します。さまざまなアーキテクチャの改善を提案し、大規模なマルチモーダルな事前トレーニングコーパスを使用してモデルをトレーニングします。Unified-IO 2は、GRITベンチマークを含む35以上のベンチマークで最先端のパフォーマンスを発揮します。 Comment画像、テキスト、音声、アクションを理解できる初めてのautoregressive model。AllenAIモデルのアーキテクチャ図
image

マルチモーダルに拡張したことで、訓練が非常に不安定になったため、アーキテクチャ上でいくつかの工夫を加えている:

・2D Rotary Embedding
・Positional EncodingとしてRoPEを採用
・画像のような2次元データのモダリティの場合はRoPEを2次元に拡張する。具体的には、位置(i, j)のトークンについては、Q, Kのembeddingを半分に分割して、それぞれに対して独立にi, jのRoPE Embeddingを適用することでi, j双方の情報を組み込む。
・QK Normalization
・image, audioのモダリティを組み込むことでMHAのlogitsが非常に大きくなりatteetion weightが0/1の極端な値をとるようになり訓練の不安定さにつながった。このため、dot product attentionを適用する前にLayerNormを組み込んだ。
・Scaled Cosine Attention
・Image Historyモダリティにおいて固定長のEmbeddingを得るためにPerceiver Resamplerを扱ったているが、こちらも上記と同様にAttentionのlogitsが極端に大きくなったため、cosine類似度をベースとしたScaled Cosine Attention 2259 を利用することで、大幅に訓練の安定性が改善された。
・その他
・attention logitsにはfp32を適用
・事前学習されたViTとASTを同時に更新すると不安定につながったため、事前学習の段階ではfreezeし、instruction tuningの最後にfinetuningを実施

image目的関数としては、Mixture of Denoisers (1424)に着想を得て、Multimodal Mixture of Denoisersを提案。MoDでは、
・\[R\]: 通常のspan corruption (1--5 token程度のspanをmaskする)
・\[S\]: causal language modeling (inputを2つのサブシーケンスに分割し、前方から後方を予測する。前方部分はBi-directionalでも可)
・\[X\]: extreme span corruption (12>=token程度のspanをmaskする)

の3種類が提案されており、モダリティごとにこれらを使い分ける:
・text modality: UL2 (1424)を踏襲
・image, audioがtargetの場合: 2つの類似したパラダイムを定義し利用
・\[R\]: patchをランダムにx%マスクしre-constructする
・\[S\]: inputのtargetとは異なるモダリティのみの情報から、targetモダリティを生成する

訓練時には prefixとしてmodality token \[Text\], \[Image\], \[Audio\] とparadigm token \[R\], \[S\], \[X\] をタスクを指示するトークンとして利用している。また、image, audioのマスク部分のdenoisingをautoregressive modelで実施する際には普通にやるとdecoder側でリークが発生する(a)。これを防ぐには、Encoder側でマスクされているトークンを、Decoder側でteacher-forcingする際にの全てマスクする方法(b)があるが、この場合、生成タスクとdenoisingタスクが相互に干渉してしまいうまく学習できなくなってしまう(生成タスクでは通常Decoderのinputとして[mask]が入力され次トークンを生成する、といったことは起きえないが、愚直に(b)をやるとそうなってしまう)。ので、(c)に示したように、マスクされているトークンをinputとして生成しなければならない時だけ、マスクを解除してdecoder側にinputする、という方法 (Dynamic Masking) でこの問題に対処している。
Image
#ComputerVision #NLP #LanguageModel #MulltiModal #AAAI Issue Date: 2023-04-26 AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head, AAAI'24 SummaryAudioGPTは、複雑な音声情報を処理し、音声対話をサポートするマルチモーダルAIシステムである。基盤モデルとASR、TTSインターフェースを組み合わせ、音声、音楽、トーキングヘッドの理解と生成を行う。実験により、AudioGPTが多様なオーディオコンテンツの創造を容易にする能力を示した。 Commenttext, audio, imageといったマルチモーダルなpromptから、audioに関する様々なタスクを実現できるシステムマルチモーダルデータをjointで学習したというわけではなく、色々なモデルの組み合わせてタスクを実現しているっぽい

image

#ComputerVision #Pocket #NLP #Transformer #MulltiModal #Architecture #Normalization Issue Date: 2025-04-19 Foundation Transformers, Hongyu Wang+, PMLR'23 Summary言語、視覚、音声、マルチモーダルにおけるモデルアーキテクチャの収束が進む中、異なる実装の「Transformers」が使用されている。汎用モデリングのために、安定性を持つFoundation Transformerの開発が提唱され、Magnetoという新しいTransformer変種が紹介される。Sub-LayerNormと理論に基づく初期化戦略を用いることで、さまざまなアプリケーションにおいて優れたパフォーマンスと安定性を示した。 Commentマルチモーダルなモデルなモデルの事前学習において、PostLNはvision encodingにおいてsub-optimalで、PreLNはtext encodingにおいてsub-optimalであることが先行研究で示されており、マルタモーダルを単一のアーキテクチャで、高性能、かつ学習の安定性な高く、try and error無しで適用できる基盤となるアーキテクチャが必要というモチベーションで提案された手法。具体的には、Sub-LayerNorm(Sub-LN)と呼ばれる、self attentionとFFN部分に追加のLayerNormを適用するアーキテクチャと、DeepNetを踏襲しLayer数が非常に大きい場合でも学習が安定するような重みの初期化方法を理論的に分析し提案している。

具体的には、Sub-LNの場合、LayerNormを
・SelfAttention計算におけるQKVを求めるためのinput Xのprojectionの前とAttentionの出力projectionの前
・FFNでの各Linear Layerの前
に適用し、

初期化をする際には、FFNのW, およびself-attentionのV_projと出力のout_projの初期化をγ(=sqrt(log(2N))によってスケーリングする方法を提案している模様。

image関連:
・1900
#NLP #Dataset Issue Date: 2023-08-16 ReazonSpeech: A Free and Massive Corpus for Japanese ASR, Yin+, NLP'23 Comment超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開

ワンセグのデータにから生成ライブラリ:
https://x.com/sloth65557166/status/1952942596055314450?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q
#ComputerVision #Pocket #NLP #LanguageModel #SpokenLanguageProcessing #MulltiModal Issue Date: 2023-07-22 Meta-Transformer: A Unified Framework for Multimodal Learning, Yiyuan Zhang+, N_A, arXiv'23 Summary本研究では、マルチモーダル学習のためのMeta-Transformerというフレームワークを提案しています。このフレームワークは、異なるモダリティの情報を処理し関連付けるための統一されたネットワークを構築することを目指しています。Meta-Transformerは、対応のないデータを使用して12のモダリティ間で統一された学習を行うことができ、テキスト、画像、ポイントクラウド、音声、ビデオなどの基本的なパーセプションから、X線、赤外線、高分光、IMUなどの実用的なアプリケーション、グラフ、表形式、時系列などのデータマイニングまで、幅広いタスクを処理することができます。Meta-Transformerは、トランスフォーマーを用いた統一されたマルチモーダルインテリジェンスの開発に向けた有望な未来を示しています。 Comment12種類のモダリティに対して学習できるTransformerを提案
Dataをsequenceにtokenizeし、unifiedにfeatureをencodingし、それぞれのdownstreamタスクで学習
image
#MachineTranslation #Unsupervised #NLP #Speech Issue Date: 2023-07-15 Simple and Effective Unsupervised Speech Translation, ACL'23 Summary音声翻訳のためのラベル付きデータが限られているため、非教師あり手法を使用して音声翻訳システムを構築する方法を研究している。パイプラインアプローチや擬似ラベル生成を使用し、非教師ありドメイン適応技術を提案している。実験の結果、従来の手法を上回る性能を示している。 #NLP #LanguageModel #MulltiModal Issue Date: 2023-06-26 AudioPaLM: A Large Language Model That Can Speak and Listen, Paul K. Rubenstein+, N_A, arXiv'23 Summary本研究では、音声理解と生成のためのマルチモーダルアーキテクチャであるAudioPaLMを紹介する。AudioPaLMは、テキストと音声を処理および生成することができ、PaLM-2とAudioLMを統合している。テキストのみの大規模言語モデルの重みを使用してAudioPaLMを初期化することで、音声処理を改善し、多くの言語に対してゼロショット音声対テキスト翻訳を実行する能力を持つことができることを示す。また、AudioPaLMは、音声言語モデルの機能も示している。 Comment参考: https://twitter.com/hillbig/status/1673454388931891201?s=46&t=aLGqdPv6JkRbT0kxsf6Aww #NeuralNetwork #ComputerVision #MachineLearning #Pocket #NLP #MultitaskLearning #MulltiModal #ICLR Issue Date: 2025-07-10 [Paper Note] Perceiver IO: A General Architecture for Structured Inputs & Outputs, Andrew Jaegle+, ICLR'22 Summary汎用アーキテクチャPerceiver IOを提案し、任意のデータ設定に対応し、入力と出力のサイズに対して線形にスケール可能。柔軟なクエリメカニズムを追加し、タスク特有の設計を不要に。自然言語、視覚理解、マルチタスクで強力な結果を示し、GLUEベンチマークでBERTを上回る性能を達成。 Comment当時相当話題となったさまざまなモーダルを統一された枠組みで扱えるPerceiver IO論文
image
#NeuralNetwork #Pocket #Admin'sPick Issue Date: 2025-06-13 [Paper Note] WaveNet: A Generative Model for Raw Audio, Aaron van den Oord+, arXiv'16 Summary本論文では、音声波形を生成する深層ニューラルネットワークWaveNetを提案。自己回帰的なモデルでありながら、効率的に音声データを訓練可能。テキストから音声への変換で最先端の性能を示し、人間のリスナーに自然な音と評価される。話者の特性を忠実に捉え、アイデンティティに基づく切り替えが可能。音楽生成にも応用でき、リアルな音楽の断片を生成。また、音素認識のための有望な識別モデルとしての利用も示唆。 #Article #LanguageModel #LongSequence #MultiLingual #OpenWeight #TTS Issue Date: 2025-08-25 VibeVoice-1.5B, microsoft, 2025.08 Comment元ポスト:https://x.com/huggingpapers/status/1959979976536789403?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q> Unsupported language – the model is trained only on English and Chinese data; outputs in other languages are unsupported and may be unintelligible or offensive.

日本語は対応していないので注意outputできるspeechのlengthが先行研究より非常に長く、90分近く生成できる模様?

image
#Article #Dataset #AutomaticSpeechRecognition(ASR) #SimulST(SimultaneousSpeechTranslation) Issue Date: 2025-08-17 Granary, Nvidia, 2025.08 Comment元ポスト:https://x.com/gm8xx8/status/1956844196356100113?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article #Transformer #Conversation #Slide #read-later Issue Date: 2025-07-15 【輪講資料】Moshi: a speech-text foundation model for real-time dialogue, Hayato Tsukagoshi, 2025.07 #Article #AutomaticSpeechRecognition(ASR) #OpenSource Issue Date: 2025-05-06 parakeet-tdt-0.6b-v2, Nvidia, 2025.05 Comment元ポスト:https://x.com/reach_vb/status/1919422953256587376?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q2025.05.06時点でOpenASR Leaderboardでトップ:
https://huggingface.co/spaces/hf-audio/open_asr_leaderboardAlready supports Nvidia Parakeet

Simultaneously supporting Linux/Windows/macOS

https://github.com/patui/Nosub
#Article #NLP #DialogueGeneration #Japanese Issue Date: 2025-01-28 日本語Full-duplex音声対話システムの試作, 大橋+, J-Moshi #Article #NLP #Blog #AutomaticSpeechRecognition(ASR) Issue Date: 2024-11-07 ほぼリアルタイム!?爆速で動作する日本語特化の文字起こしAI!『kotoba-whisper-v2.0』, 遼介 大堀, 2024.11 Commentwhisper large-v3を蒸留したkotoba-whisper-v1.0に対して、日本語のオーディオデータで追加学習をしたモデル、kotoba-whisper-v2.0を利用するための環境構築方法やコードの例が記述されている。

公式によると、whisper-large-v3よりも6.3倍のスループットとのこと。また、qiita記事中ではwhisper large-v2に対して約6.0倍のスループットであることが言及されている。

学習に用いられたデータは、ReasonSpeechデータ(日本語のテレビの録音データ) 1001 をWERに基づくフィルタリングによって良質なデータのみを抽出することで作成されたデータの模様

公式のモデルカードも参照のこと:https://huggingface.co/kotoba-tech/kotoba-whisper-v2.0日本のテレビ番組のデータで学習されているので、それを念頭に置いた上で、自分が適用したいデータとの相性を考えると良さそうである。

また、動作速度が速いのはシンプルにありがたい。
#Article #MachineLearning #Dataset Issue Date: 2023-08-16 CommonVoice Comment音声対応のアプリケーションをトレーニングするために誰でも使用できるオープンソースの多言語音声データセット

image

#Article #Survey #ComputerVision #NLP #LanguageModel #MulltiModal Issue Date: 2023-07-03 Awesome Multimodal LLMs CommentマルチモーダルなLLMのリストがまとめられている