Music


Paper/Blog Link My Issue
#NLP #Transformer #Chain-of-Thought #SpeechProcessing #DiffusionModel #Reasoning #SmallModel #PEFT(Adaptor/LoRA) #OpenWeight Issue Date: 2026-02-05 GPT Summary- ACE-Step v1.5は、高効率のオープンソース音楽基盤モデルで、商業音楽モデルを超える品質を持ちながら、非常に高速で動作します。ユーザーは少数の楽曲から個人のスタイルをトレーニング可能で、ハイブリッドアーキテクチャを用いてシンプルなクエリを包括的な楽曲に変換します。内因性強化学習により、スタイル制御と多様な編集機能を強化し、50以上の言語に対応。コンテンツクリエイターの創造的なワークフローに統合されるツールとして利用可能です。 Comment

元ポスト:

Loading…

データは全て許可済みのもの、かつ合成データとポストされており商用利用も可らしいが、果たして。




Paper/Blog Link My Issue
#NLP #MultiModal #FoundationModel #SpeechProcessing #OpenWeight #AudioLanguageModel Issue Date: 2026-01-17 GPT Summary- オープンソースの音楽基盤モデルファミリーを提案し、音楽理解と生成を促進する。主要な4つのコンポーネントは、音声・テキストアラインメント、堅牢な歌詞認識、高忠実度音楽コーデック、ユーザー制御可能な条件での歌生成を含む。特化モードでは、音楽属性の制御と短い魅力的な生成が可能。これにより、商業グレードのシステムを再現し、多モーダルコンテンツ制作を促進する基盤を構築。 Comment

pj page: https://heartmula.github.io/
HF: https://huggingface.co/HeartMuLa/HeartMuLa-oss-3B

元ポスト:

Loading…




Paper/Blog Link My Issue
#Evaluation #NeurIPS Issue Date: 2026-02-28 GPT Summary- 音楽へのテキスト変換モデル(TTM)のための評価プラットフォーム、Music Arenaを提案。聴取実験による人間の嗜好評価が困難な中、ユーザーが入力したテキストに基づき2つのTTMシステムの出力を比較し、嗜好データをリーダーボードに活用。LLMベースのルーティングシステムや自然言語フィードバックの収集機能を備え、ユーザープライバシーを保ちながら再生可能なデータを提供。これにより、TTMエコシステムの課題解決と評価手法の進化を目指す。 Comment

元ポスト:

Loading…

slide: https://neurips.cc/media/neurips-2025/Slides/131738.pdf




Paper/Blog Link My Issue
#Article #Transformer #SpeechProcessing #DiffusionModel #Speech #OpenWeight #read-later #TTS #UMM #Omni #One-Line Notes #AdversarialTraining Issue Date: 2026-02-18 Comment

元ポスト:

Loading…

TTSだけでなく、環境音や音楽の生成も可能な音声生成モデル。発話速度、ピッチ、音量、感情、訛りなどを正確にコントロール可能で、100+以上のビルトインのvoiceや、zeroshotでのvoice designが可能とのこと。また、speechだけでなく環境音や音楽の生成もできる産業界では初めてのモデルとのこと。また、3.1Hzごとのフレームレートでパッチ化されて入力され(これはこれまでと比べるとかなり低いフレームレートらしい)るため高速に処理が走り、テキスト入力として数式などのフォーマットも入力可能とのこと。

テクニカルレポートのリンクがまだ生きておらず詳細は不明。