Musicに関する論文・技術記事メモの一覧

Music

[Paper Note] Decomposer: Learning to Decompile Symbolic Music to Programs, Yewon Kim+, arXiv'26, 2026.07

Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Coding #PostTraining #Author Thread-Post Issue Date: 2026-07-19 GPT Summary- 音楽の演奏から指示を復元するDecomposerというポストトレーニングフレームワークを提案。MIDIからStrudel言語へのデコンパイルで、実行可能な音楽プログラムを作成。課題は、資源の乏しいStrudelと、忠実な再構成が読みにくいコードになる可能性。二段階で解決し、合成データでの教師付きファインチューニングと、ペアになっていないMIDIでの強化学習を行う。評価で、Decomposerは他の方法に比べ、高いMIDI再構成忠実性と可読性を実現。 Comment

元ポスト:

Loading…

[Paper Note] Qwen-Music Technical Report, Jin Xu+, arXiv'26, 2026.07

Paper/Blog Link My Issue
Issue Date: 2026-07-16 GPT Summary- Qwen-Musicは、高音楽性と高忠実度を持つ楽曲を生成する音楽生成モデルで、テキストから音楽生成（Text to Music Generation）とカバーソング生成（Cover Song Generation）をサポートします。3つのコアコンポーネント（Tokenizer、LLM、Render）を統合し、独自のメロディ計画機構（Melody-CoT）を採用。生成的なステレオレンダリングにより高忠実度の音響を実現し、500万時間以上の多言語音楽データで訓練。Qwen-Musicは16の音楽性・音質指標で最先端の結果を達成し、専門評価者にも好まれる傾向が見られます。カバーソング生成では、参照メロディの保持が優れていることも示されています。 Comment

元ポスト:

Loading…

[Paper Note] ACE-Step 1.5: Pushing the Boundaries of Open-Source Music Generation, Junmin Gong+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #Transformer #Chain-of-Thought #SpeechProcessing #DiffusionModel #Reasoning #SmallModel #PEFT(Adaptor/LoRA) #OpenWeight Issue Date: 2026-02-05 GPT Summary- ACE-Step v1.5は、高効率のオープンソース音楽基盤モデルで、商業音楽モデルを超える品質を持ちながら、非常に高速で動作します。ユーザーは少数の楽曲から個人のスタイルをトレーニング可能で、ハイブリッドアーキテクチャを用いてシンプルなクエリを包括的な楽曲に変換します。内因性強化学習により、スタイル制御と多様な編集機能を強化し、50以上の言語に対応。コンテンツクリエイターの創造的なワークフローに統合されるツールとして利用可能です。 Comment

元ポスト:

Loading…

データは全て許可済みのもの、かつ合成データとポストされており商用利用も可らしいが、果たして。

[Paper Note] HeartMuLa: A Family of Open Sourced Music Foundation Models, Dongchao Yang+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#NLP #MultiModal #FoundationModel #SpeechProcessing #OpenWeight #AudioLanguageModel Issue Date: 2026-01-17 GPT Summary- オープンソースの音楽基盤モデルファミリーを提案し、音楽理解と生成を促進する。主要な4つのコンポーネントは、音声・テキストアラインメント、堅牢な歌詞認識、高忠実度音楽コーデック、ユーザー制御可能な条件での歌生成を含む。特化モードでは、音楽属性の制御と短い魅力的な生成が可能。これにより、商業グレードのシステムを再現し、多モーダルコンテンツ制作を促進する基盤を構築。 Comment

pj page: https://heartmula.github.io/
HF: https://huggingface.co/HeartMuLa/HeartMuLa-oss-3B

元ポスト:

Loading…

[Paper Note] Music Arena: Live Evaluation for Text-to-Music, Yonghyun Kim+, NeurIPS'25, 2025.07

Paper/Blog Link My Issue
#Evaluation #NeurIPS Issue Date: 2026-02-28 GPT Summary- 音楽へのテキスト変換モデル（TTM）のための評価プラットフォーム、Music Arenaを提案。聴取実験による人間の嗜好評価が困難な中、ユーザーが入力したテキストに基づき2つのTTMシステムの出力を比較し、嗜好データをリーダーボードに活用。LLMベースのルーティングシステムや自然言語フィードバックの収集機能を備え、ユーザープライバシーを保ちながら再生可能なデータを提供。これにより、TTMエコシステムの課題解決と評価手法の進化を目指す。 Comment

元ポスト:

Loading…

slide: https://neurips.cc/media/neurips-2025/Slides/131738.pdf

Ming-omni-tts-16.8B-A3B, inclusionAI, 2026.06

Paper/Blog Link My Issue
#Article #NLP #SpeechProcessing #OpenWeight #TTS #One-Line Notes #AudioLanguageModel #audio Issue Date: 2026-06-17 Comment

元ポスト:

Loading…

pj page: https://xqacmer.github.io/Ming-omni-tts/

speech/sound/musicを単一のモデルで生成可能

Ming-omni-tts-0.5B, inclusionAI, 2026.02

Paper/Blog Link My Issue
#Article #Transformer #SpeechProcessing #DiffusionModel #Speech #OpenWeight #read-later #TTS #UMM #Omni #One-Line Notes #AdversarialTraining Issue Date: 2026-02-18 Comment

元ポスト:

Loading…

TTSだけでなく、環境音や音楽の生成も可能な音声生成モデル。発話速度、ピッチ、音量、感情、訛りなどを正確にコントロール可能で、100+以上のビルトインのvoiceや、zeroshotでのvoice designが可能とのこと。また、speechだけでなく環境音や音楽の生成もできる産業界では初めてのモデルとのこと。また、3.1Hzごとのフレームレートでパッチ化されて入力され（これはこれまでと比べるとかなり低いフレームレートらしい）るため高速に処理が走り、テキスト入力として数式などのフォーマットも入力可能とのこと。

テクニカルレポートのリンクがまだ生きておらず詳細は不明。