Editingに関する論文・技術記事メモの一覧

Editing

[Paper Note] UniVideo: Unified Understanding, Generation, and Editing for Videos, Cong Wei+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #Transformer #MultiModal #DiffusionModel #VariationalAutoEncoder #OpenWeight #read-later #Selected Papers/Blogs #VideoGeneration/Understandings Issue Date: 2026-01-09 GPT Summary- UniVideoは、動画ドメインにおけるマルチモーダルコンテンツの生成と編集を目的とした統一モデルで、MLLMとMMDiTを組み合わせたデュアルストリーム設計を採用。これにより、複雑な指示の解釈と視覚的一貫性を維持しつつ、動画生成や編集タスクを統一的に訓練。実験結果では、テキスト/画像から動画への生成や文脈内編集において最先端の性能を示し、編集とスタイル転送の統合や未見の指示への対応も可能。視覚プロンプトに基づく生成もサポートし、モデルとコードは公開されている。 Comment

pj page: https://congwei1230.github.io/UniVideo/

元ポスト:

Loading…

HF: https://huggingface.co/KlingTeam/UniVideo

[Paper Note] Step-Audio-EditX Technical Report, Chao Yan+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#Pocket #LanguageModel #SpeechProcessing #OpenWeight #TTS #AudioLanguageModel Issue Date: 2025-11-09 GPT Summary- 初のオープンソースLLMベースの音声モデル「Step-Audio-EditX」を発表。感情や話し方の編集に優れ、ゼロショットのテキスト音声合成機能も搭載。大きなマージンの合成データを活用し、従来のアプローチからの転換を実現。評価では、感情編集や細かい制御タスクで他のモデルを上回る性能を示した。 Comment

元ポスト:

Loading…

[Paper Note] Learning an Image Editing Model without Image Editing Pairs, Nupur Kumari+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #Pocket #DiffusionModel #TextToImageGeneration #VisionLanguageModel #2D (Image) #ImageSynthesis Issue Date: 2025-10-18 GPT Summary- 本研究では、ペアデータを使用せずに画像編集モデルをトレーニングする新しいパラダイムを提案。拡散モデルを展開し、視覚-言語モデル（VLM）からのフィードバックを活用して直接最適化を行う。生成画像の視覚的忠実性を保つために分布マッチング損失（DMD）を導入。標準ベンチマークで評価した結果、従来の教師ありペアデータを用いたモデルと同等の性能を達成し、RLベースの手法をも上回ることが示された。 Comment

元ポスト:

Loading…

[Paper Note] D3: A Dataset for Training Code LMs to Act Diff-by-Diff, Piterbarg+, COLM'25

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Coding #mid-training #COLM #One-Line Notes Issue Date: 2025-10-08 Comment

openreview: https://openreview.net/forum?id=sy71y74U80#discussion

openreviewのサマリによると、8B tokens, 850k python filesのデータセットで、コーディングタスクを、ゴールで条件づけられたsequential editsタスクとみなし The Stack上のコードを分析ツールとLLMによって合成されたrationaleによってフィルタリング/拡張したデータを提供しているとのこと。具体的には (state, goal, action_i) の3つ組みのデータセットであり、action_iがaction前後でのdiffになっている模様。D3データセットでSFTの前にLlama 1B / 3Bをmid-trainingした結果、downstreamタスク（コード生成、completion、編集）において性能が向上したとのこと。

[Paper Note] EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing, Keming Wu+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Evaluation #RewardModel #One-Line Notes Issue Date: 2025-10-02 GPT Summary- 自然言語指示による画像編集の進展において、オープンソースモデルは遅れをとっている。これを解決するために、20万以上の選好ペアを含む新しいデータセット\mnameを構築し、指示に基づく画像編集タスクで人間の選好と高い整合性を示した。実験では、\mnameが既存のベンチマークで最先端の人間相関を達成し、ノイズの多いデータセットから高品質なサブセットを選択することで、画像編集モデルの性能を大幅に向上させることができた。今後、\mnameはコミュニティに公開され、高品質な画像編集トレーニングデータセットの構築を支援する予定である。 Comment

pj page: https://tiger-ai-lab.github.io/EditReward/
HF: https://huggingface.co/collections/TIGER-Lab/editreward-68ddf026ef9eb1510458abc6

これまでのImageEditing用のデータセットは、弱いReward Modelによって合成されるか、GPT-4oや他のVLMによる品質の低いフィルタリングにより生成されており、高品質なデータセットが存在しない課題があった。これを解決するために大規模なImageEditingの嗜好データを収集し、ImageEditingに特化した報酬モデルであるEditRewardを学習。このモデルは人間の専門家とのagreementにおいて高い(というよりりbestと書いてある）agreementを示し、実際にEditRewardによって既存のデータセットをfilteringして学習したら大きなgainがあったよ、という感じらしい。

[Paper Note] Generating Sentences by Editing Prototypes, Kelvin Guu+, TACL'18, 2017.09

Paper/Blog Link My Issue
#NeuralNetwork #NaturalLanguageGeneration #Pocket #NLP #TACL #Encoder-Decoder Issue Date: 2017-12-31 GPT Summary- 新しい生成モデルを提案し、トレーニングコーパスからプロトタイプ文をサンプリングして編集することで新しい文を生成。従来のモデルと異なり、困惑度を改善し、高品質な出力を実現。さらに、文の類似性や文レベルの類推を捉える編集ベクトルを生成。

GLM-Image: Auto-regressive for Dense-knowledge and High-fidelity Image Generation, Z.ai, 2026.01

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #DiffusionModel #TextToImageGeneration #OpenWeight Issue Date: 2026-01-14 Comment

元ポスト:

Loading…

Our New SAM Audio Model Transforms Audio Editing, Meta, 2025.12

Paper/Blog Link My Issue
#Article #SpeechProcessing Issue Date: 2025-12-17 Comment

元ポスト:

Loading…

Ming-flash-omni-Preview, inclusionAI, 2025.10

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #TTS #Routing #UMM #Omni #Sparse #ImageSynthesis Issue Date: 2025-10-28 Comment

元ポスト:

Loading…

過去一番多くのタグを付与した気がするが、果たして大規模、Omniモデルかつ、UMMにしたことによる恩恵（＝様々なモダリティを統一された空間上に学習させる恩恵）はどの程度あるのだろうか？

アーキテクチャを見ると、モダリティごとに（モダリティ単位でのバイアスがかかった）Routerが用意されexpertにルーティングされるような構造になっている。