Editing

#Pocket #NLP #Dataset #LanguageModel #Coding #mid-training #COLM #One-Line Notes
Issue Date: 2025-10-08 [Paper Note] D3: A Dataset for Training Code LMs to Act Diff-by-Diff, Piterbarg+, COLM'25 Comment

openreview: https://openreview.net/forum?id=sy71y74U80#discussion

openreviewのサマリによると、8B tokens, 850k python filesのデータセットで、コーディングタスクを、ゴールで条件づけられたsequential editsタスクとみなし The Stack上のコードを分析ツールとLLMによって合成されたrationaleによってフィルタリング/拡張したデータを提供しているとのこと。具体的には (state, goal, action_i) の3つ組みのデータセットであり、action_iがaction前後でのdiffになっている模様。D3データセットでSFTの前にLlama 1B / 3Bをmid-trainingした結果、downstreamタスク(コード生成、completion、編集)において性能が向上したとのこと。

<img width="865" height="348" alt="Image" src=" <a href="https://github.com/user-attachments/assets/d99b5ee6-dbc8-48f7-9b68-880add54dbbb"" target="_blank" rel="noopener noreferrer">https://github.com/user-attachments/assets/d99b5ee6-dbc8-48f7-9b68-880add54dbbb"</a> />



#Pocket #NLP #Dataset #LanguageModel #Evaluation #RewardModel #One-Line Notes
Issue Date: 2025-10-02 [Paper Note] EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing, Keming Wu+, arXiv'25, 2025.09 GPT Summary- 自然言語指示による画像編集の進展において、オープンソースモデルは遅れをとっている。これを解決するために、20万以上の選好ペアを含む新しいデータセット\mnameを構築し、指示に基づく画像編集タスクで人間の選好と高い整合性を示した。実験では、\mnameが既存のベンチマークで最先端の人間相関を達成し、ノイズの多いデータセットから高品質なサブセットを選択することで、画像編集モデルの性能を大幅に向上させることができた。今後、\mnameはコミュニティに公開され、高品質な画像編集トレーニングデータセットの構築を支援する予定である。 Comment

pj page: https://tiger-ai-lab.github.io/EditReward/
HF: https://huggingface.co/collections/TIGER-Lab/editreward-68ddf026ef9eb1510458abc6

これまでのImageEditing用のデータセットは、弱いReward Modelによって合成されるか、GPT-4oや他のVLMによる品質の低いフィルタリングにより生成されており、高品質なデータセットが存在しない課題があった。これを解決するために大規模なImageEditingの嗜好データを収集し、ImageEditingに特化した報酬モデルであるEditRewardを学習。このモデルは人間の専門家とのagreementにおいて高い(というよりりbestと書いてある)agreementを示し、実際にEditRewardによって既存のデータセットをfilteringして学習したら大きなgainがあったよ、という感じらしい。



#Article #NLP #LanguageModel #SpeechProcessing #Blog #OpenWeight
Issue Date: 2025-10-03 Ming-UniAudio: Speech LLM for Joint Understanding, Generation and Editing with Unified Representation, inclusionAI, 2025.07 Comment

元ポスト:

Loading…

Ming-Omniの後継モデルで、スピーチに特化して書き起こし、理解、編集などができるモデル

- [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25

HF: https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B

公式ポスト:

Loading…


#Article #ComputerVision #NLP #DiffusionModel #VisionLanguageModel #Encoder Issue Date: 2025-09-24 Qwen-Image-Edit-2509, Qwen Team, 2025.09 Comment

テクニカルレポート: https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf



#Article #ComputerVision #NLP #TextToImageGeneration #Blog #ProprietaryLLM Issue Date: 2025-08-28 Introducing Gemini 2.5 Flash Image, our state-of-the-art image model, Google, 2025.08 Comment

nano banana

ベストプラクティス:

Loading…

プロンプトガイドと戦略: https://ai.google.dev/gemini-api/docs/image-generation?hl=ja#prompt-guide

元ポスト:

Loading…


#Article #ComputerVision Issue Date: 2025-08-19 Sketch3DVE: Sketch-based 3D-Aware Scene Video Editing, Liu+, SIGGRAPH, 2025.07 Comment

元ポスト:

Loading…

pj page: http://geometrylearning.com/Sketch3DVE/



#Article #ComputerVision #NLP #OpenWeight #VisionLanguageModel Issue Date: 2025-08-19 Qwen-Image-Edit, Qwen, 2025.05 Comment

元ポスト:

Loading…

公式ポスト:

Loading…

Imageを入力して、テキストで条件づけることで編集できるOpenWeightモデル
<img width="810" height="393" alt="Image" src=" <a href="https://github.com/user-attachments/assets/8c4ed7a1-1604-4365-bdbf-ef64ad8298ce"" target="_blank" rel="noopener noreferrer">https://github.com/user-attachments/assets/8c4ed7a1-1604-4365-bdbf-ef64ad8298ce"</a> />

参考:25/08/20 とりまQwenImageEditを試す
https://six-loganberry-ba7.notion.site/25-08-20-QwenImageEdit-255f7e7600e980f48e09cc7252ea1677

元ポスト:

Loading…

Image Edit Arenaで2位:

Loading…