Editing
Issue Date: 2025-10-08 [Paper Note] D3: A Dataset for Training Code LMs to Act Diff-by-Diff, Piterbarg+, COLM'25 Comment
openreview: https://openreview.net/forum?id=sy71y74U80#discussion
openreviewのサマリによると、8B tokens, 850k python filesのデータセットで、コーディングタスクを、ゴールで条件づけられたsequential editsタスクとみなし The Stack上のコードを分析ツールとLLMによって合成されたrationaleによってフィルタリング/拡張したデータを提供しているとのこと。具体的には (state, goal, action_i) の3つ組みのデータセットであり、action_iがaction前後でのdiffになっている模様。D3データセットでSFTの前にLlama 1B / 3Bをmid-trainingした結果、downstreamタスク(コード生成、completion、編集)において性能が向上したとのこと。
<img width="865" height="348" alt="Image" src="
<a href="https://github.com/user-attachments/assets/d99b5ee6-dbc8-48f7-9b68-880add54dbbb"" target="_blank" rel="noopener noreferrer">https://github.com/user-attachments/assets/d99b5ee6-dbc8-48f7-9b68-880add54dbbb"</a>
/>
#Pocket #NLP #Dataset #LanguageModel #Evaluation #RewardModel #One-Line Notes
Issue Date: 2025-10-02 [Paper Note] EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing, Keming Wu+, arXiv'25, 2025.09 GPT Summary- 自然言語指示による画像編集の進展において、オープンソースモデルは遅れをとっている。これを解決するために、20万以上の選好ペアを含む新しいデータセット\mnameを構築し、指示に基づく画像編集タスクで人間の選好と高い整合性を示した。実験では、\mnameが既存のベンチマークで最先端の人間相関を達成し、ノイズの多いデータセットから高品質なサブセットを選択することで、画像編集モデルの性能を大幅に向上させることができた。今後、\mnameはコミュニティに公開され、高品質な画像編集トレーニングデータセットの構築を支援する予定である。 Comment
pj page:
https://tiger-ai-lab.github.io/EditReward/
HF:
https://huggingface.co/collections/TIGER-Lab/editreward-68ddf026ef9eb1510458abc6
これまでのImageEditing用のデータセットは、弱いReward Modelによって合成されるか、GPT-4oや他のVLMによる品質の低いフィルタリングにより生成されており、高品質なデータセットが存在しない課題があった。これを解決するために大規模なImageEditingの嗜好データを収集し、ImageEditingに特化した報酬モデルであるEditRewardを学習。このモデルは人間の専門家とのagreementにおいて高い(というよりりbestと書いてある)agreementを示し、実際にEditRewardによって既存のデータセットをfilteringして学習したら大きなgainがあったよ、という感じらしい。
#Article #NLP #LanguageModel #SpeechProcessing #Blog #OpenWeight
Issue Date: 2025-10-03 Ming-UniAudio: Speech LLM for Joint Understanding, Generation and Editing with Unified Representation, inclusionAI, 2025.07 Comment
元ポスト:
Ming-Omniの後継モデルで、スピーチに特化して書き起こし、理解、編集などができるモデル
HF: https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B
公式ポスト:
テクニカルレポート: https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
#Article #ComputerVision #NLP #TextToImageGeneration #Blog #ProprietaryLLM Issue Date: 2025-08-28 Introducing Gemini 2.5 Flash Image, our state-of-the-art image model, Google, 2025.08 Comment
nano banana
ベストプラクティス:
プロンプトガイドと戦略:
https://ai.google.dev/gemini-api/docs/image-generation?hl=ja#prompt-guide
元ポスト:
#Article #ComputerVision Issue Date: 2025-08-19 Sketch3DVE: Sketch-based 3D-Aware Scene Video Editing, Liu+, SIGGRAPH, 2025.07 Comment
元ポスト:
#Article #ComputerVision #NLP #OpenWeight #VisionLanguageModel Issue Date: 2025-08-19 Qwen-Image-Edit, Qwen, 2025.05 Comment
元ポスト:
公式ポスト:
Imageを入力して、テキストで条件づけることで編集できるOpenWeightモデル
<img width="810" height="393" alt="Image" src="
<a href="https://github.com/user-attachments/assets/8c4ed7a1-1604-4365-bdbf-ef64ad8298ce"" target="_blank" rel="noopener noreferrer">https://github.com/user-attachments/assets/8c4ed7a1-1604-4365-bdbf-ef64ad8298ce"</a>
/>
参考:25/08/20 とりまQwenImageEditを試す
https://six-loganberry-ba7.notion.site/25-08-20-QwenImageEdit-255f7e7600e980f48e09cc7252ea1677
元ポスト:
Image Edit Arenaで2位: