Deduplication

#ComputerVision #Embeddings #Pocket #NLP
Issue Date: 2025-08-16 [Paper Note] SemDeDup: Data-efficient learning at web-scale through semantic deduplication, Amro Abbas+, arXiv'23 GPT Summary- SemDeDupは、事前学習モデルの埋め込みを用いて意味的に重複するデータペアを特定し削除する手法。LAIONのサブセットで50%のデータ削除を実現し、トレーニング時間を半分に短縮。分布外性能も向上し、C4データセットでも効率性を改善。質の高い埋め込みを活用することで、データ削減と学習加速を両立。 Comment

embedding空間において近傍のサンプル(near-duplicates)を削除することで、学習効率が向上します、という話な模様。
<img width="957" height="535" alt="Image" src=" <a href="https://github.com/user-attachments/assets/11511a7e-feaa-4e7b-8276-628fe5099be9"" target="_blank" rel="noopener noreferrer">https://github.com/user-attachments/assets/11511a7e-feaa-4e7b-8276-628fe5099be9"</a> />

openreview: https://openreview.net/forum?id=IRSesTQUtb¬eId=usQjFYYAZJ

openreviewによると、embedding空間においてnear-duplicatesを削除するというアイデアは興味深いが、提案手法は既存研究のアイデアを組み合わせているに留まっており(多くのブログポストやdeduplicationのためのライブラリも存在する)新規性が明確ではない点や、実験結果が不足している(i.e., 全てのケースでSoTAというわけでもなく、大規模モデルでの実験やstrong baselineの不在(実験結果はrandom pruningに対してoutperformすることが主に示されている)など、論文の主張をサポートするための結果が足りない)という指摘がされている。
実用的にはwell-writtenでexampleも豊富とのことなので、Deduplicationの理解を深めるのに良さそう。

先行研究:
- (画像)[Paper Note] Beyond neural scaling laws: beating power law scaling via data pruning, Ben Sorscher+, NeurIPS'22
- (テキスト)[Paper Note] Deduplicating Training Data Makes Language Models Better, Katherine Lee+, ACL'22

[Paper Note] Beyond neural scaling laws: beating power law scaling via data pruning, Ben Sorscher+, NeurIPS'22 では、分類が難しい画像のデータという観点にフォーカスしており、[Paper Note] Deduplicating Training Data Makes Language Models Better, Katherine Lee+, ACL'22 では、テキストの表層的な情報の一致に基づいてDeduplicationを実施している。



#Pretraining #Pocket #NLP #LanguageModel #ACL #Selected Papers/Blogs
Issue Date: 2025-09-04 [Paper Note] Deduplicating Training Data Makes Language Models Better, Katherine Lee+, ACL'22 GPT Summary- 既存の言語モデルデータセットには重複した例が多く含まれ、訓練されたモデルの出力の1%以上が訓練データからコピーされている。これを解決するために、重複排除ツールを開発し、C4データセットからは60,000回以上繰り返される文を削除。重複を排除することで、モデルの記憶されたテキスト出力を10倍減少させ、精度を維持しつつ訓練ステップを削減。また、訓練とテストの重複を減らし、より正確な評価を実現。研究の再現とコードは公開されている。 Comment

下記スライドのp.9にまとめが記述されている:
https://speakerdeck.com/takase/snlp2023-beyond-neural-scaling-laws?slide=9



#NeuralNetwork #ComputerVision #Pretraining #Pocket #NeurIPS #Scaling Laws
Issue Date: 2025-09-04 [Paper Note] Beyond neural scaling laws: beating power law scaling via data pruning, Ben Sorscher+, NeurIPS'22 GPT Summary- データセットサイズに対する誤差のスケーリングを研究し、高品質なデータプルーニングメトリックを用いることで誤差を指数スケーリングに減少させる可能性を示す。CIFAR-10、SVHN、ImageNetでの実験により、冪法則スケーリングを超える改善を確認。ImageNetにおける10種類のデータプルーニングメトリックのベンチマークを実施し、従来のメトリックに代わる新しい自己教師ありプルーニングメトリックを開発。良好なデータプルーニングメトリックがニューラルスケーリング法則の改善とリソースコスト削減に寄与する可能性を示唆。 Comment

openreview: https://openreview.net/forum?id=UmvSlP-PyV

日本語解説スライド: https://speakerdeck.com/takase/snlp2023-beyond-neural-scaling-laws