DataAugmentationに関する論文・技術記事メモの一覧

DataAugmentation

[Paper Note] Text-Printed Image: Bridging the Image-Text Modality Gap for Text-centric Training of Large Vision-Language Models, Shojiro Yamabe+, CVPR'26, 2025.12

Paper/Blog Link My Issue
#ComputerVision #SyntheticData #CVPR #VisionLanguageModel #text Issue Date: 2026-02-28 GPT Summary- テキスト中心訓練を用いて、画像収集のコストを削減する新たなアプローチとしてText-Printed Image（TPI）を提案。TPIはテキストを白いキャンバスに直接レンダリングすることで合成画像を生成し、VQAタスクでのモダリティギャップを軽減。系統的な実験により、TPIは合成画像生成モデルよりも効果的な性能を示し、LVLMsの自動データ生成の可能性を強調。 Comment

元ポスト:

Loading…

[Paper Note] Reverse Thinking Makes LLMs Stronger Reasoners, Justin Chih-Yao Chen+, NAACL'25

Paper/Blog Link My Issue
#NLP #Distillation #NAACL #Verification #KeyPoint Notes Issue Date: 2024-12-02 GPT Summary- 逆思考は推論において重要であり、我々は大規模言語モデル（LLMs）向けにReverse-Enhanced Thinking（RevThink）フレームワークを提案。データ拡張と学習目標を用いて、前向きと後向きの推論を構造化し、マルチタスク学習で小型モデルを訓練。実験では、ゼロショット性能が平均13.53%向上し、知識蒸留ベースラインに対して6.84%の改善を達成。少ないデータでのサンプル効率も示し、一般化能力が高いことが確認された。 Comment

## 手法概要

Original QuestionからTeacher Modelでreasoningと逆質問を生成（Forward Reasoning, Backward Question）し、逆質問に対するReasoningを生成する（Backward Reasoning）。
その後、Forward Reasoningで回答が誤っているものや、Teacher Modelを用いてBackward ReasoningとOriginal Questionを比較して正しさをverificationすることで、学習データのフィルタリングを行う。
このようにして得られたデータに対して、3種類の項をlossに設けて学習する。具体的には

- Original Questionから生成したForward Reasoningに対するクロスエントロピー
- Original Questionから生成したBackward Questionに対するクロスエントロピー
- Backward Questionから生成したBackward Reasoningに対するクロスエントロピー

の平均をとる。

また、original questionと、backward reasoningが一貫しているかを確認するためにTeacher Modelを利用した下記プロンプトでverificationを実施し、一貫性があると判断されたサンプルのみをSFTのデータとして活用している。

Teacherモデルから知識蒸留をするためSFTが必要。あと、正解が一意に定まるようなQuestionでないとbackward reasoningの生成はできても、verificationが困難になるので、適用するのは難しいかもしれない。

[Paper Note] Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data, Lihe Yang+, CVPR'24, 2024.01

Paper/Blog Link My Issue
#ComputerVision #FoundationModel #CVPR #2D (Image) #DepthEstimation Issue Date: 2025-11-18 GPT Summary- Depth Anythingは、堅牢な単眼深度推定のための基盤モデルを提案し、6200万の未ラベルデータを自動的に注釈付けしてデータセットを拡大。データ拡張と補助的な監視を用いてモデルの一般化能力を向上させ、ゼロショット評価で優れた結果を示した。NYUv2およびKITTIでファインチューニングし、最先端の性能を達成。モデルは公開されている。 Comment

日本語解説: https://computray.com/98/depth-anything/

[Paper Note] Prompt2Model: Generating Deployable Models from Natural Language Instructions, Vijay Viswanathan+, arXiv'23, 2023.08

Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SyntheticData #EMNLP #PostTraining #Selected Papers/Blogs #System Demonstration #KeyPoint Notes #Author Thread-Post Issue Date: 2023-08-28 GPT Summary- Prompt2Modelは、LLMによるプロンプトを用いて特定用途モデルを訓練する方法を提案。既存データセットの検索とLLMを使ったデータ生成により、強力なモデルを得られる。提示したプロンプトで、gpt-3.5-turboの結果を約20%上回り、最大700倍小型化できる。モデルの性能を信頼性高く推定可能で、オープンソースとして公開。 Comment

Dataset Generatorによって、アノテーションが存在しないデータについても擬似ラベル付きデータを生成することができ、かつそれを既存のラベル付きデータと組み合わせることによってさらに性能が向上することが報告されている。これができるのはとても素晴らしい。

Dataset Generatorについては、データを作成する際に低コストで、高品質で、多様なデータとするためにいくつかの工夫を実施している。
1. ユーザが与えたデモンストレーションだけでなく、システムが生成したexampleもサンプリングして活用することで、生成されるexampleの多様性を向上させる。実際、これをやらない場合は120/200がduplicate exampleであったが、これが25/200まで減少した。
2. 生成したサンプルの数に比例して、temperatureを徐々に高くしていく。これにより、サンプルの質を担保しつつ、多様性を徐々に増加させることができる。Temperature Annealingと呼ぶ。
3. self-consistencyを用いて、擬似ラベルの質を高める。もしmajority votingが互角の場合は、回答が短いものを採用した（これはヒューリスティックに基づいている）
4. zeno buildを用いてAPIへのリクエストを並列化することで高速に実験を実施

非常に参考になる。

著者らによる現在の視点での振り返り（提案当時はAI Agentsという概念はまだなく、本研究はその先取りと言える）:

Loading…

Learning Multimodal Data Augmentation in Feature Space, ICLR'23

Paper/Blog Link My Issue
#MachineLearning #MultiModal #One-Line Notes Issue Date: 2023-04-26 Comment

Data Augmentationは基本的に単体のモダリティに閉じて行われるが、

マルチモーダルな設定において、モダリティ同士がどう関係しているか、どの変換を利用すべきかわからない時に、どのようにデータ全体のsemantic structureを維持しながら、Data Augmentationできるか？という話らしい

[Paper Note] A Simple Framework for Contrastive Learning of Visual Representations, Ting Chen+, ICML'20

Paper/Blog Link My Issue
#ComputerVision #ContrastiveLearning #Self-SupervisedLearning #ICLR #Selected Papers/Blogs Issue Date: 2025-05-18 GPT Summary- 本論文では、視覚表現の対比学習のためのシンプルなフレームワークSimCLRを提案し、特別なアーキテクチャやメモリバンクなしで対比自己教師あり学習を簡素化します。データ拡張の重要性、学習可能な非線形変換の導入による表現の質向上、対比学習が大きなバッチサイズと多くのトレーニングステップから利益を得ることを示し、ImageNetで従来の手法を上回る結果を達成しました。SimCLRによる自己教師あり表現を用いた線形分類器は76.5%のトップ1精度を達成し、教師ありResNet-50に匹敵します。ラベルの1%でファインチューニングした場合、85.8%のトップ5精度を達成しました。 Comment

日本語解説: https://techblog.cccmkhd.co.jp/entry/2022/08/30/163625

nlpaug

Paper/Blog Link My Issue
#Article #NLP #Library #Repository #One-Line Notes Issue Date: 2023-01-21 Comment

Data Augmentationのためのオープンソースライブラリ