Self-SupervisedLearning


Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #Analysis #MachineLearning #NLP #One-Line Notes #Author Thread-Post #LatentRepresentation Issue Date: 2026-06-02 GPT Summary- 生成モデルは、訓練データの量が生物的学習者に比べて大きくなる中で高い性能を示している。新たな手法として、ネットワークが潜在表現を予測する訓練が行われており、これがデータ効率の改善につながる可能性がある。本研究では、確率的文脈自由文法(PCFG)をデータに用いて、潜在予測が効率を高めることを示す。教師あり学習は指数的なサンプル数を要するのに対し、潜在予測は定数のサンプルで達成可能であることを明らかにした。また、階層的クラスタリングやエンドツーエンドのニューラルネットワークを用いた分析を通じて、data2vecが階層的潜在予測を実行していることを確認し、明示的なスタッキングの冗長性を示唆している。 Comment

元ポスト:

Loading…

JEPAのようなモデル自身が獲得した潜在表現を予測する自己教師あり学習手法は、階層的な生成構造を持つデータに対して、トークンレベルの予測ではO(m^{L+1})のサンプルが必要となるが、O(m^3)程度で済むことが理論的に示された模様。

著者ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #Pretraining #Transformer #ContrastiveLearning #ICLR #Encoder #Backbone #needs-revision #2D Reconstruction Issue Date: 2026-04-25 GPT Summary- Sapiens2は、高解像度トランスフォーマーのモデルファミリーで、人間中心のビジョンを重視する。4億〜50億パラメータを持ち、ネイティブ1K解像度を採用し、4K対応の階層的バリアントも提供。事前学習と後学習で大幅な性能向上を実現し、マスク済み画像再構成と自己蒸留型対比学習を統合したアプローチを採用。10億枚の高品質な人体画像データセットで事前学習を行い、アーキテクチャの進歩により安定性を向上。ポーズ推定や身体部位セグメンテーションなどのタスクで新たな最先端性能を達成。 Comment

openreview: https://openreview.net/forum?id=IVAlYCqdvW

元ポスト:

Loading…

HF: https://huggingface.co/facebook/sapiens2

人物ドメインに特化したViTエンコーダ。事前学習はEncoder-Decoderアーキテクチャを利用しMasked Image Modelingで学習する。この際に、Reconstruction lossだけでなく、




Paper/Blog Link My Issue
#ComputerVision #NLP #Temporal #ReinforcementLearning #MultiModal #ICLR #PostTraining #RLVR #VisionLanguageModel #2D (Image) #3D (Scene) #4D (Video) #SpatialUnderstanding Issue Date: 2026-04-25 GPT Summary- 視覚理解を強化するための自己教師付きポストトレーニングフレームワーク「Visual Jigsaw」を提案。視覚入力を分割・シャッフルし、モデルは正しい順列を自然言語で出力。これにより強化学習と一致し、追加の視覚生成なしで自動的に監督信号を得る。広範な実験で知覚、時間的推論、3D理解の改善を確認し、視覚中心タスクの可能性を示唆。 Comment

pj page: https://penghao-wu.github.io/visual_jigsaw/

openreview: https://openreview.net/forum?id=tBf2SUzfZw

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #Dataset #SpatialUnderstanding #One-Line Notes #Test Time Training (TTT) Issue Date: 2026-03-14 GPT Summary- 視覚的空間知能の強化を目指し、Streaming Visual Spatial IntelligenceのためのSpatial-TTTを提案。動画から空間証拠を記憶・整理するためにパラメータの一部を適応し、スライディングウィンドウ注意機構を採用。さらに、3D時空間畳み込みを導入し、幾何的対応と時間的連続性を捉える。実験結果は、長時間の空間理解を向上させ、最先端の性能を達成したことを示す。 Comment

pj page: https://liuff19.github.io/Spatial-TTT/

元ポスト:

Loading…

HF: https://huggingface.co/collections/THU-SI/spatial-ttt

要は、spatial understandingに特化した認知機構を小規模ネットワーク+TTTで構築した研究(と思われる)。TTTについては下記issue参照のこと。動画の各フレームはViTでエンコードされ、QuestionはtokenizeされてHybridなdecoder-only modelに入力され、最終的にテキストが出力されるようなアーキテクチャになっている。Hybridなモデルは、3:1の割合でハイブリッドなブロックとFull Attention Blockがスタックされている。ハイブリッドなblockはQKVを共有した2つのルートが存在し、片方はSWA Layer, もう一方がTTT Layerとなっている。これによってSWA Layerによって高い画像理解能力をlong sequenceでも保ちつつ、TTT Layerで入力情報に基づいて動的にSpatial Understandingに特化したstate(=weight)を更新する、といった方向性のアーキテクチャに見える。
- [Paper Note] Learning to (Learn at Test Time): RNNs with Expressive Hidden States, Yu Sun+, ICML'25, 2024.07




Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #RepresentationLearning #Transformer #OpenWeight #Encoder #WorldModels #KeyPoint Notes #LatentRepresentation Issue Date: 2026-02-16 GPT Summary- C-JEPAは、オブジェクト中心の世界モデルで、画像パッチからの埋め込み予測を通じてオブジェクトの相互作用を捉えることを目的としている。オブジェクトレベルのマスキングを導入し、潜在的介入を誘発することで反事実的推論を強化し、ショートカット解法を防ぐ。実験結果では、視覚質問応答において約20%の性能向上を示し、エージェント制御タスクでは必要な潜在入力のわずか1%で同等の結果を達成した。さらに、因果的帰納的バイアスを誘発することも示している。 Comment

元ポスト:

Loading…

pj page: https://hazel-heejeong-nam.github.io/cjepa/

(JEPAはあまり馴染みがなく、以下の私の解説はどこかに誤りがある可能性が高い)

video basedなシステムを前提、すなわちimageのsequenceが与えられる前提である。このとき、各タイムステップごとに選択されたobjectの状態をマスクし、マスクされたobjectのhistoryを予測し、予測された状態から将来の状態を予測する。objectは状態だけでなく、補足的な観測可能な情報を保持することができ(たとえばアクションと感覚に関するシグナルなど)状態遷移に利用される。また、マスク対象として選択されたオブジェクトの最初のステップの状態だけは、アンカーとして保持する。マスク処理はlatent levelはでのinteiventionとして解釈でき、これにより予測のためにobject間の相互作用を捉えることが誘発され、object centricな潜在表現が学習される。マスクされたオブジェクトの状態は、予測された一つ前のステップでの状態に対してlinearで変換しpositional embeddingを足し合わせることで求められ(式3)、これらの予測されたhistoryの状態がViTの入力となり(bidirectionalなattentionを通じて)将来の状態を予測する。lossは予測されたhistoryの状態と将来の状態が与えられたときに、freezeされたobjectのエンコーダから得られる潜在表現との距離が最小化されるように学習される(エンコーダ側はstop gradientする)。

解説:

Loading…




Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #Analysis #Supervised #RepresentationLearning #CLIP #One-Line Notes Issue Date: 2025-10-31 Comment

元ポスト:

Loading…

CLIP, 自己教師あり学習, 教師あり学習を比較したときに、CLIPが人間が獲得するobjectのrepresentationともっともalignしている一方で、自己教師あり学習はほとんど偶然レベルでしかalignしない(ただし、粗いレベルで見ると人間で言うところのカテゴリレベルのクラスタを形成することができる)。このため、テキストベースでの学習が人間が獲得する表現とfine-grainedなレベルでalignするために非常に重要であることが示唆される、という感じらしい




Paper/Blog Link My Issue
#NLP #SSM (StateSpaceModel) #ICML #Selected Papers/Blogs #One-Line Notes #RecurrentModels #Test Time Training (TTT) Issue Date: 2026-02-26 GPT Summary- 隠れ状態を機械学習モデルとして扱い、自己教師あり学習を用いたTest-Time Training(TTT)層を提案。TTT-LinearとTTT-MLPの二つの実装を比較し、長い文脈に対するパフォーマンスを向上。特に、TTT-MLPは長い文脈における潜在能力を示し、TransformerやMambaと比較して有望な結果を得た。 Comment

openreview: https://openreview.net/forum?id=wXfuOj9C7L

隠れ状態そのものを、重みWを持つモデルfとして解釈し、新たなinput x_tが入力された時にW_tをW_{t+1}へ更新するupdate ruleを自己教師あり学習として学習する(すなわち、W_t ← W_{t-1}+ ηΔl(W_{t-1}, x_t)として定式化する)。これによりtest時の入力に対して隠れ状態を更新することが、test sequenceに基づいてモデルfを学習することと等価となる(Test Time Training; TTT)。

たとえばtransformerにおけるself-attentionをTTT layerに置換するような実装がある。self attentionのoutputの計算量はO(t)だが、TTT layerではO(1)となる。

TTT-Layerの実装として線形モデルに基づくTTT-Linearと非線形モデルとしてMLPに基づいたTTT-MLPが提案されている。

(TTT-LayerのKVBindingの実装例を後ほど追記, 論文中のFigure 6)




Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #TextToImageGeneration #FlowMatching #reading Issue Date: 2025-12-17 GPT Summary- 視覚生成のためにSVG-T2Iフレームワークを提案し、VFM特徴ドメイン内で高品質なテキストから画像への合成を実現。標準的な拡散パイプラインを用いて競争力のある性能を達成し、GenEvalで0.75、DPG-Benchで85.78を記録。プロジェクトはオープンソース化され、視覚生成に関する研究を促進。 Comment

HF: https://huggingface.co/KlingTeam/SVG-T2I

元ポスト:

Loading…

先行研究:
- [Paper Note] Latent Diffusion Model without Variational Autoencoder, Minglei Shi+, arXiv'25, 2025.10
- [Paper Note] Diffusion Transformers with Representation Autoencoders, Boyang Zheng+, arXiv'25, 2025.10




Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #MachineLearning #ReinforcementLearning #NeurIPS #read-later #Selected Papers/Blogs #Robotics #Locomotion #ContrastiveReinforcementLearning #Manipulation #EmergentAbilities #Depth Issue Date: 2025-12-01 GPT Summary- 自己教師ありRLのスケーラビリティを改善するため、ネットワークの深さを1024層に増加させることで性能向上を実証。無監督の目標条件設定でエージェントが探索し、目標達成を学ぶ実験を行い、自己教師ありコントラストRLアルゴリズムの性能を向上させた。深さの増加は成功率を高め、行動の質的変化ももたらす。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #ReinforcementLearning #RLVR #VisionLanguageModel #2D (Image) #3D (Scene) #SpatialUnderstanding #One-Line Notes #Pixel-based Issue Date: 2025-11-03 GPT Summary- 空間理解におけるLVLMの弱点を克服するため、自己教師あり強化学習パラダイムSpatial-SSRLを提案。5つの前提タスクを自動定式化し、検証が容易な信号を導出。これにより、空間推論が大幅に改善され、7つのベンチマークでQwen2.5-VLベースラインに対して平均精度が4.63%(3B)および3.89%(7B)向上。シンプルな監視がRLVRを可能にし、LVLMの空間知能向上に寄与することを示した。 Comment

元ポスト:

Loading…

RGB/RGB-D imageがgivenなときに、
- cropped patch inpainting
- flipped patch recognition
- shuffled patch reordering
- regional depth ordering
- relative 3D position prediction

の5つのverifiableなタスクを定義しself supervisedなmannerでRLすることでSpatial Understanding能力を向上させる話らしい
image

3Bモデルがリリース:
https://huggingface.co/internlm/Spatial-SSRL-3B




Paper/Blog Link My Issue
#ComputerVision #Pretraining #Transformer #ICCV #Scalability Issue Date: 2025-10-20 GPT Summary- 視覚的自己教師あり学習(SSL)は、CLIPに比べて視覚的質問応答(VQA)でのパフォーマンスが劣るが、同じデータセットで訓練することで、視覚的SSLモデルがCLIPモデルよりもスケールが良いことを示した。視覚的SSLは、VQAや従来の視覚ベンチマークでCLIPレベルのパフォーマンスを達成できる可能性がある。これにより、視覚中心の表現学習に新たな機会が開かれる。 Comment

pj page: https://davidfan.io/webssl/

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #Pretraining #DiffusionModel Issue Date: 2025-10-20 GPT Summary- 新しい二段階トレーニングフレームワークを提案し、ピクセル空間生成モデルの性能と効率のギャップを埋める。第一段階で意味のあるセマンティクスをキャプチャし、第二段階でエンコーダとデコーダを統合してファインチューニング。ImageNetデータセットで優れた性能を示し、特に拡散モデルは従来手法を大きく上回り、一貫性モデルは高解像度画像での直接トレーニングに成功。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SelfCorrection #mid-training #Selected Papers/Blogs #WorldModels #KeyPoint Notes #Author Thread-Post Issue Date: 2025-10-14 GPT Summary- 言語エージェントの目標は、経験を通じて学び、複雑なタスクで人間を上回ることですが、強化学習には報酬の欠如や非効率的なロールアウトが課題です。これに対処するため、エージェント自身の行動から生成された相互作用データを用いる「早期経験」という新たなパラダイムを提案します。このデータを基に、(1) 暗黙の世界モデル化と(2) 自己反省の2つの戦略を研究し、8つの環境で評価を行った結果、効果性と一般化が向上することを示しました。早期経験は、強化学習の基盤を提供し、模倣学習と経験駆動エージェントの橋渡しとなる可能性があります。 Comment

元ポスト:

Loading…

LLM AgentのためのWarmup手法を提案している。具体的にはRLVRやImitation LearningによってRewardが定義できるデータに基づいてこれまではRLが実現されてきたが、これらはスケールせず、Rewardが定義されない環境のtrajectoryなどは学習されないので汎化性能が低いという課題がある。このため、これらのsupervisionつきの方法で学習をする前のwarmup手法として、reward-freeの学習パラダイム Early Experienceを提案している。
image

手法としてはシンプルな手法が2種類提案されている。
### Implicit World Modeling (IWM, 式(3)):
ある状態s_i において action a_i^{j}を (1 < j < |K|)をとった時の状態をs_i^{j}としたときに、(s_i, a_i^{j}, s_i^{j}) の3つ組を考える。これらはポリシーからのK回のrolloutによって生成可能。
このときに、状態sを全てテキストで表現するようにし、言語モデルのnext-token-prediction lossを用いて、ある状態s_jにおいてaction a_i^{k} をとったときに、s_j^{k} になることを予測できるように学習する。これにより例えばブックフライトのサイトで誤った日時を入れてしまった場合や、どこかをクリックしたときにどこに遷移するかなどの学習する環境の世界知識をimplicitにモデルに組み込むことができる。

### Self-Reflection(式4)
もう一つのパラダイムとして、専門家によるアクション a_i によって得られた状態 s_i と、それら以外のアクション a_i^{j} によって得られた状態 s_i^{j}が与えられたときに、s_iとs_i^{j}を比較したときに、なぜ a_i の方がa_i^{j} よりも好ましいかを説明するCoT C_i^{j}を生成し、三つ組データ(s_i, a_i^{j}, c_i^{j}) を構築する。このデータを用いて、状態s_iがgivenなときに、a_i に c_i^{j} をconcatしたテキストを予測できるようにnext-token-prediction lossで学習する。また、このデータだけでなく汎化性能をより高めるためにexpertによるimitation learningのためのデータCoTなしのデータもmixして学習をする。これにより、expertによるactionだけで学習するよりも、なぜexpertのアクションが良いかという情報に基づいてより豊富で転移可能な学習シグナルを活用し学習することができる。

image

この結果、downstreamタスクでのperformanceが単にImitation Learningを実施した場合と比較して提案手法でwarmupした方が一貫して向上する。また、5.4節にpost-trainingとして追加でGRPOを実施した場合も提案手法によるwarmupを実施した場合が最終的な性能が向上することが報告されている。

image

IWMは自己教師あり学習の枠組みだと思われるので、よぬスケールし、かつ汎化性能が高く様々な手法のベースとなりうる手法に見える。

著者ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #Distillation #Regularization #read-later #Selected Papers/Blogs #Backbone #One-Line Notes #Reference Collection #needs-revision Issue Date: 2025-08-14 GPT Summary- 自己教師付き学習は、手動でのデータ注釈を不要とし、モデルのスケーラビリティを向上させる。DINOv3は、様々なデータソースから視覚表現を学ぶための新たな枠組みを提供し、データセットとモデルサイズの拡張や密な特徴マップの劣化問題に対処する「グラム・アンカリング」を導入。また、後処理戦略により柔軟性を高め、ファインチューニングなしで様々な設定で最先端の性能を発揮する。DINOv3は高品質な特徴量を生成し、広範な視覚タスクにおいて優れた結果を示し、多様なデプロイメントシナリオに対応するソリューションを提供する。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/docs/transformers/main/en/model_doc/dinov3

解説:

Loading…

サマリ:

Loading…

v2:
- [Paper Note] DINOv2: Learning Robust Visual Features without Supervision, Maxime Oquab+, TMLR'24

本日配信された岡野原氏のランチタイムトークによると、学習が進んでいくと全部の特徴量が似通ってきてしまう問題があったが、Gram Anchoringと呼ばれる、学習初期時点でのパッチ間の類似度度行列を保持しておき正則化として損失に加えることで、そこから離れすぎないように学習するといった工夫を実施しているとのこと。

詳細な日本語解説: https://zenn.dev/syu_tan/articles/6df2947eb6c1ae

Gram Anchoringの気持ちとしては、長期で学習をすると、モデルがグローバルな特徴量を学習可能だが、個々のパッチレベルや密な部分のローカルな特徴量が失われていってしまい、ローカルな特徴が重要なdownstreamタスクの性能が劣化するため、これをなんとかしたい。そのために、画像全体のパッチ間の類似度行列によって、パッチ全体の類似度の構造を捉え、学習初期の高品質なローカルな特徴を捉えられたモデルを教師とし、そこから離れすぎないように学習中のモデルを生徒として正則化することで解決する、というものだと思われる。

事前学習のスケジューラーの工夫として以下を実施している:
- 事前学習の終了タイミングを事前に予測することは困難
- →事前に総ステップ数を指定しなければならないパラメータのスケジューリングはそもそも困難
- →スケジューリングを廃止する
- スケジューリングを廃止する代わりに
- 学習率とweight decay、teacher EMAのmomentumを固定して学習を実施
-




Paper/Blog Link My Issue
#ComputerVision #Transformer #FoundationModel #TMLR Issue Date: 2025-04-11 GPT Summary- 自己教師あり手法を用いて、多様なキュレーションデータから汎用的な視覚特徴を生成する新しい事前学習手法を提案。1BパラメータのViTモデルを訓練し、小型モデルに蒸留することで、OpenCLIPを上回る性能を達成。

Paper/Blog Link My Issue
#ComputerVision #Pretraining #RepresentationLearning #Transformer #CVPR #read-later #Selected Papers/Blogs #WorldModels #One-Line Notes #LatentRepresentation Issue Date: 2025-07-24 GPT Summary- 本論文では、手作りのデータ拡張に依存せずに意味的な画像表現を学習するI-JEPAという自己教師あり学習アプローチを提案。I-JEPAは、単一のコンテキストブロックから異なるターゲットブロックの表現を予測する。重要な設計選択として、意味的に大きなターゲットブロックと情報量の多いコンテキストブロックのサンプリングが挙げられる。実験により、I-JEPAはVision Transformersと組み合わせることでスケーラブルであり、ImageNet上で強力な下流性能を達成した。 Comment

Joint-Embedding Predictive Architecture (JEPA)を提案した研究。ピクセルやトークンのreconstruction lossではなく、潜在表現を再構成するようなself-supervised learningによってより意味的な特徴を学習するように誘導するもの(と思われるがこれが本質的な理解として正しいかは自信がない)。




Paper/Blog Link My Issue
#ComputerVision #LanguageModel #Zero/Few/ManyShotPrompting Issue Date: 2024-10-07 GPT Summary- 自己教師あり文脈内学習(SINC)フレームワークを提案し、大規模言語モデルに依存せずに文脈内学習を実現。特別に調整されたデモンストレーションを用いたメタモデルが、視覚と言語のタスクで少数ショット設定において勾配ベースの手法を上回る性能を示す。SINCは文脈内学習の利点を探求し、重要な要素を明らかにする。

Paper/Blog Link My Issue
#Tutorial #MachineLearning #One-Line Notes Issue Date: 2023-04-26 GPT Summary- 自己教師付き学習(SSL)は機械学習の重要な進展とされているが、その訓練は高い技術を要し、参入障壁が存在する。本研究では、SSL手法の訓練に必要な前処理やハイパーパラメータの選択肢を体系的に示すことを目指し、研究者がSSLの理解を深め、効果的な手法を探求できるようサポートする。 Comment

MetaによるSelf Supervised Learningの教科書




Paper/Blog Link My Issue
#ComputerVision #Pretraining #Transformer #CVPR #Selected Papers/Blogs #Encoder #Backbone #One-Line Notes #AutoEncoder #2D Reconstruction Issue Date: 2026-04-29 GPT Summary- MAEは、入力画像のランダムなパッチをマスクし、欠損部分を再構成するシンプルな自己教師付き学習モデルである。非対称のエンコーダ-デコーダ構造を用い、エンコーダは可視パッチのみを処理。75%をマスクすることで、非自明な自己教師付きタスクを生み出し、高速かつ効果的なモデル訓練を実現。一般化性能に優れ、ViT-HugeモデルがImageNet-1Kデータで最高精度(87.8%)を達成し、転移性能も監督付き事前学習を上回る。 Comment

元ポスト:

Loading…

AutoEncoderを通じてMaskされたパッチを再構築できるように学習する(25%のパッチから予測する)ことで、(decoderを排除した場合に)downstream taskで良い性能を発揮するViTエンコーダを学習する。デコーダのパラメータ数は意図的に小さくし、Encoder側で特徴がきちんと学習されるように誘導する。




Paper/Blog Link My Issue
#Pretraining #MachineLearning Issue Date: 2023-07-22 GPT Summary- 共有埋め込み自己教示学習(JE-SSL)は、成功の視覚的な手がかりが欠如しているため、展開が困難である。本研究では、JE-SSL表現の品質を評価するための非教示基準であるRankMeを開発した。RankMeはラベルを必要とせず、ハイパーパラメータの調整も不要である。徹底的な実験により、RankMeが最終パフォーマンスのほとんど減少なしにハイパーパラメータの選択に使用できることを示した。RankMeはJE-SSLの展開を容易にすることが期待される。

Paper/Blog Link My Issue
#ComputerVision #read-later #Selected Papers/Blogs #ICCV #Encoder #Backbone #SelfDistillation Issue Date: 2026-04-26 GPT Summary- 自己教師あり学習がVision Transformer(ViT)に特異な特徴をもたらすことを探求。自己教師ありViTは、監視ありViTや畳み込みネットワーク(convnets)よりも画像のセマンティックセグメンテーションに関する明示的な情報を持ち、小型ViTでImageNetにおけるtop-1が78.3%に達する。モメンタムエンコーダやマルチクロップ訓練、小さなパッチの重要性も強調し、DINOという自己教師あり法を実装。線形評価でViT-BaseがImageNetのtop-1 80.1%を達成し、DINOとViTの相乗効果を示す。 Comment

日本語解説:
【論文まとめ】DINO: Emerging Properties in Self-Supervised Vision Transformers, 大阪大学医学部 Python会, 2021.04
https://oumpy.github.io/blog/2021/05/dino.html

v2, v3はこちら:
- [Paper Note] DINOv2: Learning Robust Visual Features without Supervision, Maxime Oquab+, TMLR'24
- [Paper Note] DINOv3, Oriane Siméoni+, arXiv'25, 2025.08




Paper/Blog Link My Issue
#ComputerVision #DataAugmentation #ContrastiveLearning #ICLR #Selected Papers/Blogs Issue Date: 2025-05-18 GPT Summary- 本論文では、視覚表現の対比学習のためのシンプルなフレームワークSimCLRを提案し、特別なアーキテクチャやメモリバンクなしで対比自己教師あり学習を簡素化します。データ拡張の重要性、学習可能な非線形変換の導入による表現の質向上、対比学習が大きなバッチサイズと多くのトレーニングステップから利益を得ることを示し、ImageNetで従来の手法を上回る結果を達成しました。SimCLRによる自己教師あり表現を用いた線形分類器は76.5%のトップ1精度を達成し、教師ありResNet-50に匹敵します。ラベルの1%でファインチューニングした場合、85.8%のトップ5精度を達成しました。 Comment

日本語解説: https://techblog.cccmkhd.co.jp/entry/2022/08/30/163625




Paper/Blog Link My Issue
#Article #ComputerVision #Pretraining #NLP #MultiModal #SpeechProcessing #read-later #2D (Image) #FlowMatching #4D (Video) #Omni #RectifiedFlow #audio Issue Date: 2026-03-10 Comment


backbone modelは下記のFLUX.2と呼ばれるモデル:
FLUX Commercial Licensing: https://bfl.ai/licensing

先行研究:
- The Simulation Company, Simile, 2026.02

先行研究から読みたい

元ポスト:

Loading…