ComputerVision


Paper/Blog Link My Issue
#Pocket #NLP #MultiLingual #VisionLanguageModel #OCR #Initial Impression Notes Issue Date: 2026-01-22 GPT Summary- 1Bパラメータのエンドツーエンド多言語ビジョン・言語モデル「LightOnOCR-2-1B」は、文書画像をOCRなしで自然なテキストに変換します。スキャンやフランス語文書、科学的PDFに強力な対応を見せるこのモデルは、OlmOCR-Benchで最先端の成果を達成し、従来モデルより9倍小さく高速です。また、予測したバウンディングボックスを活用し、ローカリゼーションを強化。堅牢性向上のためにチェックポイント平均化とタスク算術を統合し、チェックポイントをApache 2.0の下で公開しました。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/collections/lightonai/lightonocr-2

関連:
- olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10
- [Paper Note] GutenOCR: A Grounded Vision-Language Front-End for Documents, Hunter Heidenreich+, arXiv'26, 2026.01

またしてもolmocr2超えのOCRが。高性能なOCRは様々な場面で活用(RAG, Agent, 埋蔵した学習データなど)できるので個人的に非常に強い需要があると思う。

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #MultiModal #Reasoning #OpenWeight #CrossDomain #Robotics #VisionLanguageActionModel #UMM #Physics Issue Date: 2026-01-22 GPT Summary- Being-H0.5は、クロスエンボディメント一般化のために設計されたVLAモデルであり、人間の相互作用を「母国語」として扱う学習パラダイムを提案。35,000時間以上のマルチモーダルデータを含むUniHand-2.0を用いて、多様なロボット制御を統一的なアクション空間にマッピングし、リソースの少ないロボットが他のプラットフォームからスキルを習得できるようにする。Being-H0.5はMixture-of-Transformersを採用し、現実世界での安定性のために多様体保存ゲーティングとユニバーサル非同期チャンクイングを導入。シミュレーションベンチマークで最先端の結果を達成し、5つのロボットプラットフォームで強力な能力を示す。 Comment

pj page: https://research.beingbeyond.com/being-h05
HF: https://huggingface.co/collections/BeingBeyond/being-h05

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #VisionLanguageModel #OCR #Initial Impression Notes Issue Date: 2026-01-22 GPT Summary- GutenOCRはQwen2.5-VL-3BとQwen2.5-VL-7BをファインチューニングしたグラウンデッドOCRシステムで、視覚言語モデルを通じて読取り、検出、グラウンディングを一元化します。ビジネス文書や科学記事に対応し、条件付きクエリへの応答が可能です。GutenOCR-7Bは新しい評価プロトコルで合成グラウンディングスコアを向上させ、特にOCRの精度を高めていますが、特定のレイアウトではトレードオフが存在することも示されました。 Comment

元ポスト:

Loading…

olmOCR2と比較しても性能が良さそうに見えるが果たして
- olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10

モデルはまだオープンになっていないように見える。




Paper/Blog Link My Issue
#Pocket #DiffusionModel #read-later #Selected Papers/Blogs #VideoGeneration/Understandings #Physics Issue Date: 2026-01-21 GPT Summary- Motiveを提案し、動画生成における動きの影響を理解するための運動帰属のフレームワークを提供。運動重み付けされたロスマスクを用いて静的外観と時間的ダイナミクスを分離し、データのキュレーションを改善。VBenchで74.1%の人間の選好勝率を達成し、ファインチューニングデータの選定に初めて運動を用いるアプローチを示した。 Comment

pj page: https://research.nvidia.com/labs/sil/projects/MOTIVE/

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #OpenWeight #read-later #Selected Papers/Blogs #VisionLanguageModel #UMM #Initial Impression Notes Issue Date: 2026-01-19 GPT Summary- STEP3-VL-10Bは、効率と最先端のマルチモーダル知能のトレードオフを再定義する軽量なオープンソース基盤モデル。言語に整合した知覚エンコーダとQwen3-8Bデコーダを統合し、1k回以上の強化学習を含むスケーラブルな後処理パイプラインを導入。並列協調推論を実装し、視覚推論の探索と統合を最適化。コンパクトながら、他の大規模モデルに匹敵する性能を発揮し、MMBenchで92.2%、AIME2025で94.43%などの成果を記録。再現可能な基準として全モデルスイートをコミュニティに提供。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/stepfun-ai/Step3-VL-10B

たったの10Bモデルにもかかわらず、100B, 200B級のベンチマーク性能を達成しており、unifiedなアーキテクチャで事前学習中に全てのパラメータをunfrozenな上で1.2Tマルチモーダルトークンで学習し、PaCoReと呼ばれるRLで学習されたtest time scaling手法や、GRPO系ではなくPPOをRLで採用するなど、ユニークな工夫が満載に見え、重要研究に見える。




Paper/Blog Link My Issue
#Pocket #Transformer #3D Reconstruction #3D (Scene) #4D Reconstruction #4D (Video) #SpatialUnderstanding Issue Date: 2026-01-16 GPT Summary- DPMをビデオ入力に適用するV-DPMを提案し、動的な3D再構築を実現。3D形状とカメラパラメータを表現し、VGGTを基にしたアプローチで最新の性能を達成。動的な深さと3D動作を完全に回復可能。 Comment

pj page: https://www.robots.ox.ac.uk/~vgg/research/vdpm/

元ポスト:

Loading…

VGGT:
- [Paper Note] VGGT: Visual Geometry Grounded Transformer, Jianyuan Wang+, CVPR'25




Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #DepthEstimation Issue Date: 2026-01-14 GPT Summary- 単眼深度推定に関する新しい軽量フレームワークを提案し、DINOv3を用いて高品質な特徴を取得。Simple Depth Transformerを設計し、計算オーバーヘッドを削減して精度を保ちながら85%-89%のパラメータ削減を実現。品質フィルタリング戦略でデータセットのサイズを縮小しつつトレーニング品質を向上。広範な実験により、DPTを上回る精度を確認。本研究は効率的なゼロショット深度推定の実現に向けたモデル設計とデータ品質の重要性を示す。 Comment

pj page: https://aigeeksgroup.github.io/AnyDepth/

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #Dataset #AIAgents #Evaluation #MultiModal #VisionLanguageModel #DeepResearch #4D (Video) #One-Line Notes Issue Date: 2026-01-14 GPT Summary- VideoDRは、ビデオを基にしたオープンドメインのビデオ質問応答のための新たな深層研究ベンチマークで、フレーム間の視覚的手がかり抽出やインタラクティブなウェブ検索、マルチホップ推論を要求する。高品質なビデオサンプルを提供し、複数のマルチモーダル大規模言語モデルの評価を行った結果、エージェントの性能はワークフローに依存することが示された。VideoDRは次世代ビデオ深層研究エージェントへの重要な課題を明らかにする。 Comment

元ポスト:

Loading…

初めてのvideo deep researchベンチマークとのこと




Paper/Blog Link My Issue
#Analysis #Pocket #Dataset #Evaluation #read-later #Selected Papers/Blogs #VisionLanguageModel #Initial Impression Notes Issue Date: 2026-01-14 GPT Summary- MLLMは基本的な視覚タスクで人間、特に3歳児に劣る性能を示す。これを調査するために、視覚能力を評価する「BabyVision」ベンチマークを導入。388のタスクを通じて、MLLMのパフォーマンスが人間基準を大きく下回ることが確認された。具体的には、Gemini3-Pro-Previewが49.7点で、6歳や成人の平均94.1点に遠く及ばない。これにより、MLLMは基本的な視覚原理が不足していることが明らかにされ、BabyVision-Genと自動評価ツールキットも提案された。データとコードは公開されている。 Comment

pj page: https://unipat.ai/blog/BabyVision

元ポスト:

Loading…

ポイント解説:

Loading…

(読了前の第一印象)現在のMLLMが純粋な視覚的な推論タスクにおいて幼児以下であることを示し、既存のベンチマークの脆弱性(純粋な視覚的な推論能力を評価できていない)を指摘した上で新たなベンチマークを提案しているように見え、非常に重要な研究に見える。




Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #Transformer #Attention #Architecture #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-01-14 GPT Summary- トランスフォーマーの自己注意の複雑さが大規模アプリケーションでの利用を制限する中、効率的な線形注意の適用は性能低下を招くことがあります。本研究では、モデルの表現の多様性を失わせる「グローバルコンテキスト崩壊」の問題を特定し、トークン次元に沿った注意計算による「マルチヘッド線形注意(MHLA)」を提案します。MHLAは線形の複雑さを保ちながら、ソフトマックス注意の表現力を回復することに成功し、様々なドメインでImageNet分類で3.6%、自然言語処理で6.3%、画像生成で12.6%、動画生成で41%の性能改善を達成しました。 Comment

pj page: https://dagroup-pku.github.io/MHLA/

元ポスト:

Loading…

(読了前の第一印象)スループットを大幅に向上させながらも、大幅な性能改善をしている新たなlikear attention手法であり、image, video, textの3つのモダリティに対して性能向上しているように見えるため、結果のインパクトが大きく重要論文に見える。




Paper/Blog Link My Issue
#Controllable #Pocket #WorldModels #4D (Video) #Geometric Issue Date: 2026-01-14 GPT Summary- VerseCrafterは、カメラとオブジェクトの動きを一貫して制御する4Dビデオワールドモデルを提案。静的な背景と3Dガウス軌跡を使用して、オブジェクトの確率的な3D占有を表現し、高忠実度なビデオ生成を可能にする。自動データエンジンにより、大規模な4Dアノテーションデータセットを野生のビデオから抽出し、モデルのトレーニングを支援。 Comment

pj page: https://sixiaozheng.github.io/VerseCrafter_page/

元ポスト:

Loading…



Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #VisionLanguageModel #Grounding #GUI Issue Date: 2026-01-13 GPT Summary- 視覚言語モデル(VLM)を用いたUIグラウンディングタスクに関する研究で、FocusUIという効率的なフレームワークを提案。冗長トークンを排除し、指示に関連する視覚トークンを選択しつつ、位置的連続性を保持する新戦略を採用。これにより、4つのベンチマークで優れた性能を発揮し、特にScreenSpot-Proでは3.7%の性能向上を達成。視覚トークン保持率が30%でも高い推論速度と低メモリ使用を実現。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #read-later #VideoGeneration/Understandings #VisionLanguageModel #One-Line Notes Issue Date: 2026-01-10 GPT Summary- CoT推論は動画理解タスクにおいて有用だが、直接的な回答も同等以上の性能を示すことがある。本研究では、VideoAuto-R1というフレームワークを提案し、「一度考え、二度答える」アプローチを採用。初期回答を生成後、推論を行い、見直した回答を出力する。これにより、動画QAベンチマークで最先端の精度を達成し、応答長を約3.3倍短縮。推論集約型タスクでは高い思考モード活性化率が観察され、言語ベースの推論が常に必要ではないことを示唆している。 Comment

pj page: https://ivul-kaust.github.io/projects/videoauto-r1/

元ポスト:

Loading…

テキストだと基本的にCoTが良い方向に働くがVideoになるとなぜうまくいかない場面が多いのだろうか?気になる

ポイント解説:

Loading…


output formatを 直接応答→thinking→thinking後応答 とし、双方の応答に対してrewardを計算することで複数のrewardシグナルを同時に扱える。

(感想)モデルの直接応答によるrewardを用いることで、internalなreasoning能力が向上するし(効率の増加)、thinking後の応答に対してrewardを用いることでthinkingのリソースを費やした場合の性能も向上する効果かありそう。



Paper/Blog Link My Issue
#NeuralNetwork #Analysis #Supervised #RepresentationLearning #Self-SupervisedLearning #CLIP #One-Line Notes Issue Date: 2025-10-31 Comment

元ポスト:

Loading…

CLIP, 自己教師あり学習, 教師あり学習を比較したときに、CLIPが人間が獲得するobjectのrepresentationともっともalignしている一方で、自己教師あり学習はほとんど偶然レベルでしかalignしない(ただし、粗いレベルで見ると人間で言うところのカテゴリレベルのクラスタを形成することができる)。このため、テキストベースでの学習が人間が獲得する表現とfine-grainedなレベルでalignするために非常に重要であることが示唆される、という感じらしい




Paper/Blog Link My Issue
#Pocket #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SyntheticData #MultiModal #Reasoning #SmallModel #OpenWeight #ComputerUse #VisionLanguageModel #One-Line Notes #GUI Issue Date: 2026-01-19 GPT Summary- LightAgentは、モバイルプラットフォーム向けにデバイスとクラウドの協力を活用したGUIエージェントシステムを提案。これにより、オフライン性能とコスト効率を両立し、強化された二段階トレーニングを通じて高い意思決定能力を実現。実験を通じて大規模モデルに匹敵する性能を示し、クラウドコストを大幅に削減。 Comment

pj page: https://github.com/HKUDS/OpenPhone

3Bで10B級の性能を誇る低lavencyのedge device向けSVLM

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #Dataset #AIAgents #SyntheticData #ComputerUse #read-later #Selected Papers/Blogs #VisionLanguageModel #GUI #Dragging Issue Date: 2026-01-16 GPT Summary- ShowUI-$\pi$は、GUIエージェントにおける連続的な操作を可能にするフローベースの生成モデルです。これにより、離散的なクリックと連続的なドラッグを統合し、滑らかで安定したトラジェクトリーを実現します。2万のドラッグトラジェクトリーを用いたScreenDragプロトコルによる評価で、既存のGUIエージェントと比較して優れた性能を発揮しました。この研究は、人間のような器用な自動化の実現を促進します。 Comment

pj page: https://showlab.github.io/showui-pi/

元ポスト:

Loading…

大規模なドラッグに関するデータセットを収集しており、エージェントのGUIの操作の今後の進展に大きく寄与しインパクトが大きいと考えられるため、重要論文に見える。

著者ポイント解説:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Catastrophic Forgetting #ICLR #PostTraining #One-Line Notes Issue Date: 2026-01-12 GPT Summary- 事前学習済みモデルのファインチューニングにおける「破滅的忘却」を軽減するため、損失に基づくサンプル重み付けスキームを提案。損失が低いサンプルの重みを上げ、高いサンプルの重みを下げることで、モデルの逸脱を制限。理論的分析により、特定のサブスペースでの学習停滞と過剰適合の抑制を示し、言語タスクと視覚タスクでの有効性を実証。例えば、MetaMathQAでのファインチューニングにおいて、精度の低下を最小限に抑えつつ、事前学習データセットでの精度を保持。 Comment

openreview: https://openreview.net/forum?id=13HPTmZKbM

(事前学習データにはしばしばアクセスできないため)事前学習時に獲得した知識を忘却しないように、Finetuning時にlossが小さいサンプルの重みを大きくすることで、元のモデルからの逸脱を防止しcatastrophic forgettingを軽減する。




Paper/Blog Link My Issue
#Pocket #NLP #Dataset #SyntheticData #Evaluation #DiffusionModel #Generalization #3D (Scene) #FlowMatching #Robotics #4D (Video) #HumanMotionGeneration Issue Date: 2026-01-11 GPT Summary- 3D人間動作生成(MoGen)は一般化能力に課題があるが、動画生成(ViGen)は優れた一般化を示す。これを受けて、ViGenからMoGenへの知識移転のためのフレームワークを提案。228,000の高品質な動作サンプルを含むデータセットViMoGen-228Kを作成し、MoCapデータとViGenモデルからの情報を統合したフローマッチングベースの拡散トランスフォーマーViMoGenを開発。さらに、動作の質や一般化能力を評価するための階層的ベンチマークMBenchを提示。実験結果は、提案手法が既存のアプローチを大幅に上回ることを示した。 Comment

dataset: https://huggingface.co/datasets/wruisi/ViMoGen-228K
leaderboard: https://huggingface.co/spaces/wruisi/MBench_leaderboard

元ポスト:

Loading…

ポイント解説:

Loading…



Paper/Blog Link My Issue
#Pocket #VideoGeneration/Understandings Issue Date: 2026-01-09 GPT Summary- VLogは、ビデオのナレーションを語彙として定義し、生成的ビデオ-言語モデルを超える新しいビデオ理解フレームワークです。GPT-2に基づき、(i) 複雑な推論能力とナレーション語彙の柔軟なアップグレードを結びつけ、(ii) 階層的語彙を用いて特定のイベントを効率的にインデックス化し、(iii) 新しいイベントのための語彙更新戦略を活用します。実験により、VLogは簡潔で文脈的に正確なナレーションを生成する能力を示し、ビデオ理解に新たな視点を提供します。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Transformer #MultiModal #DiffusionModel #VariationalAutoEncoder #OpenWeight #read-later #Selected Papers/Blogs #VideoGeneration/Understandings #Editing Issue Date: 2026-01-09 GPT Summary- UniVideoは、動画ドメインにおけるマルチモーダルコンテンツの生成と編集を目的とした統一モデルで、MLLMとMMDiTを組み合わせたデュアルストリーム設計を採用。これにより、複雑な指示の解釈と視覚的一貫性を維持しつつ、動画生成や編集タスクを統一的に訓練。実験結果では、テキスト/画像から動画への生成や文脈内編集において最先端の性能を示し、編集とスタイル転送の統合や未見の指示への対応も可能。視覚プロンプトに基づく生成もサポートし、モデルとコードは公開されている。 Comment

pj page: https://congwei1230.github.io/UniVideo/

元ポスト:

Loading…

HF: https://huggingface.co/KlingTeam/UniVideo




Paper/Blog Link My Issue
#Pretraining #Pocket #NLP #LanguageModel #ReinforcementLearning #Chain-of-Thought #MultiModal #DiffusionModel #TextToImageGeneration #read-later #One-Line Notes #ImageSynthesis Issue Date: 2026-01-06 GPT Summary- ThinkGenは、マルチモーダル大規模言語モデル(MLLM)のChain-of-Thought(CoT)推論を活用した初の思考駆動型視覚生成フレームワークである。MLLMが特化した指示を生成し、Diffusion Transformer(DiT)がそれに基づいて高品質な画像を生成する。さらに、MLLMとDiT間で強化学習を行うSepGRPOトレーニングパラダイムを提案し、多様なデータセットに対応した共同トレーニングを可能にする。実験により、ThinkGenは複数の生成ベンチマークで最先端の性能を達成した。 Comment

元ポスト:

Loading…

MLLMとDiTを別々にRLして、MLLMはDiTが好むplan/instructionを生成し、その後DiTとConnectorに対してplan/instructionに従うようなRLをするような手法のようである。図2,3,4を見ると概要がわかる。




Paper/Blog Link My Issue
#Pocket #DiffusionModel #Memorization #Generalization #3D (Scene) Issue Date: 2026-01-03 GPT Summary- 3D生成モデルの記憶を定量化する評価フレームワークを設計し、データとモデリング設計が記憶に与える影響を研究。実験により、記憶はデータのモダリティに依存し、多様性が増すと記憶が増加することを発見。適度なガイダンススケールで記憶がピークに達し、長いVecsetやシンプルな回転拡張で軽減可能。生成品質を損なわずに記憶を減少させる戦略を提案。コードは公開されている。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #MultiModal #SpeechProcessing #VideoGeneration/Understandings #Encoder-Decoder #4D (Video) #Omni #One-Line Notes #audio #AudioVisualGeneration Issue Date: 2026-01-03 GPT Summary- JavisGPTは、音声と映像の理解・生成のための初の統合型マルチモーダル大規模言語モデルであり、SyncFusionモジュールを用いて音声と映像の融合を実現。三段階のトレーニングパイプラインを設計し、高品質な指示データセットJavisInst-Omniを構築。広範な実験により、JavisGPTは既存のモデルを上回る性能を示し、特に複雑な同期設定で優れた結果を出した。 Comment

pj page: https://javisverse.github.io/JavisGPT-page/

元ポスト:

Loading…

音声と映像を同時に生成可能なadapterタイプのMLLM




Paper/Blog Link My Issue
#Pocket #Dataset #Evaluation #Distillation #read-later #VideoGeneration/Understandings #VisionLanguageModel #3D (Scene) #4D (Video) Issue Date: 2025-12-30 GPT Summary- 4D-RGPTという専門的なMLLMを導入し、動画から4D表現を捉えることで時間的知覚を強化。知覚的4D蒸留(P4D)を用いて4D表現を転送し、包括的な4D知覚を実現。新たに構築したR4D-Benchは、領域レベルのプロンプトを備えた動的シーンのベンチマークで、4D-RGPTは既存の4D VQAベンチマークとR4D-Benchの両方で顕著な改善を達成。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Multi #Pocket #read-later #3D (Scene) #4D (Video) #InverseRendering Issue Date: 2025-12-28 GPT Summary- フィードフォワード型のマルチビュー逆レンダリングフレームワークを提案し、RGB画像のシーケンスから空間的に変化する材料特性を直接予測。視点間の注意を交互に行うことで、一貫したシーンレベルの推論を実現。ラベルのない実世界のビデオを用いたファインチューニング戦略により、実世界の画像への一般化を向上。実験により、マルチビューの一貫性と推定精度で最先端の性能を達成。 Comment

pj page: https://maddog241.github.io/mvinverse-page/

元ポスト:

Loading…

headは以下の研究を踏襲しているとのこと:
- [Paper Note] Vision Transformers for Dense Prediction, René Ranftl+, ICCV'21, 2021.03




Paper/Blog Link My Issue
#Pocket #NLP #ReinforcementLearning #ModelMerge #VisionLanguageModel Issue Date: 2025-12-27 GPT Summary- GTR-Turboは、マルチモーダルエージェントのためのマルチターン強化学習を効率化する手法で、教師モデルに依存せずにパフォーマンスを維持。RLトレーニング中に生成されたチェックポイントの重みを統合し、監視付きファインチューニングを通じて後続のRLをガイド。これにより、トレーニングの安定性が向上し、精度が10-30%向上、トレーニング時間を50%、計算コストを60%削減。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #Dataset #Evaluation #Bias #VisionLanguageModel #Cultural #Robustness Issue Date: 2025-12-25 GPT Summary- 文化的次元はVLMの評価において重要だが、多様な文化的入力に対する安定性は未検証。既存の評価は単一の文化的概念に依存し、複数の文化的手がかりを考慮していない。これに対処するため、ConfusedTouristという新しい評価手法を導入し、VLMの安定性を評価。実験で、画像スタッキングの摂動下で精度が低下し、注意が気を散らす手がかりにシフトすることが明らかに。これにより、視覚的文化概念の混合がVLMに大きな影響を与えることが示され、文化的にロバストな理解の必要性が強調された。 Comment

元ポスト:

Loading…

VLMの文化的な物体の認識に関するロバスト性を全く異なる国の国旗やランドマークをルールベース、あるいはimage editingなどによって敵対的に挿入する(distractor)ことで測るベンチマークで、distractorによって性能が低下することからVLMに地理的・文化的バイアスが存在することを示した研究、のように見える。




Paper/Blog Link My Issue
#GraphBased #Pocket #Dataset #ReinforcementLearning #Evaluation #Robotics #SpatialUnderstanding #EmbodiedAI Issue Date: 2025-12-25 GPT Summary- 家庭内のモバイルマニピュレーター向けに、空間的・機能的関係を統合したMomaGraphを提案。これを支えるために、初の大規模データセットMomaGraph-Scenesと評価スイートMomaGraph-Benchを提供。さらに、7Bのビジョン・ランゲージモデルMomaGraph-R1を開発し、タスク指向のシーングラフを予測。実験により、71.6%の精度を達成し、オープンソースモデルの中で最先端の結果を示した。 Comment

pj page: https://hybridrobotics.github.io/MomaGraph/

元ポスト:

Loading…



Paper/Blog Link My Issue
#Analysis #Pocket #RepresentationLearning #Generalization #Encoder #Encoder-Decoder Issue Date: 2025-12-24 GPT Summary- 生成的アプローチが人間レベルの視覚認知に必要かを検討。生成的手法は帰納的バイアスを容易に強制でき、構成的一般化を実現可能。一方、非生成的手法は一般化に苦労し、大規模な事前学習が必要。生成的手法はデコーダの逆転を通じて構成的一般化を改善し、追加データなしで効果を発揮。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #RepresentationLearning #read-later #2D (Image) #AutoEncoder #Spectrum Issue Date: 2025-12-24 GPT Summary- 異なるモダリティの深い表現は相互に関連しており、セマンティックエンコーダは低周波成分を、ピクセルエンコーダは高周波情報を捉えることが明らかになった。この発見を基に、Unified Autoencoding(UAE)モデルを提案し、セマンティック構造とピクセルの詳細を調和させる。実験により、UAEが両者を効果的に統合し、最先端の性能を達成したことが確認された。 Comment

元ポスト:

Loading…

所見:

Loading…

ポイント解説:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #MultiModal #Reasoning #OpenWeight #VideoGeneration/Understandings #VisionLanguageModel #KeyPoint Notes Issue Date: 2025-12-23 GPT Summary- MiMo-VL-Miloco-7Bとその量子化バリアントをオープンソース化し、家庭中心の視覚と言語モデルとして優れた性能を発揮。特にスマートホーム環境に特化し、ジェスチャー認識やマルチモーダル推論で高いF1スコアを達成。二段階のトレーニングパイプラインを設計し、効率的な推論を実現。家庭シナリオのトレーニングが活動理解を向上させ、テキスト推論にも効果を示す。モデルとツールキットは公開され、スマートホームアプリケーションの研究に貢献。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/collections/xiaomi-open-source/xiaomi-mimo-vl-miloco

モデル自体は11月から公開されている

home-scenario gesture recognitionとdaily activity recognitionでGemini-2.5-Proを上回る性能を達成している。特定のユースケースに特化しつつ、genericなユースケースの性能を損なわないようなモデルを学習したい場合は参考になるかもしれない。

image

まずSFTでhome-scenarioデータ[^1] + GeneralデータのDataMixでreasoning patternを学習させ、tokenのefficiencyを高めるためにCoTパターンを排除しdirect answerをするようなデータ(およびprompting)でも学習させる。これによりhome-scenarioでの推論能力が強化される。SFTはfull parameter tuningで実施され、optimizerはAdamW。バッチサイズ128, warmup ratio 0.03, learning rate 1 * 10^-5。スケジューラについては記述がないように見える。

その後、一般的なユースケース(Video Understanding (temporal groundingにフォーカス), GUI Grounding, Multimodal Reasoning (特にSTEMデータ))データを用いてGRPOでRLをする。明らかに簡単・難しすぎるデータは除外。RLのrewardは `r_acc + r_format`の線形補完(係数はaccL: 0.9, format: 0.1)で定義される。r_accはデータごとに異なっている。Video Understandingでは予測したqueryに対してモデルが予測したtimespanとgoldのtimespanのoverlapがどの程度あるかをaccとし、GUI Groundingではbounding boxを予測しpred/goldのoverlapをaccとする。Multimodal ReasoninghはSTEMデータなので回答が一致するかをbinaryのaccとして与えている。

モデルのアーキテクチャは、アダプターでLLMと接続するタイプのもので、動画/画像のBackboneにはViTを用いて、MLPのアダプターを持ちいてLLMの入力としている。
image


[^1]: volunteerによるhome-scenarioでのデータ作成; ruleを規定しvolunteerに理解してもらいデータ収集。その後研究者が低品質なものを除外




Paper/Blog Link My Issue
#Pocket #Alignment #DiffusionModel #LLM-as-a-Judge #DPO #PostTraining #2D (Image) #One-Line Notes #AutoEncoder Issue Date: 2025-12-21 GPT Summary- 人間の好みに基づく画像圧縮のために、視覚-言語モデル(VLM)を活用した新しいシステムVLICを提案。VLICは、バイナリVLM判断を用いた拡散ベースの画像圧縮システムで、従来の知覚損失ネットワークを蒸留するのではなく、既存技術を活用。これにより、データセットに応じた競争力のある性能を実現。VLMベースの報酬設計とトレーニング手順についても分析を行い、重要な洞察を提供。 Comment

pj page: https://kylesargent.github.io/vlic

元ポスト:

Loading…

ざっくり言うと、同じ潜在表現に対して異なる2つのノイズシードに対して画像を生成し、VLM-as-a-Judgeを用いて人間の知覚的な好みに近いスコアを得ることで、preferenceペアを合成。この情報に基づいてDiffusion DPOと呼ばれるDPOのdiffusionモデル版を用いてDiffusion autoencoderを学習することで、より人間の知覚的な判断に近い画像圧縮・復元過程を学習する、というような話っぽい。

実際のサンプルを見ると、明らかにテキストの崩れがなくなっているのがわかる。




Paper/Blog Link My Issue
#Pocket #4D (Video) #DepthEstimation Issue Date: 2025-12-21 GPT Summary- Video Depth Anythingは、超長時間動画における高品質で一貫した深度推定を実現するモデルであり、Depth Anything V2を基にした効率的な空間-時間ヘッドを採用。時間的一貫性損失を設計し、幾何学的事前情報なしで深度推定を行う。新しいキーフレームベースの戦略により、任意の長さの動画に適用可能で、ゼロショット動画深度推定において新たな最先端を達成。最小モデルは30 FPSでリアルタイム性能を発揮。 Comment

pj page: https://videodepthanything.github.io




Paper/Blog Link My Issue
#Controllable #Pocket #DiffusionModel #SIGGRAPH #VideoGeneration/Understandings Issue Date: 2025-12-21 GPT Summary- 新しいアプローチ「Diffusion as Shader(DaS)」を提案し、3D制御信号を活用して動画生成の多様な制御を実現。従来の2D制御信号に対し、3Dトラッキング動画を用いることで、時間的一貫性が向上し、幅広い動画制御タスクに強力な性能を発揮。 Comment

pj page: https://igl-hkust.github.io/das/




Paper/Blog Link My Issue
#Pocket #MultiModal #DiffusionModel #LongSequence #VideoGeneration/Understandings #WorldModels #4D (Video) #reading #One-Line Notes #DepthEstimation Issue Date: 2025-12-21 GPT Summary- LongVie 2は、動画生成システムに基づくワールドモデルで、制御可能性、視覚品質、時間的一貫性を向上させるために3段階で訓練される自己回帰フレームワークです。マルチモーダルガイダンス、劣化認識トレーニング、歴史的コンテキストガイダンスを用いて、長距離制御と高い視覚忠実度を実現。LongVGenBenchを導入し、100本の高解像度動画を用いたベンチマークを提供。実験により、最先端の性能を達成し、連続動画生成の可能性を示しました。 Comment

pj page: https://vchitect.github.io/LongVie2-project/

元ポスト:

Loading…

関連:
- [Paper Note] LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation, Jianxiong Gao+, arXiv'25, 2025.08

最大5分間のlong videoの生成が可能で、マルチモーダルな入力(depth map(空間の構造の制御; dense control signal), point map(キーポイントの時間軸での軌跡; sparse control signal))に応じて生成をコントロールし、temporal consistencyも向上しているとのこと。

関連:
- [Paper Note] SpatialTracker: Tracking Any 2D Pixels in 3D Space, Yuxi Xiao+, CVPR'24, 2024.04
- [Paper Note] Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control, Zekai Gu+, SIGGRAPH'25, 2025.01
- [Paper Note] Video Depth Anything: Consistent Depth Estimation for Super-Long Videos, Sili Chen+, CVPR'25 Highlight, 2025.01




Paper/Blog Link My Issue
#Pretraining #Pocket #Transformer #MultiModal #read-later #Selected Papers/Blogs #2D (Image) #Backbone #UMM #Omni #KeyPoint Notes Issue Date: 2025-12-20 GPT Summary- 生成的事前学習の原則を視覚学習に応用し、モデルが過去のパッチ埋め込みから未来の埋め込みを予測する「次埋め込み予測自己回帰(NEPA)」を提案。シンプルなTransformerを用いてImageNet-1kで高精度を達成し、タスク特有の設計を必要とせず、スケーラビリティを保持。NEPAは視覚的自己教師あり学習の新たなアプローチを提供する。 Comment

pj page: https://sihanxu.me/nepa/
HF: https://huggingface.co/collections/SixAILab/nepa

元ポスト:

Loading…

Autoregressiveにnext embedding prediction(≠reconstruction)をする。エンコーダ自身のembeddingとautoregressive headが生成したembeddingを比較することでlossが計算されるが、双方に勾配を流すとほぼ全てのパッチが同じembeddingを共有するという解に到達し何も学習されないので、エンコーダのエンコード結果(=target)のgradientをstopする。これにより、targetとしての勾配は受け取らないが(predictionに近づけようとする勾配)、文脈に応じたベクトルを作り、next embeddingを予測する入力としての勾配は受け取るので、エンコーダは文脈に応じた学習を続けることができる。

image

コミュニティからのフィードバックを受けて執筆されたブログ:
https://sihanxu.me/nepa/blog

元ポスト:

Loading…


NEPAを提案した背景に関して直感的な解説を実施している。興味深い。具体的には、omnimodalityモデルの困難さはインターフェースの問題であり、latent spaceがomnimodalityの共通のインタフェースになりうり、モダリティごとの予測対象とlossを個別に設計せずに済む方法の一つがAutoregressiveな予測であり、そういったインタフェースがスケーリングのために必要という意見と、omnimodalityにおいて過去のliteratureで扱われているdiscreteなtokenとcontinuous symbolsは得意なモダリティが異なり予測対象や前処理のメカニズムも異なるため同時に扱うことが難しい旨などが記述されている。



Paper/Blog Link My Issue
#Pocket #NLP #Dataset #ReinforcementLearning #AIAgents #Evaluation #Reasoning #Selected Papers/Blogs #VideoGeneration/Understandings #VisionLanguageModel #KeyPoint Notes #LongHorizon Issue Date: 2025-12-19 GPT Summary- 人間のように異なる長さの動画に柔軟に推論できる動画推論モデルSAGEを提案。SAGEは長い動画に対してマルチターン推論を行い、簡単な問題には単一ターンで対応。Gemini-2.5-Flashを用いたデータ生成パイプラインと強化学習後訓練レシピを導入し、SAGE-Benchで実世界の動画推論能力を評価。結果、オープンエンドのタスクで最大6.1%、10分以上の動画で8.2%の性能向上を確認。 Comment

pj page: https://praeclarumjj3.github.io/sage/

元ポスト:

Loading…

AllenAIの勢いすごいな...

現在のVideo reasoning Modelはlong videoに対するQAに対してもsingle turnで回答応答しようとするが、人間はそのような挙動はせずに、long videoのうち、どこを流し見し、どこを注視するか、ある時は前半にジャンプし、関係ないところは飛ばすなど、情報を選択的に収集する。そのような挙動のエージェントをMolmo2をベースにSFT+RLをベースに実現。
image

システムデザインとしては、既存のエージェントはtemporal groundingのみをしばしば利用するがこれはlong videoには不向きなので、non-visualな情報も扱えるようにweb search, speech transcription, event grounding, extract video parts, analyze(クエリを用いてメディアの集合を分析し応答する)なども利用可能に。
inferenceは2-stageとなっており、最初はまずSAGE-MMをContext VLMとして扱い、入力された情報を処理し(video contextやツール群、メタデータなど)、single turnで回答するか、ツール呼び出しをするかを判断する。ツール呼び出しがされた場合は、その後SAGE-MMはIterative Reasonerとして機能し、前段のtool callの結果とvideo contextから回答をするか、新たなツールを呼び出すかを判断する、といったことを繰り返す。
image

long videoのデータは6.6kのyoutube videoと99kのQAペア(Gemini-2.5-Flashで合成)、400k+のstate-action example(Gemini-2.5-Flashによりtool callのtrajectoryを合成しcold start SFTに使う)を利用。
image

RLのoptimizationでは、openendなvideo QAではverifiableなrewardは難しく、任意の長さのvideoに対するany-horizonな挙動を学習させるのは困難なので、multi rewardなRLレシピ+strong reasoning LLMによるLLM as a Judgeで対処。rewardはformat, 適切なツール利用、ツール呼び出しの引数の適切さ、最終的な回答のAccuracyを利用。

評価データとしては人手でverificationされた1744のQAを利用し、紐づいている動画データの長さは平均700秒以上。




Paper/Blog Link My Issue
#Pocket #NLP #Dataset #Evaluation #FoundationModel #TextToImageGeneration #2D (Image) #3D (Scene) #WorldModels #KeyPoint Notes #TextToVideoGeneration Issue Date: 2025-12-19 GPT Summary- MMGR(Multi-Modal Generative Reasoning Evaluation and Benchmark)を導入し、物理的、論理的、空間的、時間的な推論能力に基づくビデオ基盤モデルの評価フレームワークを提案。既存の指標では見落とされる因果関係や物理法則の違反を考慮し、主要なビデオおよび画像モデルをベンチマークした結果、抽象的推論でのパフォーマンスが低いことが明らかに。MMGRは、生成的世界モデルの推論能力向上に向けた統一診断ベンチマークを提供。 Comment

pj page: https://zefan-cai.github.io/MMGR.github.io/

元ポスト:

Loading…

video/image 生成モデルを(単なる動画生成という枠ではなく世界モデルという観点で評価するために)
- physical reasoning: ロボットのシミュレーションやinteractionに必要な物理世界の理解力
- logical (abstract) reasoning: System2 Thinkingい必要な抽象的なコンテプトやルールに従う能力(Aが起きたらBが続く)
- 3D spatial reasoning: 世界の認知mapを内包するために必要な3D空間における関係性や、環境の案内、物事の構造や全体像を把握する能力
- 2D spatial reasoning: 複雑なpromptをgroundingするために必要な2D空間に写像されたレイアウト、形状、相対位置を理解する能力
- Temporal Reasoning: coherenceを保つために必要な、因果関係、イベントの順序、長期的な依存関係を捉える能力
の5つの軸で評価するフレームワーク。




Paper/Blog Link My Issue
#Pocket #Transformer #DiffusionModel #Encoder #2D (Image) #reading Issue Date: 2025-12-17 GPT Summary- 本研究では、従来のVAEエンコーダを事前学習された表現エンコーダに置き換えた表現オートエンコーダ(RAE)を提案し、生成モデルの品質向上を目指す。RAEは高品質な再構成と意味的に豊かな潜在空間を提供し、拡散トランスフォーマーの効果的な機能を可能にする。実験により、ImageNetで優れた画像生成結果を達成し、RAEが拡散トランスフォーマーの新しいデフォルトとなるべきことを示した。 Comment

openreview: https://openreview.net/forum?id=0u1LigJaab




Paper/Blog Link My Issue
#Pocket #DiffusionModel #Selected Papers/Blogs #Encoder-Decoder #Backbone #KeyPoint Notes #ImageSynthesis Issue Date: 2025-12-17 GPT Summary- VAEを用いない新しい潜在拡散モデルSVGを提案。SVGは自己教師あり表現を活用し、明確な意味的識別性を持つ特徴空間を構築。これにより、拡散トレーニングが加速し、生成品質が向上。実験結果はSVGの高品質な視覚表現能力を示す。 Comment

openreview: https://openreview.net/forum?id=kdpeJNbFyf

これまでの拡散モデルベースのImage GeneiationモデルにおけるVAEを、事前学習済み(self supervised learning)のvision encoder(本稿ではDINOv3)に置き換えfreezeし、それとは別途Residual Encoderと呼ばれるViTベースのEncoderを学習する。前者は画像の意味情報を捉える能力をそのまま保持し、Residual Encoder側でReconstructionをする上でのPerceptualな情報等の(vision encoderでは失われてしまう)より精緻な特徴を捉える。双方のEncoder出力はchannel次元でconcatされ、SVG Featureを形成する。SVG Decoderは、SVG FeatureをPixelスペースに戻す役割を果たす。このアーキテクチャはシンプルで軽量だが、DINOv3による強力な意味的な識別力を保ちつつ、精緻な特徴を捉える能力を補完できる。Figure 5を見ると、実際にDINOv3のみと比較して、Residual Encoderによって、細かい部分がより正確なReconstructionが実現できていることが定性的にわかる。学習時はReconstruction lossを使うが、Residual Encoderに過剰に依存するだけめなく、outputの数値的な値域が異なり、DINOv3の意味情報を損なう恐れが足るため、Residual Encoderの出力の分布をDINOv3とalignするように学習する。

image

VAE Encoderによるlatent vectorは低次元だが、提案手法はより高次元なベクトルを扱うため、Diffusionモデルの学習が難しいと考えられるが、SVG Featureの特徴量はうまく分散しており、安定してFlow Matchingで学習ができるとのこと。

実際、実験結果を見ると安定して、しかもサンプル効率がベースラインと比較して大幅に高く収束していることが見受けられる。
image




Paper/Blog Link My Issue
#Pocket #DiffusionModel #TextToImageGeneration #Self-SupervisedLearning #FlowMatching #reading Issue Date: 2025-12-17 GPT Summary- 視覚生成のためにSVG-T2Iフレームワークを提案し、VFM特徴ドメイン内で高品質なテキストから画像への合成を実現。標準的な拡散パイプラインを用いて競争力のある性能を達成し、GenEvalで0.75、DPG-Benchで85.78を記録。プロジェクトはオープンソース化され、視覚生成に関する研究を促進。 Comment

HF: https://huggingface.co/KlingTeam/SVG-T2I

元ポスト:

Loading…

先行研究:
- [Paper Note] Latent Diffusion Model without Variational Autoencoder, Minglei Shi+, arXiv'25, 2025.10
- [Paper Note] Diffusion Transformers with Representation Autoencoders, Boyang Zheng+, arXiv'25, 2025.10




Paper/Blog Link My Issue
#Survey #Pocket #read-later #VideoGeneration/Understandings #WorldModels #4D (Video) #Physics Issue Date: 2025-12-17 GPT Summary- ビデオ生成は、視覚的クリップの生成から物理的妥当性を持つ仮想環境の構築へと進化している。本研究では、現代のビデオ基盤モデルを暗黙の世界モデルとビデオレンダラーの2つのコアコンポーネントとして概念化し、物理法則やエージェントの行動をエンコードする世界モデルが視覚的推論や計画を可能にすることを示す。ビデオレンダラーはシミュレーションを現実的な視覚に変換し、ビデオ生成の進展を4つの世代にわたって追跡する。各世代の特性を定義し、ロボティクスや自律運転などの応用を考察し、次世代の世界モデルに関する課題と設計原則についても議論する。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #DiffusionModel #SmallModel #Encoder #2D (Image) #AutoEncoder Issue Date: 2025-12-15 GPT Summary- 視覚生成モデルにおける潜在空間の不一致を解消するため、FAE(Feature Auto-Encoder)を提案。FAEは、再構成と生成の両方に必要な情報を保持しつつ、1つのアテンション層で実現。2つの深層デコーダを組み合わせ、さまざまな自己教師ありエンコーダに対応。拡散モデルや正規化フローと接続可能で、ImageNetでのベンチマークにおいて優れた性能を示す。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #WorldModels #train-inference-gap Issue Date: 2025-12-13 GPT Summary- 世界モデルとMPCを組み合わせ、勾配ベースの計画を改善する手法を提案。トレーニング時のデータ合成技術により、テスト時に物体操作やナビゲーションタスクで従来のCEMを上回る性能を実現。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #Dataset #Transformer #SyntheticData #DiffusionModel #Robotics #WorldModels #VisionLanguageActionModel #4D (Video) #EmbodiedAI #One-Line Notes #Third-Person View Issue Date: 2025-12-12 GPT Summary- X-Humanoidは、動画から動画への生成的な編集アプローチを用いて、人間からヒューマノイドへの翻訳を実現するモデルです。Unreal Engineを活用し、17時間以上のペア合成動画を生成するデータ作成パイプラインを設計し、60時間のEgo-Exo4D動画を用いて360万以上の「ロボティクス化」されたヒューマノイド動画フレームを生成しました。定量的分析とユーザー調査により、69%のユーザーが動きの一貫性で最も優れていると評価し、62.1%が具現化の正確さで最も優れていると評価しました。 Comment

pj page: https://showlab.github.io/X-Humanoid/

元ポスト:

Loading…

既存研究は主観視点の動画における人の腕をロボットアームにルールベースで置き換えるなどの方法で動画をオーバレイすることでdata scarcityの問題に対処してきており、これは有望なアプローチだが、第三者視点の動画はしばしばより複雑(全身が写り、背景が動的に変化し遮蔽に隠れたりもする)で課題がある。このため、第三者視点での動画を人間からヒューマノイドに置換するモデルを学習[^1]し(強力なvideo editingモデルでもこの点はまだ苦戦するタスクとのこと)、私生活における人間の動画をヒューマノイドに置き換えてデータを合成することでロボットのポリシーや世界モデルの学習データ不足を補います、という話に見える。

[^1]: この部分の学習データはUnreal Engineを用いて17+時間に及ぶ人間-ヒューマノイドペアの動画を合成

(以下Chatgptとの問答により得た情報なのでハルシネーションの恐れがあります)

主観視点での人間の腕をロボットアームに置き換えて学習データを合成するというのは気持ちが分かりやすかったのだが(=人間の腕と実際にロボット自身がカメラを通じて見る自分の腕は形状が違うため学習時と運用時にgapが生じる)、なぜ第三者視点でのこのようなHuman-Humanoid gapを埋めた学習データが必要なのか、という話はざーっと論文を見た限り書いておらず門外漢の私ではわからなかったので、ChatgptやGeminiにきいてみた。LLMの応答によると
- 主観視点での動画には限りがあり、第三者視点での動画の方が単純にデータ量が多い
- 主観視点動画では見える範囲が限定的であり、たとえばロボットに特定の動作を学習させたいときに、全身動作や背景の動き、物体との位置関係などはわからない。
- ロボットが実際に得る視界もロボットから見た時の主観視点であるが、それとは別の話としてこのような第三者視点がロボットが多様なタスクを学ぶときに全身が写っている動画は有用であるか(タスク、意図、行動の選択パターンなどの動作の意味情報を学ぶ)。また、第三者視点動画をロボットの視点に変換するようなモデルを作るためにもこのようなデータは必要で、これによりロボットは第三者視点の人間動画から学び、最終的にそれらを自分の主観視点に対応する表現として学習(retargetと呼ぶらしい)できる。

といった背景があるらしい。

(LLMから得た情報ここまで)

↑のLLMからの情報は妥当なように感じる。
まああとは、そもそも、ロボットが溢れかえる世界になったときに、ロボットが写っている学習データがないとまずいよね、というのも将来的にはあるのかなという感想。




Paper/Blog Link My Issue
#Pocket #NLP #AIAgents #read-later #One-Line Notes Issue Date: 2025-12-11 GPT Summary- ProAgentは、感覚的コンテキストとLLM推論を活用した初のプロアクティブエージェントシステムで、ユーザーの指示に依存せずに支援を提供します。階層的知覚を用いて環境を感知し、ユーザーのニーズに基づいた推論を行います。ARメガネ上で実装され、実世界のテストでプロアクティブ予測精度を33.4%、ツール呼び出しF1スコアを16.8%向上させ、ユーザー満足度も改善しました。 Comment

元ポスト:

Loading…

私が13年前に思い描いた未来だ🤩

主観視点の映像、モーションセンサ、音声、本人のペルソナ等の様々な環境からの情報に基づいて、エージェント側からユーザに能動的に働きかけてくるような枠組み




Paper/Blog Link My Issue
#Pocket #NLP #Alignment #SyntheticData #LLM-as-a-Judge #SelfImprovement #VisionLanguageModel Issue Date: 2025-12-11 GPT Summary- 人間の好みの注釈を使用せず、自己合成データでVLM評価者を自己訓練するフレームワークを提案。3段階のプロセスで多様な指示-応答ペアを生成し、品質に合致しないものを除去。得られた評価者は、Llama-3.2-11Bの精度を0.38から0.51に向上させ、他の大規模モデルを上回る結果を示した。これにより、VLMの進化に伴う自己評価者の可能性が示唆される。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Self-Rewarding Language Models, Weizhe Yuan+, N/A, ICML'24




Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #Pocket #Transformer #2D (Image) #KeyPoint Notes #WarmUp Issue Date: 2025-12-11 GPT Summary- 視覚トランスフォーマー(ViTs)を手続き生成データで事前学習する新しい方法を提案。これにより、モデルは抽象的な計算的知識を内在化し、標準的な画像トレーニングでデータ効率やパフォーマンスが向上。ImageNet-1kで1%の手続き生成データを使用することで、精度が1.7%以上向上し、28%のデータに相当する効果を示す。新しい事前学習戦略の可能性を示唆。 Comment

元ポスト:

Loading…

特定のgrammarを持つ(意味情報を持たない予測可能な)シンボルトークン列(e.g.,規則的なアルファベットの羅列, 括弧による階層構造; 非画像データ)を用いてViTのTransformerブロックを事前学習することによって、MLPやattention Layerに対して構造情報を捉える能力がwarmupされ、その後実画像で事前学習をするとサンプル効率が上がる、という話らしい。

warmupでは、ViTにおける入力機構(画像パッチ+linear layer)は一切用いず、discreteなトークンと、それらをランダムに初期化したlookup table を用いる。このとき、embeddingとpositional encodingをfreezeすることで、MLP, Attention Layerに知識が埋め込まれることを保証する。




Paper/Blog Link My Issue
#Survey #Pocket #NLP #LanguageModel #AIAgents #VisionLanguageModel #Robotics #WorldModels Issue Date: 2025-12-08 GPT Summary- エージェント的LLMに関する研究をレビューし、推論、行動、相互作用の三つのカテゴリーに整理。各カテゴリーは相互に利益をもたらし、医療診断や物流などの応用が期待される。エージェント的LLMは新たなトレーニング状態を生成し、データセットの必要性を軽減する可能性があるが、安全性や責任といったリスクも存在する。 Comment

元ポスト:

Loading…

pj page: https://askeplaat.github.io/agentic-llm-survey-site/

Robotics, World Modelなどの話も含まれているように見える。




Paper/Blog Link My Issue
#Pocket #NLP #Dataset #ReinforcementLearning #MultiModal #Reasoning #OpenWeight #VisionLanguageModel #2D (Image) #UMM #4D (Video) #One-Line Notes #text Issue Date: 2025-12-06 GPT Summary- OneThinkerは、視覚的推論を統一するオールインワンの強化学習モデルであり、質問応答やキャプショニングなどの多様なタスクに対応。OneThinker-600kトレーニングコーパスを用いて訓練され、報酬の異質性に対処するEMA-GRPOを提案。広範な実験により、10の視覚理解タスクで強力なパフォーマンスを示し、タスク間の知識移転とゼロショット一般化能力を実証。全てのコード、モデル、データは公開。 Comment

pj page: https://github.com/tulerfeng/OneThinker
HF: https://huggingface.co/OneThink

元ポスト:

Loading…

image/videoに関するreasoningタスクをunifiedなアーキテクチャで実施するVLM
image

Qwen3-VL-Instruct-8Bに対するgain。様々なタスクで大幅なgainを得ている。特にTracking, segmentation, groundingのgainが大きいように見える。
image




Paper/Blog Link My Issue
#Pocket #NLP #SmallModel #OpenWeight #Selected Papers/Blogs #3D Reconstruction #VisionLanguageModel #Realtime Issue Date: 2025-12-04 GPT Summary- AutoNeuralは、NPU向けに最適化されたVLMアーキテクチャで、量子化の脆弱性とI/Oバウンドな注意メカニズムの問題を解決。MobileNetV5スタイルのバックボーンを採用し、量子化誤差を最大7倍削減、エンドツーエンドのレイテンシを14倍短縮。実世界の自動車ケーススタディでリアルタイム性能を実証し、NPU制約に特化したモデル設計の重要性を示した。 Comment

pj page: https://nexa.ai/solution/intelligent-cockpit

HF: https://huggingface.co/NexaAI/AutoNeural

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #DiffusionModel #FlowMatching Issue Date: 2025-12-03 GPT Summary- 深層生成モデルは高品質な合成サンプルを生成できるが、特にフローマッチング技術の一般化の理由を探る研究が進んでいる。本研究では、フローマッチングにおける一般化の要因として損失のノイズの性質を排除し、高次元設定で確率的バージョンと閉形式バージョンが同等の損失をもたらすことを示す。また、標準的な画像データセットでの実験により、両者が比較可能なパフォーマンスを達成し、閉形式の使用がパフォーマンス向上に寄与することを明らかにした。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Selective Underfitting in Diffusion Models, Kiwhan Song+, arXiv'25, 2025.10




Paper/Blog Link My Issue
#Pocket #MultiModal #VariationalAutoEncoder #VisionLanguageModel #2D (Image) #FlowMatching #UMM #4D (Video) Issue Date: 2025-12-03 GPT Summary- TUNAという統一マルチモーダルモデル(UMM)を提案し、VAEエンコーダと表現エンコーダを連鎖させて統一された視覚表現を構築。これにより、画像と動画の理解・生成タスクをエンドツーエンドで処理可能にし、従来の分離されたUMMsを上回る性能を実現。事前学習された表現エンコーダの重要性も強調され、共同訓練により理解と生成が相互に利益を得ることが示された。広範な実験により、TUNAが最先端の結果を達成したことが確認された。 Comment

pj page: https://tuna-ai.org/




Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #ReinforcementLearning #Self-SupervisedLearning #NeurIPS #read-later #Selected Papers/Blogs #Robotics #Locomotion #ContrastiveReinforcementLearning #Manipulation #EmergentAbilities #Depth Issue Date: 2025-12-01 GPT Summary- 自己教師ありRLのスケーラビリティを改善するため、ネットワークの深さを1024層に増加させることで性能向上を実証。無監督の目標条件設定でエージェントが探索し、目標達成を学ぶ実験を行い、自己教師ありコントラストRLアルゴリズムの性能を向上させた。深さの増加は成功率を高め、行動の質的変化ももたらす。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Analysis #Pocket #NLP #CLIP Issue Date: 2025-11-30 GPT Summary- CLIPの潜在空間は複雑な視覚-テキストの相互作用を処理できないことが知られており、最近の研究はその欠点に対処しようとしている。私たちはCLIPの幾何学的特性を分析し、基本的な記述、属性の結合、空間的位置、否定を同時に表現できる共同埋め込み空間は存在しないことを証明した。これに基づき、Dense Cosine Similarity Maps (DCSMs)を提案し、CLIPの制限を解決する解釈可能なスコアリング手法を提供する。この手法は、従来のCLIPモデルの性能を向上させる。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #SpeechProcessing #VideoGeneration/Understandings #VisionLanguageModel #Science #TTS #4D (Video) #TextToVideoGeneration Issue Date: 2025-11-29 GPT Summary- Paper2Videoは、研究論文から学術プレゼンテーション動画を自動生成するための新しいベンチマークとフレームワークを提案。101の研究論文に基づくデータセットを用い、動画生成のための評価指標を設計。PaperTalkerは、スライド生成や字幕、音声合成を統合し、効率的な生成を実現。実験により、提案手法が既存の方法よりも情報量が多く、忠実な動画を生成することを示した。データセットやコードは公開されている。 Comment

pj page: https://showlab.github.io/Paper2Video/

元ポスト:

Loading…

関連:
- [Paper Note] Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers, Wei Pang+, NeurIPS'25, 2025.05




Paper/Blog Link My Issue
#Pocket #NLP #MultiModal #OpenWeight #MoE(Mixture-of-Experts) #VisionLanguageModel Issue Date: 2025-11-27 GPT Summary- Qwen3-VLは、テキスト、画像、動画を統合した最先端のビジョン・ランゲージモデルで、256Kトークンの長文コンテキスト理解を実現。強化されたテキスト理解、堅牢なマルチモーダル推論、空間・時間モデリングのアップグレードを特徴とし、様々なベンチマークで優れたパフォーマンスを示す。密なアーキテクチャとエキスパート混合アーキテクチャの両方で高い性能を発揮し、実世界のマルチモーダルコードインテリジェンスの基盤エンジンとしての役割が期待される。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Evaluation #MultiModal #Selected Papers/Blogs #Medical Issue Date: 2025-11-26 GPT Summary- MTBBenchは、臨床ワークフローの複雑さを反映したマルチモーダル大規模言語モデル(LLMs)のための新しいベンチマークで、腫瘍学の意思決定をシミュレートします。既存の評価が単一モーダルであるのに対し、MTBBenchは異種データの統合や時間に基づく洞察の進化を考慮しています。臨床医によって検証されたグラウンドトゥルースの注釈を用い、複数のLLMを評価した結果、信頼性の欠如や幻覚の発生、データの調和に苦労することが明らかになりました。MTBBenchは、マルチモーダルおよび長期的な推論を強化するツールを提供し、タスクレベルのパフォーマンスを最大9.0%および11.2%向上させることが示されました。 Comment

dataset: https://huggingface.co/datasets/EeshaanJain/MTBBench

元ポスト:

Loading…

> Ground truth annotations are validated by clinicians via a co-developed app, ensuring clinical relevance.

素晴らしい




Paper/Blog Link My Issue
#Pocket #NLP #Dataset #AIAgents #Evaluation #Coding #LLM-as-a-Judge #ComputerUse #VisionLanguageModel #One-Line Notes #UI Issue Date: 2025-11-26 GPT Summary- CUAはGUIを自律的に操作する能力が向上しているが、従来のGUIは人間向けに設計されているため、効率的なタスク実行に不必要な行動を強いられる。Coderの進展により、自動GUI設計が変革される中、CUAがCoderを支援する役割を果たせるかを探るためにAUI-Gymを導入。1560のタスクをシミュレートし、信頼性を確保する検証ツールを開発。Coder-CUA協力フレームワークを提案し、CUAがデザインを評価し、タスク解決可能性を測定。CUAダッシュボードを設計し、ナビゲーション履歴を視覚的に要約。これにより、エージェントの能動的な参加を促進する。 Comment

pj page: https://showlab.github.io/AUI/

元ポスト:

Loading…

CUA自身にCUAにとって理解しやすいUIに関するJudgeをさせてフィードバックさせ(CUA-as-Judpe)、Coder(コード生成)を通じてUIを改善できるか?というタスクとベンチマークな模様




Paper/Blog Link My Issue
#Pocket #NLP #OpenWeight #VisionLanguageModel #OCR Issue Date: 2025-11-26 GPT Summary- HunyuanOCRは、OCRタスクに特化した軽量な商業グレードのオープンソースVision-Language Model(VLM)であり、優れた性能を示し、従来のソリューションを上回っています。主な特徴は、スポッティング、パース、情報抽出、翻訳などの機能を統一した軽量フレームワーク、エンドツーエンドのアーキテクチャによるエラー伝播の解消、強化学習戦略による性能向上です。HunyuanOCRはHuggingFaceでオープンソース化され、産業応用の基盤を提供することが期待されています。 Comment

元ポスト:

Loading…

公式ポスト:

Loading…

pj page: https://github.com/Tencent-Hunyuan/HunyuanOCR

HF: https://huggingface.co/tencent/HunyuanOCR

OmniDocBenchでSoTA
- [Paper Note] OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations, Linke Ouyang+, CVPR'25, 2024.12




Paper/Blog Link My Issue
#Pocket #Transformer #DiffusionModel #TextToImageGeneration #ImageSynthesis #Pixel-based Issue Date: 2025-11-26 GPT Summary- PixelDiTは、オートエンコーダーを排除し、ピクセル空間での拡散プロセスを直接学習するエンドツーエンドモデルである。グローバルなセマンティクスとテクスチャの詳細を捉える二重レベルのトランスフォーマーアーキテクチャを採用し、効率的なトレーニングを実現。ImageNetで1.61のFIDを達成し、テキストから画像への生成にも拡張。GenEvalで0.74、DPG-benchで83.5を記録し、既存モデルを上回る性能を示した。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #PostTraining Issue Date: 2025-11-26 GPT Summary- 強化学習(RL)におけるポリシー最適化の課題を解決するために、Soft Adaptive Policy Optimization(SAPO)を提案。SAPOは、ハードクリッピングを温度制御されたゲートに置き換え、オフポリシー更新を適応的に減衰させつつ有用な学習信号を保持。これにより、シーケンス整合性とトークン適応性を向上させ、サンプル効率を改善。実証結果は、SAPOがトレーニングの安定性を向上させ、Qwen3-VLモデルシリーズで一貫したパフォーマンス向上を示すことを確認。SAPOはLLMsのRLトレーニングにおける信頼性の高い最適化戦略を提供。 Comment

元ポスト:

Loading…

所見:

Loading…

ポイント解説:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #Dataset #Evaluation #VisionLanguageModel Issue Date: 2025-11-25 GPT Summary- VCodeは、視覚中心のコーディングを促進するためにSVGコードを用いた新しいアプローチを提案。画像から象徴的な意味を持つSVGを生成し、CodeVQAという評価プロトコルでその忠実性を測定。VCoderを導入し、SVGコードの不一致を分析・洗練する「Thinking with Revision」と、構造的手がかりを提供する「Acting with Visual Tools」を通じて、言語中心と視覚中心のコーディングのギャップを埋める。実験により、VCoderは最前線のVLMに対して12.3ポイントの性能向上を実現。 Comment

元ポスト:

Loading…

pj page: https://csu-jpg.github.io/VCode/

画像を意味情報を保持したSVGコードとして書き起こし、書き起こしたSVGに対してQAをすることで正しさを測るようなベンチマークらしい




Paper/Blog Link My Issue
#Pocket #NLP #WorldModels #VisionLanguageActionModel #UMM #One-Line Notes Issue Date: 2025-11-25 GPT Summary- RynnVLA-002は、ビジョン・言語・アクション(VLA)モデルと世界モデルを統合した新しいモデルで、アクションと視覚入力を用いて未来の画像状態を予測し、環境の物理法則を学習します。このフレームワークにより、環境のダイナミクスとアクション計画の共同学習が可能となり、実験では個別モデルを上回る性能を示しました。シミュレーションでは97.4%の成功率を達成し、実世界のロボットタスクでも成功率が50%向上しました。 Comment

HF: https://huggingface.co/Alibaba-DAMO-Academy/RynnVLA-002

元ポスト:

Loading…

関連:
- RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation, Jiang+, Alibaba, 2025.08

VLAによるアクション予測とWorldModelによる視覚的な画像生成の交互作用をさせたという話に見える。




Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #NeurIPS #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-25 GPT Summary- 強化学習を用いて視覚と言語モデルの推論を強化するために、TONという二段階のトレーニング戦略を提案。簡単な質問には推論をスキップし、必要な時に考える人間の思考プロセスを模倣。実験により、TONは従来の手法に比べて推論ステップを最大90%削減し、性能を向上させることが示された。モデルはトレーニングを通じて不要な推論を回避することを学習。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

いつ思考をするか/しないかを学習することでCoTのtrajectoryを節約する。選択的に思考しないということをモデルは基本的に学習していないのでSFTで模倣学習することでコールドスタートを脱っし、その後RLによって選択的に思考しないことも含めて思考を最適化する、といった話に見える。




Paper/Blog Link My Issue
#Pocket #NLP #Dataset #Evaluation #NeurIPS #VisionLanguageModel #One-Line Notes #Poster Issue Date: 2025-11-25 GPT Summary- 学術ポスター生成のための新しいベンチマークとメトリクスを導入し、PosterAgentというマルチエージェントパイプラインを提案。Parserが論文を構造化し、Plannerがレイアウトを整え、Painter-Commenterが視覚的整合性を確保。評価では、GPT-4oの出力は視覚的には魅力的だが、テキストの質が低く、PaperQuizスコアも不十分であることが判明。オープンソースのバリアントは、既存のシステムを上回り、コスト効率も良好。これにより、次世代の自動ポスター生成モデルの方向性が示された。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

GPT4oは細かい文字のfidelityが低く、視覚的な魅力も小さい(なのでそういったものは学習で補う必要がある)という知見があるとのこと。arXivに投稿された当時結構話題になっていた気がする。

論文だけに留まらず、長いテキストを視覚的に見やすく圧縮する技術は一種の要約として見ることもでき、生成AIによって情報がさらに溢れかえるようになった昨今は、こういった技術はさらに重要な技術になると思われる。




Paper/Blog Link My Issue
#Pocket #CVPR #3D Reconstruction Issue Date: 2025-11-20 GPT Summary- SLAM3Rは、RGBビデオを用いたリアルタイムの高品質な密な3D再構築システムで、フィードフォワードニューラルネットワークを活用してローカル3D再構築とグローバル座標登録を統合。スライディングウィンドウメカニズムでビデオを重なり合ったクリップに変換し、RGB画像から直接3Dポイントマップを回帰。実験により、最先端の再構築精度と20 FPS以上のリアルタイム性能を達成。コードは公開されている。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #FoundationModel #DiffusionModel #TextToImageGeneration #SmallModel #VideoGeneration/Understandings #VisionLanguageModel Issue Date: 2025-11-20 GPT Summary- Kandinsky 5.0は、高解像度画像と10秒動画合成のための最先端モデルで、3つのコアモデル(Image Lite、Video Lite、Video Pro)から構成される。データキュレーションライフサイクルのレビューや、自己教師ありファインチューニングや強化学習を用いた品質向上技術を取り入れ、高い生成速度とパフォーマンスを実現。オープンソースコードとトレーニングチェックポイントの提供により、研究コミュニティの発展に寄与することを目指す。 Comment

HF: https://huggingface.co/kandinskylab

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #Dataset #Transformer #Evaluation #FoundationModel #2D (Image) #4D (Video) #SpatialUnderstanding Issue Date: 2025-11-17 GPT Summary- Depth Anything 3(DA3)は、カメラポーズの有無にかかわらず、視覚入力から空間的一貫性のあるジオメトリを予測するモデルです。DA3は、単一のプレーンなトランスフォーマーをバックボーンとして使用し、複雑なマルチタスク学習を排除することで、Depth Anything 2(DA2)と同等の性能を達成しました。新たに設立した視覚ジオメトリベンチマークでは、DA3がすべてのタスクで最先端の結果を示し、カメラポーズ精度で従来の最先端を44.3%、ジオメトリ精度で25.1%上回りました。すべてのモデルは公共の学術データセットでトレーニングされています。 Comment

関連:
- [Paper Note] Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data, Lihe Yang+, CVPR'24, 2024.01
- [Paper Note] Depth Anything V2, Lihe Yang+, NeurIPS'24, 2024.06

元ポスト:

Loading…

pj page: https://depth-anything-3.github.io/

openreview: https://openreview.net/forum?id=yirunib8l8




Paper/Blog Link My Issue
#Pocket #Transformer #FoundationModel #read-later #2D (Image) #3D (Scene) #Robotics #SpatialUnderstanding #Omni #Geometric #Robustness Issue Date: 2025-11-16 GPT Summary- OmniVGGTという新しいフレームワークを提案し、RGB以外の幾何学的手がかりを活用して3D基盤モデルの性能を向上させる。GeoAdapterを用いて深度情報やカメラパラメータをモデルにエンコードし、安定した最適化を実現。確率的なマルチモーダル融合手法により、任意の数のモダリティ入力を可能にし、堅牢な空間表現を学習。実験により、OmniVGGTが従来手法を上回り、視覚-言語-行動モデルに統合することでロボティクスタスクでも性能向上を達成。 Comment

元ポスト:

Loading…

depth mapやcameraの情報などの様々な幾何学的情報を入力した場合(depth mapがないなど情報が欠落していても良い)にロバストに対応できるような基盤モデルを構築する手法らしい

image

評価データ:
- [Paper Note] A naturalistic open source movie for optical flow evaluation, Butler+, ECCV'12
- [Paper Note] ReFusion: 3D Reconstruction in Dynamic Environments for RGB-D Cameras Exploiting Residuals, Emanuele Palazzolo+, IROS'19, 2019.05
- [Paper Note] Indoor Segmentation and Support Inference from RGBD Images, Silberman+, ECCV'12
- [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images,Shotton+, CVPR'13
- [Paper Note] ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes, Angela Dai+, CVPR'17, 2017.02
- [Paper Note] A Multi-view Stereo Benchmark with High-Resolution Images and Multi-camera Videos, Schöps+, CVPR'17
- [Paper Note] Large-Scale Data for Multiple-View Stereopsis, Aanæs+, IJCV'16
- [Paper Note] Tanks and temples: Benchmarking large-scale scene reconstruction, Knapitsch+, TOG'17
- [Paper Note] Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life 3D Category Reconstruction, Reizenstein+, ICCV'21
- [Paper Note] Stereo Magnification: Learning View Synthesis using Multiplane Images, Tinghui Zhou+, SIGGRAPH'18, 2018.05
- [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images, Shotton+, CVPR'13
- [Paper Note] CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks, Oier Mees+, RA-L'22 Best Paper Award, 2021.12




Paper/Blog Link My Issue
#Pocket #Transformer #NeuralArchitectureSearch #Encoder-Decoder #ObjectDetection #Realtime Issue Date: 2025-11-14 GPT Summary- RF-DETRは、オープンボキャブラリ検出器の一般化問題を解決するために導入された軽量の専門検出トランスフォーマーであり、重み共有ニューラルアーキテクチャサーチ(NAS)を用いて精度とレイテンシのトレードオフを評価します。RF-DETRは、COCOおよびRoboflow100-VLで従来の手法を大幅に上回り、特にRF-DETR(2x-large)はCOCOで60 APを超えた初のリアルタイム検出器です。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Controllable #Pocket #DiffusionModel #VideoGeneration/Understandings Issue Date: 2025-11-14 GPT Summary- Time-to-Move(TTM)は、画像から動画への拡散モデルを用いたトレーニング不要の動画生成フレームワークで、動きと外観を制御する。ユーザーが得た粗いアニメーションを動きの手がかりとして利用し、二重時計デノイジングにより外観を保持しつつ動きの整合性を強化。TTMは追加のトレーニングなしでリアリズムと動きの制御において既存手法と同等以上の性能を示し、ピクセルレベルの条件付けを通じて外観制御の精度を向上させた。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #AIAgents #Generalization #VisionLanguageModel #3D (Scene) #Game #Realtime Issue Date: 2025-11-13 GPT Summary- Lumineは、3Dオープンワールド環境で複雑なミッションをリアルタイムで完了できる一般的なエージェントのためのオープンレシピです。人間のようなインタラクションを採用し、視覚と言語のモデルを統合して知覚、推論、行動を実現。Genshin Impactで訓練されたLumineは、自然言語の指示に従い、幅広いタスクを効率的に実行します。また、ファインチューニングなしで他のゲームでも高いパフォーマンスを示し、オープンエンドな環境における一般的なエージェントへの進展を示しています。 Comment

pj page: https://www.lumine-ai.org/

> 1731 hours of human gameplay for pre-training to master action primitives;

> 200 hours of instruction following data to ground control in language;

> 15 hours of reasoning data to enable adaptive thinking.

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #Zero/Few/ManyShotPrompting #VideoGeneration/Understandings #Robotics #WorldModels #EmbodiedAI #One-Line Notes Issue Date: 2025-11-12 GPT Summary- PhysWorldは、物理世界のモデル化を通じてビデオ生成とロボット学習を結びつけるフレームワークです。従来のビデオ生成モデルは物理を無視しがちで、ロボットの操作に不正確さをもたらしますが、PhysWorldはタスク条件付きのビデオを生成し、物理世界を再構築します。これにより、生成されたビデオの動きを物理的に正確なアクションに変換し、実際のロボットデータ収集なしでゼロショットのロボット操作を実現します。実験により、PhysWorldは操作精度を大幅に向上させることが示されました。 Comment

pj page: https://pointscoder.github.io/PhysWorld_Web/

画像とタスクプロンプトを与えて動画を生成し、生成された動画に対してworld modelを用いて物理世界の情報を再構築し、そこからロボットのアクションとして何が必要かを推定することでRLをする、結果的にzeroshotでのロボット操作が実現できる、みたいな話に見える(Figure2)

元ポスト:

Loading…



Paper/Blog Link My Issue
#Analysis #Pretraining #Pocket #NLP #Dataset #LanguageModel #Selected Papers/Blogs #DataMixture #PhaseTransition Issue Date: 2025-11-12 GPT Summary- 本論文では、データを少なく使う方が良い場合についての理論的枠組みを提案し、小規模な厳選データセットが優れた性能を発揮する理由を探ります。データキュレーション戦略を通じて、ラベルに依存しない・依存するルールのテスト誤差のスケーリング法則を明らかにし、特定の条件下で小規模データが大規模データを上回る可能性を示します。ImageNetでの実証結果を通じて、キュレーションが精度を向上させることを確認し、LLMの数学的推論における矛盾する戦略への理論的説明も提供します。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=8KcjEygedc




Paper/Blog Link My Issue
#Pocket #Transformer #DiffusionModel #Selected Papers/Blogs #2D (Image) #WorldModels Issue Date: 2025-11-11 GPT Summary- ChronoEditフレームワークを提案し、画像編集を動画生成として再定義。入力画像と編集画像を動画の最初と最後のフレームとし、時間的一貫性を学習した動画生成モデルを活用。推論時に時間的推論ステージを導入し、物理的に実現可能な変換を制約する編集軌道を生成。新しいベンチマークPBench-Editで、ChronoEditが視覚的忠実性と物理的妥当性で最先端の手法を上回ることを示した。 Comment

HF: https://huggingface.co/nvidia/ChronoEdit-14B-Diffusers

LoRAによるUpscaler: https://huggingface.co/nvidia/ChronoEdit-14B-Diffusers-Upscaler-Lora

元ポスト:

Loading…

スケッチ+promptでの編集
HF: https://huggingface.co/nvidia/ChronoEdit-14B-Diffusers-Paint-Brush-Lora

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #DiffusionModel #LongSequence #VideoGeneration/Understandings #One-Line Notes Issue Date: 2025-11-10 GPT Summary- ストリーミングビデオ生成におけるエラーの蓄積を抑えるために、新技術「Rolling Forcing」を提案。複数フレームの共同デノイジング、注意シンクメカニズムの導入、効率的なトレーニングアルゴリズムを特徴とし、リアルタイムでの高品質なビデオ生成を実現。実験により、エラーの蓄積が大幅に削減されることが確認された。 Comment

関連:
- [Paper Note] Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion, Xun Huang+, NeurIPS'25
- [Paper Note] Self-Forcing++: Towards Minute-Scale High-Quality Video Generation, Justin Cui+, arXiv'25, 2025.10

self forcingと比較して複数フレームを同時にdenoisingしエラーの蓄積を低減するコンセプトな模様。
image




Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Evaluation #MultiModal #read-later #Selected Papers/Blogs #Robotics #EmbodiedAI Issue Date: 2025-11-10 GPT Summary- MLLMsの物理的道具に対する理解を評価するための新しいベンチマークPhysToolBenchを提案。1,000以上の画像-テキストペアからなるVQAデータセットで、道具認識、道具理解、道具創造の3つの能力を評価。32のMLLMsに対する評価で道具理解に欠陥があることが明らかになり、初歩的な解決策を提案。コードとデータセットは公開。 Comment

元ポスト:

Loading…

興味深い




Paper/Blog Link My Issue
#Pocket #Transformer #ImageSegmentation #Prompting #FoundationModel #2D (Image) #4D (Video) Issue Date: 2025-11-09 GPT Summary- Segment Anything Model 2(SAM 2)は、プロンプト可能な視覚セグメンテーションのための基盤モデルで、ユーザーのインタラクションを通じてデータを改善するデータエンジンを構築し、最大の動画セグメンテーションデータセットを収集。シンプルなトランスフォーマーアーキテクチャを用い、リアルタイム動画処理に対応。SAM 2は、動画セグメンテーションで従来の手法より3倍少ないインタラクションで高精度を達成し、画像セグメンテーションでも従来モデルより精度が高く、6倍速い。データ、モデル、コード、デモを公開し、関連タスクの重要なマイルストーンを目指す。 Comment

openreview: https://openreview.net/forum?id=Ha6RTeWMd0

SAMはこちら:
- Segment Anything, Alexander Kirillov+, arXiv'23




Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #ImageSegmentation #SmallModel #OpenWeight #Video #2D (Image) Issue Date: 2025-11-09 GPT Summary- SAM 2は動画セグメンテーションの基盤モデルであり、メモリバンクメカニズムを通じて性能を向上させています。本研究では、モバイルデバイス上での効率を高めるために、EdgeTAMを提案し、2D空間パーセプターを用いて計算コストを削減します。これにより、メモリの空間構造を保持しつつ、推論オーバーヘッドなしで性能を向上させる蒸留パイプラインも導入。EdgeTAMは複数のデータセットで高いJ&Fスコアを達成し、iPhone 15 Pro Maxで16 FPSで動作します。 Comment

元ポスト:

Loading…

SAM2より性能は少し劣るが、edge-deviceてわ動作可能で非常に高速なモデル(promptによって制御可能なsegmentation)とのこと
- [Paper Note] SAM 2: Segment Anything in Images and Videos, Nikhila Ravi+, ICLR'25, 2024.08




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #MultiModal #SpeechProcessing #Speech #NeurIPS #VisionLanguageModel #2D (Image) #TTS #AudioLanguageModel Issue Date: 2025-11-05 GPT Summary- 音声の役割を重視したマルチモーダル大規模言語モデル(MLLM)の訓練手法を提案。視覚と音声の相互作用を強化し、ASRやTTSモジュールなしで効率的な音声対話を実現。ベンチマークで最先端手法と比較し、リアルタイムの視覚と音声の相互作用が可能であることを示す。 Comment

元ポスト:

Loading…

image/video, speechを入力として受けとりリアルタイムに音声を出力するマルチモーダルモデル。
image




Paper/Blog Link My Issue
#NeuralNetwork #Pocket #Attention #NeurIPS #Selected Papers/Blogs #ObjectDetection Issue Date: 2025-11-05 GPT Summary- YOLOv12は、注意メカニズムを活用した新しいYOLOフレームワークで、CNNベースのモデルと同等の速度を維持しつつ、精度を向上させる。特に、YOLOv12-NはT4 GPU上で1.64 msの推論遅延で40.6%のmAPを達成し、YOLOv10-NおよびYOLOv11-Nを上回る性能を示す。また、YOLOv12はRT-DETRやRT-DETRv2よりも優れた性能を発揮し、計算量とパラメータ数を大幅に削減しながらも高速な実行を実現している。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #MultiModal #Reasoning #SelfCorrection #NeurIPS #VisionLanguageModel Issue Date: 2025-11-05 GPT Summary- スロースロース思考システムは、明示的な反省を通じて難しい問題を解決する可能性を示しているが、マルチモーダル推論能力はファストスロース思考モデルと同等である。本研究では、強化学習を用いて視覚と言語のモデルのスロースロース思考能力を向上させることを目指し、選択的サンプルリプレイ(SSR)と強制的再考を導入。これにより、モデルVL-RethinkerはMathVista、MathVerseでそれぞれ80.4%、63.5%の最先端スコアを達成し、他のベンチマークでも優れた性能を示した。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Evaluation #MultiModal #SpeechProcessing #2D (Image) #4D (Video) #Omni #text Issue Date: 2025-11-05 GPT Summary- 新しいベンチマークUNO-Benchを提案し、ユニモーダルとオムニモーダルの能力を44のタスクと5つのモダリティで評価。人間生成データと自動圧縮データを用い、複雑な推論を評価する多段階オープンエンド質問形式を導入。実験により、オムニモーダルの能力がモデルの強さに応じて異なる影響を与えることを示した。 Comment

pj page: https://meituan-longcat.github.io/UNO-Bench/

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #Dataset #Evaluation #EMNLP #VisionLanguageModel #One-Line Notes #Short Issue Date: 2025-11-04 GPT Summary- リバスパズルは視覚的な謎であり、VLMに特有の挑戦をもたらす。従来のタスクとは異なり、マルチモーダルな抽象化や象徴的推論が必要。本研究では、英語のリバスパズルのベンチマークを構築し、VLMの解釈能力を調査。結果、VLMはシンプルな視覚的手がかりには強いが、抽象的推論や視覚的メタファーの理解には苦労することが明らかになった。 Comment

元ポスト:

Loading…

Rebus Puzzleの例。たとえば上の例はlong time no seeが答えだが、Timeを認識してCが抜けており、かつseeとCの音韻が似ているといった解釈をしなければならない。Waterfallの例では、Waterという文字列が滝のように下に向かっている様子から類推しなければならない。おもしろい。
image




Paper/Blog Link My Issue
#Pocket #NLP #Dataset #AIAgents #Evaluation #Safety #ComputerUse #VisionLanguageModel #Live #Safeguard Issue Date: 2025-11-03 GPT Summary- モバイルプラットフォームでのエージェントの安全性を確保するため、MobileRisk-Liveという動的サンドボックス環境を導入し、OS-Sentinelという新しいハイブリッド安全性検出フレームワークを提案。OS-Sentinelは、システムレベルの違反検出と文脈リスク評価を統合し、実験で既存手法に対して10%-30%の性能向上を達成。自律型モバイルエージェントの信頼性向上に寄与する重要な洞察を提供。 Comment

dataset: https://huggingface.co/datasets/OS-Copilot/MobileRisk
pj page: https://qiushisun.github.io/OS-Sentinel-Home/

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #3D (Scene) #Robotics #VisionLanguageActionModel #SpatialUnderstanding Issue Date: 2025-11-03 GPT Summary- FALCON(From Spatial to Action)は、視覚-言語-行動(VLA)モデルの空間的推論のギャップを解消する新しいパラダイムで、3D空間トークンを行動ヘッドに注入します。RGBから幾何学的情報を提供し、深度やポーズを融合させることで高い忠実度を実現し、再訓練やアーキテクチャの変更は不要です。FALCONは、空間表現やモダリティの転送可能性を向上させ、11の現実世界のタスクで最先端のパフォーマンスを達成しました。 Comment

pj page: https://falcon-vla.github.io/

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #ReinforcementLearning #Self-SupervisedLearning #RLVR #VisionLanguageModel #2D (Image) #3D (Scene) #SpatialUnderstanding #One-Line Notes #Pixel-based Issue Date: 2025-11-03 GPT Summary- 空間理解におけるLVLMの弱点を克服するため、自己教師あり強化学習パラダイムSpatial-SSRLを提案。5つの前提タスクを自動定式化し、検証が容易な信号を導出。これにより、空間推論が大幅に改善され、7つのベンチマークでQwen2.5-VLベースラインに対して平均精度が4.63%(3B)および3.89%(7B)向上。シンプルな監視がRLVRを可能にし、LVLMの空間知能向上に寄与することを示した。 Comment

元ポスト:

Loading…

RGB/RGB-D imageがgivenなときに、
- cropped patch inpainting
- flipped patch recognition
- shuffled patch reordering
- regional depth ordering
- relative 3D position prediction

の5つのverifiableなタスクを定義しself supervisedなmannerでRLすることでSpatial Understanding能力を向上させる話らしい
image




Paper/Blog Link My Issue
#Pocket #DiffusionModel #OpenWeight #VideoGeneration/Understandings #WorldModels #4D (Video) #TextToVideoGeneration #SparseAttention #Video Continuation #ImageToVideoGeneration Issue Date: 2025-11-02 GPT Summary- 「LongCat-Video」は、13.6Bパラメータを持つ動画生成モデルで、複数の動画生成タスクにおいて高いパフォーマンスを発揮します。Diffusion Transformerフレームワークに基づき、テキストや画像から動画を生成し、長時間動画の生成においても高品質と一貫性を維持します。効率的な推論を実現するために、粗から細への生成戦略とブロックスパースアテンションを採用し、720p、30fpsの動画を数分で生成可能です。マルチリワードRLHFによるトレーニングにより、最新のモデルと同等の性能を達成し、コードとモデルの重みは公開されています。 Comment

pj page: https://github.com/meituan-longcat/LongCat-Video

元ポスト:

Loading…



Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #Transformer #MultiModal #DiffusionModel #2D (Image) #UMM #text Issue Date: 2025-11-01 GPT Summary- Emu3.5は、視覚と言語の両方に基づく次の状態を予測する大規模なマルチモーダルワールドモデルで、10兆トークン以上のデータで事前訓練されています。双方向の並列予測を用いた「Discrete Diffusion Adaptation(DiDA)」により、推論を約20倍加速し、強力なマルチモーダル能力を発揮します。Emu3.5は、画像生成や編集タスクで優れたパフォーマンスを示し、オープンソースとして提供されています。 Comment

pj page: https://emu.world/

元ポスト:

Loading…

ポイント解説:

Loading…



Paper/Blog Link My Issue
#Tutorial #Pocket #DiffusionModel Issue Date: 2025-10-29 GPT Summary- このモノグラフでは、拡散モデルの核心原則とその多様な定式化の起源を探ります。拡散モデリングは、データをノイズに腐敗させる前方プロセスから始まり、逆プロセスを学習してノイズをデータに戻すことを目的としています。三つの視点(変分的、スコアベース、フローベース)を通じて、ノイズ除去やデータ生成の方法を説明し、共通の基盤として時間依存の速度場を提案します。さらに、制御可能な生成や効率的な数値ソルバーについても議論し、深層学習の知識を持つ読者に拡散モデルの理解を提供します。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #Transformer #read-later #NormalizingFlow #Compression Issue Date: 2025-10-28 GPT Summary- FARMERという新しい生成フレームワークを提案し、正規化フローと自己回帰モデルを統合して高品質な画像合成と尤度推定を実現。潜在シーケンスへの変換や自己教師あり次元削減により、ARモデリングの効率を向上。推論速度を加速する蒸留スキームと画像生成品質を向上させる分類器フリーガイダンスを導入。実験により、FARMERは既存モデルと比較して競争力のある性能を示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

これは...👀👀👀




Paper/Blog Link My Issue
#MachineLearning #Pocket #NLP #LanguageModel #Transformer #Architecture #Normalization Issue Date: 2025-10-28 GPT Summary- SeeDNormは、入力に基づいて動的にスケーリング係数を調整する新しい正規化層であり、RMSNormの限界を克服します。これにより、入力のノルム情報を保持し、データ依存の自己再スケーリングを実現。大規模言語モデルやコンピュータビジョンタスクでの有効性を検証し、従来の正規化手法と比較して優れた性能を示しました。

Paper/Blog Link My Issue
#Pocket #Dataset #Transformer #FoundationModel #3D Reconstruction #3D (Scene) #UMM #SpatialUnderstanding Issue Date: 2025-10-28 GPT Summary- 人間の3Dシーン理解を模倣するため、空間再構築とインスタンス理解を統合したInstanceGrounded Geometry Transformer(IGGT)を提案。IGGTは2D視覚入力を用いて幾何学的構造とインスタンスクラスタリングを統一的に表現し、3Dシーンの一貫性を向上させる。新たに構築したInsScene-15Kデータセットを用いて、3D一貫性のあるインスタンスレベルのマスク注釈を提供。 Comment

pj page: https://lifuguan.github.io/IGGT_official/

元ポスト:

Loading…

ポイント解説:

Loading…



Paper/Blog Link My Issue
#Pocket #ImageSegmentation #VideoGeneration/Understandings #VisionLanguageModel #UMM Issue Date: 2025-10-27 GPT Summary- Sa2VAは、画像と動画の基盤理解のための統一モデルであり、最小限のワンショット指示チューニングで多様なタスクをサポート。SAM-2とLLaVAを組み合わせ、テキスト、画像、動画を統合。新たに導入したRef-SAVデータセットにより、複雑な動画シーンでのオブジェクト表現を強化。実験結果は、特に参照動画オブジェクトセグメンテーションで最先端の成果を示し、実世界の応用が期待される。 Comment

HF: https://huggingface.co/collections/ByteDance/sa2va-model-zoo

元ポスト:

Loading…

ポイント解説:

Loading…



Paper/Blog Link My Issue
#Analysis #Pocket #Dataset #Zero/Few/ManyShotPrompting #MultiModal #In-ContextLearning #ICCV #VisionLanguageModel Issue Date: 2025-10-27 GPT Summary- 新しい大規模データセットを提案し、小売物流における欠陥検出の課題に対応。230,000枚の画像と29,000以上の欠陥インスタンスを含み、MVTec-ADの40倍の規模。既存手法の限界を示し、56.96%のAUROCを超えない結果を得た。データセットは今後の研究を促進するために利用可能。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #Dataset #Zero/Few/ManyShotPrompting #Evaluation #MultiModal #In-ContextLearning #NeurIPS #read-later #Selected Papers/Blogs #OOD #Generalization #VisionLanguageModel #One-Line Notes #ObjectDetection Issue Date: 2025-10-27 GPT Summary- 視覚と言語のモデル(VLMs)は、一般的な物体に対して優れたゼロショット検出性能を示すが、分布外のクラスやタスクに対しては一般化が難しい。そこで、少数の視覚例と豊富なテキスト記述を用いてVLMを新しい概念に整合させる必要があると提案。Roboflow100-VLという多様な概念を持つ100のマルチモーダル物体検出データセットを導入し、最先端モデルの評価を行った。特に、難しい医療画像データセットでのゼロショット精度が低く、少数ショットの概念整合が求められることを示した。 Comment

元ポスト:

Loading…

VLMが「現実世界をどれだけ理解できるか」を評価するためのobject detection用ベンチマークを構築。100のopen source datasetから構成され、それぞれにはtextでのfew shot instructionやvisual exampleが含まれている。データセットは合計で約165kの画像、約1.35M件のアノテーションが含まれ、航空、生物、産業などの事前学習ではあまりカバーされていない新規ドメインの画像が多数含まれているとのこと。

そして現在のモデルは事前学習に含まれていないOODな画像に対する汎化性能が低く、いちいちモデルを追加で学習するのではなく、ICLによって適用できた方が好ましいという考えがあり、そして結果的に現在のVLMでは、ICLがあまりうまくいかない(ICLによるOODの汎化が効果的にできない)ことがわかった、という話らしい。

が、
- [Paper Note] Many-Shot In-Context Learning in Multimodal Foundation Models, Yixing Jiang+, arXiv'24, 2024.05

での知見と異なる。差異はなんだろうか?

以下のスレッドで議論がされている:

Loading…

pj page: https://rf100-vl.org

うーんあとでしっかり読みたい、、、




Paper/Blog Link My Issue
#Pocket #VisionLanguageModel #Robotics #memory #VisionLanguageActionModel #One-Line Notes #LongHorizon Issue Date: 2025-10-27 GPT Summary- 本研究では、ロボットポリシーに人間のような記憶能力を与えるための階層的ポリシーフレームワークを提案。高レベルポリシーが関連するキーフレームを選択し、低レベルポリシーに指示を生成することで、長期的な依存関係を効率的に推論。実験により、提案手法MemERが従来の方法を上回る性能を示した。 Comment

元ポスト:

Loading…

pj page: https://jen-pan.github.io/memer/

動画ストリーム全てを常にinputするのではなくキーフレームは限られているので、VLMにキーフレームをメモリ上で管理するような役割を与え、instructionと実現するためのサブタスクに応じて動的に必要な情報のみをVLAに与えることでlong horizonでのスケーラビリティを改善する、みたいな話らしい




Paper/Blog Link My Issue
#Pocket #Transformer #DiffusionModel #read-later Issue Date: 2025-10-26 GPT Summary- Diffusion Transformers(DiTs)は、視覚生成において優れた性能を示すアーキテクチャであり、パッチトークンと位置エンコーディング(PE)を用いています。本研究では、DiTsがどのように視覚コンテンツを整理するかを再考し、PEの摂動に対しても一貫した出力を生成することを発見しました。これに基づき、位置エンコーディングを3Dフィールドに拡張したPE-Fieldを提案し、ボリュメトリック推論と階層的エンコーディングを組み込みました。強化されたDiTは、新しい視点合成と空間画像編集において最先端の性能を達成しました。 Comment

pj page: https://yunpeng1998.github.io/PE-Field-HomePage/

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #Dataset #Evaluation #MultiModal #Reasoning #VideoGeneration/Understandings #ICCV #4D (Video) #Robustness Issue Date: 2025-10-24 GPT Summary- ビデオ理解における正確性と堅牢性のギャップを評価するために、Video Thinking Test(Video-TT)を導入。1,000本のYouTube Shortsビデオを用い、オープンエンドの質問と敵対的質問を通じて、ビデオLLMsと人間のパフォーマンスの違いを示す。 Comment

pj page: https://zhangyuanhan-ai.github.io/video-tt/

関連:

Loading…



Paper/Blog Link My Issue
#Pocket #ICCV Issue Date: 2025-10-22 GPT Summary- 手書きテキスト生成において、DiffBrushという新しい拡散ベースのモデルを提案。スタイルと内容の正確性を両立させるため、スタイル学習を内容から切り離し、マルチスケールで内容を学習する戦略を採用。実験により、高品質なテキストライン生成が確認された。 Comment

元ポスト:

Loading…

手書き文字生成




Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #MultiModal #Pixel-based Issue Date: 2025-10-22 GPT Summary- テキストを画像として提供することで、LLMのトークン使用量を削減しつつ性能を維持できることを示す。長いテキストを画像にレンダリングし、デコーダーに直接入力することで、必要なトークン数を大幅に減少させる。実験により、RULERとCNN/DailyMailのベンチマークで性能を損なうことなく、トークンの節約が実現できることを確認。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Controllable #Pocket #Transformer #DiffusionModel #VariationalAutoEncoder #Selected Papers/Blogs #ICCV #KeyPoint Notes Issue Date: 2025-10-22 GPT Summary- OminiControlは、Diffusion Transformer(DiT)アーキテクチャにおける画像条件付けの新しいアプローチで、パラメータオーバーヘッドを最小限に抑えつつ、柔軟なトークン相互作用と動的な位置エンコーディングを実現。広範な実験により、複数の条件付けタスクで専門的手法を上回る性能を示し、合成された画像ペアのデータセット「Subjects200K」を導入。効率的で多様な画像生成システムの可能性を示唆。 Comment

元ポスト:

Loading…

DiTのアーキテクチャは(MMA以外は)変更せずに、Condition Image C_IをVAEでエンコードしたnoisy inputをDiTのinputにconcatし順伝播させることで、DiTをunified conditioningモデル(=C_Iの特徴量を他のinputと同じlatent spaceで学習させ統合的に扱う)として学習する[^1]。

[^1]: 既存研究は別のエンコーダからエンコードしたfeatureが加算されていて(式3)、エンコーダ部分に別途パラメータが必要だっただけでなく、加算は空間的な対応関係が存在しない場合はうまく対処できず(featureの次元が空間的な情報に対応しているため)、conditional tokenとimageの交互作用を妨げていた。

また、positional encodingのindexをconditional tokenとnoisy image tokensと共有すると、空間的な対応関係が存在するタスク(edge guided generation等)はうまくいったが、被写体を指定する生成(subject driven generation)のような対応関係が存在しないタスク(non-aligned task)の場合はうまくいかなかった。しかし、non-aligned taskの場合は、indexにオフセットを加えシフトさせる(式4)ことで、conditional text/image token間で空間的にoverlapしないようにすることで性能が大幅に改善した。

既存研究では、C_Iの強さをコントロールするために、ハイパーパラメータとして定数を導入し、エンコードされたfeatureを加算する際の強さを調整していたが(3.2.3節)、本手法ではconcatをするためこのような方法は使えない。そのため、Multi-Modal Attention(MMA)にハイパーパラメータによって強さを調整可能なbias matrixを導入し、C_IとXのattentionの交互作用の強さを調整することで対応した(式5,6)。




Paper/Blog Link My Issue
#Multi #Pocket #NLP #Dataset #QuestionAnswering #MultiModal #Conversation #VisionLanguageModel #2D (Image) Issue Date: 2025-10-22 GPT Summary- 本研究では、視覚と言語のモデル(VLM)のために、24百万サンプルからなる統一コーパス「FineVision」を紹介。これは200以上のソースを統合し、半自動化されたパイプラインでキュレーションされている。データの衛生と重複排除が行われ、66の公的ベンチマークに対する汚染除去も適用。FineVisionで訓練されたモデルは、既存のオープンミックスモデルを上回る性能を示し、データ中心のVLM研究の加速を目指す。 Comment

pj page: https://huggingface.co/spaces/HuggingFaceM4/FineVision

関連:
- [Paper Note] Grounding Multilingual Multimodal LLMs With Cultural Knowledge, Jean de Dieu Nyandwi+, EMNLP'25

ポイント解説:

Loading…

著者ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #DiffusionModel #LongSequence #read-later #VideoGeneration/Understandings #4D (Video) Issue Date: 2025-10-22 GPT Summary- 本論文では、長い動画生成における品質劣化を軽減する新しいアプローチを提案します。教師モデルの知識を活用し、自己生成した長い動画から抽出したサンプルセグメントを通じて学生モデルにガイダンスを提供することで、長さを最大20倍にスケールアップしつつ時間的一貫性を維持します。これにより、最大4分15秒の動画を生成可能で、従来の手法よりも忠実度と一貫性で大幅に優れた結果を示しました。 Comment

元ポスト:

Loading…

おー、もう++が出てきた。すごいスピード感だ。

関連:
- [Paper Note] Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion, Xun Huang+, NeurIPS'25

Self Forcingと比較して50s以上での生成の性能が向上しているように見える




Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #ContextWindow #LongSequence #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes Issue Date: 2025-10-21 GPT Summary- 本研究では、長いコンテキストを持つ大規模言語モデル(LLMs)の実用性を向上させるため、Glyphというフレームワークを提案し、テキストを画像に変換して視覚と言語のモデル(VLMs)で処理します。このアプローチにより、3-4倍のトークン圧縮を実現し、精度を維持しつつ処理速度を約4倍向上させます。さらに、128KコンテキストのVLMが1Mトークンのテキストタスクを処理可能になることを示しました。 Comment

元ポスト:

Loading…

所見:

Loading…

テキストを画像にレンダリングしてVLMに入力することでtextと比較して3.2倍KV Cache (context)を圧縮し、prefillingとデコード速度も4.8, 4.4倍高速化するフレームワークらしい

image




Paper/Blog Link My Issue
#Pocket #NLP #Temporal #LanguageModel #SyntheticData #MultiModal #SpeechProcessing #Architecture #2D (Image) #TTS #4D (Video) #Omni #audio #text Issue Date: 2025-10-21 GPT Summary- OmniVinciは、視覚と音声を統合したオムニモーダルLLMを構築するプロジェクトであり、3つの革新(OmniAlignNet、Temporal Embedding Grouping、Constrained Rotary Time Embedding)を提案。2400万の会話データを用いて、モダリティ間の相互強化を実現。DailyOmni、MMAR、Video-MMEでの性能向上を達成し、トレーニングトークンの使用量を大幅に削減。ロボティクスや医療AIなどの応用におけるオムニモーダルの利点を示す。 Comment

pj page: https://nvlabs.github.io/OmniVinci/

元ポスト:

Loading…

image, video, テキスト, 音声を理解しテキストを出力(TTSも可)するモデルに関する新たなアーキテクチャとデータキュレーションパイプラインを提案している模様




Paper/Blog Link My Issue
#MachineLearning #Pocket #NLP #MultiModal #DiffusionModel #SSM (StateSpaceModel) #UMM Issue Date: 2025-10-21 GPT Summary- MDM(Multi-modal Diffusion Mamba)という新しいアーキテクチャを提案し、エンドツーエンドのマルチモーダル処理を統一。Mambaベースの選択拡散モデルを用いて、エンコーディングとデコーディングでモダリティ特有の情報を段階的に生成。高解像度画像とテキストを同時に生成し、既存モデルを大幅に上回る性能を示す。計算効率を保ちながらマルチモーダルプロセスを統一する新たな方向性を確立。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #Chain-of-Thought #DiffusionModel #Reasoning #VideoGeneration/Understandings #2D (Image) Issue Date: 2025-10-20 GPT Summary- VChainは、マルチモーダルモデルの視覚的推論を動画生成に活用する新しいフレームワークで、重要なキーフレームを生成し、動画生成器のチューニングを効率的にガイドします。このアプローチにより、複雑なシナリオにおいて生成動画の品質が大幅に向上しました。 Comment

pj page: https://eyeline-labs.github.io/VChain/

元ポスト:

Loading…

Chain-of-Visual-Thoughts

keyframeをchain-of-thoughtsに含めることで、時間発展をより正確にしようという試みに見える。追加の学習なしで実施できるとのこと。
image




Paper/Blog Link My Issue
#Pocket #LanguageModel #InstructionTuning #DiffusionModel #TextToImageGeneration #read-later #Selected Papers/Blogs #ICCV #ImageSynthesis Issue Date: 2025-10-20 GPT Summary- 本研究では、視覚的指示調整の新手法VPiTを提案し、LLMがテキストと視覚トークンを生成できるようにします。VPiTは、キュレーションされた画像とテキストデータからトークンを予測する能力をLLMに教え、視覚生成能力が向上することを示しました。特に、理解データが生成データよりも効果的に両方の能力に寄与することが明らかになりました。MetaMorphモデルを訓練し、視覚理解と生成で競争力のあるパフォーマンスを達成し、LLMの事前学習から得た知識を活用することで、視覚生成における一般的な失敗を克服しました。これにより、LLMが視覚理解と生成に適応できる可能性が示唆されました。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pretraining #Pocket #Transformer #Self-SupervisedLearning #ICCV #Scalability Issue Date: 2025-10-20 GPT Summary- 視覚的自己教師あり学習(SSL)は、CLIPに比べて視覚的質問応答(VQA)でのパフォーマンスが劣るが、同じデータセットで訓練することで、視覚的SSLモデルがCLIPモデルよりもスケールが良いことを示した。視覚的SSLは、VQAや従来の視覚ベンチマークでCLIPレベルのパフォーマンスを達成できる可能性がある。これにより、視覚中心の表現学習に新たな機会が開かれる。 Comment

pj page: https://davidfan.io/webssl/

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pretraining #Pocket #DiffusionModel #Self-SupervisedLearning Issue Date: 2025-10-20 GPT Summary- 新しい二段階トレーニングフレームワークを提案し、ピクセル空間生成モデルの性能と効率のギャップを埋める。第一段階で意味のあるセマンティクスをキャプチャし、第二段階でエンコーダとデコーダを統合してファインチューニング。ImageNetデータセットで優れた性能を示し、特に拡散モデルは従来手法を大きく上回り、一貫性モデルは高解像度画像での直接トレーニングに成功。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #Dataset #LanguageModel #Supervised-FineTuning (SFT) #InstructionTuning #Evaluation #MultiModal #DiffusionModel #UMM #SpatialUnderstanding Issue Date: 2025-10-20 GPT Summary- カメラ中心の理解と生成を統合したマルチモーダルモデル「Puffin」を提案。Puffinは、言語回帰と拡散生成を組み合わせ、カメラを言語として扱う新しいアプローチを採用。400万の視覚-言語-カメラのデータセット「Puffin-4M」で訓練され、空間的な視覚的手がかりを考慮した推論を実現。実験結果では、専門モデルを上回る性能を示し、指示チューニングにより多様なタスクに対応可能。研究成果はコードやデータセットと共に公開予定。 Comment

元ポスト:

Loading…

pj page: https://kangliao929.github.io/projects/puffin/




Paper/Blog Link My Issue
#Controllable #Pocket #DiffusionModel #ComputerUse #VideoGeneration/Understandings #4D (Video) Issue Date: 2025-10-19 GPT Summary- ビデオ生成モデルの制約を克服するために、Ctrl-VIという新しいビデオ合成手法を提案。指定要素に対して高い制御性を持ち、非指定要素には多様性を維持。変分推論を用いて複数のビデオ生成バックボーンで合成分布を近似し、KLダイバージェンスの最小化を段階的に行う。実験により、制御性、多様性、3Dの一貫性が向上したことを示す。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pretraining #Pocket #Selected Papers/Blogs #VisionLanguageModel #UMM #Scalability Issue Date: 2025-10-19 GPT Summary- ネイティブなビジョン・ランゲージモデル(VLM)の課題を明確にし、効果的な構築指針を示す。具体的には、ピクセルと単語の整合、ビジョンとランゲージの統合、クロスモーダル特性の具現化を重視。新たに開発したNEOは、390Mの画像-テキスト例で視覚的知覚を効率的に発展させ、コスト効率の高いエコシステムを提供。 Comment

元ポスト:

Loading…

pj page: https://github.com/EvolvingLMMs-Lab/NEO

HFへのリンクもpj pageにある。




Paper/Blog Link My Issue
#Pocket #ReinforcementLearning #SmallModel #VisionLanguageModel #Robotics #VisionLanguageActionModel Issue Date: 2025-10-18 GPT Summary- Embodied Reasoning Agent (ERA)は、事前知識学習とオンライン強化学習を統合した二段階のフレームワークで、視覚言語モデルの性能向上を目指す。第一段階では、軌道拡張、環境固定、外部知識から基礎知識を抽出し、第二段階でオンラインRLを用いてエージェントのパフォーマンスを向上させる。自己要約、密な報酬形成、ターンレベルのポリシー最適化を導入し、EB-ALFREDとEB-Manipulationタスクで大規模モデルを上回る成果を示した。ERAは具現化知能の実用的な道を提供する。 Comment

pj page: https://embodied-reasoning-agent.github.io

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #DiffusionModel #TextToImageGeneration #VisionLanguageModel #2D (Image) #Editing #ImageSynthesis Issue Date: 2025-10-18 GPT Summary- 本研究では、ペアデータを使用せずに画像編集モデルをトレーニングする新しいパラダイムを提案。拡散モデルを展開し、視覚-言語モデル(VLM)からのフィードバックを活用して直接最適化を行う。生成画像の視覚的忠実性を保つために分布マッチング損失(DMD)を導入。標準ベンチマークで評価した結果、従来の教師ありペアデータを用いたモデルと同等の性能を達成し、RLベースの手法をも上回ることが示された。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #Transformer #Attention #ICCV Issue Date: 2025-10-18 GPT Summary- 本研究では、Vision Transformers(ViTs)の周波数応答を改善するために、Frequency-Dynamic Attention Modulation(FDAM)を提案。FDAMは、注意行列のローパスフィルタを反転させるAttention Inversion(AttInv)と、異なる周波数成分に重み付けを行うFrequency Dynamic Scaling(FreqScale)から成る。これにより、表現の崩壊を回避し、セマンティックセグメンテーションや物体検出などのタスクで一貫した性能向上を実現。リモートセンシング検出でも最先端の結果を達成。コードは公開されている。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #LongSequence #AttentionSinks #read-later #Selected Papers/Blogs #VideoGeneration/Understandings #interactive Issue Date: 2025-10-17 GPT Summary- LongLiveは、リアルタイムでインタラクティブな長編動画生成のためのフレームレベルの自己回帰フレームワークを提案。因果的注意ARモデルを採用し、KV再キャッシュメカニズムを統合することで、視覚的一貫性と意味的整合性を保ちながら効率的な生成を実現。1.3Bパラメータのモデルを32 GPU日でファインチューニングし、単一のNVIDIA H100で20.7 FPSを維持。最大240秒の動画生成をサポートし、INT8量子化推論も対応。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion, Xun Huang+, NeurIPS'25

pj page: https://nvlabs.github.io/LongLive/




Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #Dataset #Evaluation #Attention #LongSequence #AttentionSinks #read-later #Selected Papers/Blogs #VideoGeneration/Understandings #VisionLanguageModel #KeyPoint Notes Issue Date: 2025-10-15 GPT Summary- StreamingVLMは、無限のビデオストリームをリアルタイムで理解するためのモデルで、トレーニングと推論を統一したフレームワークを採用。アテンションシンクの状態を再利用し、短いビジョントークンと長いテキストトークンのウィンドウを保持することで、計算コストを抑えつつ高い性能を実現。新しいベンチマークInf-Streams-Evalで66.18%の勝率を達成し、一般的なVQA能力を向上させることに成功。 Comment

元ポスト:

Loading…

これは興味深い

保持するKV Cacheの上限を決め、Sink Token[^1]は保持し[^2](512トークン)、textual tokenは長距離で保持、visual tokenは短距離で保持、またpositional encodingとしてはRoPEを採用するが、固定されたレンジの中で動的にindexを更新することで、位相を学習時のrangeに収めOODにならないような工夫をすることで、memoryと計算コストを一定に保ちながらlong contextでの一貫性とリアルタイムのlatencyを実現する、といった話にみえる。
image

学習時はフレームがoverlapした複数のチャンクに分けて、それぞれをfull attentionで学習する(Sink Tokenは保持する)。これは上述のinference時のパターンと整合しており学習時とinference時のgapが最小限になる。また、わざわざlong videoで学習する必要がない。(美しい解決方法)
image

[^1]: decoder-only transformerの余剰なattention scoreの捨て場として機能するsequence冒頭の数トークン(3--4トークン程度)のこと。本論文では512トークンと大きめのSink Tokenを保持している。
[^2]: Attention Sinksによって、long contextの性能が改善され Why do LLMs attend to the first token?, Federico Barbero+, COLM'25 decoder-only transformerの層が深い部分でのトークンの表現が均一化されてしまうover-mixingを抑制する Efficient Streaming Language Models with Attention Sinks, Guangxuan Xiao+, ICLR'24 ことが報告されている

AttentionSink関連リンク:
- Efficient Streaming Language Models with Attention Sinks, Guangxuan Xiao+, ICLR'24
- Why do LLMs attend to the first token?, Federico Barbero+, COLM'25

↑これは元ポストを読んで(と論文斜め読み)の感想のようなものなので、詳細は後で元論文を読む。

関連:

Loading…



Paper/Blog Link My Issue
#Analysis #Pretraining #Pocket #NLP #Dataset #LanguageModel #Evaluation #MultiModal #Reasoning #read-later #DataMixture #VisionLanguageModel Issue Date: 2025-10-15 GPT Summary- 大規模言語モデル(LLMs)は、テキストのみで訓練されながらも視覚的先入観を発展させ、少量のマルチモーダルデータで視覚タスクを実行可能にする。視覚的先入観は、言語の事前訓練中に獲得された知識であり、推論中心のデータから発展する。知覚の先入観は広範なコーパスから得られ、視覚エンコーダーに敏感である。視覚を意識したLLMの事前訓練のためのデータ中心のレシピを提案し、500,000 GPU時間をかけた実験に基づく完全なMLLM構築パイプラインを示す。これにより、視覚的先入観を育成する新しい方法を提供し、次世代のマルチモーダルLLMの発展に寄与する。 Comment

元ポスト:

Loading…

MLE Bench (Multi-Level Existence Bench)




Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #Transformer #DiffusionModel #read-later #Selected Papers/Blogs #Backbone Issue Date: 2025-10-14 GPT Summary- 本研究では、従来のVAEエンコーダを事前学習された表現エンコーダに置き換えたRepresentation Autoencoders(RAE)を提案。これにより、高品質な再構成と豊かな潜在空間を実現し、拡散トランスフォーマーの性能向上を図る。RAEは、補助的な表現整合損失なしで早い収束を達成し、ImageNetで優れた画像生成結果を示した。RAEは、拡散トランスフォーマーの新しいデフォルトとしての利点を提供する。 Comment

pj page: https://rae-dit.github.io

元ポスト:

Loading…

U-NetをBackboneとしたVAEの代わりにViTに基づく(down, up- scaling無しの)アーキテクチャを用いることで、より少ない計算量で高い性能を達成しました、といった話に見える。

ポイント解説:

Loading…

解説:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Prompting #MultiModal #AutomaticPromptEngineering Issue Date: 2025-10-14 GPT Summary- マルチモーダルプロンプト最適化(MPO)を提案し、テキストと非テキストのプロンプトを共同最適化する新たなアプローチを示す。MPOは、ベイズに基づく選択戦略を用いて候補プロンプトを選定し、画像や動画など多様なモダリティにおいてテキスト専用手法を上回る性能を発揮。これにより、MLLMsの潜在能力を最大限に引き出す重要なステップを確立。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #SelfImprovement #read-later #Selected Papers/Blogs #VisionLanguageModel #Label-free Issue Date: 2025-10-13 GPT Summary- Vision-Zeroは、視覚と言語のモデル(VLM)の自己改善を促進するドメイン非依存のフレームワークであり、任意の画像ペアから生成された競争的な視覚ゲームを通じてトレーニングを行う。主な特徴は、戦略的自己対戦による自律的なデータ生成、任意の画像からのゲーム生成による多様なドメインでの推論能力向上、そして反復自己対戦ポリシー最適化(Iterative-SPO)による持続的なパフォーマンス向上である。Vision-Zeroはラベルなしデータを用いて最先端のパフォーマンスを達成し、他の注釈ベースの手法を上回る。 Comment

pj page: https://github.com/wangqinsi1/Vision-Zero

元ポスト:

Loading…

とても良さそう

ポイント解説:

Loading…



Paper/Blog Link My Issue
#Pocket #ReinforcementLearning #TextToImageGeneration #NeurIPS #On-Policy #FlowMatching Issue Date: 2025-10-10 GPT Summary- Flow-GRPOは、オンライン強化学習をフローマッチングモデルに統合した新しい手法で、ODEをSDEに変換することでRL探索のための統計的サンプリングを実現し、デノイジングステップを削減してサンプリング効率を向上させる。実験結果では、テキストから画像へのタスクで性能が大幅に向上し、GenEvalの精度が63%から95%に、視覚的テキストレンダリングの精度が59%から92%に改善された。また、報酬ハッキングがほとんど発生せず、画像の質や多様性を損なうことなく報酬が増加した。

Paper/Blog Link My Issue
#MachineLearning #Pocket #ReinforcementLearning #DiffusionModel #FlowMatching Issue Date: 2025-10-10 GPT Summary- Diffusion Negative-aware FineTuning(DiffusionNFT)は、オンライン強化学習を用いて拡散モデルを最適化する新しい手法で、ポジティブとネガティブな生成を対比させることで強化信号を組み込みます。このアプローチにより、尤度推定が不要になり、クリーンな画像のみでポリシー最適化が可能になります。DiffusionNFTは、FlowGRPOよりも最大25倍効率的で、GenEvalスコアを短期間で大幅に改善し、複数の報酬モデルを活用することでSD3.5-Mediumのパフォーマンスを向上させます。 Comment

元ポスト:

Loading…

ベースライン:
- Introducing Stable Diffusion 3.5, StabilityAI, 2024.10
- [Paper Note] Flow-GRPO: Training Flow Matching Models via Online RL, Jie Liu+, NeurIPS'25, 2025.05
- [Paper Note] Classifier-Free Diffusion Guidance, Jonathan Ho+, arXiv'22, 2022.07




Paper/Blog Link My Issue
#Pretraining #Pocket #Transformer #Decoder Issue Date: 2025-10-10 GPT Summary- Heptapodは、因果注意を用いた画像自動回帰モデルで、CFGへの依存を排除し、意味トークナイザーのトレンドを避ける。主な革新は、2D分布予測を行う因果Transformerで、画像の2D空間全体にわたる分布を学習する。これにより、生成的トレーニングを通じて画像の意味を捉えることが可能になる。ImageNet生成ベンチマークでFID値2.70を達成し、従来のアプローチを上回る成果を示した。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Embeddings #MachineLearning #Pocket #read-later Issue Date: 2025-10-09 GPT Summary- JEPAは、潜在空間予測と反収束を組み合わせたアーキテクチャで、データ密度を推定する能力を持つ。成功裏に訓練されたJEPAは、データキュレーションや外れ値検出に利用可能で、サンプルの確率を効率的に計算できる。JEPA-SCOREと呼ばれる手法を用いて、さまざまなデータセットや自己教師あり学習手法でその効果が実証されている。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…



Paper/Blog Link My Issue
#Pocket #Distillation #NeurIPS #FlowMaps Issue Date: 2025-10-09 GPT Summary- フローに基づく生成モデルの推論効率を改善するため、フローマップを直接学習するアルゴリズムフレームワークを提案。自己蒸留を通じて教師なしでトレーニング可能な方法を示し、オイラー法、ラグランジュ法、進行法の3つのアルゴリズムファミリーを導入。特に新しいラグランジュ法は、安定したトレーニングと高いパフォーマンスを実現。既存のトレーニングスキームを統一し、生成モデルの設計原則を明らかにする。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #DiffusionModel #Tokenizer #Decoder Issue Date: 2025-10-08 GPT Summary- 新しいピクセル拡散デコーダアーキテクチャ(SSDD)を提案し、KL-VAEに依存せずに高品質な画像再構成を実現。SSDDは敵対的損失なしで訓練され、再構成FIDを改善し、サンプリング速度を向上させる。これにより、KL-VAEの代替として迅速かつ高品質な生成モデルの構築が可能となる。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #Dataset #Evaluation #COLM #VisionLanguageModel #Geometric Issue Date: 2025-10-06 GPT Summary- LVLMsの幾何学的認識を評価するためのデータセット「VisOnlyQA」を導入し、LVLMsが画像内の幾何学的情報を正確に認識できないことを明らかにした。23のLVLMs(GPT-4oやGemini 2.5 Proを含む)は、VisOnlyQAでの性能が低く、追加のトレーニングデータでは改善されない。より強力なLLMを使用するLVLMsは幾何学的認識が向上するが、視覚エンコーダーからの情報処理がボトルネックであることが示唆された。 Comment

openreview: https://openreview.net/forum?id=PYHwlyu2fa#discussion

元ポスト:

Loading…



Paper/Blog Link My Issue
#MachineLearning #Pocket #NLP #LanguageModel #MultiModal #NeurIPS #PostTraining #OOD #Generalization Issue Date: 2025-10-05 GPT Summary- MLLMは未知のクエリに対して性能が低下するが、既存の改善策は多くのデータや計算コストを要する。本研究では、情報ボトルネック原理に基づき、MLLMの堅牢性を向上させるためのVittleを提案。45のデータセットでの実証実験により、VittleがMLLMの堅牢性を一貫して改善することを示した。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #Attention #LongSequence #VideoGeneration/Understandings #VisionLanguageModel #Sparse #SparseAttention Issue Date: 2025-10-04 GPT Summary- VideoNSAは、ビデオ理解のためにNative Sparse Attentionを適用し、長い時間スケールでの一貫性を向上させる手法。216Kのビデオ指示データセットでQwen2.5-VLをエンドツーエンドでトレーニングし、テキストには密な注意、ビデオにはNSAを使用。トークン圧縮や従来のスパースベースラインと比較して、長いビデオ理解や時間的推論で性能が向上。アブレーション分析により、信頼性のあるスケーリングや注意の最適配分などの重要な発見が得られた。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #MultiModal #OpenWeight #OpenSource #VisionLanguageModel #One-Line Notes Issue Date: 2025-10-04 GPT Summary- LLaVA-OneVision-1.5は、計算コストと財政コストを削減しつつ最先端のパフォーマンスを実現する新しい大規模マルチモーダルモデルです。オープンで効率的なフレームワークを提供し、85Mの事前学習データセットと26Mの指示データセットを含む大規模キュレーションデータセットを構築しました。効率的なトレーニングフレームワークにより、限られた予算内でのトレーニングが可能となり、幅広い下流タスクで競争力のある性能を示しています。特に、LLaVA-OneVision-1.5-8Bは18のベンチマークでQwen2.5-VL-7Bを上回り、4Bモデルは全ての27のベンチマークでQwen2.5-VL-3Bを超えています。今後、LLaVA-OneVision-1.5-RLのリリースも予定されています。 Comment

元ポスト:

Loading…

各種ベンチでQwen2.5-VL超え

pj page: https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5

ポイント解説:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Evaluation #VisionLanguageModel #Medical Issue Date: 2025-10-03 GPT Summary- 医療画像の解釈におけるAIモデルのパフォーマンスを評価するため、50の専門的な「スポット診断」ケースを用いたベンチマークを開発。5つの最前線AIモデル(GPT-5、o3、Gemini 2.5 Pro、Grok-4、Claude Opus 4.1)をテストした結果、ボード認定放射線医が最高の診断精度(83%)を達成し、AIモデルは最良のGPT-5でも30%に留まった。これにより、AIモデルが難しい診断ケースにおいて放射線医には及ばないことが示され、医療画像におけるAIの限界と無監視使用への警告が強調された。 Comment

元ポスト:

Loading…

所見:

Loading…



Paper/Blog Link My Issue
#Embeddings #InformationRetrieval #Pocket #NLP #MultiModal #SmallModel #Encoder Issue Date: 2025-10-03 GPT Summary- マルチモーダル埋め込みモデルは文書検索において効率的な代替手段として普及しているが、再利用アプローチが検索性能のボトルネックとなることがある。本研究では、視覚文書検索モデルを改善するための原則的なレシピを確立し、注意マスキングや画像解像度などが性能に影響を与える要因であることを示した。これに基づき、250Mパラメータのコンパクトな視覚-言語エンコーダーModernVBERTを開発し、文書検索タスクで大規模モデルを上回る性能を達成した。モデルとコードは公開されている。 Comment

元ポスト:

Loading…

MIT Licence
HF: https://huggingface.co/ModernVBERT

ポイント解説:

Loading…



Paper/Blog Link My Issue
#Pocket #ReinforcementLearning #read-later #Off-Policy #WorldModels Issue Date: 2025-10-02 GPT Summary- 「Dreamer 4」は、ビデオゲーム「Minecraft」において物体の相互作用を正確に予測し、強化学習を用いて制御タスクを解決するスケーラブルなエージェントです。このワールドモデルは、ショートカット強制目的と効率的なトランスフォーマーアーキテクチャを活用し、リアルタイムのインタラクティブ推論を実現します。さらに、少量のデータから一般的な行動を学習し、オフラインデータのみでダイヤモンドを取得するタスクを成功させました。Dreamer 4は、環境との相互作用なしに学ぶ能力を持つ初のエージェントであり、知能エージェントへの新たな道を示しています。 Comment

解説:

Loading…



Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #Dataset #Evaluation #ImageCaptioning #LongSequence #LLM-as-a-Judge #EMNLP #VisionLanguageModel #MultiDimensional Issue Date: 2025-10-01 GPT Summary- 本研究では、長い画像キャプションの自動評価に特化した新しい指標VELAを提案し、マルチモーダル大規模言語モデル(MLLMs)を活用した評価フレームワークを構築。さらに、評価指標を検証するためのLongCap-Arenaベンチマークを導入し、7,805枚の画像と32,246件の人間の判断を用いて、VELAが既存の指標を上回る性能を示した。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #ImageCaptioning #SmallModel #OpenWeight #VisionLanguageModel Issue Date: 2025-09-29 GPT Summary- 画像キャプショニングにおいて、従来の監視型ファインチューニング(SFT)の限界を克服するため、検証可能な報酬を用いた強化学習(RLVR)を提案。新しいトレーニングフレームワーク「キャプショニング強化学習(CapRL)」を導入し、キャプションの質をその有用性で再定義。CapRLは、視覚非依存のLLMの精度に基づく客観的な報酬を得る二段階のパイプラインを採用。CapRL-3Bによる事前学習は、12のベンチマークで大幅な性能向上を実現し、Qwen2.5-VL-72Bと同等のパフォーマンスを達成。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/collections/long-xing1/caprl-68d64ac32ded31596c36e189

公式ポスト:

Loading…



Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #Transformer #Attention #DiffusionModel #Architecture #NeurIPS #VideoGeneration/Understandings #Sparse #SparseAttention Issue Date: 2025-09-27 GPT Summary- Diffusion Transformers(DiTs)の動画生成におけるレイテンシーの問題を解決するため、重要トークンの特定精度を最大化し計算の無駄を最小化するトレーニング不要のフレームワークSVG2を提案。SVG2は意味に基づくトークンのクラスタリングと再配置を行い、計算効率を向上させる。これにより、HunyuanVideoおよびWan 2.1でそれぞれ最大2.30倍および1.89倍のスピードアップを達成し、PSNRを維持。 Comment

元ポスト:

Loading…

pj page: https://svg-project.github.io/v2/

Q, Kそれぞれについて独立してkmeansクラスタリングを実施し、意味的に類似したQ, Kをクラスタ化し、map上で散らばっているトークンの配置を整頓して計算機上で効率的に扱えるようにし、各クラスタのcentroidをattention scoreの計算に用いてクラスタ内のトークンのスコアを近似することで計算を効率化します、といった話な模様。また、クリティカルなクラスタとそうでは無いものがあるので、p個のクリティカルなクラスタを選択しさらに効率化をする模様。
image




Paper/Blog Link My Issue
#Pocket #FoundationModel #read-later #Selected Papers/Blogs Issue Date: 2025-09-25 GPT Summary- 大規模言語モデル(LLMs)のゼロショット能力が自然言語処理を変革したように、生成ビデオモデルも一般目的の視覚理解に向かう可能性がある。Veo 3は、物体のセグメンテーションやエッジ検出など、訓練されていない幅広いタスクを解決できることを示し、視覚推論の初期形態を可能にする。Veoのゼロショット能力は、ビデオモデルが一般的な視覚基盤モデルになる道を示唆している。 Comment

pj page: https://video-zero-shot.github.io

ポイント解説:

Loading…

所見:

Loading…

解説:

Loading…



Paper/Blog Link My Issue
#Pocket #ReinforcementLearning #DiffusionModel #GRPO Issue Date: 2025-09-23 GPT Summary- BranchGRPOを提案し、ロールアウトプロセスを分岐ツリーに再構築することで、画像および動画生成モデルの効率を向上。共有プレフィックスを用いてコストを分散し、スパースな報酬を密な信号に変換。HPDv2.1で最大16%の整合性向上と55%のトレーニング時間短縮を実現。BranchGRPO-MixはDanceGRPOより4.7倍速くトレーニング。WanX動画生成でも高いVideo-Alignスコアを達成。 Comment

pj page: https://fredreic1849.github.io/BranchGRPO-Webpage/

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #MultiModal #ICLR #read-later #Selected Papers/Blogs #UMM Issue Date: 2025-09-22 GPT Summary- Transfusionは、離散データと連続データに対してマルチモーダルモデルを訓練する手法で、言語モデリングの損失関数と拡散を組み合わせて単一のトランスフォーマーを訓練します。最大7Bパラメータのモデルを事前訓練し、ユニモーダルおよびクロスモーダルベンチマークで優れたスケーリングを示しました。モダリティ特有のエンコーディング層を導入することで性能を向上させ、7Bパラメータのモデルで画像とテキストを生成できることを実証しました。 Comment

openreview: https://openreview.net/forum?id=SI2hI0frk6




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #UMM Issue Date: 2025-09-22 GPT Summary- Manzanoは、視覚コンテンツの理解と生成を統一的に行うマルチモーダル大規模言語モデル(LLMs)で、ハイブリッド画像トークナイザーとトレーニングレシピを組み合わせてパフォーマンスのトレードオフを軽減します。単一のビジョンエンコーダーが画像からテキストへの埋め込みを生成し、自己回帰型LLMがテキストと画像トークンの高レベルの意味を予測します。このアーキテクチャにより、両方の能力の共同学習が可能となり、最先端の結果を達成しました。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

DocVQAのオラクルはラベルノイズと曖昧性の観点から94--95という主張:

Loading…



Paper/Blog Link My Issue
#Embeddings #Pocket #NLP #Dataset #MultiModal #NeurIPS #Encoder #SpatialUnderstanding Issue Date: 2025-09-22 GPT Summary- Perception Encoder(PE)は、画像と動画理解のための新しいビジョンエンコーダで、シンプルなビジョンと言語の学習を通じて訓練されています。従来の特定のタスクに依存せず、対照的なビジョンと言語の訓練だけで強力な埋め込みを生成します。埋め込みを引き出すために、言語アライメントと空間アライメントの2つの手法を導入。PEモデルは、ゼロショット画像・動画分類で高い性能を示し、Q&Aタスクや空間タスクでも最先端の結果を達成しました。モデルやデータセットは公開されています。 Comment

元ポスト:

Loading…

解説:

Loading…



Paper/Blog Link My Issue
#Embeddings #Analysis #Pocket #NLP #EMNLP #VisionLanguageModel #Findings Issue Date: 2025-09-21 GPT Summary- 視覚と言語のモデル(VLMs)の投影ステップによる情報損失を分析するため、2つのアプローチを提案。1つ目は、投影前後の画像表現のk近傍関係の変化を評価し、2つ目は視覚埋め込みの再構築によって情報損失を測定。実験により、コネクタが視覚表現の幾何学を歪め、k近傍が40~60%乖離することが明らかになり、これは検索性能の低下と関連。パッチレベルの再構築は、モデルの挙動に対する洞察を提供し、高い情報損失がモデルの苦手な事例を予測することを示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…



Paper/Blog Link My Issue
#Pocket #Transformer #DiffusionModel #VariationalAutoEncoder #NeurIPS #PostTraining #Selected Papers/Blogs #VideoGeneration/Understandings #One-Line Notes Issue Date: 2025-09-19 GPT Summary- Self Forcingは、自動回帰型ビデオ拡散モデルの新しいトレーニング手法で、エクスポージャーバイアスの問題に対処します。従来の手法が真のコンテキストに基づくのに対し、Self Forcingは自己生成した出力に基づいてフレームを生成し、全体の品質を評価するホリスティックな損失を用います。計算コストとパフォーマンスのバランスを取るために、少数ステップの拡散モデルと確率的勾配切断を採用し、ロールイングKVキャッシュメカニズムを導入。実験により、リアルタイムのストリーミングビデオ生成が可能で、非因果的拡散モデルの生成品質に匹敵またはそれを上回ることが示されました。 Comment

pj page: https://self-forcing.github.io

元ポスト:

Loading…

自己回帰的な動画生成(をする)モデルにおいて、学習時はground-truchのcontextが利用して学習されるが、推論時は自身が生成結果そのものをcontextとして利用するため、学習-推論時にgapが生じ、(徐々に誤差が蓄積することで)品質が劣化するという問題(exposure bias)に対処するために、学習時から自身が生成した出力をcontextとして与えて生成を行い(ロールアウト)、動画全体に対して分布の整合性を測るlossを導入(=フレーム単位の誤差を最小化にするのではなく、動画全体に対して(分布の)誤差を最適化する)することで、exposure biasを軽減する、という話な模様。

結果的に、単一のRTX4090でリアルタイムのストリーミングビデオ生成が高品質に生成可能となった(かもしれない):
https://note.com/ngc_shj/n/n505b2f7cdfe4




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #MultiModal #NeurIPS #UMM Issue Date: 2025-09-19 GPT Summary- LMFusionは、テキストのみのLLMにマルチモーダル生成能力を付与するフレームワークで、テキストと画像の理解・生成を可能にします。既存のLlama-3の重みを活用し、画像処理のための並列トランスフォーマーモジュールを追加。各モダリティは独立して処理され、相互作用が可能です。実験により、LMFusionは画像理解を20%、生成を3.6%向上させ、Llama-3の言語能力を維持しつつ、効率的にマルチモーダルモデルを開発できることが示されました。 Comment

元ポスト:

Loading…

先行研究:
- [Paper Note] Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model, Chunting Zhou+, ICLR'25, 2024.08
- [Paper Note] U-Net: Convolutional Networks for Biomedical Image Segmentation, Olaf Ronneberger+, MICCAI'15, 2015.05




Paper/Blog Link My Issue
#Pocket #NLP #VisionLanguageModel #ContextEngineering Issue Date: 2025-09-18 GPT Summary- VisionZipは、視覚トークンの冗長性を削減し、効率を向上させるための新しい手法であり、画像や動画の理解タスクに適用可能。実験により、従来の手法よりも5%以上の性能向上を達成し、推論速度も大幅に改善。トークンの長さを増やすのではなく、より良い視覚特徴の抽出に焦点を当てることを提案。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #AIAgents #Evaluation #MultiModal #ICLR #SoftwareEngineering #VisionLanguageModel Issue Date: 2025-09-16 GPT Summary- 自律システムのバグ修正能力を評価するために、SWE-bench Mを提案。これは視覚要素を含むJavaScriptソフトウェアのタスクを対象とし、617のインスタンスを収集。従来のSWE-benchシステムが視覚的問題解決に苦労する中、SWE-agentは他のシステムを大きく上回り、12%のタスクを解決した。 Comment

openreview: https://openreview.net/forum?id=riTiq3i21b

pj page: https://www.swebench.com/multimodal.html




Paper/Blog Link My Issue
#Pocket #Dataset #Transformer #DiffusionModel #PEFT(Adaptor/LoRA) #Encoder-Decoder #4D (Video) Issue Date: 2025-09-16 GPT Summary- 4DNeXは、単一の画像から動的3Dシーンを生成する初のフィードフォワードフレームワークであり、事前学習されたビデオ拡散モデルをファインチューニングすることで効率的な4D生成を実現。大規模データセット4DNeX-10Mを構築し、RGBとXYZシーケンスを統一的にモデル化。実験により、4DNeXは既存手法を上回る効率性と一般化能力を示し、動的シーンの生成的4Dワールドモデルの基盤を提供。 Comment

pj page: https://4dnex.github.io

元ポスト:

Loading…



Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #Pocket #OpenWeight #OpenSource #Encoder #Backbone Issue Date: 2025-09-16 GPT Summary- 本論文では、OpenVisionのアーキテクチャを簡素化し、トレーニング効率を向上させる方法を提案。テキストエンコーダーと対照損失を削除し、キャプショニング損失のみを使用したOpenVision 2を導入。初期結果は、トレーニング時間を約1.5倍短縮し、メモリ使用量を約1.8倍削減することを示し、10億以上のパラメータにスケールアップ可能であることを強調。 Comment

元ポスト:

Loading…

事前学習時にtext, image encoderのcontrastive lossで学習していたが、text encoderを無くしimage encoderに入力されたimageからcaptionを生成するcaption lossのみにすることで性能を落とすことなく効率を改善




Paper/Blog Link My Issue
#Pocket #ReinforcementLearning #DiffusionModel Issue Date: 2025-09-16 GPT Summary- Direct-Align手法を用いて、拡散モデルの計算コストを削減し、元の画像を効果的に復元。さらに、SRPOを導入し、報酬をオンラインで調整することでオフライン依存を減少。これにより、FLUXモデルのリアリズムと美的品質を3倍以上向上。 Comment

pj page: https://tencent.github.io/srpo-project-page/

SRPO (Semantic Relative Preference Optimization)

- [Paper Note] SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM, Xiaojiang Zhang+, arXiv'25

と名称が重複している。




Paper/Blog Link My Issue
#Pocket #PEFT(Adaptor/LoRA) Issue Date: 2025-09-16 GPT Summary- K-LoRAは、異なるLoRAを効果的に融合し、主題とスタイルを同時に保持する新しいアプローチを提案。各アテンション層でTop-K要素を比較し、最適なLoRAを選択することで、主題とスタイルの特徴をバランスよく統合。実験により、提案手法が従来のトレーニングベースのアプローチを上回ることを示した。 Comment

元ポスト:

Loading…

先行研究:
- [Paper Note] Implicit Style-Content Separation using B-LoRA, Yarden Frenkel+, ECCV'24
- [Paper Note] ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs, Viraj Shah+, N/A, ECCV'24




Paper/Blog Link My Issue
#Pocket #Dataset #3D (Scene) Issue Date: 2025-09-15 GPT Summary- SpatialVIDデータセットは、21,000時間以上の生動画から生成された2.7百万のクリップを含み、カメラポーズ、深度、動的マスクなどの詳細な3D注釈を提供。これにより、空間知能のモデルの一般化とパフォーマンス向上を促進し、ビデオおよび3Dビジョン研究において重要な資産となる。 Comment

pj page: https://nju-3dv.github.io/projects/SpatialVID/
dataset: https://huggingface.co/datasets/SpatialVID/SpatialVID-HQ

元ポスト:

Loading…

CC-BY-NC-SA 4.0ライセンス




Paper/Blog Link My Issue
#Analysis #Pocket #LanguageModel #MultiModal #Architecture #SpatialUnderstanding Issue Date: 2025-09-12 GPT Summary- 空間理解はMLLMsにとって重要だが、依然として課題が多い。本研究では、単一視点、多視点、ビデオの3つのシナリオにおける空間理解を体系的に分析し、MulSeTというベンチマークを提案。トレーニングデータの増加はパフォーマンス向上に寄与するが、限界があることが示された。また、空間理解は視覚エンコーダの位置エンコーディングに依存しており、推論の注入を通じたアーキテクチャ改善の可能性を探る。これにより、MLLMsの限界を明らかにし、空間推論能力向上の新たな方向性を示唆している。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Survey #Pocket #3D (Scene) #WorldModels #4D (Video) Issue Date: 2025-09-11 GPT Summary- 本調査は、3Dおよび4Dの世界モデリングと生成に特化した初の包括的レビューを提供し、正確な定義と構造化された分類法を導入。動画ベース、占有ベース、LiDARベースのアプローチを網羅し、特化したデータセットと評価指標を要約。実用的な応用や未解決の課題を議論し、今後の研究方向を示すことで、この分野の進展の基盤を提供する。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Alignment #MultiModal #read-later #UMM Issue Date: 2025-09-11 GPT Summary- 統一多モーダルモデル(UMMs)のトレーニングは、スパースなキャプションに依存しており、視覚的詳細を見逃すことが多い。そこで、再構成アライメント(RecA)を導入し、視覚理解エンコーダの埋め込みを用いてキャプションなしで豊富な監視を提供。RecAはUMMを視覚理解埋め込みに条件付け、自己監視型の再構成損失で最適化し、生成と編集の忠実度を向上させる。27 GPU時間で、画像生成性能や編集ベンチマークを大幅に向上させ、効率的なポストトレーニング戦略としての地位を確立。 Comment

pj page: https://reconstruction-alignment.github.io

元ポスト:

Loading…

ベンチマーク:
- [Paper Note] GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment, Dhruba Ghosh+, NeurIPS'23
- [Paper Note] ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment, Xiwei Hu+, arXiv'24




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #Reasoning #LongSequence #OpenWeight #GRPO #VisionLanguageModel Issue Date: 2025-09-10 GPT Summary- Mini-o3システムは、数十ステップの深いマルチターン推論を実現し、視覚検索タスクで最先端の性能を達成。Visual Probe Datasetを構築し、多様な推論パターンを示すデータ収集パイプラインを開発。オーバーターンマスキング戦略により、ターン数が増えるほど精度が向上することを実証。 Comment

HF: https://huggingface.co/Mini-o3

pj page: https://mini-o3.github.io

元ポスト:

Loading…

既存のオープンなVLMはマルチターンのターン数を増やせないという課題があったがそれを克服するレシピに関する研究な模様。元ポストによると6ターンまでのマルチターンで学習しても、inference時には32ターンまでスケールするとか。




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #AIAgents #MultiModal #Reasoning #ComputerUse #VisionLanguageModel Issue Date: 2025-09-05 GPT Summary- UI-TARS-2は、GUI用自律エージェントの新しいモデルで、データ生成、安定化されたマルチターンRL、ハイブリッドGUI環境を統合。実証評価では、前モデルを大幅に上回り、複数のベンチマークで高いスコアを達成。約60%の人間レベルのパフォーマンスを示し、長期的な情報探索タスクにも適応可能。トレーニングダイナミクスの分析が安定性と効率向上の洞察を提供し、実世界のシナリオへの一般化能力を強調。 Comment

関連:
- Introducing UI-TARS-1.5, ByteDance, 2025.04

元ポスト:

Loading…

1.5をリリースしてから5ヶ月で大幅に性能を向上した模様




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #Reasoning #OpenWeight #SelfCorrection #VisionLanguageModel #Critic Issue Date: 2025-09-04 GPT Summary- 本研究では、視覚と言語のモデリングにおいて、批評モデルを強化学習を用いて再編成し、生成モデルに直接適用する新しいアプローチを提案します。これにより、マルチモーダル批評モデルLLaVA-Critic-R1を生成し、視覚的推論ベンチマークで高い性能を示しました。さらに、自己批評を用いることで、追加の訓練なしに推論タスクでの性能を向上させることができることを示しました。この結果は、評価と生成の両方に優れた統一モデルを実現する可能性を示唆しています。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/collections/lmms-lab/llava-critic-r1-68922484e5822b89fab4aca1




Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #LanguageModel #ReinforcementLearning #MultiModal #Reasoning #GRPO #VisionLanguageModel Issue Date: 2025-09-02 GPT Summary- R-4Bは、問題の複雑さに応じて思考を行うかどうかを適応的に判断する自動思考型のマルチモーダル大規模言語モデル(MLLM)である。思考能力と非思考能力を持たせ、バイモードポリシー最適化(BPO)を用いて思考プロセスの起動を精度良く判断する。訓練には多様なトピックのデータセットを使用し、実験結果はR-4Bが25のベンチマークで最先端のパフォーマンスを達成し、特に推論集約型タスクで低コストで高い性能を示したことを示している。 Comment

元ポスト:

Loading…

VLMにthinking, non-thinkingを入力に応じて使い分けさせる手法




Paper/Blog Link My Issue
#Pocket #LongSequence #VideoGeneration/Understandings Issue Date: 2025-08-29 GPT Summary- 長動画生成における長いコンテキストメモリの問題を解決するため、スパース注意ルーティングモジュール「Mixture of Contexts(MoC)」を提案。MoCは、動的に情報量の多いチャンクと必須のアンカーを選択し、因果ルーティングを用いて注意を向ける。これにより、重要な履歴に計算リソースを割り当て、数分間のコンテンツにわたってアイデンティティやアクションを保持する。効率性が向上し、実用的なトレーニングと合成が可能になる。 Comment

pj page: https://primecai.github.io/moc/

元ポスト:

Loading…



Paper/Blog Link My Issue
#Controllable #Pocket #NLP #LanguageModel #MultiModal #DiffusionModel Issue Date: 2025-08-29 GPT Summary- 「OmniHuman-1.5」は、物理的妥当性と意味的一貫性を兼ね備えたキャラクターアニメーションを生成するフレームワークである。マルチモーダル大規模言語モデルを活用し、音声、画像、テキストの共同意味を解釈することで、感情や意図に基づいた動作を生成。新しいマルチモーダルDiTアーキテクチャにより、異なるモダリティ間の対立を軽減し、リップシンク精度や動作の自然さで優れたパフォーマンスを達成。複雑なシナリオへの拡張性も示している。 Comment

pj page: https://omnihuman-lab.github.io/v1_5/

元ポスト:

Loading…

promptによって状況や感情などの表現のコントロールが可能らしい

解説:

Loading…



Paper/Blog Link My Issue
#Pocket #Transformer #DiffusionModel #OpenWeight #VideoGeneration/Understandings #WorldModels #Game Issue Date: 2025-08-28 GPT Summary- Matrix-Game 2.0を提案し、インタラクティブな世界モデルがリアルタイムで長いビデオを生成できるようにする。主なコンポーネントは、スケーラブルなデータ生成パイプライン、インタラクティブな条件を可能にするアクション注入モジュール、リアルタイム生成のための数ステップの蒸留。これにより、25 FPSで高品質な1分間のビデオを生成可能。モデルの重みとコードはオープンソース化。 Comment

元ポスト:

Loading…

pj page: https://matrix-game-v2.github.io

公式:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #MultiModal #Reasoning #OpenWeight #CurriculumLearning #VideoGeneration/Understandings #VisionLanguageModel Issue Date: 2025-08-28 GPT Summary- Ovis2.5は、ネイティブ解像度の視覚認識とマルチモーダル推論を強化するために設計されたモデルで、画像を可変解像度で処理し、複雑な視覚コンテンツの詳細を保持します。推論時には反省を行う「思考モード」を提供し、精度向上を図ります。5段階のカリキュラムで訓練され、マルチモーダルデータの効率的な処理を実現。Ovis2.5-9BはOpenCompassで平均78.3を記録し、Ovis2-8Bに対して大幅な改善を示しました。Ovis2.5-2Bも73.9を達成し、リソース制約のあるデバイスに最適です。STEMベンチマークや複雑なチャート分析においても優れた性能を発揮しています。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/AIDC-AI/Ovis2.5-9B

Apache2.0ライセンス

GLM-4.1V-9B-Thinkingと同等以上の性能な模様。
image

- [Paper Note] GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning, GLM-V Team+, arXiv'25




Paper/Blog Link My Issue
#Pocket #NLP #Hallucination #SelfImprovement #VisionLanguageModel Issue Date: 2025-08-28 GPT Summary- Vision-Language Models (VLMs)は視覚的幻覚や言語的ショートカットに悩まされることが多い。これらの問題は、ポストトレーニング手法が中間の視覚的推論に対する指導を欠いているために生じる。本研究では、外部の視覚的監視に依存せずに視覚的推論を改善する自己報酬法Vision-SR1を提案。モデルは視覚的知覚と言語的推論を2段階に分解し、自己完結型の視覚的知覚を生成し、その後に言語的推論を行うことで報酬を計算する。実験により、Vision-SR1が視覚的推論を改善し、幻覚を軽減することが示された。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #OpenWeight #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-08-26 GPT Summary- InternVL 3.5は、マルチモーダルモデルの新しいオープンソースファミリーで、Cascade Reinforcement Learningを用いて推論能力と効率を向上させる。粗から細へのトレーニング戦略により、MMMやMathVistaなどのタスクで大幅な改善を実現。Visual Resolution Routerを導入し、視覚トークンの解像度を動的に調整。Decoupled Vision-Language Deployment戦略により、計算負荷をバランスさせ、推論性能を最大16.0%向上させ、速度を4.05倍向上。最大モデルは、オープンソースのMLLMで最先端の結果を達成し、商業モデルとの性能ギャップを縮小。全てのモデルとコードは公開。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…



Paper/Blog Link My Issue
#Multi #Pocket #NLP #Dataset #LanguageModel #AIAgents #SyntheticData #VisionLanguageModel Issue Date: 2025-08-24 GPT Summary- 本研究では、実世界のツール使用能力を向上させるために、23Kのインスタンスからなる大規模マルチモーダルデータセット「ToolVQA」を提案。ToolVQAは、実際の視覚的コンテキストと多段階推論タスクを特徴とし、ToolEngineを用いて人間のようなツール使用推論をシミュレート。7B LFMを微調整した結果、テストセットで優れたパフォーマンスを示し、GPT-3.5-turboを上回る一般化能力を持つことが確認された。 Comment

人間による小規模なサンプル(イメージシナリオ、ツールセット、クエリ、回答、tool use trajectory)を用いてFoundation Modelに事前知識として与えることで、よりrealisticなscenarioが合成されるようにした上で新たなVQAを4k程度合成。その後10人のアノテータによって高品質なサンプルにのみFilteringすることで作成された、従来よりも実世界の設定に近く、reasoningの複雑さが高いVQAデータセットな模様。

image
image

具体的には、image contextxが与えられた時に、ChatGPT-4oをコントローラーとして、前回のツールとアクションの選択をgivenにし、人間が作成したプールに含まれるサンプルの中からLongest Common Subsequence (LCS) による一致度合いに基づいて人手によるサンプルを選択し、動的にcontextに含めることで多様なで実世界により近しいmulti step tooluseなtrajectoryを合成する、といった手法に見える。pp.4--5に数式や図による直感的な説明がある。なお、LCSを具体的にどのような文字列に対して、どのような前処理をした上で適用しているのかまでは追えていない。
image

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #Dataset #AIAgents #Evaluation #Factuality #read-later #Selected Papers/Blogs Issue Date: 2025-08-22 GPT Summary- MM-BrowseCompは、AIエージェントのマルチモーダル検索および推論能力を評価する新しいベンチマークで、224の手作りの質問を含む。これにより、画像や動画を含む情報の重要性を考慮し、テキストのみの手法の限界を示す。最先端モデルの評価では、OpenAI o3などのトップモデルでも29.02%の精度にとどまり、マルチモーダル能力の最適化不足が明らかになった。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #Dataset #QuestionAnswering #SyntheticData #MultiModal #Reasoning #EMNLP #PostTraining #VisionLanguageModel Issue Date: 2025-08-21 GPT Summary- 本研究では、推論に焦点を当てたマルチモーダルデータセットの不足に対処するため、VisualWebInstructという新しいアプローチを提案。30,000のシード画像からGoogle画像検索を用いて700K以上のユニークなURLを収集し、約900KのQAペアを構築。ファインチューニングされたモデルは、Llava-OVで10-20ポイント、MAmmoTH-VLで5ポイントの性能向上を示し、最良モデルMAmmoTH-VL2は複数のベンチマークで最先端の性能を達成。これにより、Vision-Language Modelsの推論能力向上に寄与することが示された。 Comment

元ポスト:

Loading…

pj page: https://tiger-ai-lab.github.io/VisualWebInstruct/

verified versionが公開:
https://huggingface.co/datasets/TIGER-Lab/VisualWebInstruct_Verified

ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #Transformer #TextToImageGeneration #Architecture #ICLR #read-later #NormalizingFlow Issue Date: 2025-08-17 GPT Summary- JetFormerは、画像とテキストの共同生成を効率化する自己回帰型デコーダー専用のトランスフォーマーであり、別々にトレーニングされたコンポーネントに依存せず、両モダリティを理解・生成可能。正規化フローモデルを活用し、テキストから画像への生成品質で既存のベースラインと競合しつつ、堅牢な画像理解能力を示す。JetFormerは高忠実度の画像生成と強力な対数尤度境界を実現する初のモデルである。 Comment

openreview: https://openreview.net/forum?id=sgAp2qG86e

画像をnormalizing flowでソフトトークンに変換し、transformerでソフトトークンを予測させるように学習することで、テキストと画像を同じアーキテクチャで学習できるようにしました、みたいな話っぽい?おもしろそう
image




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #ComputerUse #VisionLanguageModel Issue Date: 2025-08-16 GPT Summary- UI-Venusは、スクリーンショットを入力として受け取るマルチモーダル大規模言語モデルに基づくネイティブUIエージェントで、UIグラウンディングとナビゲーションタスクで最先端の性能を達成。7Bおよび72Bバリアントは、Screenspot-V2 / Proベンチマークで高い成功率を記録し、既存のモデルを上回る。報酬関数やデータクリーニング戦略を導入し、ナビゲーション性能を向上させるための新しい自己進化フレームワークも提案。オープンソースのUIエージェントを公開し、さらなる研究を促進。コードはGitHubで入手可能。 Comment

元ポスト:

Loading…

解説:

Loading…

HF: https://huggingface.co/collections/inclusionAI/ui-venus-689f2fb01a4234cbce91c56a




Paper/Blog Link My Issue
#Pocket #VideoGeneration/Understandings #interactive #Game Issue Date: 2025-08-14 GPT Summary- 「Hunyuan-GameCraft」という新しいフレームワークを提案し、ゲーム環境における高ダイナミックインタラクティブ動画生成を実現。キーボードとマウスの入力を統合し、動画シーケンスを自己回帰的に拡張することで、アクション制御と一貫性を向上。大規模データセットでトレーニングし、視覚的忠実性とリアリズムを強化。実験により、既存モデルを大幅に上回る性能を示した。 Comment

元ポスト:

Loading…

単体の画像と、prompt、マウス・キーボード入力に基づいてinteractiveに動画を合成する。軽量なGPUでも動作するように、高品質な合成データによってモデルを蒸留し軽量なモデルを利用したりもしている模様。そのうち家庭のゲーミングPCでこういったモデルでゲームをする日が来るのだろうか。
image

アーキテクチャに使われている技術:
- [Paper Note] DiT: Self-supervised Pre-training for Document Image Transformer, Junlong Li+, ACMMM'22
- Learning Transferable Visual Models From Natural Language Supervision, Radford+, OpenAI, ICML'21




Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #AIAgents #SyntheticData #Evaluation #MultiModal #VisionLanguageModel #DeepResearch Issue Date: 2025-08-14 GPT Summary- WebWatcherは、視覚と言語の推論能力を強化したマルチモーダルエージェントであり、情報探索の困難さに対処する。合成マルチモーダル軌跡を用いた効率的なトレーニングと強化学習により、深い推論能力を向上させる。新たに提案されたBrowseComp-VLベンチマークでの実験により、WebWatcherは複雑なVQAタスクで他のエージェントを大幅に上回る性能を示した。 Comment

元ポスト:

Loading…

公式:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #Dataset #EMNLP #PostTraining #Selected Papers/Blogs #VisionLanguageModel #Cultural Issue Date: 2025-08-13 GPT Summary- MLLMsは高リソース環境で優れた性能を示すが、低リソース言語や文化的エンティティに対しては課題がある。これに対処するため、Wikidataを活用し、文化的に重要なエンティティを表す画像を用いた多言語視覚質問応答データセット「CulturalGround」を生成。CulturalPangeaというオープンソースのMLLMを訓練し、文化に基づいたアプローチがMLLMsの文化的ギャップを縮小することを示した。CulturalPangeaは、従来のモデルを平均5.0ポイント上回る性能を達成。 Comment

元ポスト:

Loading…

pj page: https://neulab.github.io/CulturalGround/

VQAデータセット中の日本語データは3.1%程度で、の3つ組で構成される。wikidataから特定の文化と紐づいたエンティティ(42カ国; 人,場所,組織,アーティファクトにフォーカス)を抽出し、関連するimage dataを1--3個程度wikimediaから収集。76種類のテンプレートを用いて、draftのQAを生成し、LLMを用いて洗練(文化的な自然さ、流暢さ)させる。最終的にVLM(Qwen2.5-VL-32B/72B or Gemma-3-12B/72B-Instructを文化ごとに強い方を選択して利用)を用いてirrelevantなimage, question, answerの三つ組をフィルタリング(relevanceのスコアリングと事実情報のverification)する。

ベースモデルとして
- [Paper Note] Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages, Xiang Yue+, arXiv'24

を利用(Qwen2-7Bに対してCLIPベースのvision encoderを利用したVLM)し、Vision Encoderはfrozenし、LLMとconnector(テキストと画像のモダリティの橋渡しをする(大抵は)MLP)のみをfinetuningした。catastrophic forgettingを防ぐために事前学習データの一部を補完しfinetuningでも利用し、エンティティの認識力を高めるためにM3LSデータなるものをフィルタリングして追加している。

Finetuningの結果、文化的な多様性を持つ評価データ(e.g., [Paper Note] CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark, David Romero+, arXiv'24 Figure1のJapaneseのサンプルを見ると一目でどのようなベンチか分かる)と一般的なマルチリンガルな評価データの双方でgainがあることを確認。
image
image

VQAによるフィルタリングで利用されたpromptは下記
image




Paper/Blog Link My Issue
#Pocket #Transformer #ReinforcementLearning #TextToImageGeneration #GRPO #On-Policy #Encoder-Decoder Issue Date: 2025-08-12 GPT Summary- AR-GRPOは、自己回帰画像生成モデルにオンライン強化学習を統合した新しいアプローチで、生成画像の品質を向上させるためにGRPOアルゴリズムを適用。クラス条件およびテキスト条件の画像生成タスクで実験を行い、標準のARモデルと比較して品質と人間の好みを大幅に改善した。結果は、AR画像生成における強化学習の有効性を示し、高品質な画像合成の新たな可能性を開く。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] JetFormer: An Autoregressive Generative Model of Raw Images and Text, Michael Tschannen+, ICLR'25




Paper/Blog Link My Issue
#Pocket #NLP #MultiModal #SpeechProcessing #Reasoning #OpenWeight #VisionLanguageActionModel Issue Date: 2025-08-12 GPT Summary- アクション推論モデル(ARMs)であるMolmoActは、知覚、計画、制御を三段階のパイプラインで統合し、説明可能で操作可能な行動を実現。シミュレーションと実世界で高いパフォーマンスを示し、特にSimplerEnv Visual Matchingタスクで70.5%のゼロショット精度を達成。MolmoAct Datasetを公開し、トレーニングによりベースモデルのパフォーマンスを平均5.5%向上。全てのモデルの重みやデータセットを公開し、ARMsの構築に向けたオープンな設計図を提供。 Comment

`Action Reasoning Models (ARMs)`

元ポスト:

Loading…

blog: https://allenai.org/blog/molmoact

関連:
- Molmo: A family of open state-of-the-art multimodal AI models, AI2, 2024.09

models:
- https://huggingface.co/allenai/MolmoAct-7B-D-Pretrain-0812
- https://huggingface.co/allenai/MolmoAct-7B-D-0812

datasets:
- https://huggingface.co/datasets/allenai/MolmoAct-Dataset
- https://huggingface.co/datasets/allenai/MolmoAct-Pretraining-Mixture
- https://huggingface.co/datasets/allenai/MolmoAct-Midtraining-Mixture

データは公開されているが、コードが見当たらない?

チェックポイントとコードも公開された模様:
-

Loading…

- https://github.com/allenai/MolmoAct



Paper/Blog Link My Issue
#Pocket #NLP #ReinforcementLearning #SyntheticData #MultiModal #RLVR #VisionLanguageModel Issue Date: 2025-08-10 GPT Summary- StructVRMは、複雑な多質問推論タスクにおいて、部分的な正確性を評価するための構造化された検証可能な報酬モデルを導入。サブ質問レベルのフィードバックを提供し、微妙な部分的なクレジットスコアリングを可能にする。実験により、Seed-StructVRMが12のマルチモーダルベンチマークのうち6つで最先端のパフォーマンスを達成したことが示された。これは、複雑な推論におけるマルチモーダルモデルの能力向上に寄与する。 Comment

元ポスト:

Loading…

複数のsub-questionが存在するような複雑な問題に対して、既存のRLVRにおける全体に対してbinary rewardを適用する方法は報酬が荒すぎるため、よりfine-grainedなverifiableな報酬を設計することで、学習を安定化し性能も向上
image

以下がverifierのサンプル
image

general purposeなreal worldに対するmultimodal reasoningシステムを作成するには高品質で多様なデータが必要なので、以下のようなパイプラインを用いて、学習データを合成している模様。後で読む。サマリが元ポストに記載されているので全体像をざっくり知りたい場合は参照のこと。
image




Paper/Blog Link My Issue
#Pretraining #ContrastiveLearning #Encoder Issue Date: 2025-08-07 GPT Summary- PS3を用いてCLIPスタイルの視覚事前学習を4K解像度にスケールアップし、計算コストを抑えつつ高解像度の視覚認識を改善。VILA-HDモデルは、低解像度でのグローバル画像エンコードを行い、局所的な高解像度領域を選択的に処理。これにより、従来のベースラインと比較して高い性能を発揮し、トークン使用量を最大4.3倍削減。PS3は解像度のスケーリング特性を持ち、複数のベンチマークで優れた効率を達成。新たに提案された4KProベンチマークでは、VILA-HDが他のMLLMを上回る結果を示した。 Comment

元ポスト:

Loading…

商用利用は不可な模様




Paper/Blog Link My Issue
#Pocket #read-later #ICCV Issue Date: 2025-08-03 GPT Summary- BUFFER-Xというゼロショット登録パイプラインを提案し、環境特有のボクセルサイズや探索半径への依存、ドメイン外ロバスト性の低さ、スケール不一致の問題に対処。マルチスケールのパッチベースの記述子生成と階層的インライア検索を用いて、さまざまなシーンでのロバスト性を向上。新しい一般化ベンチマークを用いて、BUFFER-Xが手動調整なしで大幅な一般化を達成することを示した。 Comment

元ポスト:

Loading…

この辺の分野ぱっと見で全然わからない…




Paper/Blog Link My Issue
#Pocket #NLP #Dataset #MultiLingual #CLIP #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-07-30 GPT Summary- MetaCLIP 2を提案し、CLIPをゼロから訓練するための新しいアプローチを示す。英語と非英語データの相互利益を得るための最小限の変更を加え、ゼロショットのImageNet分類で英語専用モデルを上回る性能を達成。多言語ベンチマークでも新たな最先端を記録。 Comment

元ポスト:

Loading…

マルチリンガルなCLIP

openreview: https://openreview.net/forum?id=aYRNINhNGV&referrer=%5Bthe%20profile%20of%20Saining%20Xie%5D(%2Fprofile%3Fid%3D~Saining_Xie2)

HF: https://huggingface.co/facebook/metaclip-2-mt5-worldwide-b32




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #MultiModal #SpeechProcessing #OpenWeight #UMM Issue Date: 2025-07-26 GPT Summary- Ming-Omniは、画像、テキスト、音声、動画を処理できる統一マルチモーダルモデルで、音声生成と画像生成において優れた能力を示す。専用エンコーダを用いて異なるモダリティからトークンを抽出し、MoEアーキテクチャで処理することで、効率的にマルチモーダル入力を融合。音声デコーダと高品質な画像生成を統合し、コンテキストに応じたチャットやテキストから音声への変換、画像編集が可能。Ming-Omniは、GPT-4oに匹敵する初のオープンソースモデルであり、研究と開発を促進するためにコードとモデルの重みを公開。 Comment

image

元ポスト:

Loading…


現在はv1.5も公開されておりさらに性能が向上している模様?

HF: https://huggingface.co/inclusionAI/Ming-Lite-Omni




Paper/Blog Link My Issue
#NaturalLanguageGeneration #Controllable #Pocket #NLP #LanguageModel #VisionLanguageModel Issue Date: 2025-07-25 GPT Summary- CaptionSmithsは、画像キャプショニングモデルがキャプションの特性(長さ、記述性、単語の独自性)を柔軟に制御できる新しいアプローチを提案。人間の注釈なしで特性を定量化し、短いキャプションと長いキャプションの間で補間することで条件付けを実現。実証結果では、出力キャプションの特性をスムーズに変化させ、語彙的整合性を向上させることが示され、誤差を506%削減。コードはGitHubで公開。 Comment

元ポスト:

Loading…

従来はDiscreteに表現されていたcaptioningにおける特性をCondition Caluculatorを導入することでcontinuousなrepresentationによって表現し、Caluculatorに人間によるinput, あるいは表現したいConditionを持つexampleをinputすることで、生成時に反映させるような手法を提案している模様。Conditionで利用するpropertyについては、提案手法ではLength, Descriptive, Uniqueness of Vocabulariesの3つを利用している(が、他のpropertyでも本手法は適用可能と思われる)。このとき、あるpropertyの値を変えることで他のpropertyが変化してしまうと制御ができなくなるため、property間のdecorrelationを実施している。これは、あるproperty Aから別のproperty Bの値を予測し、オリジナルのpropertyの値からsubtractする、といった処理を順次propertyごとに実施することで実現される。Appendixに詳細が記述されている。

image

image




Paper/Blog Link My Issue
#Pocket #read-later #4D Reconstruction Issue Date: 2025-07-17 GPT Summary- 動画から4D空間-時間幾何学を認識・再構築するために、ストリーミング4Dビジュアルジオメトリトランスフォーマーを提案。因果トランスフォーマーアーキテクチャを用いて、過去の情報をキャッシュしながらリアルタイムで4D再構築を実現。効率的なトレーニングのために、双方向ビジュアルジオメトリからの知識蒸留を行い、推論速度を向上させつつ競争力のある性能を維持。スケーラブルな4Dビジョンシステムの実現に寄与。 Comment

元ポスト:

Loading…

モデルのアーキテクチャ
image




Paper/Blog Link My Issue
#Pretraining #Pocket #Transformer #PEFT(Adaptor/LoRA) #ICML #Finetuning Issue Date: 2025-07-14 GPT Summary- PEFT技術を用いたExPLoRAは、事前学習済みビジョントランスフォーマー(ViT)を新しいドメインに適応させる手法で、教師なし事前学習を通じて効率的にファインチューニングを行う。実験では、衛星画像において最先端の結果を達成し、従来のアプローチよりも少ないパラメータで精度を最大8%向上させた。 Comment

元ポスト:

Loading…

これまでドメイン適応する場合にラベル付きデータ+LoRAでFinetuningしていたのを、ラベル無しデータ+継続事前学習の枠組みでやりましょう、という話のようである。
image

手法は下記で、事前学習済みのモデルに対してLoRAを適用し継続事前学習する。ただし、最後尾のLayer、あるいは最初と最後尾のLayerの両方をunfreezeして、trainableにする。また、LoRAはfreezeしたLayerのQ,Vに適用し、それらのLayerのnormalization layerもunfreezeする。最終的に、継続事前学習したモデルにヘッドをconcatしてfinetuningすることで目的のタスクを実行できるようにする。詳細はAlgorithm1を参照のこと。

image

同じモデルで単にLoRAを適用しただけの手法や、既存手法をoutperform

image

画像+ViT系のモデルだけで実験されているように見えるが、LLMとかにも応用可能だと思われる。




Paper/Blog Link My Issue
#Pocket #NLP #Dataset #Evaluation #Selected Papers/Blogs #VisionLanguageModel #KeyPoint Notes Issue Date: 2025-07-14 GPT Summary- VisualPuzzlesは、専門知識への依存を最小限に抑えた視覚的推論を評価する新しいベンチマークで、5つの推論カテゴリーから成る多様な質問を含む。実験により、VisualPuzzlesはドメイン特有の知識を大幅に減少させ、より複雑な推論を要求することが示された。最先端のマルチモーダルモデルは、VisualPuzzlesで人間のパフォーマンスに遅れをとり、知識集約型タスクでの成功が推論タスクでの成功に必ずしもつながらないことが明らかになった。また、モデルのサイズとパフォーマンスの間に明確な相関は見られず、VisualPuzzlesは事実の記憶を超えた推論能力を評価する新たな視点を提供する。 Comment

元ポスト:

Loading…

画像はPJページより引用。新たにVisual Puzzleと呼ばれる特定のドメイン知識がほとんど必要ないマルチモーダルなreasoningベンチマークを構築。o1ですら、人間の5th percentileに満たない性能とのこと。

Chinese Civil Service Examination中のlogical reasoning questionを手作業で翻訳したとのこと。

image

データセットの統計量は以下で、合計1168問で、難易度は3段階に分かれている模様。
image

project page: https://neulab.github.io/VisualPuzzles/

Gemini 3 Proはo4-mini, o3などにスコアで負けているとのこと:

Loading…


興味深い。マルチモーダルの推論能力に関してはまだまだ改善の余地がある。



Paper/Blog Link My Issue
#Pocket #NLP #MultiModal #Reasoning #OpenWeight #VisionLanguageModel Issue Date: 2025-07-14 GPT Summary- Kimi-VLは、効率的なオープンソースのMixture-of-Expertsビジョン・ランゲージモデルであり、2.8Bパラメータの言語デコーダーを活性化して高度なマルチモーダル推論を実現。マルチターンエージェントタスクや大学レベルの画像・動画理解において優れた性能を示し、最先端のVLMと競争。128Kの拡張コンテキストウィンドウを持ち、長い入力を処理可能。Kimi-VL-Thinking-2506は、長期的推論能力を強化するために教師ありファインチューニングと強化学習を用いて開発され、堅牢な一般能力を獲得。コードは公開されている。 Comment

- [Paper Note] Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset, Ke Wang+, NeurIPS'24 Datasets and Benchmarks Track
での性能(Vision+テキストの数学の問題)。他の巨大なモデルと比べ2.8BのActivation paramsで高い性能を達成

image

その他のベンチマークでも高い性能を獲得

image

モデルのアーキテクチャ。MoonViT (Image Encoder, 1Dのpatchをinput, 様々な解像度のサポート, FlashAttention, SigLIP-SO-400Mを継続事前学習, RoPEを採用) + Linear Projector + MoE Language Decoderの構成
image

学習のパイプライン。ViTの事前学習ではSigLIP loss (contrastive lossの亜種)とcaption生成のcross-entropy lossを採用している。joint cooldown stageにおいては、高品質なQAデータを合成することで実験的に大幅に性能が向上することを確認したので、それを採用しているとのこと。optimizerは
- [Paper Note] Muon is Scalable for LLM Training, Jingyuan Liu+, arXiv'25

image

image

post-trainingにおけるRLでは以下の目的関数を用いており、RLVRを用いつつ、現在のポリシーモデルをreferenceとし更新をするような目的関数になっている。curriculum sampling, prioritize samplingをdifficulty labelに基づいて実施している。
image

image




Paper/Blog Link My Issue
#Pocket #NLP #ReinforcementLearning #MultiModal #Reasoning #On-Policy #VisionLanguageModel Issue Date: 2025-07-12 GPT Summary- 強化学習における検証可能な報酬(RLVR)は、LLMsに多段階推論能力を与えるが、マルチモーダル推論では最適な性能を発揮できない。視覚入力の認識が主なエラー原因であるため、知覚を意識したポリシー最適化(PAPO)を提案。PAPOはGRPOの拡張で、内部監視信号から学習し、追加のデータや外部報酬に依存しない。KLダイバージェンス項を導入し、マルチモーダルベンチマークで4.4%の改善、視覚依存タスクでは8.0%の改善を達成。知覚エラーも30.5%減少し、PAPOの効果を示す。研究は視覚に基づく推論を促進する新しいRLフレームワークの基盤を築く。 Comment

元ポスト:

Loading…

VLMにおいて、画像をマスクした場合のポリシーモデルの出力と、画像をマスクしない場合のポリシーモデルの出力のKL Divergenceを最大化することで、画像の認知能力が向上し性能向上するよ、みたいな話な模様。
image

image

image




Paper/Blog Link My Issue
#Embeddings #Pocket #NLP #Dataset #Evaluation #MultiModal #ICLR #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-09 GPT Summary- 本研究では、ユニバーサルマルチモーダル埋め込みモデルの構築を目指し、二つの貢献を行った。第一に、MMEB(Massive Multimodal Embedding Benchmark)を提案し、36のデータセットを用いて分類や視覚的質問応答などのメタタスクを網羅した。第二に、VLM2Vecというコントラストトレーニングフレームワークを開発し、視覚-言語モデルを埋め込みモデルに変換する手法を示した。実験結果は、VLM2Vecが既存のモデルに対して10%から20%の性能向上を達成することを示し、VLMの強力な埋め込み能力を証明した。 Comment

openreview: https://openreview.net/forum?id=TE0KOzWYAF




Paper/Blog Link My Issue
#Embeddings #InformationRetrieval #Pocket #NLP #LanguageModel #MultiModal #RAG(RetrievalAugmentedGeneration) #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-09 GPT Summary- VLM2Vec-V2という統一フレームワークを提案し、テキスト、画像、動画、視覚文書を含む多様な視覚形式の埋め込みを学習。新たにMMEB-V2ベンチマークを導入し、動画検索や視覚文書検索など5つのタスクを追加。広範な実験により、VLM2Vec-V2は新タスクで強力なパフォーマンスを示し、従来の画像ベンチマークでも改善を達成。研究はマルチモーダル埋め込みモデルの一般化可能性に関する洞察を提供し、スケーラブルな表現学習の基盤を築く。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks, Ziyan Jiang+, ICLR'25

Video Classification, Visual Document Retrievalなどのモダリティも含まれている。




Paper/Blog Link My Issue
#MachineLearning #Pocket #NLP #LanguageModel #Transformer #MultiModal #Architecture #VideoGeneration/Understandings #VisionLanguageModel Issue Date: 2025-07-06 GPT Summary- エネルギーベースのトランスフォーマー(EBTs)を用いて、無監督学習から思考を学ぶモデルを提案。EBTsは、入力と候補予測の互換性を検証し、エネルギー最小化を通じて予測を行う。トレーニング中に従来のアプローチよりも高いスケーリング率を達成し、言語タスクでの性能を29%向上させ、画像のノイズ除去でも優れた結果を示す。EBTsは一般化能力が高く、モデルの学習能力と思考能力を向上させる新しいパラダイムである。 Comment

元ポスト:

Loading…

Project Page: https://energy-based-transformers.github.io

First Authorの方による解説ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #DiffusionModel #2D (Image) #3D (Scene) #FeatureMatching Issue Date: 2025-07-04 GPT Summary- 新しい二段階フレームワーク「Lift to Match (L2M)」を提案し、2D画像を3D空間に持ち上げることで、特徴マッチングの一般化を向上させる。第一段階で3D特徴エンコーダを学習し、第二段階で特徴デコーダを学習することで、堅牢な特徴マッチングを実現。実験により、ゼロショット評価ベンチマークで優れた一般化性能を示した。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pretraining #Pocket #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #MultiModal #RLHF #Reasoning #LongSequence #mid-training #RewardHacking #PostTraining #CurriculumLearning #RLVR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-03 GPT Summary- 視覚言語モデルGLM-4.1V-Thinkingを発表し、推論中心のトレーニングフレームワークを開発。強力な視覚基盤モデルを構築し、カリキュラムサンプリングを用いた強化学習で多様なタスクの能力を向上。28のベンチマークで最先端のパフォーマンスを達成し、特に難しいタスクで競争力のある結果を示す。モデルはオープンソースとして公開。 Comment

元ポスト:

Loading…

Qwen2.5-VLよりも性能が良いVLM
image

アーキテクチャはこちら。が、pretraining(データのフィルタリング, マルチモーダル→long context継続事前学習)->SFT(cold startへの対処, reasoning能力の獲得)->RL(RLVRとRLHFの併用によるパフォーマンス向上とAlignment, RewardHackingへの対処,curriculum sampling)など、全体の学習パイプラインの細かいテクニックの積み重ねで高い性能が獲得されていると考えられる。
image




Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Evaluation #ACL #VisionLanguageModel #Findings Issue Date: 2025-07-02 GPT Summary- 内部世界モデル(WMs)はエージェントの理解と予測を支えるが、最近の大規模ビジョン・ランゲージモデル(VLMs)の基本的なWM能力に関する評価は不足している。本研究では、知覚と予測を評価する二段階のフレームワークを提案し、WM-ABenchというベンチマークを導入。15のVLMsに対する660の実験で、これらのモデルが基本的なWM能力に顕著な制限を示し、特に運動軌道の識別においてほぼランダムな精度であることが明らかになった。VLMsと人間のWMとの間には重要なギャップが存在する。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Evaluation #MultiModal Issue Date: 2025-07-02 GPT Summary- MARBLEという新しいマルチモーダル推論ベンチマークを提案し、MLLMsの複雑な推論能力を評価。MARBLEは、空間的・視覚的・物理的制約下での多段階計画を必要とするM-PortalとM-Cubeの2つのタスクから成る。現在のMLLMsは低いパフォーマンスを示し、視覚的入力からの情報抽出においても失敗が見られる。これにより、次世代モデルの推論能力向上が期待される。 Comment

元ポスト:

Loading…

Portal2を使った新たなベンチマーク。筆者は昔このゲームを少しだけプレイしたことがあるが、普通に難しかった記憶がある😅

細かいが表中のGPT-o3は正しくはo3だと思われる。
時間がなくて全然しっかりと読めていないが、reasoning effortやthinkingモードはどのように設定して評価したのだろうか。
image
image




Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Zero/Few/ManyShotPrompting #MultiModal #In-ContextLearning Issue Date: 2025-07-01 GPT Summary- マルチモーダルインコンテキスト学習(ICL)は医療分野での可能性があるが、十分に探求されていない。SMMILEという医療タスク向けの初のマルチモーダルICLベンチマークを導入し、111の問題を含む。15のMLLMの評価で、医療タスクにおけるICL能力が中程度から低いことが示された。ICLはSMMILEで平均8%、SMMILE++で9.4%の改善をもたらし、無関係な例がパフォーマンスを最大9.5%低下させることも確認。例の順序による最近性バイアスがパフォーマンス向上に寄与することも明らかになった。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #Pocket #OpenWeight #OpenSource #Selected Papers/Blogs #ICCV #Encoder #Backbone Issue Date: 2025-06-26 GPT Summary- OpenVisionは、完全にオープンでコスト効果の高いビジョンエンコーダーのファミリーを提案し、CLIPと同等以上の性能を発揮します。既存の研究を基に構築され、マルチモーダルモデルの進展に実用的な利点を示します。5.9Mから632.1Mパラメータのエンコーダーを提供し、容量と効率の柔軟なトレードオフを実現します。 Comment

元ポスト:

Loading…

v2へアップデート:

Loading…


事前学習時にtext, image encoderのcontrastive lossで学習していたが、text encoderを無くしimage encoderに入力されたimageからcaptionを生成するcaption lossのみにすることで性能を落とすことなく効率を改善

テクニカルペーパーが出た模様

- [Paper Note] OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning, Yanqing Liu+, arXiv'25

HF: https://huggingface.co/collections/UCSC-VLAA/openvision-681a4c27ee1f66411b4ae919
pj page: https://ucsc-vlaa.github.io/OpenVision/

CLIP, SigLIPとは異なり完全にオープンなVision Encoder
image

v2の解説:

Loading…



Paper/Blog Link My Issue
#Analysis #Pocket #pretrained-LM #Scaling Laws #TMLR Issue Date: 2025-06-26 GPT Summary- 事前学習済みモデルのファインチューニングが分布外一般化タスクにおいて重要であることを示し、モデルのサイズやデータセットの選択がOOD精度と信頼性キャリブレーションに与える影響を調査。120,000時間以上の実験を通じて、大きなモデルと大規模なデータセットがOODパフォーマンスとキャリブレーションを改善することを発見。これは、従来の研究と対照的であり、事前学習済みモデルの選択の重要性を強調している。 Comment

OpenReview: https://openreview.net/forum?id=tYjoHjShxF

元ポスト:

Loading…



Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #Transformer #LongSequence #SSM (StateSpaceModel) #VideoGeneration/Understandings #ICCV Issue Date: 2025-06-26 GPT Summary- VAMBAモデルは、Mamba-2ブロックを用いてビデオトークンを線形にエンコードし、トークン削減なしで1024フレームを処理可能。これにより、GPUメモリ使用量を50%削減し、トレーニング速度を倍増。1時間のビデオ理解ベンチマークLVBenchで4.3%の精度向上を達成し、様々なビデオ理解タスクで優れた性能を示す。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #MultiModal #Tokenizer Issue Date: 2025-06-24 GPT Summary- 本論文では、視覚理解と生成を統一するマルチモーダルフレームワークTarを提案。Text-Aligned Tokenizer(TA-Tok)を用いて画像を離散トークンに変換し、視覚とテキストを統一空間に統合。スケール適応型のエンコーディングとデコーディングを導入し、高忠実度の視覚出力を生成。迅速な自己回帰モデルと拡散ベースのモデルを用いたデトークナイザーを活用し、視覚理解と生成の改善を実現。実験結果では、Tarが既存手法と同等以上の性能を示し、効率的なトレーニングを達成。 Comment

元ポスト:

Loading…

text modalityとvision modalityを共通の空間で表現する
image

Visual Understanding/Generationのベンチで全体的に高い性能を達成
image




Paper/Blog Link My Issue
#Embeddings #Pocket #NLP #RepresentationLearning #MultiModal Issue Date: 2025-06-24 GPT Summary- 3.8億パラメータのマルチモーダル埋め込みモデル「jina-embeddings-v4」を提案。新しいアーキテクチャにより、クエリベースの情報検索やクロスモーダルの類似性検索を最適化。タスク特化型のLoRAアダプターを組み込み、視覚的に豊かなコンテンツの処理に優れた性能を発揮。新しいベンチマーク「Jina-VDR」も導入。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #Dataset #VideoGeneration/Understandings Issue Date: 2025-06-23 GPT Summary- 高品質な一人称視点のビデオデータセット「Sekai」を紹介。750の都市から5,000時間以上のビデオを収集し、位置やシーンなどの豊富な注釈を付与。データセットを用いてインタラクティブなビデオ世界探査モデル「YUME」をトレーニング。Sekaiはビデオ生成と世界探査に貢献することが期待される。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #Transformer #CVPR #read-later #Selected Papers/Blogs #3D Reconstruction #Backbone Issue Date: 2025-06-22 GPT Summary- VGGTは、シーンの主要な3D属性を複数のビューから直接推測するフィードフォワードニューラルネットワークであり、3Dコンピュータビジョンの分野において新たな進展を示します。このアプローチは効率的で、1秒未満で画像を再構築し、複数の3Dタスクで最先端の結果を達成します。また、VGGTを特徴バックボーンとして使用することで、下流タスクの性能が大幅に向上することが示されています。コードは公開されています。 Comment

元ポスト:

Loading…

様々な研究のBackboneとして活用されている。




Paper/Blog Link My Issue
#Pocket #Transformer #DiffusionModel #VideoGeneration/Understandings Issue Date: 2025-06-13 GPT Summary- Seedance 1.0は、動画生成の基盤モデルであり、プロンプト遵守、動きの妥当性、視覚的品質を同時に向上させることを目指しています。主な技術改善として、意味のある動画キャプションを用いたデータキュレーション、マルチショット生成のサポート、動画特有のRLHFを活用したファインチューニング、推論速度の約10倍向上を実現する蒸留戦略が挙げられます。Seedance 1.0は、1080p解像度の5秒間の動画を41.4秒で生成し、高品質かつ迅速な動画生成を実現しています。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #DiffusionModel #CVPR Issue Date: 2025-06-06 GPT Summary- オムニマット手法は、ビデオを意味的に有意義な層に分解することを目指すが、既存手法は静的背景や正確なポーズを前提としており、これが破られると性能が低下する。新たに提案する生成的層状ビデオ分解フレームワークは、静止シーンや深度情報を必要とせず、動的領域の補完を行う。核心的なアイデアは、ビデオ拡散モデルを訓練し、シーン効果を特定・除去することであり、これにより高品質な分解と編集結果を実現する。 Comment

元ポスト:

Loading…

ざっくりしか読めていないが、Inputとして動画とmask(白:残す, 黒:消す, グレー: 不確定なオブジェクトやエフェクトが含まれるエリア≒背景?)を受け取り、Casperと呼ばれるモデルでオブジェクトを消し消した部分をinpaintingすることで、layerっぽいものを作成するっぽい?Casperはの3組データでFinetuningしている模様。

project pageがサンプルもありとてもわかりやすい: https://gen-omnimatte.github.io




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #MultiModal #RLVR #DataMixture Issue Date: 2025-06-05 GPT Summary- 検証可能な報酬を用いた強化学習(RLVR)をマルチモーダルLLMsに適用するためのポストトレーニングフレームワークを提案。異なる視覚と言語の問題を含むデータセットをキュレーションし、最適なデータ混合戦略を導入。実験により、提案した戦略がMLLMの推論能力を大幅に向上させることを示し、分布外ベンチマークで平均5.24%の精度向上を達成。 Comment

元ポスト:

Loading…

マルチモーダルな設定でRLVRを適用すると、すべてのデータセットを学習に利用する場合より、特定のタスクのみのデータで学習した方が当該タスクでは性能が高くなったり(つまりデータが多ければ多いほど良いわけでは無い)、特定のデータをablationするとOODに対する予測性能が改善したりするなど、データ間で干渉が起きて敵対的になってしまうような現象が起きる。このことから、どのように適切にデータを混合できるか?という戦略の必要性が浮き彫りになり、モデルベースなMixture戦略(どうやらデータの混合分布から学習後の性能を予測するモデルな模様)の性能がuniformにmixするよりも高い性能を示した、みたいな話らしい。




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #MultiModal #DiffusionModel Issue Date: 2025-05-24 GPT Summary- LaViDaは、離散拡散モデル(DM)を基にしたビジョン・ランゲージモデル(VLM)で、高速な推論と制御可能な生成を実現。新技術を取り入れ、マルチモーダルタスクにおいてAR VLMと競争力のある性能を達成。COCOキャプショニングで速度向上と性能改善を示し、AR VLMの強力な代替手段であることを証明。 Comment

元ポスト:

Loading…

Diffusion Modelの波が来た

同程度のサイズのARモデルをoutperform [^1]
image

[^1]:ただし、これが本当にDiffusion Modelを使ったことによる恩恵なのかはまだ論文を読んでいないのでわからない。必要になったら読む。ただ、Physics of Language Modelのように、完全にコントロールされたデータで異なるアーキテクチャを比較しないとその辺はわからなそうではある。




Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #SyntheticData #ACL #DPO #PostTraining #Probing Issue Date: 2025-05-18 GPT Summary- Vision Language Models (VLMs)は視覚的算術に苦労しているが、CogAlignという新しいポストトレーニング戦略を提案し、VLMの性能を向上させる。CogAlignは視覚的変換の不変特性を認識するように訓練し、CHOCOLATEで4.6%、MATH-VISIONで2.9%の性能向上を実現し、トレーニングデータを60%削減。これにより、基本的な視覚的算術能力の向上と下流タスクへの転送の効果が示された。 Comment

元ポスト:

Loading…

既存のLLM (proprietary, openweightそれぞれ)が、シンプルなvisual arithmeticタスク(e.g., 線分の長さ比較, Chart上のdotの理解)などの性能が低いことを明らかにし、
image
それらの原因を(1)Vision Encoderのrepresentationと(2)Vision EncoderをFreezeした上でのText Decoderのfinetuningで分析した。その結果、(1)ではいくつかのタスクでlinear layerのprobingでは高い性能が達成できないことがわかった。このことから、Vision Encoderによるrepresentationがタスクに関する情報を内包できていないか、タスクに関する情報は内包しているがlinear layerではそれを十分に可能できない可能性が示唆された。
image

これをさらに分析するために(2)を実施したところ、Vision Encoderをfreezeしていてもfinetuningによりquery stringに関わらず高い性能を獲得できることが示された。このことから、Vision Encoder側のrepresentationの問題ではなく、Text Decoderと側でデコードする際にFinetuningしないとうまく活用できないことが判明した。
image

手法のところはまだ全然しっかり読めていないのだが、画像に関する特定の属性に関するクエリと回答のペアを合成し、DPOすることで、zero-shotの性能が向上する、という感じっぽい?
image
image




Paper/Blog Link My Issue
#Embeddings #Analysis #Pocket #NLP #LanguageModel #RepresentationLearning #Supervised-FineTuning (SFT) #Chain-of-Thought #SSM (StateSpaceModel) #ICML #PostTraining #read-later #CompressionValleys Issue Date: 2025-05-04 GPT Summary- 中間層の埋め込みが最終層を超えるパフォーマンスを示すことを分析し、情報理論や幾何学に基づくメトリクスを提案。32のテキスト埋め込みタスクで中間層が強力な特徴を提供することを実証し、AIシステムの最適化における中間層の重要性を強調。 Comment

現代の代表的な言語モデルのアーキテクチャ(decoder-only model, encoder-only model, SSM)について、最終層のembeddingよりも中間層のembeddingの方がdownstream task(MTEBの32Taskの平均)に、一貫して(ただし、これはMTEBの平均で見たらそうという話であり、個別のタスクで一貫して強いかは読んでみないとわからない)強いことを示した研究。

このこと自体は経験的に知られているのであまり驚きではないのだが(ただ、SSMでもそうなのか、というのと、一貫して強いというのは興味深い)、この研究はMatrix Based Entropyと呼ばれるものに基づいて、これらを分析するための様々な指標を定義し理論的な根拠を示し、Autoregressiveな学習よりもMasked Languageによる学習の方がこのようなMiddle Layerのボトルネックが緩和され、同様のボトルネックが画像の場合でも起きることを示し、CoTデータを用いたFinetuningについても分析している模様。この辺の貢献が非常に大きいと思われるのでここを理解することが重要だと思われる。あとで読む。

image

openreview: https://openreview.net/forum?id=WGXb7UdvTX




Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Evaluation #MultiModal #ICLR #ComputerUse Issue Date: 2025-04-18 GPT Summary- 本研究では、116のプログラムタスクに対して報酬信号を提供する「AndroidWorld」という完全なAndroid環境を提案。これにより、自然言語で表現されたタスクを動的に構築し、現実的なベンチマークを実現。初期結果では、最良のエージェントが30.6%のタスクを完了し、さらなる研究の余地が示された。また、デスクトップWebエージェントのAndroid適応が効果薄であることが明らかになり、クロスプラットフォームエージェントの実現にはさらなる研究が必要であることが示唆された。タスクの変動がエージェントのパフォーマンスに影響を与えることも確認された。 Comment

Android環境でのPhone Useのベンチマーク




Paper/Blog Link My Issue
#Pocket #Transformer #FoundationModel #OpenWeight #CVPR Issue Date: 2025-04-11 GPT Summary- 視覚基盤モデル(VFM)をマルチティーチャー蒸留を通じて統合するアプローチAM-RADIOを提案。これにより、ゼロショットの視覚-言語理解やピクセルレベルの理解を向上させ、個々のモデルの性能を超える。新しいアーキテクチャE-RADIOは、ティーチャーモデルよりも少なくとも7倍速い。包括的なベンチマークで様々な下流タスクを評価。 Comment

元ポスト:

Loading…

vision系のfoundation modelはそれぞれ異なる目的関数で訓練されてきており(CLIPは対照学習 Learning Transferable Visual Models From Natural Language Supervision, Radford+, OpenAI, ICML'21 , DINOv2は自己教師あり学習 DINOv2: Learning Robust Visual Features without Supervision, Maxime Oquab+, TMLR'24 , SAMはsegmentation Segment Anything, Alexander Kirillov+, arXiv'23 )それぞれ別の能力を持ってたが、それらを一個のモデルに蒸留しました、という話らしい
image




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #MultiModal #SpeechProcessing #OpenWeight #Video Issue Date: 2025-03-31 GPT Summary- マルチモーダルモデル「Qwen2.5-Omni」は、テキスト、画像、音声、動画を認識し、ストリーミング方式で自然な音声応答を生成する。音声と視覚エンコーダはブロック処理を用い、TMRoPEによる新しい位置埋め込みで音声と動画の同期を実現。Thinker-Talkerアーキテクチャにより、テキスト生成と音声出力を干渉なく行う。Qwen2.5-Omniは、エンドツーエンドで訓練され、音声指示に対する性能がテキスト入力と同等で、ストリーミングTalkerは既存手法を上回る自然さを持つ。 Comment

Qwen TeamによるマルチモーダルLLM。テキスト、画像、動画音声をinputとして受け取り、テキスト、音声をoutputする。
image

weight: https://huggingface.co/collections/Qwen/qwen25-omni-67de1e5f0f9464dc6314b36e

元ポスト: https://www.linkedin.com/posts/niels-rogge-a3b7a3127_alibabas-qwen-team-has-done-it-again-this-activity-7311036679627132929-HUqy?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #DiffusionModel #NeurIPS Issue Date: 2025-03-02 GPT Summary- LLaDAは、自己回帰モデル(ARMs)に代わる拡散モデルであり、ゼロから訓練され、データマスキングを通じて分布をモデル化。広範なベンチマークで強力なスケーラビリティを示し、自己構築したARMベースラインを上回る。特に、LLaDA 8Bは文脈内学習や指示追従能力に優れ、逆詩の完成タスクでGPT-4oを超える性能を発揮。拡散モデルがARMsの実行可能な代替手段であることを示す。 Comment

元ポスト:

Loading…

参考:

Loading…

openreview(ICLR'25): https://openreview.net/forum?id=W2tWu0aikL

pj page: https://ml-gsai.github.io/LLaDA-demo/

openreview(NeurIPS'25): https://openreview.net/forum?id=KnqiC0znVF




Paper/Blog Link My Issue
#Analysis #MachineLearning #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #ICML #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2025-01-30 GPT Summary- SFTとRLの一般化能力の違いを研究し、GeneralPointsとV-IRLを用いて評価。RLはルールベースのテキストと視覚変種に対して優れた一般化を示す一方、SFTは訓練データを記憶し分布外シナリオに苦労。RLは視覚認識能力を向上させるが、SFTはRL訓練に不可欠であり、出力形式を安定させることで性能向上を促進。これらの結果は、複雑なマルチモーダルタスクにおけるRLの一般化能力を示す。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=dYur3yabMj&referrer=%5Bthe%20profile%20of%20Yi%20Ma%5D(%2Fprofile%3Fid%3D~Yi_Ma4)




Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Evaluation #Selected Papers/Blogs Issue Date: 2025-01-25 GPT Summary- 「人類の最後の試験(HLE)」を導入し、LLMの能力を測定する新しいマルチモーダルベンチマークを提案。HLEは2,500の質問から成り、数学や自然科学など広範な科目をカバー。専門家によって開発され、自動採点が可能な形式で、インターネット検索では迅速に回答できない。最先端のLLMはHLEに対して低い精度を示し、現在のLLMの能力と専門家の知識との間に大きなギャップがあることを明らかに。HLEは公開され、研究や政策立案に役立てられる。 Comment

o1, DeepSeekR1の正解率が10%未満の新たなベンチマーク




Paper/Blog Link My Issue
#Pocket #NLP #Dataset #Supervised-FineTuning (SFT) #MultiModal #Reasoning #NeurIPS #VisionLanguageModel #TreeSearch Issue Date: 2024-12-31 GPT Summary- 本研究では、MLLMを用いて質問解決のための推論ステップを学習する新手法CoMCTSを提案。集団学習を活用し、複数モデルの知識で効果的な推論経路を探索。マルチモーダルデータセットMulberry-260kを構築し、モデルMulberryを訓練。実験により提案手法の優位性を確認。

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Transformer #MultiModal #SpeechProcessing #Architecture #TMLR #UMM Issue Date: 2024-11-12 GPT Summary- 大規模言語モデル(LLMs)のマルチモーダル処理を効率化するために、Mixture-of-Transformers(MoT)を提案。MoTは計算コストを削減し、モダリティごとにパラメータを分離して特化した処理を実現。Chameleon 7B設定では、55.8%のFLOPsで密なベースラインに匹敵する性能を示し、音声を含む場合も37.2%のFLOPsで同様の結果を達成。さらに、Transfusion設定では、7BのMoTモデルが密なベースラインの画像性能に対してFLOPsの3分の1で匹敵し、760Mのモデルは主要な画像生成指標で上回る結果を得た。MoTは実用的な利点も示し、画像品質を47.2%、テキスト品質を75.6%の経過時間で達成。

Paper/Blog Link My Issue
#Pocket #CVPR #2D (Image) #3D (Scene) #4D (Video) #DepthEstimation #MotionEstimation Issue Date: 2025-12-21 GPT Summary- 本研究では、動画における密な長距離ピクセル運動の回復の難しさを解決するため、3D空間における点の軌跡を推定する手法SpatialTrackerを提案。単眼深度推定器を用いて2Dピクセルを3Dに変換し、トランスフォーマーで3D軌跡を推定。剛体制約を活用しつつ、ピクセルをクラスタリングする剛性埋め込みを同時に学習。評価の結果、特に平面外回転のシナリオで最先端の追跡性能を達成した。

Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #NLP #Dataset #InstructionTuning #MultiModal #TMLR #Selected Papers/Blogs #VisionLanguageModel #2D (Image) Issue Date: 2025-12-02 GPT Summary- Mantisモデルは、721Kの複数画像指示データを用いた指示調整により、複数画像の視覚言語タスクで最先端の性能を達成。特に、Idefics2-8Bを平均13ポイント上回り、一般化能力も示す。大規模な事前学習に依存せず、低コストの指示調整で複数画像能力を向上できることを示した。 Comment

openreview: https://openreview.net/forum?id=skLtdUVaJa

元ポスト:

Loading…



Paper/Blog Link My Issue
#EfficiencyImprovement #Pocket #SyntheticData #2D (Image) #DepthEstimation Issue Date: 2025-11-18 GPT Summary- Depth Anything V2を提案し、合成画像の使用、教師モデルの能力拡大、擬似ラベル付き実画像を用いた学生モデルの教育を通じて、より細かく堅牢な深度推定を実現。最新のStable Diffusionモデルと比較して、効率的かつ正確であり、異なるスケールのモデルを提供。多様なシーンを考慮した評価ベンチマークも構築。 Comment

pj page: https://depth-anything-v2.github.io

openreview: https://openreview.net/forum?id=cFTi3gLJ1X&referrer=%5Bthe%20profile%20of%20Hengshuang%20Zhao%5D(%2Fprofile%3Fid%3D~Hengshuang_Zhao2)




Paper/Blog Link My Issue
#Pocket #DataAugmentation #FoundationModel #CVPR #2D (Image) #DepthEstimation Issue Date: 2025-11-18 GPT Summary- Depth Anythingは、堅牢な単眼深度推定のための基盤モデルを提案し、6200万の未ラベルデータを自動的に注釈付けしてデータセットを拡大。データ拡張と補助的な監視を用いてモデルの一般化能力を向上させ、ゼロショット評価で優れた結果を示した。NYUv2およびKITTIでファインチューニングし、最先端の性能を達成。モデルは公開されている。 Comment

日本語解説: https://computray.com/98/depth-anything/




Paper/Blog Link My Issue
#Analysis #Pocket #NLP #Zero/Few/ManyShotPrompting #MultiModal #In-ContextLearning #VisionLanguageModel Issue Date: 2025-10-27 GPT Summary- 本研究では、マルチモーダル基盤モデルの少数ショットから多数ショットのインコンテキスト学習(ICL)の性能を評価し、2,000のデモンストレーション例を用いることで、すべてのデータセットにおいて大幅な改善を観察しました。特に、Gemini 1.5 Proは多くのデータセットで対数的に性能が向上し、オープンウェイトモデルはデモンストレーション例からの恩恵を受けないことが明らかになりました。また、複数のクエリをバッチ処理することで、ゼロショットおよび多数ショットICLの性能が向上し、コストとレイテンシが削減されました。最終的に、GPT-4oとGemini 1.5 Proは類似のゼロショット性能を示しつつ、Gemini 1.5 Proはより早く学習することが確認されました。多数ショットICLは新しいアプリケーションへの適応を効率化する可能性を示唆しています。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Analysis #Pocket #DiffusionModel #TextToImageGeneration #CVPR #ImageSynthesis #GeometryUnderstanding Issue Date: 2025-10-24 GPT Summary- 生成モデルはリアルな画像を生成するが、幾何学的特徴において実際の画像と異なることを示す。事前に選別された生成画像を用いて、幾何学的特性に基づく分類器が生成画像を高精度で識別できることを確認。3つの分類器を使用し、画像の透視場、線、物体と影の関係を分析。これにより、生成画像の検出精度が向上し、現在の生成器は実際の画像の幾何学的特性を再現できないと結論付ける。 Comment

pj page: https://projective-geometry.github.io/




Paper/Blog Link My Issue
#Survey #Pocket #DiffusionModel #TMLR #VideoGeneration/Understandings #4D (Video) Issue Date: 2025-10-17 GPT Summary- 拡散生成モデルは高品質な動画コンテンツの生成において重要な技術であり、本調査はそのアーキテクチャや時間的ダイナミクスのモデリングを包括的にまとめている。テキストから動画への生成の進展や、モデルの分類法、評価指標についても議論し、現在の課題や将来の方向性を考察している。研究者や実務者にとって有益なリソースを提供することを目指している。

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #MultiModal #OpenWeight #MoE(Mixture-of-Experts) #VisionLanguageModel Issue Date: 2025-10-07 GPT Summary- Ariaは、オープンなマルチモーダルネイティブAIモデルであり、視覚とテキストのタスクにおいて高い性能を発揮します。3.9Bの視覚トークンと3.5Bのテキストトークンを持つエキスパートの混合モデルで、既存のプロプライエタリモデルを上回ります。言語理解やマルチモーダル理解を強化する4段階のパイプラインで事前トレーニングされ、モデルウェイトとコードベースはオープンソースとして提供されます。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/rhymes-ai/Aria

提案された当時2024年10月時点で、VisionとText Understanding双方でに強い初めてのモデルで、初のマルチモーダルMoEモデルで(当時まだ話題になっていなかったDeepSeek-V2アーキテクチャを採用)、LongVideoのUnderstanidinpで当時の最高性能であったとのこと。




Paper/Blog Link My Issue
#Pocket #PEFT(Adaptor/LoRA) #ECCV Issue Date: 2025-09-16 GPT Summary- 画像スタイライズにおいて、LoRAを用いてスタイルとコンテンツを暗黙的に分離する手法B-LoRAを提案。特定のブロックのLoRA重みを共同で学習することで、独立したトレーニングでは達成できない分離を実現。これによりスタイル操作が改善され、過学習の問題を克服。トレーニング後は、独立したコンポーネントとして様々なスタイライズタスクに利用可能。 Comment

pj page: https://b-lora.github.io/B-LoRA/




Paper/Blog Link My Issue
#Pocket #NLP #Dataset #Evaluation #DiffusionModel #read-later #Selected Papers/Blogs #UMM Issue Date: 2025-09-11 GPT Summary- 拡散モデルに大規模言語モデル(LLM)を組み込む「効率的な大規模言語モデルアダプター(ELLA)」を提案。これにより、複雑なプロンプトの整合性を向上させ、意味的特徴を適応させる新しいモジュール「時間ステップ認識セマンティックコネクタ(TSC)」を導入。ELLAは密なプロンプトに対する性能が最先端手法を上回ることを実験で示し、特に複数のオブジェクト構成において優位性を発揮。 Comment

pj page: https://ella-diffusion.github.io




Paper/Blog Link My Issue
#Analysis #Pocket #Prompting Issue Date: 2025-08-25 GPT Summary- オンライン実験で1893人の参加者を対象に、DALL-E 2とDALL-E 3のプロンプトの重要性の変化を調査。DALL-E 3を使用した参加者は、DALL-E 2よりも高いパフォーマンスを示し、これは技術的能力の向上とプロンプトの質の変化によるもの。特に、DALL-E 3の参加者はより長く、意味的に類似したプロンプトを作成。プロンプト修正機能を持つDALL-E 3はさらに高いパフォーマンスを示したが、その利点は減少。結果として、モデルの進化に伴い、プロンプトも適応されることが示唆される。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pretraining #Pocket #MultiModal #FoundationModel #CVPR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-08-23 GPT Summary- 大規模視覚-言語基盤モデル(InternVL)は、60億パラメータで設計され、LLMと整合させるためにウェブ規模の画像-テキストデータを使用。視覚認知タスクやゼロショット分類、検索など32のベンチマークで最先端の性能を達成し、マルチモーダル対話システムの構築に寄与。ViT-22Bの代替として強力な視覚能力を持つ。コードとモデルは公開されている。 Comment

既存のResNetのようなSupervised pretrainingに基づくモデル、CLIPのようなcontrastive pretrainingに基づくモデルに対して、text encoder部分をLLMに置き換えて、contrastive learningとgenerativeタスクによる学習を組み合わせたパラダイムを提案。
image

InternVLのアーキテクチャは下記で、3 stageの学習で構成される。最初にimage text pairをcontrastive learningし学習し、続いてモデルのパラメータはfreezeしimage text retrievalタスク等でモダリティ間の変換を担う最終的にQlLlama(multilingual性能を高めたllama)をvision-languageモダリティを繋ぐミドルウェアのように捉え、Vicunaをテキストデコーダとして接続してgenerative cossで学習する、みたいなアーキテクチャの模様(斜め読みなので少し違う可能性あり

image

現在のVLMの主流であるvision encoderとLLMをadapterで接続する方式はここからかなりシンプルになっていることが伺える。




Paper/Blog Link My Issue
#Pocket #NLP #Dataset #QuestionAnswering #Evaluation #MultiModal #MultiLingual #VisionLanguageModel #Cultural Issue Date: 2025-08-18 GPT Summary- CVQAは、文化的に多様な多言語のVisual Question Answeringベンチマークで、30か国からの画像と質問を含み、31の言語と13のスクリプトをカバー。データ収集にはネイティブスピーカーを関与させ、合計10,000の質問を提供。マルチモーダル大規模言語モデルをベンチマークし、文化的能力とバイアスを評価するための新たな基準を示す。

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #InstructionTuning #Evaluation #MultiLingual #VisionLanguageModel Issue Date: 2025-08-18 GPT Summary- Pangeaは、39の言語にわたる6M指示データセットPangeaInsを用いて訓練された多言語マルチモーダルLLMであり、異文化間のカバレッジを確保しています。Pangeaは、47の言語をカバーする評価スイートPangeaBenchで既存のモデルを大幅に上回る性能を示し、英語データの比率やマルチモーダル訓練サンプルの重要性を明らかにしました。データ、コード、訓練済みチェックポイントはオープンソース化され、言語的および文化的公平性を推進します。

Paper/Blog Link My Issue
#Analysis #Pocket #ImageSegmentation #SSM (StateSpaceModel) #ImageClassification Issue Date: 2025-08-14 GPT Summary- MambaはRNNのようなトークンミキサーを持つアーキテクチャで、視覚タスクにおいて期待外れの性能を示す。Mambaは長いシーケンスと自己回帰的な特性に適しているが、画像分類には不向きであると仮定。MambaOutモデルを構築し、実験によりMambaOutがImageNetの画像分類で視覚Mambaモデルを上回ることを示し、検出およびセグメンテーションタスクではMambaの可能性を探る価値があることを確認。

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #Evaluation #MultiModal #Reasoning #CVPR Issue Date: 2025-08-09 GPT Summary- MMMUは、大学レベルの専門知識と意図的な推論を必要とするマルチモーダルモデルの評価のための新しいベンチマークで、11,500のマルチモーダル質問を含む。6つの主要分野をカバーし、30種類の画像タイプを使用。既存のベンチマークと異なり、専門家が直面するタスクに類似した課題を提供。GPT-4VとGeminiの評価では、56%と59%の精度にとどまり、改善の余地があることを示す。MMMUは次世代のマルチモーダル基盤モデルの構築に寄与することが期待されている。 Comment

MMMUのリリースから20ヶ月経過したが、いまだに人間のエキスパートのアンサンブルには及ばないとのこと

Loading…

MMMUのサンプルはこちら。各分野ごとに専門家レベルの知識と推論が求められるとのこと。
image




Paper/Blog Link My Issue
#Survey #Pocket #NLP #Prompting #VisionLanguageModel Issue Date: 2025-08-07 GPT Summary- 本論文は、マルチモーダル大規模言語モデル(MLLMs)における視覚的プロンプト手法の包括的な調査を行い、視覚的プロンプトの生成や構成的推論、プロンプト学習に焦点を当てています。既存の視覚プロンプトを分類し、自動プロンプト注釈の生成手法を議論。視覚エンコーダとバックボーンLLMの整合性を向上させる手法や、モデル訓練と文脈内学習による視覚的プロンプトの理解向上についても述べています。最後に、MLLMsにおける視覚的プロンプト手法の未来に関するビジョンを提示します。

Paper/Blog Link My Issue
#Survey #Controllable #Pocket #NLP #DiffusionModel #TextToImageGeneration Issue Date: 2025-08-07 GPT Summary- 拡散モデルはテキスト誘導生成において大きな進展を遂げたが、テキストのみでは多様な要求に応えられない。本調査では、T2I拡散モデルの制御可能な生成に関する文献をレビューし、理論的基盤と実践的進展をカバー。デノイジング拡散確率モデルの基本を紹介し、制御メカニズムを分析。生成条件の異なるカテゴリに整理した文献リストを提供。

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #Dataset #CVPR #Scaling Laws #VisionLanguageModel #DataFiltering Issue Date: 2025-07-20 GPT Summary- 視覚と言語のモデル(VLMs)のトレーニングにおいて、高品質なデータのフィルタリングが重要であるが、計算リソースとは無関係に行われることが多い。本研究では、データの品質と量のトレードオフ(QQT)に対処するため、ウェブデータの非均質性を考慮したニューラルスケーリング法則を提案。これにより、データの有用性の違いや繰り返し使用による劣化を評価し、複数のデータプールの組み合わせによるモデルのパフォーマンスを推定可能にする。最適なデータプールのキュレーションを通じて、計算リソースに応じた最高のパフォーマンスを達成できることを示した。 Comment

元ポスト:

Loading…

高品質なデータにフィルタリングすることで多くの研究がモデルがより高い性能を達成できることを示しているが、高品質なデータには限りがあることと、繰り返し学習をすることですぐにその効用が低下する(Quality-Quantity tradeoff!)という特性がある。このような状況において、たとえば計算の予算がデータ6パケット分の時に、めちゃめちゃフィルタリングを頑張っg高品質なデータプールEのみを使って6 epoch学習するのが良いのか、少し品質は落ちるデータDも混ぜてE+Dを3 epoch学習するのが良いのか、ときにどちらが良いのか?という話のようである。
image




Paper/Blog Link My Issue
#Pocket #NLP #Dataset #Japanese #read-later #VisionLanguageModel Issue Date: 2025-07-16 GPT Summary- 日本語に特化したVision Language Models (VLM)の評価のために、新しいベンチマーク「Japanese Heron-Bench」を提案。日本の文脈に基づく画像-質問応答ペアを用いて、日本語VLMの能力を測定。提案されたVLMの強みと限界を明らかにし、強力なクローズドモデルとの能力ギャップを示す。今後の日本語VLM研究の発展を促進するため、データセットと訓練コードを公開。 Comment

解説: https://zenn.dev/turing_motors/articles/8e913f46374ede




Paper/Blog Link My Issue
#Pocket #NLP #Dataset #Evaluation #Mathematics #VisionLanguageModel Issue Date: 2025-07-14 GPT Summary- MATH-Vision(MATH-V)データセットを提案し、3,040の視覚的文脈を持つ数学問題を収集。16の数学分野と5つの難易度で構成され、LMMsの数学的推論能力を評価。実験により、LMMsと人間のパフォーマンス間に顕著なギャップがあることを示し、さらなる進展の必要性を強調。エラー分析を通じて今後の研究に貴重な洞察を提供。 Comment

openreview: https://openreview.net/forum?id=QWTCcxMpPA#discussion
project page: https://mathllm.github.io/mathvision/

Project Pageのランディングページが非常にわかりやすい。こちらは人間の方がまだまだ性能が高そう。

image




Paper/Blog Link My Issue
#Pocket #Transformer #FoundationModel #Self-SupervisedLearning #TMLR Issue Date: 2025-04-11 GPT Summary- 自己教師あり手法を用いて、多様なキュレーションデータから汎用的な視覚特徴を生成する新しい事前学習手法を提案。1BパラメータのViTモデルを訓練し、小型モデルに蒸留することで、OpenCLIPを上回る性能を達成。

Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Evaluation #MultiModal #ACL Issue Date: 2025-01-06 GPT Summary- 大規模言語モデル(LLMs)やマルチモーダルモデル(LMMs)の能力を測定するために、オリンピアドレベルのバイリンガルマルチモーダル科学ベンチマーク「OlympiadBench」を提案。8,476の数学と物理の問題を含み、専門家レベルの注釈が付けられている。トップモデルのGPT-4Vは平均17.97%のスコアを達成したが、物理では10.74%にとどまり、ベンチマークの厳しさを示す。一般的な問題として幻覚や論理的誤謬が指摘され、今後のAGI研究に貴重なリソースとなることが期待される。

Paper/Blog Link My Issue
#InformationRetrieval #NLP #Dataset #LanguageModel #RAG(RetrievalAugmentedGeneration) #MultiLingual #COLING #VisionLanguageModel Issue Date: 2024-12-16 GPT Summary- 視覚言語モデル(VLM)を評価するための新しいベンチマークVLR-Benchを提案。これは5つの入力パッセージを用いて、特定のクエリに対する有用な情報の判断能力をテストする。32,000の自動生成された指示からなるデータセットVLR-IFを構築し、VLMのRAG能力を強化。Llama3ベースのモデルで性能を検証し、両データセットはオンラインで公開。 Comment

Multilingual VLMを用いたRAGのベンチマークデータセット




Paper/Blog Link My Issue
#Pretraining #Pocket #Transformer #NeurIPS Issue Date: 2024-12-12 GPT Summary- Visual AutoRegressive modeling (VAR)を提案し、画像生成において自己回帰学習を次のスケール予測として再定義。VARは、GPTのようなARモデルが拡散トランスフォーマーを上回ることを実現し、ImageNet 256x256ベンチマークでFIDを18.65から1.73、ISを80.4から350.2に改善。推論速度は約20倍向上し、画像品質やデータ効率でも優れた性能を示す。VARはゼロショット一般化能力を持ち、スケーリング法則を示す。全モデルとコードを公開し、視覚生成の研究を促進。 Comment

NeurIPS2024のベストペーパー

第一著者がByteDance社から訴訟を起こされている模様…?
https://var-integrity-report.github.io

OpenReview: https://openreview.net/forum?id=gojL67CfS8

Next Token Prediction, Next Image Token Generation (従来手法), Next Scale (resolution) prediction (提案手法)の違いの図解。非常に分かりやすい。next token predictionでは次トークンのみを予測するがVARでは、次の解像度画像の全体のトークンマップを予測する。

image

学習方法の概要。2-Stageで学習される。最初のステージでK種類の解像度の画像(=K種類のマルチスケールのtoken maps r_k)を得るためにAutoEncoderを学習し、次のステージでblock-wiseのcausal attention maskを用いて、K_各r_kをデコードする際にr_image

従来手法と比べより小さいパラメータで高い性能を実現し、inference timeも非常に早い。
image

ScalingLawsも成立する。
image




Paper/Blog Link My Issue
#Pretraining #Pocket #NLP #LanguageModel #MultiModal Issue Date: 2024-11-25 GPT Summary- 新しい手法AIMV2を用いて、大規模なビジョンエンコーダの事前学習を行う。これは画像とテキストを組み合わせたマルチモーダル設定に拡張され、シンプルな事前学習プロセスと優れた性能を特徴とする。AIMV2-3BエンコーダはImageNet-1kで89.5%の精度を達成し、マルチモーダル画像理解において最先端のコントラストモデルを上回る。

Paper/Blog Link My Issue
#Tutorial #Pocket #DiffusionModel Issue Date: 2024-11-17 GPT Summary- 生成ツールの成長により、テキストから画像や動画を生成する新しいアプリケーションが可能に。拡散モデルの原理がこれらの生成ツールの基盤であり、従来のアプローチの欠点を克服。チュートリアルでは、拡散モデルの基本的なアイデアを学部生や大学院生向けに解説。 Comment

いつか読まなければならない




Paper/Blog Link My Issue
#MachineLearning #Pocket #Supervised-FineTuning (SFT) #InstructionTuning #PEFT(Adaptor/LoRA) #Catastrophic Forgetting Issue Date: 2024-11-12 GPT Summary- 破滅的忘却に対処するため、タスクフリーのオンライン継続学習(OCL)フレームワークOnline-LoRAを提案。リハーサルバッファの制約を克服し、事前学習済みビジョントランスフォーマー(ViT)モデルをリアルタイムで微調整。新しいオンライン重み正則化戦略を用いて重要なモデルパラメータを特定し、データ分布の変化を自動認識。多様なベンチマークデータセットで優れた性能を示す。 Comment

image




Paper/Blog Link My Issue
#Pocket #Dataset Issue Date: 2024-09-30 GPT Summary- 手続き的なビデオ理解のために、COM Kitchensという新しいデータセットを提案。これは、参加者がレシピに基づいて食材を準備する様子を上方視点で撮影した編集されていないビデオで構成されている。多様なデータ収集のためにスマートフォンを使用し、オンラインレシピ検索(OnRR)と密なビデオキャプショニング(DVC-OV)という新しいタスクを提案。実験により、既存のウェブビデオベースの手法の能力と限界を検証。 Comment

とてもおもしろそう!




Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel Issue Date: 2024-09-30 GPT Summary- 視覚と言語のモデル(VLM)の設計における裏付けのない決定が性能向上の特定を妨げていると指摘。事前学習済みモデルやアーキテクチャ、データ、トレーニング手法に関する実験を行い、80億パラメータの基盤VLM「Idefics2」を開発。Idefics2はマルチモーダルベンチマークで最先端の性能を達成し、4倍のサイズのモデルと同等の性能を示す。モデルとデータセットを公開。 Comment

元ポストにOpenVLMの進展の歴史が載っている。構築されたデータセットも公開される模様。
image
元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #CLIP Issue Date: 2024-09-30 GPT Summary- Long-CLIPは、CLIPのテキスト入力の長さ制限を克服し、ゼロショットの一般化能力を保持または超える新しいモデルです。効率的なファインチューニング戦略を用いて、CLIPの性能を維持しつつ、長文テキスト-画像ペアを活用することで、テキスト-画像検索タスクで約20%の性能向上を達成しました。また、Long-CLIPは詳細なテキスト説明から画像を生成する能力を強化します。

Paper/Blog Link My Issue
#Pocket #DiffusionModel Issue Date: 2024-09-01 GPT Summary- GameNGenは、ニューラルモデルによって完全に動作するゲームエンジンであり、高品質で長い軌跡上で複雑な環境とのリアルタイムインタラクションを可能にします。GameNGenは、単一のTPU上で秒間20フレーム以上でクラシックゲームDOOMをインタラクティブにシミュレートすることができます。次フレーム予測では、PSNRが29.4に達し、劣化JPEG圧縮と比較可能です。GameNGenは、2つの段階でトレーニングされます:(1)RLエージェントがゲームをプレイすることを学び、トレーニングセッションが記録され、(2)拡散モデルが過去のフレームとアクションのシーケンスに応じて次のフレームを生成するようにトレーニングされます。条件付きの拡張により、長い軌跡上で安定した自己回帰生成が可能となります。 Comment

Diffusion Modelでゲーム映像を生成する取り組みらしい。ゲームのenvironmentに対して、ユーザのActionとframeの系列をエピソードとみなして生成するっぽい?

project pageにデモがのっている

https://gamengen.github.io/




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Chain-of-Thought Issue Date: 2024-04-08 GPT Summary- LLMsの空間推論能力を向上させるために、Visualization-of-Thought(VoT)プロンプティングを提案。VoTは、LLMsの推論トレースを可視化し、空間推論タスクで使用することで、既存のMLLMsを上回る性能を示す。VoTは、空間推論を促進するために「メンタルイメージ」を生成する能力を持ち、MLLMsでの有効性を示唆する。

Paper/Blog Link My Issue
#Pretraining #Pocket #NLP #Transformer #InstructionTuning #MultiModal #SpeechProcessing #CVPR #Selected Papers/Blogs #Encoder-Decoder #Robotics #UMM #EmbodiedAI Issue Date: 2023-12-29 GPT Summary- Unified-IO 2は、最初の自己回帰型のマルチモーダルモデルであり、画像、テキスト、音声、アクションを理解し生成することができます。異なるモダリティを統一するために、共有の意味空間に入力と出力を配置し、単一のエンコーダ・デコーダトランスフォーマーモデルで処理します。さまざまなアーキテクチャの改善を提案し、大規模なマルチモーダルな事前トレーニングコーパスを使用してモデルをトレーニングします。Unified-IO 2は、GRITベンチマークを含む35以上のベンチマークで最先端のパフォーマンスを発揮します。 Comment

画像、テキスト、音声、アクションを理解できる初めてのautoregressive model。AllenAI

モデルのアーキテクチャ図
image

マルチモーダルに拡張したことで、訓練が非常に不安定になったため、アーキテクチャ上でいくつかの工夫を加えている:

- 2D Rotary Embedding
- Positional EncodingとしてRoPEを採用
- 画像のような2次元データのモダリティの場合はRoPEを2次元に拡張する。具体的には、位置(i, j)のトークンについては、Q, Kのembeddingを半分に分割して、それぞれに対して独立にi, jのRoPE Embeddingを適用することでi, j双方の情報を組み込む。
- QK Normalization
- image, audioのモダリティを組み込むことでMHAのlogitsが非常に大きくなりatteetion weightが0/1の極端な値をとるようになり訓練の不安定さにつながった。このため、dot product attentionを適用する前にLayerNormを組み込んだ。
- Scaled Cosine Attention
- Image Historyモダリティにおいて固定長のEmbeddingを得るためにPerceiver Resamplerを扱ったているが、こちらも上記と同様にAttentionのlogitsが極端に大きくなったため、cosine類似度をベースとしたScaled Cosine Attention [Paper Note] Swin Transformer V2: Scaling Up Capacity and Resolution, Ze Liu+, arXiv'21 を利用することで、大幅に訓練の安定性が改善された。
- その他
- attention logitsにはfp32を適用
- 事前学習されたViTとASTを同時に更新すると不安定につながったため、事前学習の段階ではfreezeし、instruction tuningの最後にfinetuningを実施

image

目的関数としては、Mixture of Denoisers (UL2: Unifying Language Learning Paradigms, Yi Tay+, N/A, ICLR'23 )に着想を得て、Multimodal Mixture of Denoisersを提案。MoDでは、
- \[R\]: 通常のspan corruption (1--5 token程度のspanをmaskする)
- \[S\]: causal language modeling (inputを2つのサブシーケンスに分割し、前方から後方を予測する。前方部分はBi-directionalでも可)
- \[X\]: extreme span corruption (12>=token程度のspanをmaskする)

の3種類が提案されており、モダリティごとにこれらを使い分ける:
- text modality: UL2 (UL2: Unifying Language Learning Paradigms, Yi Tay+, N/A, ICLR'23 )を踏襲
- image, audioがtargetの場合: 2つの類似したパラダイムを定義し利用
- \[R\]: patchをランダムにx%マスクしre-constructする
- \[S\]: inputのtargetとは異なるモダリティのみの情報から、targetモダリティを生成する

訓練時には prefixとしてmodality token \[Text\], \[Image\], \[Audio\] とparadigm token \[R\], \[S\], \[X\] をタスクを指示するトークンとして利用している。

また、image, audioのマスク部分のdenoisingをautoregressive modelで実施する際には普通にやるとdecoder側でリークが発生する(a)。これを防ぐには、Encoder側でマスクされているトークンを、Decoder側でteacher-forcingする際にの全てマスクする方法(b)があるが、この場合、生成タスクとdenoisingタスクが相互に干渉してしまいうまく学習できなくなってしまう(生成タスクでは通常Decoderのinputとして[mask]が入力され次トークンを生成する、といったことは起きえないが、愚直に(b)をやるとそうなってしまう)。ので、(c)に示したように、マスクされているトークンをinputとして生成しなければならない時だけ、マスクを解除してdecoder側にinputする、という方法 (Dynamic Masking) でこの問題に対処している。
image




Paper/Blog Link My Issue
#Analysis #Pretraining #Pocket #NLP #LanguageModel #CVPR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2023-12-14 GPT Summary- 最近の大規模言語モデルの成功により、ビジュアル言語モデル(VLM)が進歩している。本研究では、VLMの事前学習のためのデザインオプションを検討し、以下の結果を示した:(1) LLMを凍結することでゼロショットのパフォーマンスが達成できるが、文脈に基づいた学習能力が不足している。(2) 交互に行われる事前学習データは有益であり、画像とテキストのペアだけでは最適ではない。(3) テキストのみの指示データを画像とテキストのデータに再ブレンドすることで、VLMのタスクの精度を向上させることができる。VILAというビジュアル言語モデルファミリーを構築し、最先端モデルを凌駕し、優れたパフォーマンスを発揮することを示した。マルチモーダルの事前学習は、VILAの特性を向上させる。 Comment

関連:
- Improved Baselines with Visual Instruction Tuning, Haotian Liu+, N/A, CVPR'24




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AutomaticPromptEngineering #EACL #System Demonstration Issue Date: 2023-11-23 GPT Summary- 本研究では、テキストから画像への生成モデルの品質を向上させるための適応型フレームワークNeuroPromptsを提案します。このフレームワークは、事前学習された言語モデルを使用して制約付きテキストデコーディングを行い、人間のプロンプトエンジニアが生成するものに類似したプロンプトを生成します。これにより、高品質なテキストから画像への生成が可能となり、ユーザーはスタイルの特徴を制御できます。また、大規模な人間エンジニアリングされたプロンプトのデータセットを使用した実験により、当アプローチが自動的に品質の高いプロンプトを生成し、優れた画像品質を実現することを示しました。

Paper/Blog Link My Issue
#Pocket #PEFT(Adaptor/LoRA) #ECCV Issue Date: 2023-11-23 GPT Summary- 概要:概念駆動型のパーソナライズのための生成モデルの微調整手法であるZipLoRAを提案。ZipLoRAは、独立してトレーニングされたスタイルと主題のLoRAを統合し、任意の主題とスタイルの組み合わせで生成することができる。実験結果は、ZipLoRAが主題とスタイルの忠実度を改善しながら魅力的な結果を生成できることを示している。 Comment

pj page: https://ziplora.github.io/




Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Evaluation #MultiLingual #NAACL #VisionLanguageModel Issue Date: 2023-11-14 GPT Summary- LLMsの研究は急速に進展しており、英語以外の言語での評価が必要とされている。本研究では、新しいデータセットを追加したMEGAVERSEベンチマークを提案し、さまざまなLLMsを評価する。実験の結果、GPT4とPaLM2が優れたパフォーマンスを示したが、データの汚染などの問題があるため、さらなる取り組みが必要である。

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #QuestionAnswering #CVPR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2023-10-09 GPT Summary- LLaVAは、ビジョンと言語のクロスモーダルコネクタであり、データ効率が高く強力な性能を持つことが示されています。CLIP-ViT-L-336pxを使用し、学術タスク指向のVQAデータを追加することで、11のベンチマークで最先端のベースラインを確立しました。13Bのチェックポイントはわずか120万の公開データを使用し、1日で完全なトレーニングを終えます。コードとモデルは公開されます。 Comment

画像分析が可能なオープンソースLLMとのこと。

# Overview

画像生成をできるわけではなく、inputとして画像を扱えるのみ。

image

pj page: https://llava-vl.github.io




Paper/Blog Link My Issue
#Pretraining #Pocket #Transformer #ImageSegmentation #FoundationModel Issue Date: 2023-04-30 GPT Summary- 本研究では、自然画像セグメンテーションに革新的な手法であるSegment anything model (SAM)を医療画像に拡張するためのMedSAMを提案し、様々な医療ターゲットのセグメンテーションのための汎用ツールを作成することを目的としています。MedSAMは、大規模な医療画像データセットを用いて開発され、SAMを一般的な医療画像セグメンテーションに適応するためのシンプルなファインチューニング手法を開発しました。21の3Dセグメンテーションタスクと9の2Dセグメンテーションタスクに対する包括的な実験により、MedSAMは、平均Dice類似係数(DSC)がそれぞれ22.5%と17.6%で、デフォルトのSAMモデルを上回ることが示されました。コードとトレーニング済みモデルは、\url{https://github.com/bowang-lab/MedSAM}で公開されています。 Comment

SAMの性能は医療画像に対しては限定的だったため、11の異なるモダリティに対して200kのマスクをした医療画像を用意しfinetuningしたMedSAMによって、医療画像のセグメンテーションの性能を大幅に向上。
コードとモデルはpublicly available

image




Paper/Blog Link My Issue
#NLP #LanguageModel #MultiModal #SpeechProcessing #AAAI Issue Date: 2023-04-26 GPT Summary- AudioGPTは、複雑な音声情報を処理し、音声対話をサポートするマルチモーダルAIシステムである。基盤モデルとASR、TTSインターフェースを組み合わせ、音声、音楽、トーキングヘッドの理解と生成を行う。実験により、AudioGPTが多様なオーディオコンテンツの創造を容易にする能力を示した。 Comment

text, audio, imageといったマルチモーダルなpromptから、audioに関する様々なタスクを実現できるシステム

マルチモーダルデータをjointで学習したというわけではなく、色々なモデルの組み合わせてタスクを実現しているっぽい

image




Paper/Blog Link My Issue
#Pocket #NLP #ImageSegmentation #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes #Grounding Issue Date: 2025-11-25 GPT Summary- Set-of-Mark (SoM)という新しい視覚プロンプティング手法を提案し、GPT-4Vの視覚的能力を引き出す。画像を異なる領域に分割し、マークを重ねることで、視覚的基盤を必要とする質問に答えることが可能に。実験では、SoMを用いたGPT-4Vがゼロショット設定で最先端のモデルを上回る性能を示した。 Comment

pj page: https://som-gpt4v.github.io

日本語解説: https://ai-scholar.tech/articles/prompting-method/SoM

画像をsegmentationし、segmentationした領域上に数字のマーカーをオーバーレイした画像を入力すると、VLMのgrounding能力が向上する、という話らしい




Paper/Blog Link My Issue
#MachineLearning #Pocket #ICLR #Selected Papers/Blogs #RectifiedFlow Issue Date: 2025-10-10 GPT Summary- rectified flowという新しいアプローチを提案し、2つの分布間での輸送を学習するODEモデルを用いる。これは、直線的な経路を学習することで計算効率を高め、生成モデルやドメイン転送において統一的な解決策を提供する。rectificationを通じて、非増加の凸輸送コストを持つ新しい結合を生成し、再帰的に適用することで直線的なフローを得る。実証研究では、画像生成や翻訳において優れた性能を示し、高品質な結果を得ることが確認された。 Comment

openreview: https://openreview.net/forum?id=XVjTT1nw5z

日本語解説(fmuuly, zenn):
- Rectified Flow 1: https://zenn.dev/fmuuly/articles/37cc3a2f17138e
- Rectified Flow 2: https://zenn.dev/fmuuly/articles/a062fcd340207f
- Rectified Flow 3: https://zenn.dev/fmuuly/articles/0f262fc003e202




Paper/Blog Link My Issue
#Pocket #NLP #Dataset #Evaluation #TextToImageGeneration #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-09-11 GPT Summary- テキストから画像への生成モデルの自動評価方法「GenEval」を提案。物体の共起、位置、数、色などの特性を評価し、現在の物体検出モデルを活用して生成タスクを分析。最近のモデルは改善を示すが、複雑な能力には課題が残る。GenEvalは失敗モードの発見にも寄与し、次世代モデルの開発に役立つ。コードは公開中。 Comment

openreview: https://openreview.net/forum?id=Wbr51vK331¬eId=NpvYJlJFqK




Paper/Blog Link My Issue
#NeuralNetwork #Pocket #Regularization #ICML Issue Date: 2025-08-30 GPT Summary- 本研究では、ドロップアウトをトレーニング初期に使用することでアンダーフィッティングを軽減できることを示し、初期ドロップアウト手法を提案します。これにより、勾配の方向的分散が減少し、SGDの確率性に対抗します。実験により、初期ドロップアウトを用いたモデルは、ドロップアウトなしのモデルよりも低いトレーニング損失を示し、一般化精度が向上することが確認されました。また、後期ドロップアウトという手法も探求し、トレーニング後半での正則化効果を検証しました。これらの結果は、深層学習における正則化の理解を深めることに寄与します。 Comment

日本語解説: https://www.docswell.com/s/DeepLearning2023/54QM6D-dldropout-reduces-underfitting




Paper/Blog Link My Issue
#Pocket #Transformer #DiffusionModel #read-later #Selected Papers/Blogs #Backbone Issue Date: 2025-08-27 GPT Summary- 新しいトランスフォーマーに基づく拡散モデル(Diffusion Transformers, DiTs)を提案し、U-Netをトランスフォーマーに置き換えた。DiTsは高いGflopsを持ち、低いFIDを維持しながら良好なスケーラビリティを示す。最大のDiT-XL/2モデルは、ImageNetのベンチマークで従来の拡散モデルを上回り、最先端のFID 2.27を達成した。 Comment

日本語解説: https://qiita.com/sasgawy/items/8546c784bc94d94ef0b2

よく見るDiT

- [Paper Note] DiT: Self-supervised Pre-training for Document Image Transformer, Junlong Li+, ACMMM'22

も同様の呼称だが全く異なる話なので注意




Paper/Blog Link My Issue
#Embeddings #Pocket #NLP #Deduplication Issue Date: 2025-08-16 GPT Summary- SemDeDupは、事前学習モデルの埋め込みを用いて意味的に重複するデータペアを特定し削除する手法。LAIONのサブセットで50%のデータ削除を実現し、トレーニング時間を半分に短縮。分布外性能も向上し、C4データセットでも効率性を改善。質の高い埋め込みを活用することで、データ削減と学習加速を両立。 Comment

embedding空間において近傍のサンプル(near-duplicates)を削除することで、学習効率が向上します、という話な模様。
image

openreview: https://openreview.net/forum?id=IRSesTQUtb¬eId=usQjFYYAZJ

openreviewによると、embedding空間においてnear-duplicatesを削除するというアイデアは興味深いが、提案手法は既存研究のアイデアを組み合わせているに留まっており(多くのブログポストやdeduplicationのためのライブラリも存在する)新規性が明確ではない点や、実験結果が不足している(i.e., 全てのケースでSoTAというわけでもなく、大規模モデルでの実験やstrong baselineの不在(実験結果はrandom pruningに対してoutperformすることが主に示されている)など、論文の主張をサポートするための結果が足りない)という指摘がされている。
実用的にはwell-writtenでexampleも豊富とのことなので、Deduplicationの理解を深めるのに良さそう。

先行研究:
- (画像)[Paper Note] Beyond neural scaling laws: beating power law scaling via data pruning, Ben Sorscher+, NeurIPS'22
- (テキスト)[Paper Note] Deduplicating Training Data Makes Language Models Better, Katherine Lee+, ACL'22

[Paper Note] Beyond neural scaling laws: beating power law scaling via data pruning, Ben Sorscher+, NeurIPS'22 では、分類が難しい画像のデータという観点にフォーカスしており、[Paper Note] Deduplicating Training Data Makes Language Models Better, Katherine Lee+, ACL'22 では、テキストの表層的な情報の一致に基づいてDeduplicationを実施している。




Paper/Blog Link My Issue
#Controllable #Pocket #NLP #MultiModal #TextToImageGeneration Issue Date: 2025-08-07 GPT Summary- ControlNetは、テキストから画像への拡散モデルに空間的な条件制御を追加するためのニューラルネットワークアーキテクチャであり、事前学習済みのエンコーディング層を再利用して多様な条件制御を学習します。ゼロ畳み込みを用いてパラメータを徐々に増加させ、有害なノイズの影響を軽減します。Stable Diffusionを用いて様々な条件制御をテストし、小規模および大規模データセットに対して堅牢性を示しました。ControlNetは画像拡散モデルの制御における広範な応用の可能性を示唆しています。 Comment

ControlNet論文




Paper/Blog Link My Issue
#Pocket #DiffusionModel #ICLR #Selected Papers/Blogs #FlowMatching #OptimalTransport Issue Date: 2025-07-09 GPT Summary- Continuous Normalizing Flows(CNFs)に基づく新しい生成モデルの訓練手法Flow Matching(FM)を提案。FMは固定された条件付き確率経路のベクトル場を回帰し、シミュレーション不要で訓練可能。拡散経路と併用することで、より堅牢な訓練が実現。最適輸送を用いた条件付き確率経路は効率的で、訓練とサンプリングが速く、一般化性能も向上。ImageNetでの実験により、FMは拡散ベース手法よりも優れた性能を示し、迅速なサンプル生成を可能にする。 Comment

関連:
- [Paper Note] High-Resolution Image Synthesis with Latent Diffusion Models, Robin Rombach+, CVPR'22, 2021.12




Paper/Blog Link My Issue
#Pretraining #Pocket #LanguageModel #MultiModal #Selected Papers/Blogs #ICCV Issue Date: 2025-06-29 GPT Summary- シンプルなペアワイズシグモイド損失(SigLIP)を提案し、画像-テキストペアに基づく言語-画像事前学習を改善。シグモイド損失はバッチサイズの拡大を可能にし、小さなバッチサイズでも性能向上を実現。SigLiTモデルは84.5%のImageNetゼロショット精度を達成。バッチサイズの影響を研究し、32kが合理的なサイズであることを確認。モデルは公開され、さらなる研究の促進を期待。 Comment

SigLIP論文




Paper/Blog Link My Issue
#Pocket #NLP #Transformer #MultiModal #SpeechProcessing #Architecture #ICML #Normalization #KeyPoint Notes Issue Date: 2025-04-19 GPT Summary- 言語、視覚、音声、マルチモーダルにおけるモデルアーキテクチャの収束が進む中、異なる実装の「Transformers」が使用されている。汎用モデリングのために、安定性を持つFoundation Transformerの開発が提唱され、Magnetoという新しいTransformer変種が紹介される。Sub-LayerNormと理論に基づく初期化戦略を用いることで、さまざまなアプリケーションにおいて優れたパフォーマンスと安定性を示した。 Comment

マルチモーダルなモデルなモデルの事前学習において、PostLNはvision encodingにおいてsub-optimalで、PreLNはtext encodingにおいてsub-optimalであることが先行研究で示されており、マルタモーダルを単一のアーキテクチャで、高性能、かつ学習の安定性な高く、try and error無しで適用できる基盤となるアーキテクチャが必要というモチベーションで提案された手法。具体的には、Sub-LayerNorm(Sub-LN)と呼ばれる、self attentionとFFN部分に追加のLayerNormを適用するアーキテクチャと、DeepNetを踏襲しLayer数が非常に大きい場合でも学習が安定するような重みの初期化方法を理論的に分析し提案している。

具体的には、Sub-LNの場合、LayerNormを
- SelfAttention計算におけるQKVを求めるためのinput Xのprojectionの前とAttentionの出力projectionの前
- FFNでの各Linear Layerの前
に適用し、

初期化をする際には、FFNのW, およびself-attentionのV_projと出力のout_projの初期化をγ(=sqrt(log(2N))によってスケーリングする方法を提案している模様。

image

関連:
- [Paper Note] DeepNet: Scaling Transformers to 1,000 Layers, Hongyu Wang+, arXiv'22




Paper/Blog Link My Issue
#Pocket #Transformer #ImageSegmentation #FoundationModel Issue Date: 2025-04-11 GPT Summary- Segment Anything (SA)プロジェクトは、画像セグメンテーションの新しいタスク、モデル、データセットを提案し、1億以上のマスクを含む1,100万のプライバシー尊重した画像からなる最大のセグメンテーションデータセットを構築しました。プロンプト可能なモデルはゼロショットで新しい画像分布やタスクに適応でき、評価の結果、ゼロショット性能が高く、従来の監視された結果を上回ることもあります。SAMとSA-1Bデータセットは、研究促進のために公開されています。 Comment

SAM論文

pj page: https://segment-anything.com




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #MultiModal #OpenWeight Issue Date: 2025-04-11 GPT Summary- PaLI-3は、従来のモデルに比べて10倍小型で高速な視覚言語モデル(VLM)であり、特にローカリゼーションや視覚的テキスト理解において優れた性能を示す。SigLIPベースのPaLIは、20億パラメータにスケールアップされ、多言語クロスモーダル検索で新たな最先端を達成。50億パラメータのPaLI-3は、VLMの研究を再燃させることを期待されている。 Comment

OpenReview: https://openreview.net/forum?id=JpyWPfzu0b

実験的に素晴らしい性能が実現されていることは認められつつも
- 比較対象がSigLIPのみでより広範な比較実験と分析が必要なこと
- BackboneモデルをContrastive Learningすること自体の有用性は既に知られており、新規性に乏しいこと

としてICLR'24にRejectされている




Paper/Blog Link My Issue
#Pocket #LanguageModel #Zero/Few/ManyShotPrompting #Self-SupervisedLearning Issue Date: 2024-10-07 GPT Summary- 自己教師あり文脈内学習(SINC)フレームワークを提案し、大規模言語モデルに依存せずに文脈内学習を実現。特別に調整されたデモンストレーションを用いたメタモデルが、視覚と言語のタスクで少数ショット設定において勾配ベースの手法を上回る性能を示す。SINCは文脈内学習の利点を探求し、重要な要素を明らかにする。

Paper/Blog Link My Issue
#Pocket #NLP #GenerativeAI #MultiModal Issue Date: 2023-12-01 GPT Summary- 本研究では、ビデオ生成において連続した長いビデオを生成するためのジェネレーティブなトランジションと予測に焦点を当てたモデルSEINEを提案する。SEINEはテキストの説明に基づいてトランジションを生成し、一貫性と視覚的品質を確保した長いビデオを生成する。さらに、提案手法は他のタスクにも拡張可能であり、徹底的な実験によりその有効性が検証されている。 Comment

https://huggingface.co/spaces/Vchitect/SEINE

画像 + テキストpromptで、動画を生成するデモ




Paper/Blog Link My Issue
#Pocket #ImageSegmentation #Prompting #In-ContextLearning Issue Date: 2023-11-23 GPT Summary- 本研究では、ビジョン領域における汎用的なビジュアルインコンテキストプロンプティングフレームワークを提案します。エンコーダーデコーダーアーキテクチャを使用し、さまざまなプロンプトをサポートするプロンプトエンコーダーを開発しました。さらに、任意の数の参照画像セグメントをコンテキストとして受け取るように拡張しました。実験結果から、提案手法が非凡な参照および一般的なセグメンテーション能力を引き出し、競争力のあるパフォーマンスを示すことがわかりました。 Comment

Image Segmentationには、ユーザが与えたプロンプトと共通のコンセプトを持つすべてのオブジェクトをセグメンテーションするタスクと、ユーザの入力の特定のオブジェクトのみをセグメンテーションするタスクがある。従来は個別のタスクごとに、特定の入力方法(Visual Prompt, Image Prompt)を前提とした手法や、個々のタスクを実施できるがIn-Context Promptしかサポートしていない手法しかなかったが、この研究では、Visual Prompt, Image Prompt, In-Context Promptをそれぞれサポートし両タスクを実施できるという位置付けの模様。また、提案手法ではストローク、点、ボックスといったユーザの画像に対する描画に基づくPromptingをサポートし、Promptingにおける参照セグメント数も任意の数指定できるとのこと。
image
image




Paper/Blog Link My Issue
#Pocket #NLP #LayoutGeneration Issue Date: 2023-11-14 GPT Summary- LayoutPrompterは、大規模言語モデル(LLMs)を使用して条件付きのグラフィックレイアウト生成を行う手法であり、入力-出力のシリアル化、動的な模範的選択、およびレイアウトのランキングの3つのコンポーネントで構成されています。LayoutPrompterは、既存の手法と競合したり上回ったりする性能を持ち、トレーニングや微調整なしで使用できる汎用性のあるアプローチであることが実験結果から示されています。また、データ効率にも優れており、トレーニングベースラインよりも有意に優れていることも示されています。プロジェクトは、https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompterで利用可能です。 Comment

Conditional Graphic Layout Generation




Paper/Blog Link My Issue
#Pocket #NLP #MultitaskLearning #MultiModal #FoundationModel Issue Date: 2023-11-13 GPT Summary- Florence-2は、ビジョン基盤モデルであり、さまざまなビジョンタスクに対応するための統一されたプロンプトベースの表現を持っています。このモデルは、テキストプロンプトを受け取り、キャプショニング、オブジェクト検出、グラウンディング、セグメンテーションなどのタスクを実行し、テキスト形式で結果を生成します。また、FLD-5Bという大規模な注釈付きデータセットも開発されました。Florence-2は、多目的かつ包括的なビジョンタスクを実行するためにシーケンスツーシーケンス構造を採用しており、前例のないゼロショットおよびファインチューニングの能力を持つ強力なモデルです。 Comment

Vison Foundation Model。Spatialな階層構造や、Semanticを捉えられるように訓練。Image/Prompt Encoderでエンコードされ、outputはtext + location informationとなる。

image

image




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #MultiModal #OCR Issue Date: 2023-10-26 GPT Summary- この論文では、GPT-4Vという大規模マルチモーダルモデルの光学文字認識(OCR)能力を評価します。さまざまなOCRタスクにおいてモデルのパフォーマンスを評価し、ラテン文字の認識と理解において優れた性能を示す一方、多言語や複雑なタスクには苦戦することがわかりました。これに基づいて、専門のOCRモデルの必要性やGPT-4Vを活用する戦略についても検討します。この研究は、将来のLMMを用いたOCRの研究に役立つものです。評価のパイプラインと結果は、GitHubで利用可能です。 Comment

GPT4-VをさまざまなOCRタスク「手書き、数式、テーブル構造認識等を含む)で性能検証した研究。
MLT19データセットを使った評価では、日本語の性能は非常に低く、英語とフランス語が性能高い。手書き文字認識では英語と中国語でのみ評価。
image




Paper/Blog Link My Issue
#Survey #Pocket #FoundationModel Issue Date: 2023-08-08 GPT Summary- 視覚システムの理解と推論における基盤モデルの役割をレビュー。異なるモダリティを組み合わせるアーキテクチャやトレーニング方法、プロンプティングパターンを含む。オープンな課題や研究方向性、評価の困難さ、文脈理解の限界なども議論。基盤モデルの応用を包括的にカバーし、詳細なリストはオンラインで提供。 Comment

CVにおけるfoundation modelのsurvey。残されたチャレンジと研究の方向性が議論されている




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #FoundationModel Issue Date: 2023-07-23 GPT Summary- CM3Leonは、テキストと画像の生成・補完が可能なマルチモーダル言語モデルで、リトリーバル拡張型のトークンベースのデコーダを使用。CM3アーキテクチャを基に、多様な指示スタイルでのスケーリングとチューニングに優れ、初のテキスト専用モデルから適応されたマルチモーダルモデル。高品質な出力を生成する対照的デコーディング手法を導入し、少ない計算量で最先端の性能を達成。SFT後は、画像編集や生成において高い制御性を示す。

Paper/Blog Link My Issue
#NaturalLanguageGeneration #NLP #Dataset #Evaluation Issue Date: 2023-07-22 GPT Summary- 自動画像キャプションの評価には、情報豊かなメトリック(InfoMetIC)が提案されています。これにより、キャプションの誤りや欠落した情報を詳細に特定することができます。InfoMetICは、テキストの精度スコア、ビジョンの再現スコア、および全体の品質スコアを提供し、人間の判断との相関も高いです。また、トークンレベルの評価データセットも構築されています。詳細はGitHubで公開されています。

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AIAgents Issue Date: 2023-07-22 GPT Summary- 本研究では、言語モデルとビジョン言語モデルを強化学習エージェントに組み込み、効率的な探索や経験データの再利用などの課題に取り組む方法を調査しました。スパースな報酬のロボット操作環境でのテストにおいて、ベースラインに比べて大幅な性能向上を実証し、学習済みのスキルを新しいタスクの解決や人間の専門家のビデオの模倣に活用する方法を示しました。 Comment


image




Paper/Blog Link My Issue
#Pocket #Personalization #DiffusionModel Issue Date: 2023-07-22 GPT Summary- 本研究では、拡散ベースのテキストから画像への変換モデルに人間のフィードバックを組み込む戦略を提案する。自己注意層を利用したトレーニングフリーなアプローチであるFABRICを提案し、さまざまな拡散モデルに適用可能であることを示す。また、包括的な評価方法を導入し、人間のフィードバックを統合した生成ビジュアルモデルのパフォーマンスを定量化するための堅牢なメカニズムを提供する。徹底的な分析により、反復的なフィードバックの複数のラウンドを通じて生成結果が改善されることを示す。これにより、個別化されたコンテンツ作成やカスタマイズなどの領域に応用が可能となる。 Comment

upvote downvoteをフィードバックし、iterativeなmannerでDiffusionモデルの生成結果を改善できる手法。多くのDiffusion based Modelに対して適用可能
デモ: https://huggingface.co/spaces/dvruette/fabric




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #SpokenLanguageProcessing #MultiModal #SpeechProcessing Issue Date: 2023-07-22 GPT Summary- 本研究では、マルチモーダル学習のためのMeta-Transformerというフレームワークを提案しています。このフレームワークは、異なるモダリティの情報を処理し関連付けるための統一されたネットワークを構築することを目指しています。Meta-Transformerは、対応のないデータを使用して12のモダリティ間で統一された学習を行うことができ、テキスト、画像、ポイントクラウド、音声、ビデオなどの基本的なパーセプションから、X線、赤外線、高分光、IMUなどの実用的なアプリケーション、グラフ、表形式、時系列などのデータマイニングまで、幅広いタスクを処理することができます。Meta-Transformerは、トランスフォーマーを用いた統一されたマルチモーダルインテリジェンスの開発に向けた有望な未来を示しています。 Comment

12種類のモダリティに対して学習できるTransformerを提案
Dataをsequenceにtokenizeし、unifiedにfeatureをencodingし、それぞれのdownstreamタスクで学習
image




Paper/Blog Link My Issue
#NLP #Dataset #Personalization #MultiModal #Conversation Issue Date: 2023-07-15 GPT Summary- 本研究では、テキストと画像の両方を使用してパーソナを拡張し、マルチモーダルな対話エージェントを構築するためのデータセットであるMPCHATを提案します。さらに、マルチモーダルパーソナを組み込むことで、応答予測、パーソナのグラウンディング予測、話者の識別といったタスクのパフォーマンスを統計的に有意に改善できることを示します。この研究は、マルチモーダルな対話理解においてマルチモーダルパーソナの重要性を強調し、MPCHATが高品質なリソースとして役立つことを示しています。

Paper/Blog Link My Issue
#NaturalLanguageGeneration #NLP #LanguageModel #TabularData #TextToImageGeneration Issue Date: 2023-07-15 GPT Summary- 本研究では、Vision&Language(V&L)モデルにおけるエンティティの知識の保持方法を検証するために、テーブルと画像の生成タスクを提案します。このタスクでは、エンティティと関連する画像の知識を含むテーブルを生成する第一の部分と、キャプションとエンティティの関連知識を含むテーブルから画像を生成する第二の部分があります。提案されたタスクを実行するために、Wikipediaの約20万のinfoboxからWikiTIGデータセットを作成しました。最先端のV&LモデルOFAを使用して、提案されたタスクのパフォーマンスを評価しました。実験結果は、OFAが一部のエンティティ知識を忘れることを示しています。

Paper/Blog Link My Issue
#NaturalLanguageGeneration #NLP #MultiModal #DiffusionModel #TextToImageGeneration Issue Date: 2023-07-15 GPT Summary- 本研究では、視覚情報を活用した自然言語生成のためのLIVEという手法を提案しています。LIVEは、事前学習済み言語モデルを使用して、テキストに基づいて場面を想像し、高品質な画像を合成する方法です。また、CLIPを使用してテキストの想像力を評価し、段落ごとに画像を生成します。さまざまな実験により、LIVEの有効性が示されています。コード、モデル、データは公開されています。 Comment

>まず、テキストに基づいて場面を想像します。入力テキストに基づいて高品質な画像を合成するために拡散モデルを使用します。次に、CLIPを使用して、テキストが想像力を喚起できるかを事後的に判断します。最後に、私たちの想像力は動的であり、段落全体に1つの画像を生成するのではなく、各文に対して合成を行います。



興味深い




Paper/Blog Link My Issue
#Pretraining #Pocket #NLP #Transformer #MultiModal Issue Date: 2023-07-12 GPT Summary- Emuは、マルチモーダルなコンテキストで画像とテキストを生成するためのTransformerベースのモデルです。このモデルは、単一モダリティまたはマルチモーダルなデータ入力を受け入れることができます。Emuは、マルチモーダルなシーケンスでトレーニングされ、画像からテキストへのタスクやテキストから画像へのタスクなど、さまざまなタスクで優れたパフォーマンスを示します。また、マルチモーダルアシスタントなどの拡張機能もサポートしています。

Paper/Blog Link My Issue
#Pretraining #Pocket #NLP #MultiModal Issue Date: 2023-07-12 GPT Summary- エゴセントリックビデオ言語の事前学習の第2世代(EgoVLPv2)は、ビデオと言語のバックボーンにクロスモーダルの融合を直接組み込むことができる。EgoVLPv2は強力なビデオテキスト表現を学習し、柔軟かつ効率的な方法でさまざまなダウンストリームタスクをサポートする。さらに、提案されたバックボーン戦略は軽量で計算効率が高い。EgoVLPv2は幅広いVLタスクで最先端のパフォーマンスを達成している。詳細はhttps://shramanpramanick.github.io/EgoVLPv2/を参照。

Paper/Blog Link My Issue
#FoundationModel #Navigation Issue Date: 2023-07-11 GPT Summary- 本研究では、汎用事前学習モデルであるVisual Navigation Transformer(ViNT)を提案し、ビジョンベースのロボットナビゲーションに成功をもたらします。ViNTは、大規模なナビゲーションデータセットで訓練され、柔軟なTransformerベースのアーキテクチャを使用してさまざまなナビゲーションタスクに適応します。ViNTは、拡散ベースのサブゴール提案と組み合わせることで、新しい環境を探索し、キロメートルスケールのナビゲーション問題を解決することができます。また、ViNTはプロンプトチューニングに触発された技術を使用して、新しいタスク仕様に適応することができます。ViNTはモバイルロボティクスのための効果的な基礎モデルとして確立されています。詳細はプロジェクトページを参照してください。 Comment

事前学習済みモデルを視覚ベースのロボットナビゲーションに活用するFoundation Model。FlexibleなTransformerベースのアーキテクチャに基づいて構築されており、さまざまなナビゲーションタスクに取り組むことが可能

image




Paper/Blog Link My Issue
#LanguageModel #QuestionAnswering #MultiModal Issue Date: 2023-07-11 GPT Summary- この研究では、Semantic Pyramid AutoEncoder(SPAE)を使用して、凍結されたLLMsが非言語的なモダリティを含むタスクを実行できるようにします。SPAEは、LLMの語彙から抽出されたトークンと生のピクセルデータの変換を行います。生成されたトークンは、視覚再構成に必要な意味と詳細を捉え、LLMが理解できる言語に変換します。実験結果では、我々のアプローチが画像理解と生成のタスクにおいて最先端のパフォーマンスを25%以上上回ることを示しています。 Comment

画像をLLMのtokenスペースにマッピングすることで、LLMがパラメータの更新なしにvisual taskを解くことを可能にした。in context learningによって、様々なvisuataskを解くことができる。
image




Paper/Blog Link My Issue
#LanguageModel #QuestionAnswering #MultiModal Issue Date: 2023-06-30 GPT Summary- 私たちは、LENSというモジュラーなアプローチを提案しています。このアプローチでは、大規模言語モデル(LLMs)を使用してコンピュータビジョンの問題に取り組みます。LENSは、独立したビジョンモジュールの出力に対して言語モデルを使用して推論を行います。私たちは、ゼロショットおよびフューショットのオブジェクト認識などのコンピュータビジョンの設定でLENSを評価しました。LENSは市販のLLMに適用でき、非常に競争力のあるパフォーマンスを発揮します。コードはオープンソースで提供されています。 Comment

参考:

Loading…

image




Paper/Blog Link My Issue
#Pocket #Personalization Issue Date: 2023-06-16 GPT Summary- 本研究では、Photoswapという新しいアプローチを提案し、既存の画像において個人的な対象物の交換を可能にすることを目的としています。Photoswapは、参照画像から対象物の視覚的な概念を学習し、トレーニングフリーでターゲット画像に交換することができます。実験により、Photoswapが効果的で制御可能であり、ベースライン手法を大幅に上回る人間の評価を得ていることが示されました。Photoswapは、エンターテインメントからプロの編集まで幅広い応用可能性を持っています。

Paper/Blog Link My Issue
#Pocket #NLP #Personalization #DiffusionModel #TextToImageGeneration Issue Date: 2023-06-16 GPT Summary- 拡散モデルを用いたパーソナライズされた画像生成において、高速で軽量なプラグインメソッドであるViCoを提案。注目モジュールを導入し、注目ベースのオブジェクトマスクを使用することで、一般的な過学習の劣化を軽減。元の拡散モデルのパラメータを微調整せず、軽量なパラメータトレーニングだけで、最新のモデルと同等またはそれ以上の性能を発揮することができる。

Paper/Blog Link My Issue
#Pocket #NLP #QuestionAnswering #MultiModal Issue Date: 2023-06-16 GPT Summary- 本論文では、自律的な情報収集ビジュアル質問応答フレームワークであるAVISを提案する。AVISは、大規模言語モデル(LLM)を活用して外部ツールの利用戦略を動的に決定し、質問に対する回答に必要な不可欠な知識を獲得する。ユーザースタディを実施して収集したデータを用いて、プランナーや推論エンジンを改善し、知識集約型ビジュアル質問応答ベンチマークで最先端の結果を達成することを示している。 Comment

image




Paper/Blog Link My Issue
#EfficiencyImprovement #MachineLearning #Pocket #NLP #Transformer #SpeechProcessing #LongSequence #Architecture #NeurIPS #Byte-level Issue Date: 2023-05-15 GPT Summary- Megabyteというマルチスケールデコーダーアーキテクチャを提案し、長いシーケンスのエンドツーエンドのモデリングを可能にする。シーケンスをパッチに分割し、ローカルサブモデルとグローバルモデルを使用することで、計算効率を向上させつつコストを削減。実験により、Megabyteは長いコンテキストの言語モデリングで競争力を持ち、最先端の密度推定を達成した。トークン化なしの自己回帰シーケンスモデリングの実現可能性を示す。 Comment

byte列のsequenceからpatch embeddingを作成することで、tokenizer freeなtransformerを提案。
byte列で表現されるデータならなんでも入力できる。つまり、理論上なんでも入力できる。

openreview: https://openreview.net/forum?id=JTmO2V9Xpz




Paper/Blog Link My Issue
#NeuralNetwork #Controllable #Pocket #NLP #VideoGeneration/Understandings #TextToVideoGeneration Issue Date: 2023-05-12 GPT Summary- ゼロショットテキストからビデオ生成のためにControlNetを組み合わせ、フレームの流れに一致する高品質で一貫したビデオを生成。スケッチ入力を補間し、Text-to-Video Zeroを実行。実験結果は、ユーザーの意図に対する高い適合性を示し、デモやオープンソースリソースも提供。

Paper/Blog Link My Issue
#NeuralNetwork #Embeddings #Pocket #RepresentationLearning #ContrastiveLearning #ICLR #Semi-Supervised Issue Date: 2023-04-30 GPT Summary- 本研究では、コンピュータビジョンにおける半教師あり学習の問題を解決するために、Semantic Positives via Pseudo-Labels (SemPPL)という新しい手法を提案している。この手法は、ラベル付きとラベルなしのデータを組み合わせて情報豊富な表現を学習することができ、ResNet-$50$を使用してImageNetの$1\%$および$10\%$のラベルでトレーニングする場合、競合する半教師あり学習手法を上回る最高性能を発揮することが示された。SemPPLは、強力な頑健性、分布外および転移性能を示すことができる。 Comment

後ほど説明を追記する
image

image

image

関連:
- A Simple Framework for Contrastive Learning of Visual Representations, Ting Chen+, ICML'20




Paper/Blog Link My Issue
#Pocket #NeurIPS Issue Date: 2023-04-27 GPT Summary- 大規模な言語-視覚モデルのトレーニングを加速し安定させる新手法を提案。SwitchBackを用いたint8量子化で、CLIP ViT-Hugeのトレーニング速度を13-25%向上させ、bfloat16と同等の性能を維持。float8トレーニングも効果的であることを示し、初期化方法が成功に寄与。損失のスパイクを分析し、AdamW-Adafactorハイブリッドを推奨することで、トレーニングの安定性を向上させた。 Comment

image




Paper/Blog Link My Issue
#ImageSegmentation #TechnicalReport Issue Date: 2023-04-25 Comment

MetaのSAMを、videoに適用し、videow内のsegmentationを追加学習なしでやりました、という話だと思われる。




Paper/Blog Link My Issue
#NeuralNetwork #Pocket #SIGGRAPH Issue Date: 2022-12-01 GPT Summary- テキストから画像へのモデルは高品質な画像合成を実現するが、空間的特性の制御が不足している。本研究では、スケッチからの空間マップを用いて事前学習済みモデルを導く新しいアプローチを提案。専用モデルを必要とせず、潜在ガイダンス予測器(LGP)を訓練し、画像を空間マップに一致させる。ピクセルごとの訓練により柔軟性を持ち、スケッチから画像への翻訳タスクにおいて効果的な生成が可能であることを示す。 Comment

スケッチとpromptを入力することで、スケッチ biasedな画像を生成することができる技術。すごい。

image




Paper/Blog Link My Issue
#Pocket #CVPR #VectorQuantization Issue Date: 2025-12-23 GPT Summary- 高解像度画像生成のために、二段階フレームワークを提案。RQ-VAEが画像特徴を離散コードとして表現し、RQ-Transformerが次のコードを予測。これにより、計算コストを削減しつつ高品質な画像を生成。従来のARモデルを上回る性能とサンプリング速度の向上を実現。

Paper/Blog Link My Issue
#Survey #EfficiencyImprovement #Pocket #NLP #Transformer #Attention #Sparse #SparseAttention Issue Date: 2025-11-30 GPT Summary- 本論文では、計算効率やメモリ効率を向上させることに焦点を当てた「X-former」モデル(Reformer、Linformer、Performer、Longformerなど)の大規模なセレクションを紹介し、最近の研究を体系的かつ包括的にまとめる。Transformersは自然言語処理を含む多くの分野で重要な役割を果たしている。 Comment

関連:
- [Paper Note] Efficient Transformers: A Survey, Yi Tay+, ACM Computing Surveys'22, 2022.12
- [Paper Note] Big Bird: Transformers for Longer Sequences, Manzil Zaheer+, NIPS'20, 2020.07
- [Paper Note] Reformer: The Efficient Transformer, Nikita Kitaev+, ICLR'20
- [Paper Note] Generating Long Sequences with Sparse Transformers, Rewon Child+, arXiv'19, 2019.04
- [Paper Note] Longformer: The Long-Document Transformer, Iz Beltagy+, arXiv'20




Paper/Blog Link My Issue
#NeuralNetwork #Pocket #NLP #ICML #Selected Papers/Blogs #OOD #Finetuning #Generalization #Encoder #Encoder-Decoder #KeyPoint Notes #Souping Issue Date: 2025-11-28 GPT Summary- ファインチューニングされたモデルの重みを平均化する「モデルスープ」手法を提案し、精度と堅牢性を向上させることを示す。従来のアンサンブル手法とは異なり、追加のコストなしで複数のモデルを平均化でき、ImageNetで90.94%のトップ1精度を達成。さらに、画像分類や自然言語処理タスクにも適用可能で、分布外性能やゼロショット性能を改善することが確認された。 Comment

日本語解説: https://www.docswell.com/s/DeepLearning2023/ZW13L1-dlmodel-soups-averaging-weights-of-multiple-finetuned-models-improves-accuracy-without-increasing-inference-time

transformerベースの事前学習済みモデル(encoder-only, encoder-decoderモデル)のファインチューニングの話で、共通のベースモデルかつ共通のパラメータの初期化を持つ、様々なハイパーパラメータで学習したモデルの重みを平均化することでよりロバストで高性能なモデルを作ります、という話。似たような手法にアンサンブルがあるが、アンサンブルでは利用するモデルに対して全ての推論結果を得なければならないため、計算コストが増大する。一方、モデルスープは単一モデルと同じ計算量で済む(=計算量は増大しない)。

スープを作る際は、Validation dataのAccが高い順に異なるFinetuning済みモデルをソートし、逐次的に重みの平均をとりValidation dataのAccが上がる場合に、当該モデルをsoupのingridientsとして加える。要は、開発データで性能が高い順にモデルをソートし、逐次的にモデルを取り出していき、現在のスープに対して重みを平均化した時に開発データの性能が上がるなら平均化したモデルを採用し、上がらないなら無視する、といった処理を繰り返す。これをgreedy soupと呼ぶ。他にもuniform soup, learned soupといった手法も提案され比較されているが、画像系のモデル(CLIP, ViTなど)やNLP(T5, BERT)等で実験されており、greedy soupの性能とロバストさ(OOD;分布シフトに対する予測性能)が良さそうである。




Paper/Blog Link My Issue
#Pocket #Dataset #Evaluation #Robotics #RA-L Issue Date: 2025-11-20 GPT Summary- ロボットが人間と共存する環境で、言語を知覚や行動に関連付けるためのシミュレーションベンチマークCALVINを提案。CALVINは、長期的な言語条件付きタスクを学習し、複雑なロボット操作を人間の言語指示に基づいて解決するエージェントの開発を目指す。ゼロショット評価を行い、既存のモデルが低パフォーマンスであることから、新たなエージェントの開発の可能性を示唆。 Comment

pj page: http://calvin.cs.uni-freiburg.de




Paper/Blog Link My Issue
#Pocket #DiffusionModel #Selected Papers/Blogs #VideoGeneration/Understandings #4D (Video) Issue Date: 2025-10-17 GPT Summary- 高忠実度で一貫した動画生成のための拡散モデルを提案。画像と動画データを共同でトレーニングし、最適化を加速。新しい条件付きサンプリング技術により、長く高解像度の動画生成で優れた性能を発揮。大規模なテキスト条件付き動画生成タスクでの初期結果と、既存ベンチマークでの最先端結果を示す。 Comment

Surveyはこちら:
- [Paper Note] Video Diffusion Models: A Survey, Andrew Melnik+, TMLR'24, 2024.05




Paper/Blog Link My Issue
#Pocket #TextToImageGeneration #VariationalAutoEncoder #CVPR #Selected Papers/Blogs #Encoder-Decoder #ImageSynthesis #U-Net Issue Date: 2025-10-10 GPT Summary- 拡散モデル(DMs)は、逐次的なデノイジングオートエンコーダを用いて画像生成プロセスを効率化し、最先端の合成結果を達成。従来のピクセル空間での訓練に比べ、強力な事前訓練されたオートエンコーダの潜在空間での訓練により、計算リソースを削減しつつ視覚的忠実度を向上。クロスアテンション層を導入することで、テキストやバウンディングボックスに基づく柔軟な生成が可能となり、画像インペインティングや無条件画像生成などで競争力のある性能を発揮。 Comment

ここからtext等による条件付けをした上での生成が可能になった(らしい)

日本語解説: https://qiita.com/UMAboogie/items/afa67842e0461f147d9b
前提知識:
- [Paper Note] Denoising Diffusion Probabilistic Models, Jonathan Ho+, NeurIPS'20, 2020.06




Paper/Blog Link My Issue
#Pocket #Transformer #DiffusionModel #Selected Papers/Blogs Issue Date: 2025-10-10 GPT Summary- 分類器ガイダンスは条件付き拡散モデルのポストトレーニング手法で、モードカバレッジとサンプル忠実度のトレードオフを図る。著者は、分類器なしで生成モデルによるガイダンスが可能であることを示し、これを分類器フリーガイダンスと呼ぶ。条件付きおよび無条件の拡散モデルを共同でトレーニングし、サンプル品質と多様性のトレードオフを達成する。 Comment

日本語解説: https://qiita.com/UMAboogie/items/160c1159811743c49d99

関連:
- [Paper Note] Diffusion Models Beat GANs on Image Synthesis, Prafulla Dhariwal+, NeurIPS'21 Spotlight, 2021.05




Paper/Blog Link My Issue
#NeuralNetwork #Pretraining #Pocket #NeurIPS #Scaling Laws #Deduplication Issue Date: 2025-09-04 GPT Summary- データセットサイズに対する誤差のスケーリングを研究し、高品質なデータプルーニングメトリックを用いることで誤差を指数スケーリングに減少させる可能性を示す。CIFAR-10、SVHN、ImageNetでの実験により、冪法則スケーリングを超える改善を確認。ImageNetにおける10種類のデータプルーニングメトリックのベンチマークを実施し、従来のメトリックに代わる新しい自己教師ありプルーニングメトリックを開発。良好なデータプルーニングメトリックがニューラルスケーリング法則の改善とリソースコスト削減に寄与する可能性を示唆。 Comment

openreview: https://openreview.net/forum?id=UmvSlP-PyV

日本語解説スライド: https://speakerdeck.com/takase/snlp2023-beyond-neural-scaling-laws




Paper/Blog Link My Issue
#NeuralNetwork #Selected Papers/Blogs #Backbone Issue Date: 2025-08-29 GPT Summary- ConvNetはVision Transformersの登場により地位を失ったが、ハイブリッドアプローチの効果はトランスフォーマーの優位性に依存している。本研究では、ConvNetの限界をテストし、ConvNeXtという新しいモデルを提案。ConvNeXtは標準的なConvNetモジュールのみで構成され、精度とスケーラビリティでトランスフォーマーと競争し、ImageNetで87.8%の精度を達成し、COCO検出およびADE20KセグメンテーションでSwin Transformersを上回る。 Comment

ConvNeXt




Paper/Blog Link My Issue
#Pocket #Transformer #OCR #ACMMM #Backbone Issue Date: 2025-08-22 GPT Summary- 自己監視型事前学習モデルDiTを提案し、ラベルなしテキスト画像を用いて文書AIタスクにおける性能を向上。文書画像分類やレイアウト分析、表検出、OCRなどで新たな最先端結果を達成。コードとモデルは公開中。

Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #Pocket #NLP #MultitaskLearning #MultiModal #SpeechProcessing #ICLR Issue Date: 2025-07-10 GPT Summary- 汎用アーキテクチャPerceiver IOを提案し、任意のデータ設定に対応し、入力と出力のサイズに対して線形にスケール可能。柔軟なクエリメカニズムを追加し、タスク特有の設計を不要に。自然言語、視覚理解、マルチタスクで強力な結果を示し、GLUEベンチマークでBERTを上回る性能を達成。 Comment

当時相当話題となったさまざまなモーダルを統一された枠組みで扱えるPerceiver IO論文
image




Paper/Blog Link My Issue
#Pocket #NLP #Dataset #MultiModal #CLIP #NeurIPS Issue Date: 2025-05-06 GPT Summary- LAION-5Bは、5.85億のCLIPフィルタリングされた画像-テキストペアから成る大規模データセットで、英語のペアが2.32B含まれています。このデータセットは、CLIPやGLIDEなどのモデルの再現とファインチューニングに利用され、マルチモーダルモデルの研究を民主化します。また、データ探索やサブセット生成のためのインターフェースや、コンテンツ検出のためのスコアも提供されます。

Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #Pocket #Supervised-FineTuning (SFT) #CLIP #ICLR #OOD Issue Date: 2023-05-15 GPT Summary- 事前学習済みモデルをダウンストリームタスクに転移する際、ファインチューニングと線形プロービングの2つの方法があるが、本研究では、分布のシフトが大きい場合、ファインチューニングが線形プロービングよりも分布外で精度が低くなることを発見した。LP-FTという2段階戦略の線形プロービング後の全体のファインチューニングが、両方のデータセットでファインチューニングと線形プロービングを上回ることを示唆している。 Comment

事前学習済みのニューラルモデルをfinetuningする方法は大きく分けて
1. linear layerをヘッドとしてconcatしヘッドのみのパラメータを学習
2. 事前学習済みモデル全パラメータを学習

の2種類がある。
前者はin-distributionデータに強いが、out-of-distributionに弱い。後者は逆という互いが互いを補完し合う関係にあった。
そこで、まず1を実施し、その後2を実施する手法を提案。in-distribution, out-of-distributionの両方で高い性能を出すことを示した(実験では画像処理系のデータを用いて、モデルとしてはImageNet+CLIPで事前学習済みのViTを用いている)。
image




Paper/Blog Link My Issue
#Pocket #Transformer #read-later #ICCV #Encoder #Backbone #DepthEstimation #SemanticSegmentation Issue Date: 2025-12-29 GPT Summary- 密なビジョントランスフォーマーは、畳み込みネットワークの代わりにビジョントランスフォーマーを用いた密な予測タスク向けの新しいアーキテクチャです。異なる解像度のトークンを集め、畳み込みデコーダでフル解像度の予測に統合します。このアーキテクチャは、グローバルな受容野を持ち、より一貫した予測を提供します。実験により、特に大量のトレーニングデータがある場合に、単眼深度推定で最大28%の性能向上を示し、セマンティックセグメンテーションではADE20Kで49.02%のmIoUを達成しました。さらに、他の小規模データセットでも最先端の結果を記録しています。モデルは公開されています。 Comment

DPT headの解説: https://qiita.com/Chi_corp_123/items/8a2e9a4f542a3404a700




Paper/Blog Link My Issue
#Dataset #Evaluation #ICCV Issue Date: 2025-11-20 GPT Summary- 実世界の3Dオブジェクトカテゴリの学習を促進するため、約19,000本のビデオから150万フレームを含む大規模データセット「Common Objects in 3D」を収集。これにより、合成データセットと同程度の規模の実データを提供。新しいビュー合成と3D再構築手法の評価を行い、少数のビューからオブジェクトを再構築するためのTransformerを用いたニューラルレンダリング手法「NerFormer」を提案。

Paper/Blog Link My Issue
#NeuralNetwork #Pocket #DiffusionModel #ICML #Selected Papers/Blogs #Encoder-Decoder #ScoreMatching #U-Net Issue Date: 2025-10-10 GPT Summary- DDPMは高品質なサンプル生成が可能な生成モデルであり、簡単な修正により競争力のある対数尤度を達成できることを示す。逆拡散プロセスの分散を学習することで、サンプリング回数を大幅に削減しつつサンプル品質を維持。DDPMとGANのターゲット分布のカバー能力を比較し、モデルの容量とトレーニング計算量に対してスケーラブルであることを明らかにした。コードは公開されている。 Comment

関連:
- [Paper Note] Denoising Diffusion Probabilistic Models, Jonathan Ho+, NeurIPS'20, 2020.06




Paper/Blog Link My Issue
#NeuralNetwork #Pocket #DiffusionModel #TextToImageGeneration #NeurIPS #Selected Papers/Blogs #Encoder-Decoder #ScoreMatching #U-Net Issue Date: 2025-10-10 GPT Summary- 拡散モデルが最先端の生成モデルを上回る画像サンプル品質を達成。無条件画像合成ではアーキテクチャの改善、条件付き画像合成では分類器のガイダンスを用いて品質向上。ImageNetでのFIDスコアは、128×128で2.97、256×256で4.59、512×512で7.72を達成し、BigGAN-deepに匹敵。分類器のガイダンスはアップサンプリング拡散モデルと組み合わせることでさらに改善され、256×256で3.94、512×512で3.85を記録。コードは公開中。 Comment

openreview: https://openreview.net/forum?id=AAWuCvzaVt

日本語解説: https://qiita.com/UMAboogie/items/160c1159811743c49d99

バックボーンとして使われているU-Netはこちら:
- [Paper Note] U-Net: Convolutional Networks for Biomedical Image Segmentation, Olaf Ronneberger+, MICCAI'15, 2015.05




Paper/Blog Link My Issue
#Pocket #Transformer #ICLR #Selected Papers/Blogs #Backbone Issue Date: 2025-08-25 GPT Summary- 純粋なトランスフォーマーを画像パッチのシーケンスに直接適用することで、CNNへの依存なしに画像分類タスクで優れた性能を発揮できることを示す。大量のデータで事前学習し、複数の画像認識ベンチマークで最先端のCNNと比較して優れた結果を達成し、計算リソースを大幅に削減。 Comment

openreview: https://openreview.net/forum?id=YicbFdNTTy

ViTを提案した研究




Paper/Blog Link My Issue
#Pretraining #Pocket #Transformer #Architecture #Backbone Issue Date: 2025-07-19 GPT Summary- 本論文では、大規模ビジョンモデルのトレーニングと応用における課題に対処するための3つの技術を提案。具体的には、トレーニングの安定性向上のための残差後正規化法、低解像度から高解像度への転送を可能にする位置バイアス法、ラベル付きデータの必要性を減少させる自己教師あり学習法を用いる。これにより、30億パラメータのSwin Transformer V2モデルをトレーニングし、複数のビジョンタスクで新記録を樹立。トレーニング効率も向上し、ラベル付きデータと時間を大幅に削減。

Paper/Blog Link My Issue
#Pocket #Transformer #Attention #Architecture #Selected Papers/Blogs #ICCV #Backbone Issue Date: 2025-07-19 GPT Summary- Swin Transformerは、コンピュータビジョンの新しいバックボーンとして機能する階層的トランスフォーマーを提案。シフトウィンドウ方式により、効率的な自己注意計算を実現し、さまざまなスケールでのモデリングが可能。画像分類や物体検出、セマンティックセグメンテーションなどで従来の最先端を上回る性能を示し、トランスフォーマーのビジョンバックボーンとしての可能性を示唆。コードは公開されている。 Comment

日本語解説: https://qiita.com/m_sugimura/items/139b182ee7c19c83e70a

画像処理において、物体の異なるスケールや、解像度に対処するために、PatchMergeと呼ばれるプーリングのような処理と、固定サイズのローカルなwindowに分割してSelf-Attentionを実施し、layerごとに通常のwindowとシフトされたwindowを適用することで、window間を跨いだ関係性も考慮できるようにする機構を導入したモデル。
image

image

image




Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #Pocket #NLP #LanguageModel #Transformer #MultiModal Issue Date: 2023-08-22 GPT Summary- VLP(Vision-and-Language Pre-training)のアプローチは、ビジョンと言語のタスクでのパフォーマンスを向上させているが、現在の方法は効率性と表現力の面で問題がある。そこで、本研究では畳み込みフリーのビジョンと言語のトランスフォーマ(ViLT)モデルを提案する。ViLTは高速でありながら競争力のあるパフォーマンスを示し、コードと事前学習済みの重みはGitHubで利用可能である。 Comment

日本語解説: https://tech.fusic.co.jp/posts/2021-12-29-vilt/




Paper/Blog Link My Issue
#NLP #MultiModal #ContrastiveLearning #ICML Issue Date: 2023-04-27 Comment

CLIP論文。大量の画像と画像に対応するテキストのペアから、対象学習を行い、画像とテキスト間のsimilarityをはかれるようにしたモデル

image




Paper/Blog Link My Issue
#NeuralNetwork #NaturalLanguageGeneration #NLP #DataToTextGeneration #INLG #Game #4D (Video) Issue Date: 2022-09-15 GPT Summary- モーターレーシングゲームにおける自動解説生成タスクを提案し、視覚データ、数値データ、テキストデータを用いて解説を生成する。タスクは発話タイミングの特定と発話生成の2つのサブタスクに分かれ、129,226の発話を含む新しい大規模データセットを紹介。解説の特性は時間や視点によって変化し、最先端の視覚エンコーダでも正確な解説生成が難しいことが示された。データセットとベースライン実装は今後の研究のために公開される。 Comment

データセット: https://kirt.airc.aist.go.jp/corpus/ja/RacingCommentary




Paper/Blog Link My Issue
#NeuralNetwork #Pocket #NeurIPS Issue Date: 2021-11-04 GPT Summary- 本論文では、Residual Networks(ResNet-50)の性能を新たな最適化手法やデータ拡張技術を統合したトレーニング手法で再評価。競争力のある設定で、ImageNet-valにおいて80.4%のトップ1精度を達成し、事前学習済みモデルをtimmライブラリで共有することで、今後の研究のベースラインとなることを目指す。 Comment

2015年以後、様々な最適化アルゴリズム、正則化手法、データ拡張などが提案される中で、最新アーキテクチャのモデルにはそれらが適用される一方ベースラインとなるResNetではそれらが適用されず、論文の値のみが参照される現状はフェアではないので、ResNetの性能を向上させるような訓練手法を追求した研究。



ResNetにおける有効な訓練手法として下記を模索:



損失関数として、MixUp(訓練画像を重ね合わせ、組み合わせた画像のラベルをミックスして新しい学習インスタンスを作るデータ拡張手法)と、CutMix(画像を切り貼りして、切り貼り部分の面積に応じてラベルのスコアを調整するデータ拡張手法)を適用し、CutMixによって大幅に性能が改善することを示した。このとき、ラベルの確率の和が1となる前提の元クロスエントロピーで学習するのではなく、元画像に含まれる物体が両方存在するという全体の元BinaryCrossEntropyを適用しマルチラベル問題として学習することで、性能が向上。



データ拡張手法として、MixUp, CutMixだけでなく、通常のリサイズ・切り抜きと、水平方向の反転を適用しデータ拡張する。加えてRandAugment(14種類のデータ拡張操作から、N個サンプルし、強さMで順番に適用するデータ拡張手法。N,Mはそれぞれ0〜10の整数なので、10の二乗オーダーでグリッドサーチすれば、最適なN,Mを得る。グリッドサーチするだけでお手軽だが非常に強力)を適用した。



正則化として、Weight Decay(学習過程で重みが大きくなりすぎないようにペナルティを課し、過学習を防止する手法。L2正則化など。)と、label smoothing(正解ラベルが1、その他は0とラベル付けするのではなく、ラベルに一定のノイズを入れ、正解ラベル以外にも重みが入っている状態にし、ラベル付けのノイズにロバストなモデルを学習する手法。ノイズの強さは定数で調整する)、Repeated Augmentation(同じバッチ内の画像にデータ拡張を適用しバッチサイズを大きくする)、Stochastic Depth(ランダムでレイヤーを削除し、その間を恒等関数で繋ぎ訓練することで、モデルの汎化能力と訓練時間を向上する)を適用。

Optimizerとして、オリジナルのResNetでは、SGDやAdamWで訓練されることが多いが、Repeated Augmentationとバイナリクロスエントロピーを組み合わせた場合はLAMBが有効であった。また、従来よりも長い訓練時間(600epoch、様々な正則化手法を使っているので過学習しづらいため)で学習し、最初にウォームアップを使い徐々に学習率を上げ(finetuningの再認識これまでのweightをなるべく壊したくないから小さい学習率から始める、あるいはMomentumやAdamといった移動平均を使う手法では移動平均を取るための声倍の蓄積が足りない場合学習の信頼度が低いので最初の方は学習率小さくするみたいな、イメージ)その後コサイン関数に従い学習率を減らしていくスケジューリング法で学習。



論文中では上記手法の3種類の組み合わせ(A1,A2,A3)を提案し実験している。

ResNet-50に対してA1,2,3を適用した結果、A1を適用した場合にImageNetのトップ1精度が80.4%であり、これはResNet-50を使った場合のSoTA。元のResNetの精度が76%程度だったので大幅に向上した。

同じ実験設定を使った場合の他のアーキテクチャ(ViTやEfficientNetなど)と比べても遜色のない性能を達成。



image



また、本論文で提案されているA2と、DeiTと呼ばれるアーキテクチャで提案されている訓練手法(T2)をそれぞれのモデルに適用した結果、ResNetではA2、DeiTではT2の性能が良かった。つまり、「アーキテクチャと訓練方法は同時に最適化する必要がある」ということ。これがこの論文のメッセージの肝とのこと。



(ステートオブAIガイドの内容を読んで学んだことを自分の言葉で整理して記述しました。いつもありがとうございます。)



image

画像系でどういった訓練手法が利用されるか色々書かれていたので勉強になった。特に画像系のデータ拡張手法なんかは普段触らないので勉強になる。

OpenReview: https://openreview.net/forum?id=NG6MJnVl6M5




Paper/Blog Link My Issue
#NeuralNetwork #EfficiencyImprovement #Pocket #DiffusionModel #NeurIPS #Selected Papers/Blogs #Encoder-Decoder #ScoreMatching #ImageSynthesis #U-Net Issue Date: 2025-10-10 GPT Summary- 拡散確率モデルを用いた高品質な画像合成を提案。新しい重み付き変分境界でのトレーニングにより、優れた結果を得る。無条件CIFAR10で9.46のInceptionスコア、256x256のLSUNでProgressiveGANに匹敵する品質を達成。実装はGitHubで公開。 Comment

日本語解説: https://qiita.com/ground0state/items/565de257807b12dba52a




Paper/Blog Link My Issue
#Pocket #DataAugmentation #ContrastiveLearning #Self-SupervisedLearning #ICLR #Selected Papers/Blogs Issue Date: 2025-05-18 GPT Summary- 本論文では、視覚表現の対比学習のためのシンプルなフレームワークSimCLRを提案し、特別なアーキテクチャやメモリバンクなしで対比自己教師あり学習を簡素化します。データ拡張の重要性、学習可能な非線形変換の導入による表現の質向上、対比学習が大きなバッチサイズと多くのトレーニングステップから利益を得ることを示し、ImageNetで従来の手法を上回る結果を達成しました。SimCLRによる自己教師あり表現を用いた線形分類器は76.5%のトップ1精度を達成し、教師ありResNet-50に匹敵します。ラベルの1%でファインチューニングした場合、85.8%のトップ5精度を達成しました。 Comment

日本語解説: https://techblog.cccmkhd.co.jp/entry/2022/08/30/163625




Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #Pocket #NLP #ICLR #KnowledgeEditing #read-later Issue Date: 2025-05-07 GPT Summary- 深層ニューラルネットワークの誤りを迅速に修正するために、Editable Trainingというモデル非依存の訓練手法を提案。これにより、特定のサンプルの誤りを効率的に修正し、他のサンプルへの影響を避けることができる。大規模な画像分類と機械翻訳タスクでその有効性を実証。 Comment

(おそらく)Knowledge Editingを初めて提案した研究

OpenReview: https://openreview.net/forum?id=HJedXaEtvS




Paper/Blog Link My Issue
#Pocket #Transformer #LongSequence #Selected Papers/Blogs #One-Line Notes #SparseAttention Issue Date: 2025-11-30 GPT Summary- スパース因子分解を用いてトランスフォーマーの注意行列を$O(n \sqrt{n})$に削減し、深いネットワークの訓練やメモリ節約のための手法を導入。スパーストランスフォーマーは数百層で数万タイムステップのシーケンスをモデル化し、Enwik8、CIFAR-10、ImageNet-64で新たな最先端を達成。自己注意を用いて100万以上の長さのシーケンスをモデル化する可能性を示す。 Comment

Sparse Attentionの概念を提案した研究。以下Surveyより
- [Paper Note] Generating Long Sequences with Sparse Transformers, Rewon Child+, arXiv'19, 2019.04




Paper/Blog Link My Issue
#Pocket #Dataset #Evaluation #Robotics #IROS Issue Date: 2025-11-20 GPT Summary- 動的要素を含むシーンのマッピングとローカリゼーションのために、RGB-Dセンサーを用いた新しいアプローチを提案。TSDFに基づく効率的なトラッキングを行い、色情報を利用してセンサーのポーズを推定。動的要素の検出には残差と自由空間のモデリングを活用。実験により、提案手法が最先端の密SLAM手法を上回る性能を示し、データセットも公開。オープンソースコードも提供。

Paper/Blog Link My Issue
#Pocket #NLP #Transformer #MultiModal #Architecture Issue Date: 2025-08-21 GPT Summary- テキストと画像情報を融合する監視型マルチモーダルビットランスフォーマーモデルを提案し、さまざまなマルチモーダル分類タスクで最先端の性能を達成。特に、難易度の高いテストセットでも強力なベースラインを上回る結果を得た。 Comment

テキスト+imageを用いるシンプルなtransformer




Paper/Blog Link My Issue
#NeuralNetwork #EfficiencyImprovement #Pocket #ICML #Selected Papers/Blogs #Backbone Issue Date: 2025-05-12 GPT Summary- 本論文では、ConvNetsのスケーリングを深さ、幅、解像度のバランスを考慮して体系的に研究し、新しいスケーリング手法を提案。これにより、MobileNetsやResNetのスケールアップを実証し、EfficientNetsという新しいモデルファミリーを設計。特にEfficientNet-B7は、ImageNetで84.3%のトップ1精度を達成し、従来のConvNetsよりも小型かつ高速である。CIFAR-100やFlowersなどのデータセットでも最先端の精度を記録。ソースコードは公開されている。 Comment

元論文をメモってなかったので追加。
- EfficientNet解説, omiita (オミータ), 2019

も参照のこと。




Paper/Blog Link My Issue
#NeuralNetwork #Pocket #NLP Issue Date: 2021-06-15 GPT Summary- 深層学習のオプティマイザの比較は重要であり、ハイパーパラメータの探索空間が性能に影響することが示唆されている。特に、適応的勾配法は常に他のオプティマイザよりも性能が低下しないことが実験で示されており、ハイパーパラメータのチューニングに関する実用的なヒントも提供されている。 Comment

SGD, Momentum,RMSProp, Adam,NAdam等の中から、どの最適化手法(Optimizer)が優れているかを画像分類と言語モデルにおいて比較した研究(下記日本語解説記事から引用)

日本語での解説: https://akichan-f.medium.com/optimizerはどれが優れているか-on-empirical-comparisons-of-optimizers-for-deep-learningの紹介-f843179e8a8d

Adamが良いのだけど、学習率以外のハイパーパラメータをチューニングしないと本来のパフォーマンス発揮されないかもよ、という感じっぽい

ICLR 2020 Open Review: https://openreview.net/forum?id=HygrAR4tPS

OpenReview: https://openreview.net/forum?id=HygrAR4tPS




Paper/Blog Link My Issue
#Pocket #Dataset #Evaluation #SIGGRAPH Issue Date: 2025-11-20 GPT Summary- 視点合成問題において、狭ベースラインのステレオカメラから新しい視点を生成する手法を提案。マルチプレーン画像(MPI)を用いた学習フレームワークを構築し、YouTube動画をデータソースとして活用。これにより、入力画像ペアからMPIを予測し、従来の手法よりも優れた視点外挿を実現。 Comment

pj page: https://tinghuiz.github.io/projects/mpi/




Paper/Blog Link My Issue
#NeuralNetwork #Analysis #MachineLearning #Pocket #Batch Issue Date: 2025-07-12 GPT Summary- ミニバッチサイズが深層ニューラルネットワークのトレーニング性能に与える影響を実験的に比較。大きなミニバッチは計算の並列性を向上させるが、小さなミニバッチは一般化性能を高め、安定したトレーニングを実現。最良の性能はミニバッチサイズ$m = 2$から$m = 32$の範囲で得られ、数千のミニバッチサイズを推奨する研究とは対照的。 Comment

{Res, Reduced Alex}Netにおいて、バッチサイズを大きくすると、学習が安定しかつ高い予測性能を獲得できる学習率のrangeが小さくなる。一方、バッチサイズが小さいと有効な学習率のrangeが広い。また、バッチサイズが小さい場合は、勾配計算とパラメータのアップデートがより頻繁に行われる。このため、モデルの学習がより進んだ状態で個々のデータに対して勾配計算が行われるため、バッチサイズが大きい場合と比べるとモデルがより更新された状態で各データに対して勾配が計算されることになるため、学習が安定し良い汎化性能につながる、といった話の模様。

image




Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #Pocket #Normalization Issue Date: 2025-04-02 GPT Summary- グループ正規化(GN)は、バッチ正規化(BN)の代替手段として提案され、バッチサイズに依存せず安定した精度を提供します。特に、バッチサイズ2のResNet-50では、GNがBNよりも10.6%低い誤差を示し、一般的なバッチサイズでも同等の性能を発揮します。GNは物体検出やビデオ分類などのタスクでBNを上回る結果を示し、簡単に実装可能です。 Comment

BatchNormalizationはバッチサイズが小さいとうまくいかず、メモリの制約で大きなバッチサイズが設定できない場合に困るからバッチサイズに依存しないnormalizationを考えたよ。LayerNormとInstanceNormもバッチサイズに依存しないけど提案手法の方が画像系のタスクだと性能が良いよ、という話らしい。

各normalizationとの比較。分かりやすい。
image




Paper/Blog Link My Issue
#Pocket #Quantization #VariationalAutoEncoder #NeurIPS #Tokenizer #Selected Papers/Blogs #UMM Issue Date: 2025-12-11 GPT Summary- 教師なしでの有用な表現学習のために、生成モデルVQ-VAEを提案。VQ-VAEは、離散的なコードを出力し、学習された事前分布を持つ点でVAEと異なる。ベクトル量子化を用いることで、ポスティアコラプス問題を回避し、高品質な画像や音声生成、スピーカー変換を実現。 Comment

日本語解説:
- https://qiita.com/nishiha/items/44de5c46ebdfe615f6e8
- https://data-analytics.fun/2021/05/14/understanding-vq-vae/




Paper/Blog Link My Issue
#Dataset #Evaluation #TOG Issue Date: 2025-11-20 GPT Summary- 画像ベースの3D再構築のための新しいベンチマークを提案。実際の条件下で取得された高解像度ビデオシーケンスを用い、産業用レーザースキャナーでキャプチャしたグラウンドトゥルースデータを含む。屋外と屋内のシーンを対象に、再構築の忠実度向上を目指す新しいパイプラインの開発を支援し、既存の3D再構築手法の性能を報告。結果は今後の研究の課題と機会を示唆。

Paper/Blog Link My Issue
#Dataset #Evaluation #CVPR Issue Date: 2025-11-20 GPT Summary- 新しいマルチビュー立体視データセットを提案し、高精度のレーザースキャナーと低解像度のステレオビデオを用いて多様なシーンを記録。幾何学に基づく手法で画像とレーザースキャンを整合。従来のデータセットとは異なり、自然および人工環境をカバーし、高解像度のデータを提供。データセットは手持ちのモバイルデバイスの使用ケースにも対応し、オンライン評価サーバーで利用可能。

Paper/Blog Link My Issue
#Pocket #Dataset #Evaluation #CVPR Issue Date: 2025-11-20 GPT Summary- 限られたRGB-Dシーン理解のために、1513シーンの2.5Mビューを含むScanNetデータセットを導入。自動表面再構築とクラウドソースによるセマンティックアノテーションを用いたキャプチャシステムを設計し、3Dオブジェクト分類やセマンティックボクセルラベリングで最先端のパフォーマンスを達成。データセットは無料で提供。

Paper/Blog Link My Issue
#NeuralNetwork #Pocket #Optimizer Issue Date: 2023-12-13 GPT Summary- 大規模な畳み込みネットワークのトレーニングを高速化するために、新しいトレーニングアルゴリズムを提案しました。このアルゴリズムは、Layer-wise Adaptive Rate Scaling(LARS)を使用して、大きなバッチサイズでのトレーニングを行いながらモデルの精度を損なわずにトレーニングすることができます。具体的には、Alexnetを8Kのバッチサイズまでスケーリングし、Resnet-50を32Kのバッチサイズまでスケーリングしました。 Comment

BatchSizeを大きくすると性能が落ちますよ、系の話(CNN)
image

OpenReview: https://openreview.net/forum?id=rJ4uaX2aW

ICLR'18にrejectされている

先行研究で提案よりも大きなバッチサイズを扱えるsynchronized SGDは強みだが、評価が一つのタスクのみなのでより増やした方がconvincingだということ、提案手法に追加のハイパーパラメータが必要な点が手法をless appealingにしてしまっていること、layer wise rate scailng (LARS)の理論的なjustificationが何か欲しいこと、先行研究との比較がクリアではないこと、などが理由な模様。




Paper/Blog Link My Issue
#Pocket #NLP #CommentGeneration #CVPR #One-Line Notes Issue Date: 2019-09-27 Comment

画像が与えられたときに、その画像に対するHashtag predictionと、personalizedなpost generationを行うタスクを提案。

InstagramのPostの簡易化などに応用できる。

Postを生成するためには、自身の言葉で、画像についての説明や、contextといったことを説明しなければならず、image captioningをする際にPersonalization Issueが生じることを指摘。



official implementation: https://github.com/cesc-park/attend2u




Paper/Blog Link My Issue
#NeuralNetwork #NaturalLanguageGeneration #Pocket #NLP #MultitaskLearning #ACL #Encoder-Decoder #4D (Video) #One-Line Notes #VideoCaptioning Issue Date: 2017-12-31 GPT Summary- ビデオキャプショニングの改善のため、教師なしビデオ予測タスクと論理的言語含意生成タスクを共有し、リッチなビデオエンコーダ表現を学習。パラメータを共有するマルチタスク学習モデルを提案し、標準データセットで大幅な改善を達成。 Comment

解説スライド: https://www.slideshare.net/HangyoMasatsugu/hangyo-acl-paperreading2017multitask-video-captioning-with-video-and-entailment-generation/1

multitask learningで動画(かなり短め)のキャプション生成を行なった話




Paper/Blog Link My Issue
#NeuralNetwork #Tutorial #Pocket #GenerativeAdversarialNetwork Issue Date: 2017-12-28 GPT Summary- GANは、注釈なしのデータで深い表現を学習する手法で、競争プロセスを通じて逆伝播信号を導出します。画像合成やスタイル転送など多様な応用が可能です。本レビューは、信号処理コミュニティ向けにGANの概要を提供し、トレーニング方法や残された課題についても言及します。

Paper/Blog Link My Issue
#NeuralNetwork #Pocket #CVPR #Selected Papers/Blogs #Backbone #ResidualStream Issue Date: 2021-11-04 GPT Summary- 残差学習フレームワークを提案し、深いニューラルネットワークのトレーニングを容易にする。参照層の入力に基づいて残差関数を学習することで、最適化が容易になり、精度が向上。152層の残差ネットはImageNetで低い複雑性を保ちながら高い性能を示し、ILSVRC 2015で1位を獲得。COCOデータセットでも28%の改善を達成。 Comment

ResNet論文

ResNetでは、レイヤーの計算する関数を、残差F(x)と恒等関数xの和として定義する。これにより、レイヤーが入力との差分だけを学習すれば良くなり、モデルを深くしても最適化がしやすくなる効果ぎある。数レイヤーごとにResidual Connectionを導入し、恒等関数によるショートカットができるようにしている。



image



ResNetが提案される以前、モデルを深くすれば表現力が上がるはずなのに、実際には精度が下がってしまうことから、理論上レイヤーが恒等関数となるように初期化すれば、深いモデルでも浅いモデルと同等の表現が獲得できる、と言う考え方を発展させた。



(ステートオブAIガイドに基づく)

同じパラメータ数でより層を深くできる(Plainな構造と比べると層が1つ増える)Bottleneckアーキテクチャも提案している。



image

今や当たり前のように使われているResidual Connectionは、層の深いネットワークを学習するために必須の技術なのだと再認識。




Paper/Blog Link My Issue
#NeuralNetwork #Visual Words #Pocket #CVPR #One-Line Notes Issue Date: 2017-12-28 GPT Summary- 分類決定の説明は重要であり、既存の深層視覚認識アプローチは不透明である。新たに提案するモデルは、可視オブジェクトの識別特性に基づき、クラスラベルを予測し、その理由を説明する。サンプリングと強化学習に基づく新しい損失関数を用いて、グローバルな文の特性を実現する。実験結果は、提案モデルが一貫性のある識別的な説明を生成できることを示している。 Comment

画像そのものだけでなく、モデルへのInputにVisual Wordsを明示的に加えることで、captioningの精度が上がりましたという論文




Paper/Blog Link My Issue
#NeuralNetwork #Visual Words #Pocket #CVPR Issue Date: 2017-12-28 GPT Summary- CNN-RNNアプローチに高次の概念を組み込むことで、画像キャプショニングと視覚的質問応答の性能を向上。外部の意味情報を導入することでさらなる改善を実現し、V2L問題における高次の意味情報の重要性を分析。

Paper/Blog Link My Issue
#NeuralNetwork #Pocket #ECCV Issue Date: 2017-12-28 GPT Summary- 分類決定の説明は重要であり、既存の深層視覚認識は不透明である。本研究では、可視オブジェクトの識別特性に基づき、クラスラベルを予測し、その理由を説明する新モデルを提案。新しい損失関数を用いて、グローバルな文の特性を実現する。実験結果は、提案モデルがより識別的な説明を生成できることを示した。

Paper/Blog Link My Issue
#NeuralNetwork #Pocket #Selected Papers/Blogs #Encoder-Decoder #Backbone #U-Net Issue Date: 2025-09-22 GPT Summary- データ拡張を活用した新しいネットワークアーキテクチャを提案し、少ない注釈付きサンプルからエンドツーエンドでトレーニング可能であることを示す。電子顕微鏡スタックの神経構造セグメンテーションで従来手法を上回り、透過光顕微鏡画像でも優れた結果を達成。512x512画像のセグメンテーションは1秒未満で完了。実装とトレーニング済みネットワークは公開されている。

Paper/Blog Link My Issue
#NeuralNetwork #Pocket #ICLR #Backbone Issue Date: 2025-08-25 GPT Summary- 本研究では、3x3の畳み込みフィルタを用いた深い畳み込みネットワークの精度向上を評価し、16-19層の重み層で従来の最先端構成を大幅に改善したことを示す。これにより、ImageNet Challenge 2014で1位と2位を獲得し、他のデータセットでも優れた一般化性能を示した。最も性能の良い2つのConvNetモデルを公開し、深層視覚表現の研究を促進する。 Comment

いわゆるVGGNetを提案した論文




Paper/Blog Link My Issue
#DocumentSummarization #NaturalLanguageGeneration #Pocket #NLP #Evaluation #ImageCaptioning #Reference-based Issue Date: 2023-05-10 GPT Summary- 画像を文章で自動的に説明することは、長年の課題である。本研究では、人間の合意を利用した画像説明の評価のための新しいパラダイムを提案し、新しい自動評価指標と2つの新しいデータセットを含む。提案手法は、人間の判断をより正確に捉えることができ、5つの最先端の画像説明手法を評価し、将来の比較のためのベンチマークを提供する。CIDEr-Dは、MS COCO評価サーバーの一部として利用可能であり、システマティックな評価とベンチマークを可能にする。

Paper/Blog Link My Issue
#Dataset #Evaluation #ECCV Issue Date: 2025-11-20 GPT Summary- RGBD画像を用いて、散らかった屋内シーンの主要な表面や物体、支持関係を解析するアプローチを提案。物理的相互作用を考慮し、3Dの手がかりが構造化された解釈に与える影響を探求。新たに1449のRGBD画像からなるデータセットを作成し、支持関係の推測能力を実験で検証。3D手がかりと推測された支持が物体セグメンテーションの向上に寄与することを示す。

Paper/Blog Link My Issue
#NeuralNetwork #NeurIPS #Selected Papers/Blogs #ImageClassification #Backbone Issue Date: 2025-05-13 Comment

ILSVRC 2012において圧倒的な性能示したことで現代のDeepLearningの火付け役となった研究AlexNet。メモってなかったので今更ながら追加した。

AlexNet以前の画像認識技術については牛久先生がまとめてくださっている(当時の課題とそれに対する解決法、しかしまだ課題が…と次々と課題に直面し解決していく様子が描かれており非常に興味深かった)。現在でも残っている技術も紹介されている。:
https://speakerdeck.com/yushiku/pre_alexnet

> 過去の技術だからといって聞き流していると時代背景の変化によってなし得たイノベーションを逃すかも

これは肝に銘じたい。




Paper/Blog Link My Issue
#Article #Controllable #NLP #Transformer #MultiModal #DiffusionModel #OpenWeight #WorldModels #interactive #4D (Video) #One-Line Notes #RectifiedFlow #Realtime Issue Date: 2026-01-22 Comment

blog: https://over.world/blog/the-path-to-real-time-worlds-and-why-it-matters
pj page: https://over.world/

元ポスト:

Loading…

リアルタイムにzero latencyでマウス(カメラも自由に動かせる)、キーボード、テキストでinteraction可能なworld model




Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #AIAgents #Evaluation #MultiModal #ScientificDiscovery #VisionLanguageModel #AcademicWriting #Live #One-Line Notes Issue Date: 2026-01-20 Comment

元ポスト:

Loading…

conference paperのpeer reviewに関するベンチマーク。accept/rejectを予測する。papers, reviews, rebuttalsそしてfinal decisionsが紐づけられている。




Paper/Blog Link My Issue
#Article #Pocket #Library #MultiModal #SpeechProcessing #python #Encoder #2D (Image) #4D (Video) #audio Issue Date: 2025-12-19 Comment

元ポスト:

Loading…

様々なモダリティ(画像・動画・音声等)をエンコードできるPerception Encoderに最近リリースされたSAM Audio (Audio-Visual / Audio-frame) も組み込まれた模様
code: https://github.com/facebookresearch/perception_models




Paper/Blog Link My Issue
#Article #NLP #AIAgents #Proprietary #ComputerUse #VisionLanguageModel Issue Date: 2025-12-18 Comment

元ポスト:

Loading…

GUI Agentとして性能はトップレベル(Opusが比較対象に入っていないが)で、
image

テキスト、画像モダリティでの検索でもトップレベル、codingやツール利用などは少し劣るように見える。
image

LLM系、VideoUnderstanding系ののベンチマークではフロンティアモデル群と同等、VLM系のタスクではフロンティアモデル群と同等以上の性能に見える。

が、一方のモダリティはGPT5で比較しているのに対し、他方はGPT5.1であったりしており、比較対象が少し恣意的にピックされているのでは?という気もする。

モデルカード: https://lf3-static.bytednsdoc.com/obj/eden-cn/lapzild-tss/ljhwZthlaukjlkulzlp/research/Seed-1.8-Modelcard.pdf




Paper/Blog Link My Issue
#Article #Transformer #DiffusionModel #VariationalAutoEncoder #OpenWeight #VideoGeneration/Understandings #3D (Scene) #One-Line Notes #Audio-Text-to-Video #Audio-Text-Image-to-Video #Video Continuation Issue Date: 2025-12-17 Comment

元ポスト:

Loading…

アーキテクチャはDiTベースのDiffusion Modelで、3D Variational AutoencoderによってEncode/Decodeされ、3D RoPEによって位置情報が埋め込まれる。DiT Blockでは、テキストとaudio用のcross attentionが用いられてこれらのモーダルに関する情報が組み込まれる。audioはWav2Vecでエンコードされ、テキストはUMT5[^1]によってエンコードされる。

image

[^1]: multilingualなT5で100言語以上がサポートされている模様




Paper/Blog Link My Issue
#Article #NLP #MultiModal #SmallModel #OpenWeight #OpenSource #Selected Papers/Blogs #VideoGeneration/Understandings #VisionLanguageModel #2D (Image) #4D (Video) #KeyPoint Notes Issue Date: 2025-12-17 Comment

テクニカルレポート: https://www.datocms-assets.com/64837/1765901660-molmo_v2_2026-techreport-3.pdf
HF: https://huggingface.co/collections/allenai/molmo2

関連:
- Molmo: A family of open state-of-the-art multimodal AI models, AI2, 2024.09

Qwen3とOlmoをベースにしたvariantsが存在し、Olmoの方はバックボーンのLLMも含めて全てがオープンになっている。MetaのPerceptionLMと比較して1/8の動画データ量で高い性能を達成できており、データのcurationの品質と、grounding basedな目的関数の工夫によって実現されているとのこと。

proprietaryなモデル群と比較すると、trackingは圧勝、そのほかはGPT5-miniと同様なものが多い。モデルによってタスクの優劣が結構分かれており、Video関連タスクをタスクをまたいで汎化させることにはclosedでも苦戦しているように見える。

image

オープンモデルとの比較で言うと圧勝で、LongVideoのQAに関してだけは、Eagle2.5-8Bと呼ばれるモデルが勝っている。
image

あとは全体を通じてLLMのバックボーンがQwen3の場合の性能が良いことが興味深い。バックボーンに採用するLLMに応じて性能が結構変わる。これはアーキテクチャがそもそもConnectorを利用するタイプのもので、Unifiedなアーキテクチャではないことが要因としては考えられる。

image

元ポスト:

Loading…



Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #OpenWeight #VisionLanguageModel Issue Date: 2025-11-30 Comment

元ポスト:

Loading…

MITとHuggingFaceの調査によると、open weightモデルのDLにおいて、米国のAI産業における中国のモデルDL数が米国のモデルを初めて抜いた模様。

ダッシュボード: https://huggingface.co/spaces/economies-open-ai/open-model-evolution




Paper/Blog Link My Issue
#Article #Transformer #FoundationModel #Medical Issue Date: 2025-11-15 GPT Summary- OpenMidnightは、Midnight病理基盤モデルを再現・改善したもので、12,000枚の全スライド画像を用いて$1.6Kでトレーニングし、複数のベンチマークで最先端の性能を達成。大規模データなしでもトップパフォーマンスが可能であり、トレーニングパイプライン、コード、モデルの重みを公開して研究を促進する。 Comment

HF: https://huggingface.co/SophontAI/OpenMidnight

元ポストより

> The surprising performance of our model points to the challenges of the pathology FM space.
> Performance doesn't seem to scale with compute or dataset size, and for some benchmarks, really simple baselines perform shockingly well.

> In our mind, this indicates both that current models aren't being trained efficiently, and that the current benchmarks are poor.

まだデータセットサイズや計算量に応じてスケールしているようには見えず、現在のモデルが効率的に学習ができてとらず、かつ現在のベンチマークがモデルの性能を適切に測れていないのでは、といった話が記述されている。興味深い。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #TTS #Routing #UMM #Omni #Sparse #ImageSynthesis Issue Date: 2025-10-28 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25

過去一番多くのタグを付与した気がするが、果たして大規模、Omniモデルかつ、UMMにしたことによる恩恵(=様々なモダリティを統一された空間上に学習させる恩恵)はどの程度あるのだろうか?

アーキテクチャを見ると、モダリティごとに(モダリティ単位でのバイアスがかかった)Routerが用意されexpertにルーティングされるような構造になっている。




Paper/Blog Link My Issue
#Article #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #MultiLingual #Japanese #GRPO #Selected Papers/Blogs #DocParser #VisionLanguageModel #OCR #One-Line Notes Issue Date: 2025-10-23 Comment

元ポスト:

Loading…

モデル: https://huggingface.co/allenai/olmOCR-2-7B-1025-FP8

Apache2.0ライセンスでSoTA更新。そしてさすがの学習データとコードも公開

テクニカルレポート: https://github.com/allenai/olmocr/blob/main/olmOCR-2-Unit-Test-Rewards-for-Document-OCR.pdf

果たして日本語は…SFT Datasetのtop5にjaはなかったように見える

所見:

Loading…

demoを試した見たが日本語スライドでも非常に性能が良い

DeepSeekOCRとの比較:

Loading…



Paper/Blog Link My Issue
#Article #NLP #SmallModel #MultiLingual #OpenWeight #DocParser #VisionLanguageModel #OCR Issue Date: 2025-10-22 Comment

100+言語のdots.ocr benchと呼ばれるものでの性能も報告されているが、日本語性能はどのくらいなのだろうか

MIT Licence

参考:VLMを使った多言語ドキュメントパーサ「dots.ocr」を試す, kun432, Zenn
https://zenn.dev/kun432/scraps/b91fce6fbeb30c

日本語もかなりいけてそう




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MultiLingual #read-later #Selected Papers/Blogs #DocParser #Encoder-Decoder #OCR #Reference Collection Issue Date: 2025-10-20 Comment

元ポスト:

Loading…

英語と中国語では使えそうだが、日本語では使えるのだろうか?p.17 Figure11を見ると100言語に対して学習したと書かれているように見える。

所見:

Loading…

所見:

Loading…

OCRベンチマーク:
- [Paper Note] OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations, Linke Ouyang+, CVPR'25, 2024.12

(DeepSeek-OCRの主題はOCRの性能向上というわけではないようだが)

所見:

Loading…

所見+ポイント解説:

Loading…

所見:

Loading…

textxをimageとしてエンコードする話は以下の2023年のICLRの研究でもやられているよというポスト:
- [Paper Note] Language Modelling with Pixels, Phillip Rust+, ICLR'23, 2022.07

Loading…

関連:
- [Paper Note] Text or Pixels? It Takes Half: On the Token Efficiency of Visual Text Inputs in Multimodal LLMs, Yanhong Li+, arXiv'25, 2025.10
- [Paper Note] PixelWorld: Towards Perceiving Everything as Pixels, Zhiheng Lyu+, arXiv'25, 2025.01

関連:

Loading…

関連:
- [Paper Note] Glyph: Scaling Context Windows via Visual-Text Compression, Jiale Cheng+, arXiv'25, 2025.10

literature:

Loading…


上記ポストでは本研究はこれらliteratureを完全に無視し “an initial investigation into the feasibility of compressing long contexts via optical 2D mapping.” と主張しているので、先行研究を認識し引用すべきだと述べられているようだ。

karpathy氏のポスト:

Loading…

Loading…



Paper/Blog Link My Issue
#Article #NLP #MultiModal #OpenWeight #MoE(Mixture-of-Experts) #read-later #VisionLanguageModel #One-Line Notes Issue Date: 2025-09-30 Comment

関連:
- [Paper Note] GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models, GLM-4. 5 Team+, arXiv'25

元ポスト:

Loading…

続報:

Loading…

Artificial Intelligenceによる評価:

Loading…


OpenWeightモデルの中でトップレベルのベンチスコア

HFにてモデルが公開された模様。ベンチマークのスコアを見て思ったが、106BA12Bのモデルと9Bモデルのスコア差がベンチマークによっては小さいので、場合によってはSLMの方でtest time scacingを効かせた方が、時間的な制約がきつい場合は現実的には高い性能が出るのでは?




Paper/Blog Link My Issue
#Article #NLP #MultiModal #OpenWeight #UMM #One-Line Notes Issue Date: 2025-09-29 Comment

元ポスト:

Loading…

所見:

Loading…

テキスト生成+画像理解・生成が可能なUnified Multimodal Models (UMMs)。テキストはtokenizer、画像は生成用エンコーダ、理解用エンコーダを用意してエンコードしDecoder-Only Tranformerに入力。auto-regressiveに生成し、テキストはDe-Tokenizerでテキスト化、画像の場合は専用のDecoderでデコードする。

image




Paper/Blog Link My Issue
#Article #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #OpenWeight #ComputerUse #GRPO #VisionLanguageModel Issue Date: 2025-09-16 Comment

7BのみApache 2.0ライセンス。3BはQwenのライセンスを継承し、72Bはnon-commercialライセンスらしい

モデルカードとブログによると下記モデル群とSonnet 4 よりもComputer Use関連ベンチマーク(GUI上での位置を特定するUI LocalizationとScreen Contentの理解およびQA関連のベンチマーク)で高性能とのこと:
- [Paper Note] UI-Venus Technical Report: Building High-performance UI Agents with RFT, Zhangxuan Gu+, arXiv'25
- Introducing UI-TARS-1.5, ByteDance, 2025.04
- Qwen2.5-VL-32B-Instruct, Qwen Team, 2025.03

モデルカードによるとopen sourceデータのmixと、合成データ、人手でアノテーションされたデータを用いて、SFT->GRPOによって学習されたとだけ書かれている。




Paper/Blog Link My Issue
#Article #Pocket #NLP #Dataset #LanguageModel #Evaluation #Contamination-free #VisionLanguageModel Issue Date: 2025-09-07 Comment

リーダーボード: https://clockbench.ai

元ポスト:

Loading…

様々な種類の時計(e.g., 反転、フォントの違い, invalidな時刻の存在, 大きさ, フォーマットなど; p.2参照のこと)の時刻を読み取り(あるいはvalidな時刻か否かを判定し)、読み取った時刻に対してQA(e.g., X時間Y分Z秒進める、戻した時刻は?長針を30/60/90度動かした時刻は?この時刻がニューヨークの時間だとしたらロンドンの時刻は?)を実施するベンチマーク。人間の正解率は89.1%に対してSoTAモデルでも13.3%程度。contaminationに配慮して全てスクラッチから作成され、全体の評価データはprivateなままにしているとのこと。
image

続報:

Loading…


Qwen3-VL-235B-InstructがGPT-5 Chat超え



Paper/Blog Link My Issue
#Article #Transformer #OpenWeight #VideoGeneration/Understandings #Encoder-Decoder Issue Date: 2025-08-27 Comment

元ポスト:

Loading…

関連:
- Wan2.2, Alibaba Wan, 2025.07

image+Audio-to-video generation

Audioモダリティ: wav2vec+AudioEncoder
Visionモダリティ: 3D VAE Encoder
Textモダリティ: T5 Encoder
モダリティ統合: DiT Block(おそらくT5 Encoderの出力を用いてprompt情報を条件付け)とAudio Block?
3D VAE Decoderでデコードというアーキテクチャ?詳細が書かれておらずよくわからない。




Paper/Blog Link My Issue
#Article #Self-SupervisedLearning #Distillation #Regularization #read-later #Backbone #One-Line Notes #Reference Collection Issue Date: 2025-08-14 Comment

元ポスト:

Loading…

paper: https://arxiv.org/abs/2508.10104

HF: https://huggingface.co/docs/transformers/main/en/model_doc/dinov3

解説:

Loading…

サマリ:

Loading…

v2:
- DINOv2: Learning Robust Visual Features without Supervision, Maxime Oquab+, TMLR'24

本日配信された岡野原氏のランチタイムトークによると、学習が進んでいくと全部の特徴量が似通ってきてしまう問題があったが、Gram Anchoringと呼ばれる、学習初期時点でのパッチ間の類似度度行列を保持しておき正則化として損失に加えることで、そこから離れすぎないように学習するといった工夫を実施しているとのこと。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MultiModal #OpenWeight #MoE(Mixture-of-Experts) #VideoGeneration/Understandings Issue Date: 2025-07-29 Comment

元ポスト:

Loading…

初のMoEによるOpen WeightなVideo generationモデルで、直接的に明るさや、カラー、カメラの動きなどを制御でき、text to video, image to video, unified video generationをサポートしている模様

テクニカルペーパー:
https://arxiv.org/abs/2503.20314




Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #AWS #MultiModal #Blog #Japanese Issue Date: 2025-05-20 Comment

貴重なVLMデータセット構築ノウハウ

青塗りのフィルタリングタスクを具体的にどうやっているのか気になる




Paper/Blog Link My Issue
#Article #Pocket #NLP #LanguageModel #AIAgents #MultiModal #Blog #Reasoning #OpenWeight #ComputerUse #VisionLanguageModel Issue Date: 2025-04-18 GPT Summary- UI-TARSは、スクリーンショットを入力として人間のようにインタラクションを行うネイティブGUIエージェントモデルであり、従来の商業モデルに依存せず、エンドツーエンドで優れた性能を発揮します。実験では、10以上のベンチマークでSOTA性能を達成し、特にOSWorldやAndroidWorldで他のモデルを上回るスコアを記録しました。UI-TARSは、強化された知覚、統一アクションモデリング、システム-2推論、反射的オンライントレースによる反復トレーニングなどの革新を取り入れ、最小限の人間の介入で適応し続ける能力を持っています。 Comment

paper: https://arxiv.org/abs/2501.12326

色々と書いてあるが、ざっくり言うとByteDanceによる、ImageとTextをinputとして受け取り、TextをoutputするマルチモーダルLLMによるComputer Use Agent (CUA)

関連
- OpenAI API での Computer use の使い方, npaka, 2025.03

元ポスト:

Loading…



Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MultiModal #OpenWeight #Reference Collection Issue Date: 2025-04-05 Comment

Downloads: https://www.llama.com/?utm_source=twitter&utm_medium=organic_social&utm_content=image&utm_campaign=llama4

Huggingface:
https://huggingface.co/collections/meta-llama/llama-4-67f0c30d9fe03840bc9d0164

解説ポスト:

Loading…

Artificial Analysisによる性能検証:

Loading…


MaverickがGPT4oと同等、ScoutがGPT4o-miniと同等

Update:
Loading…

性能に関して不可解な点が多そうなので様子見をしても良いかも。

性能検証(Math-Perturb):

Loading…

日本語にあまり強くないという情報も
元ポスト:

Loading…

どうやらvLLMのLlama4のinferenceにバグがあったやうで、vLLMのIssue 16311にて、Llama4のinferenceに関するバグが修正され、性能が向上した模様。どのベンチを信じたら良いかまるでわからん。

2025.0413現在のchatbot arenaのランクは、32位となり(chatbot arena向けにtuningされていたであろうモデルは2位だった)GPT-4oが29位であることを考慮すると上記のArtificial Intelligenceの評価とも大体一致している。

https://lmarena.ai

関連ポスト:

Loading…



Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Pretraining #NLP #LanguageModel #Transformer #Supervised-FineTuning (SFT) #MultiModal #Blog #SSM (StateSpaceModel) #Selected Papers/Blogs Issue Date: 2025-03-24 Comment

関連:
- Hunyuan T1, Tencent, 2025.03

TransformerのSelf-attention LayerをMamba2 Layerに置換することで、様々なベンチマークで同等の性能、あるいは上回る性能で3倍程度のInference timeの高速化をしている(65536 input, 1024 output)。

56B程度のmediumサイズのモデルと、8B程度の軽量なモデルについて述べられている。特に、8BモデルでMambaとTransformerのハイブリッドモデルと、通常のTransformerモデルを比較している。学習データに15 Trillion Tokenを利用しており、このデータ量でのApple to Appleのアーキテクチャ間の比較は、現状では最も大規模なものとのこと。性能は多くのベンチマークでハイブリッドにしても同等、Commonsense Understandingでは上回っている。

また、学習したNemotron-Hをバックボーンモデルとして持つVLMについてもモデルのアーキテクチャが述べられている。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MultiModal #OpenWeight Issue Date: 2025-03-18 Comment

元ポスト: https://www.linkedin.com/posts/andimarafioti_we-just-dropped-%F0%9D%97%A6%F0%9D%97%BA%F0%9D%97%BC%F0%9D%97%B9%F0%9D%97%97%F0%9D%97%BC%F0%9D%97%B0%F0%9D%97%B9%F0%9D%97%B6%F0%9D%97%BB%F0%9D%97%B4-activity-7307415358427013121-wS8m?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

Apache-2.0ライセンス。言語はEnglishのみな模様

マルチモーダルなImage-To-Textモデル。サンプルはこちら
image




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MultiModal #Proprietary Issue Date: 2025-03-17 Comment

解説ポスト:

Loading…

- ERNIE4.5はGPT4.5をさまざまなベンチマークで上回り、価格がなんとGPT4.5の1%
- X1はマルチモーダルなreasoningモデルでDeepSeek-R1と同等の性能で半額

らしい

このモデルは6月30日にオープン(ウェイト?)になるとスレッドで述べられている。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MultiModal #OpenWeight #VisionLanguageModel #KeyPoint Notes Issue Date: 2025-03-17 Comment

元ポスト:

Loading…

VLM。Xに散見される試行例を見ると日本語の読み取り性能は結構高そうに見える。

モデル構成、学習の詳細、および評価:

Loading…

LLM(sarashina2), Vision Encoder(Qwen2-VL), Projectorの3つで構成されており、3段階の学習を踏んでいる。
最初のステップでは、キャプションデータを用いてProjectorのみを学習しVision Encoderとテキストを対応づける。続いて、日本語を含む画像や日本特有の風景などをうまく扱えるように、これらを多く活用したデータ(内製日本語OCRデータ、図表キャプションデータ)を用いて、Vision EncoderとProjectorを学習。最後にLLMのAlignmentをとるために、プロジェクターとLLMを前段のデータに加えてVQAデータ(内製合成データを含む)や日本語の指示チューニングデータを用いて学習。

ProjectorやMMLLMを具体的にどのように学習するかは
- MM-LLMs: Recent Advances in MultiModal Large Language Models, Duzhen Zhang+, N/A, ACL'24 Findings

を参照のこと。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MultiModal #OpenWeight #UMM Issue Date: 2025-01-28 Comment

DeepSeekによる新たなUMM、Janus-Proが本日リリース。MIT License

Janus-Proのパフォーマンス。

github上でのパフォーマンスの図解から引用。マルチモーダル(テキスト+画像)の理解に関するベンチマークでLLaVA超え。GenEval, DPG Benchと呼ばれる画像生成ベンチマークでDALL-E 3超え。
image


テクニカルレポート中での詳細から引用。どのベンチマークでも基本的に最高性能なように見える。
image
image

テクニカルレポート: https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf

ベンチマーク:
- [Paper Note] GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment, Dhruba Ghosh+, NeurIPS'23
- [Paper Note] ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment, Xiwei Hu+, arXiv'24




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MultiModal #FoundationModel #MultiLingual Issue Date: 2024-12-04 Comment

参考: https://qiita.com/ysit/items/8433d149dbaab702d526

テクニカルレポート: https://assets.amazon.science/9f/a3/ae41627f4ab2bde091f1ebc6b830/the-amazon-nova-family-of-models-technical-report-and-model-card.pdf

後で個々のベンチマークとメトリックをまとめたい。

まあでもざっくり言うと、他のproprietaryモデルともおおむね同等の性能です、という感じに見える。個々のタスクレベルで見ると、得意なものと不得意なものはありそうではある。

image
image
image
image
image
image

スループットとかも、ProとGPT4oをパッと見で比較した感じ、優れているわけでもなさそう。Liteに対応するGPTはおそらくGPT4o-miniだと思われるが、スループットはLiteの方が高そう。
image

image
image
image

(画像は論文中からスクショし引用)

下記ポストは独自に評価した結果や、コストと性能のバランスについて言及している。

- ProはGPT4oのコストの約1/3
- Pro, Lite, Flashはほれぞれコストパフォーマンスに非常に優れている(Quality vs. Price参照)

元ポスト:

Loading…



Paper/Blog Link My Issue
#Article #Library #Repository #OCR Issue Date: 2024-11-27 Comment

いわゆるAI-OCRで、縦書きの認識も可能で、表などの構造化された情報も認識可能とのこと。
手書きは認識できるのだろうか?
CC BY-NC-SA 4.0

元ツイート:

Loading…



Paper/Blog Link My Issue
#Article #Repository Issue Date: 2024-09-30 Comment

ECCV2024の全体像を概観するのに有用

以下、Claude 3.5 Sonnetに目次を入力し一言で各項目を説明させた内容。
hallucinationがあるかもしれないので参考程度で。

--------------------
各項目の概要を一言で説明いたします:

1. 3DGS(Gaussian Splatting): 3D空間内のガウス関数を用いた新しい3Dレンダリング手法。

2. Mamba / SSM: 長期依存関係を効率的に処理する新しい系列モデルアーキテクチャ。

3. Avatars: デジタル環境でユーザーを表現する仮想キャラクター。

4. Backbone: ディープラーニングモデルの主要な特徴抽出部分。

5. CLIP: 画像とテキストを同じ空間に埋め込む大規模マルチモーダルモデル。

6. MAE: 画像の一部を隠してから再構築する自己教師あり学習手法。

7. Embodied AI: 物理的な環境と相互作用する AI システム。

8. GAN: 生成モデルと識別モデルを競争させて学習する生成モデル。

9. GNN: グラフ構造データを処理するための神経ネットワーク。

10. 多模态大语言模型(MLLM): テキスト、画像、音声など複数のモダリティを扱う大規模言語モデル。

11. 大语言模型(LLM): 大量のテキストデータで学習された大規模な言語モデル。

12. NAS: 最適なニューラルネットワークアーキテクチャを自動探索する技術。

13. OCR: 画像内のテキストを認識し、デジタルテキストに変換する技術。

14. NeRF: 3D空間をニューラルネットワークで表現する手法。

15. DETR: Transformerを用いた新しい物体検出アーキテクチャ。

16. Prompt: AIモデルに与える指示や文脈を設定するテキスト。

17. 扩散模型(Diffusion Models): ノイズを徐々に除去して画像を生成する生成モデル。

18. ReID(重识别): 異なる画像や映像間で同一の人物や物体を再識別する技術。

19. 长尾分布(Long-Tail): データセット内で頻度の低いクラスや事例を扱う問題。

20. Vision Transformer: 画像処理にTransformerアーキテクチャを適用したモデル。

21. 视觉和语言(Vision-Language): 画像と言語を組み合わせて処理するタスク。

22. 自监督学习(Self-supervised Learning): ラベルなしデータから有用な表現を学習する手法。

23. 数据增强(Data Augmentation): 学習データを人工的に増やす技術。

24. 目标检测(Object Detection): 画像内の物体の位置と種類を特定する技術。

25. 异常检测(Anomaly Detection): 通常とは異なるパターンやデータを検出する技術。

26. 目标跟踪(Visual Tracking): 映像内の物体の動きを追跡する技術。

27. 语义分割(Semantic Segmentation): 画像内の各ピクセルをカテゴリに分類する技術。

28. 实例分割(Instance Segmentation): 画像内の個々の物体インスタンスを分割する技術。

29. 全景分割(Panoptic Segmentation): 意味分割とインスタンス分割を組み合わせた技術。

30. 医学图像(Medical Image): 医療目的で撮影された画像。

31. 医学图像分割(Medical Image Segmentation): 医療画像内の臓器や病変部位を分割する技術。

32. 视频目标分割(Video Object Segmentation): 動画内の物体を追跡し分割する技術。

33. 视频实例分割(Video Instance Segmentation): 動画内の個々の物体インスタンスを分割する技術。

34. 参考图像分割(Referring Image Segmentation): 言語記述に基づいて画像内の物体を分割する技術。

35. 图像抠图(Image Matting): 画像から前景を精密に抽出する技術。

36. 图像编辑(Image Editing): 画像の内容を変更または操作する技術。

37. Low-level Vision: 画像の低レベル特徴や処理を扱う分野。

38. 超分辨率(Super-Resolution): 低解像度画像から高解像度画像を生成する技術。

39. 去噪(Denoising): 画像からノイズを除去する技術。

40. 去模糊(Deblur): ぼけた画像をシャープにする技術。

41. 自动驾驶(Autonomous Driving): 人間の操作なしで車両を制御する技術。

42. 3D点云(3D Point Cloud): 3D空間内の点の集合でオブジェクトや環境を表現するデータ形式。

43. 3D目标检测(3D Object Detection): 3D空間内の物体の位置と種類を特定する技術。

44. 3D语义分割(3D Semantic Segmentation): 3Dデータの各点をカテゴリに分類する技術。

45. 3D目标跟踪(3D Object Tracking): 3D空間内の物体の動きを追跡する技術。

46. 3D语义场景补全(3D Semantic Scene Completion): 部分的な3Dデータから完全な3Dシーンを推定する技術。

47. 3D配准(3D Registration): 複数の3Dデータセットを整列させる技術。

48. 3D人体姿态估计(3D Human Pose Estimation): 3D空間内の人体の姿勢を推定する技術。

49. 3D人体Mesh估计(3D Human Mesh Estimation): 3D人体メッシュモデルを推定する技術。

50. 图像生成(Image Generation): AIを用いて新しい画像を生成する技術。

51. 视频生成(Video Generation): AIを用いて新しい動画を生成する技術。

52. 3D生成(3D Generation): AIを用いて新しい3Dモデルを生成する技術。

53. 视频理解(Video Understanding): 動画の内容を解析し理解する技術。

54. 行为识别(Action Recognition): 動画内の人物の行動を識別する技術。

55. 行为检测(Action Detection): 動画内の特定の行動を検出し位置特定する技術。

56. 文本检测(Text Detection): 画像内のテキストの位置を検出する技術。

57. 知识蒸馏(Knowledge Distillation): 大きなモデルの知識を小さなモデルに転移する技術。

58. 模型剪枝(Model Pruning): モデルの重要でないパラメータを削除して軽量化する技術。

59. 图像压缩(Image Compression): 画像データを効率的に圧縮する技術。

60. 三维重建(3D Reconstruction): 2D画像から3Dモデルを構築する技術。

61. 深度估计(Depth Estimation): 2D画像から奥行き情報を推定する技術。

62. 轨迹预测(Trajectory Prediction): 物体や人の将来の動きを予測する技術。

63. 车道线检测(Lane Detection): 道路上の車線を検出する技術。

64. 图像描述(Image Captioning): 画像の内容を自然言語で説明する技術。

65. 视觉问答(Visual Question Answering): 画像に関する質問に答える技術。

66. 手语识别(Sign Language Recognition): 手話のジェスチャーを認識し解釈する技術。

67. 视频预测(Video Prediction): 動画の将来のフレームを予測する技術。

68. 新视点合成(Novel View Synthesis): 既存の画像から新しい視点の画像を生成する技術。

69. Zero-Shot Learning(零样本学习): 学習時に見たことのないクラスを認識する学習手法。

70. 立体匹配(Stereo Matching): ステレオ画像から深度情報を抽出する技術。

71. 特征匹配(Feature Matching): 異なる画像間で対応する特徴点を見つける技術。

72. 场景图生成(Scene Graph Generation): 画像内の物体間の関係を構造化して表現する技術。

73. 计数(Counting): 画像内の特定オブジェクトの数を数える技術。

74. 隐式神经表示(Implicit Neural Representations): 連続関数としてシーンや形状を表現する手法。

75. 图像质量评价(Image Quality Assessment): 画像の品質を客観的に評価する技術。

76. 视频质量评价(Video Quality Assessment): 動画の品質を客観的に評価する技術。

77. 数据集(Datasets): 機械学習モデルの学習や評価に使用されるデータの集合。​​​​​​​​​​​​​​​​

続いて、各項目をもう少し詳細に説明するように生成したテキスト

---------
はい、各項目についてより詳細な説明を提供いたします。

1. 3DGS(Gaussian Splatting):
3D空間内にガウス関数を配置し、これらを2D画像に投影することで3Dシーンを表現する手法です。従来のNeRFよりも高速でクオリティの高い3Dレンダリングを実現します。

2. Mamba / SSM:
State Space Model (SSM)に基づく新しい系列モデルアーキテクチャです。Transformerと比較して長い系列を効率的に処理でき、様々なタスクで高いパフォーマンスを示しています。

3. Avatars:
オンライン空間やゲーム、VR環境などでユーザーを表現する仮想キャラクターです。最近では、AIを用いてよりリアルで自然なアバターの生成や制御が可能になっています。

4. Backbone:
深層学習モデルの主要な特徴抽出部分を指します。ResNet、VGG、EfficientNetなどが代表的で、様々なタスクの基礎となる重要な役割を果たします。

5. CLIP:
OpenAIが開発した大規模なマルチモーダルモデルで、画像とテキストを同じ特徴空間に埋め込むことができます。これにより、柔軟な画像検索や分類が可能になります。

6. MAE (Masked Autoencoder):
画像の一部をマスクし、それを再構築するタスクを通じて自己教師あり学習を行う手法です。事前学習モデルとして高い性能を示しています。

7. Embodied AI:
物理的な環境と直接相互作用するAIシステムを指します。ロボティクスや自動運転など、実世界でのタスク遂行に焦点を当てています。

8. GAN (Generative Adversarial Networks):
生成モデルと識別モデルを競争させることで学習を行う生成モデルです。高品質な画像生成など、様々な分野で応用されています。

9. GNN (Graph Neural Networks):
グラフ構造のデータを処理するための神経ネットワークです。ソーシャルネットワーク分析や分子構造予測など、関係性のあるデータの処理に適しています。

10. 多模态大语言模型(MLLM):
テキストだけでなく、画像、音声、動画などの複数のモダリティを理解し処理できる大規模言語モデルです。より豊かなコミュニケーションや理解が可能になります。

11. 大语言模型(LLM):
GPT-3やLLaMAなど、大量のテキストデータで学習された巨大な言語モデルです。自然言語処理の多くのタスクで高い性能を示しています。

12. NAS (Neural Architecture Search):
機械学習を用いて最適なニューラルネットワークの構造を自動的に探索する技術です。人手によるモデル設計の労力を軽減し、より効率的なモデルの発見を目指します。

13. OCR (Optical Character Recognition):
画像内のテキストを認識し、機械可読なテキストに変換する技術です。文書のデジタル化や自動データ入力などに広く使用されています。

14. NeRF (Neural Radiance Fields):
3D空間をニューラルネットワークで表現する手法です。少数の2D画像から高品質な3Dシーンの再構築と新視点の合成が可能です。

15. DETR (DEtection TRansformer):
Transformerアーキテクチャを物体検出タスクに適用したモデルです。従来の手法と比べてシンプルでありながら高い性能を示しています。

16. Prompt:
AIモデル、特に大規模言語モデルに与える指示や文脈を設定するテキストです。適切なプロンプト設計により、モデルの出力を制御し、望ましい結果を得ることができます。

17. 扩散模型(Diffusion Models):
ノイズを徐々に除去しながら画像を生成する生成モデルです。DALL-E 2やStable Diffusionなど、高品質な画像生成で注目を集めています。

18. ReID (重识别):
異なる画像や映像間で同一の人物や物体を再識別する技術です。監視カメラシステムや顧客追跡などに応用されています。

19. 长尾分布(Long-Tail):
データセット内で頻度の低いクラスや事例を扱う問題です。現実世界のデータ分布に対応するため、機械学習モデルの公平性と汎化性能の向上が課題となっています。

20. Vision Transformer:
自然言語処理で成功を収めたTransformerアーキテクチャを画像処理に適用したモデルです。CNNと比較して、大規模データセットでの学習時に高い性能を示しています。

21. 视觉和语言(Vision-Language):
画像と言語を組み合わせて処理するタスクや研究分野です。画像キャプション生成、視覚的質問応答、画像-テキスト検索などが含まれます。

22. 自监督学习(Self-supervised Learning):
大量のラベルなしデータから有用な特徴表現を学習する手法です。事前学習モデルの作成に広く使用され、少量のラベル付きデータでの fine-tuning で高い性能を実現します。

23. 数据增强(Data Augmentation):
既存の学習データに変形や変更を加えて人工的にデータセットを拡張する技術です。モデルの汎化性能向上やオーバーフィッティングの抑制に効果があります。

24. 目标检测(Object Detection):
画像内の物体の位置と種類を特定する技術です。矩形のバウンディングボックスで物体の位置を示し、各物体のクラスを予測します。自動運転や監視システムなどで広く使用されています。

25. 异常检测(Anomaly Detection):
データセット内の通常とは異なるパターンやデータポイントを検出する技術です。不正検知、産業用機器の故障予測、医療診断などに応用されています。

26. 目标跟踪(Visual Tracking):
動画シーケンス内で物体の動きを追跡する技術です。自動運転、スポーツ分析、監視システムなど、様々な分野で活用されています。

27. 语义分割(Semantic Segmentation):
画像内の各ピクセルをあらかじめ定義されたカテゴリに分類する技術です。自動運転における道路環境の理解や医療画像解析などに応用されています。

28. 实例分割(Instance Segmentation):
画像内の個々の物体インスタンスを分割し、それぞれに固有のラベルを付与する技術です。物体検出と意味分割を組み合わせたタスクと言えます。

29. 全景分割(Panoptic Segmentation):
意味分割とインスタンス分割を統合した技術で、画像内のすべてのピクセルに対してクラスとインスタンスIDを割り当てます。シーンの完全な理解を目指しています。

30. 医学图像(Medical Image):
X線、CT、MRI、超音波などの医療目的で撮影された画像を指します。診断、治療計画、医学研究などに使用されます。

31. 医学图像分割(Medical Image Segmentation):
医療画像内の臓器、腫瘍、血管などの特定の構造や病変部位を分割する技術です。診断支援や手術計画立案に重要な役割を果たします。

32. 视频目标分割(Video Object Segmentation):
動画シーケンス内の特定の物体を追跡し、フレームごとに分割する技術です。ビデオ編集やアウグメンテッドリアリティなどに応用されています。

33. 视频实例分割(Video Instance Segmentation):
動画内の個々の物体インスタンスを追跡し、フレームごとに分割するタスクです。ビデオ解析や自動運転システムでの環境理解に役立ちます。

34. 参考图像分割(Referring Image Segmentation):
自然言語による記述に基づいて、画像内の特定の物体や領域を分割する技術です。人間とAIのインタラクションを促進します。

35. 图像抠图(Image Matting):
画像から前景オブジェクトを精密に抽出する技術です。背景置換や合成など、画像編集タスクで重要な役割を果たします。

36. 图像编辑(Image Editing):
画像の内容を変更または操作する技術の総称です。物体の除去・追加、スタイル変換、色調整など、様々な編集操作が含まれます。

37. Low-level Vision:
画像の低レベル特徴や基本的な処理を扱う分野です。ノイズ除去、超解像、エッジ検出などの基礎的なタスクが含まれます。

38. 超分辨率(Super-Resolution):
低解像度の画像から高解像度の画像を生成する技術です。監視カメラ映像の鮮明化や古い写真の復元などに応用されています。

39. 去噪(Denoising):
画像からノイズを除去し、クリアな画像を得る技術です。低光量撮影や医療画像の品質向上など、様々な場面で使用されています。

40. 去模糊(Deblur):
ぼけた画像をシャープにする技術です。手ブレや被写体ブレの補正、古い写真の復元などに活用されています。

41. 自动驾驶(Autonomous Driving):
人間の操作なしで車両を制御する技術です。コンピュータビジョン、センサー融合、決定システムなど、多岐にわたる技術の統合が必要です。

42. 3D点云(3D Point Cloud):
3D空間内の点の集合でオブジェクトや環境を表現するデータ形式です。LiDARなどのセンサーから取得され、3D認識タスクの基礎となります。

43. 3D目标检测(3D Object Detection):
3D空間内の物体の位置、サイズ、向きを特定する技術です。自動運転や拡張現実などの分野で重要な役割を果たします。

44. 3D语义分割(3D Semantic Segmentation):
3Dデータの各点や領域をあらかじめ定義されたカテゴリに分類する技術です。自動運転での環境理解やロボティクスでの物体認識に応用されています。

45. 3D目标跟踪(3D Object Tracking):
時系列の3Dデータ内で物体の動きを追跡する技術です。自動運転システムにおける他の車両や歩行者の動きの予測などに使用されます。

46. 3D语义场景补全(3D Semantic Scene Completion):
部分的な3Dデータから、オクルージョンや欠損のある領域を含む完全な3Dシーンを推定する技術です。ロボットナビゲーションや拡張現実に応用されています。

47. 3D配准(3D Registration):
複数の3Dデータセット(点群や表面モデルなど)を正確に整列させる技術です。3Dスキャンデータの統合や位置合わせに使用されます。

48. 3D人体姿态估计(3D Human Pose Estimation):
2D画像や3Dデータから人体の3次元的な姿勢を推定する技術です。モーションキャプチャ、アニメーション、スポーツ分析などに応用されています。

49. 3D人体Mesh估计(3D Human Mesh Estimation):
2D画像や3Dスキャンデータから詳細な3D人体メッシュモデルを推定する技術です。バーチャルフィッティングやアニメーション制作などに活用されています。

50. 图像生成(Image Generation):
AIを用いて新しい画像を生成する技術です。GANやDiffusion Modelなどが代表的で、アート創作やデータ拡張に応用されています。

51. 视频生成(Video Generation):
AIを用いて新しい動画を生成する技術です。短い入力クリップからの動画の延長や、テキスト記述からの動画生成などが研究されています。

52. 3D生成(3D Generation):
AIを用いて新しい3Dモデルを生成する技術です。製品デザイン、ゲーム開発、建築設計などの分野で注目されています。

53. 视频理解(Video Understanding):
動画の内容を解析し、シーンの構造、物体の関係、イベントの進行などを理解する技術です。ビデオ検索や自動要約などに応用されています。

54. 行为识别(Action Recognition):
動画内の人物の行動を識別する技術です。監視システム、スポーツ分析、ヒューマン・コンピュータ・インタラクションなどで活用されています。

55. 行为检测(Action Detection):
動画内の特定の行動をリアルタイムで検出し、その時間的・空間的位置を特定する技術です。セキュリティシステムや異常行動の検知などに応用されています。

はい、続きを説明いたします。

56. 文本检测(Text Detection):
画像や動画内のテキストの位置を検出する技術です。OCRシステムの前処理として重要で、看板の認識や文書分析などに使用されます。

57. 知识蒸馏(Knowledge Distillation):
大規模で複雑な「教師」モデルの知識を、より小さな「生徒」モデルに転移する技術です。モデルの軽量化と性能維持の両立を目指します。

58. 模型剪枝(Model Pruning):
学習済みモデルから重要度の低いパラメータや層を削除し、モデルを軽量化する技術です。モバイルデバイスでの効率的な実行などに役立ちます。

59. 图像压缩(Image Compression):
画像データを効率的に圧縮し、ストレージやネットワーク帯域幅を節約する技術です。最近では機械学習を用いた新しい圧縮手法も研究されています。

60. 三维重建(3D Reconstruction):
2D画像や動画から3Dモデルを構築する技術です。建築、考古学、映画制作など、様々な分野で活用されています。

61. 深度估计(Depth Estimation):
単眼または複眼の2D画像から、シーンの奥行き情報を推定する技術です。3D再構成や拡張現実などのアプリケーションで重要な役割を果たします。

62. 轨迹预测(Trajectory Prediction):
物体や人の過去の動きに基づいて、将来の動きを予測する技術です。自動運転、群衆行動分析、スポーツ戦略立案などに応用されています。

63. 车道线检测(Lane Detection):
道路上の車線を検出し追跡する技術です。自動運転システムや先進運転支援システム(ADAS)において重要な要素となっています。

64. 图像描述(Image Captioning):
画像の内容を自然言語で説明する文章を自動生成する技術です。視覚障害者支援や画像検索の高度化などに応用されています。

65. 视觉问答(Visual Question Answering):
画像に関する自然言語の質問に対して、適切な回答を生成する技術です。画像理解とテキスト生成の両方の能力が必要とされます。

66. 手语识别(Sign Language Recognition):
手話のジェスチャーを認識し、それを文字や音声に変換する技術です。聴覚障害者とのコミュニケーション支援に役立ちます。

67. 视频预测(Video Prediction):
過去のフレームに基づいて、動画の将来のフレームを予測する技術です。動画圧縮、異常検知、自動運転など、様々な応用が考えられています。

68. 新视点合成(Novel View Synthesis):
既存の画像や限られた視点の情報から、新しい視点の画像を生成する技術です。仮想現実や自由視点映像などに応用されています。

69. Zero-Shot Learning(零样本学习):
学習時に見たことのないクラスを認識する学習手法です。事前に学習していない新しいカテゴリの物体を識別する能力を持ちます。

70. 立体匹配(Stereo Matching):
ステレオカメラで撮影された左右の画像から対応点を見つけ、深度情報を抽出する技術です。3D再構成や深度推定の基礎となります。

71. 特征匹配(Feature Matching):
異なる画像間で対応する特徴点を見つける技術です。画像のスティッチング、物体追跡、SLAMなど、様々なコンピュータビジョンタスクの基礎となります。

72. 场景图生成(Scene Graph Generation):
画像内の物体間の関係を構造化して表現する技術です。シーンの意味的理解や高度な画像検索などに応用されています。

73. 计数(Counting):
画像や動画内の特定オブジェクトの数を自動的に数える技術です。群衆の推定、在庫管理、生物学的サンプルの計数などに使用されています。

74. 隐式神经表示(Implicit Neural Representations):
3Dシーンや形状を連続関数としてニューラルネットワークで表現する手法です。NeRFはこの手法の一例で、効率的なシーン表現が可能です。

75. 图像质量评价(Image Quality Assessment):
画像の品質を客観的に評価する技術です。画像処理アルゴリズムの性能評価や、品質に基づいた画像フィルタリングなどに使用されます。

76. 视频质量评价(Video Quality Assessment):
動画の品質を客観的に評価する技術です。ストリーミングサービスの品質監視や、ビデオ圧縮アルゴリズムの最適化などに応用されています。

77. 数据集(Datasets):
機械学習モデルの学習や評価に使用されるデータの集合です。ImageNet、COCO、KITTI

など、各タスクに特化した大規模データセットが開発され、研究や技術開発を加速しています。

これらの技術は相互に関連し合い、コンピュータビジョンと機械学習の分野を形作っています。多くの応用分野で革新的なソリューションを生み出すとともに、新たな課題にも直面しており、今後さらなる発展が期待されています。​​​​​​​​​​​​​​​​




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #OpenWeight Issue Date: 2024-09-25 Comment

11Bと90BのVLMと、エッジデバイス向けの1B, 3BのSLMを発表。
image
image
image

Llama3.2のVLMでは、事前学習されたimage encoderを事前学習された言語モデルに対して組み合わせるためのAdapterを複数学習することによって実現。

具体的には、Llama 3.1(text only model)に対して、image encoderとAdapterを追加し、大規模でノイジーな(image,text)ペアで事前学習。続いて、中規模のサイズの高品質なin-domain(i.e. 様々なドメインの)の知識を高めるような(image,text)ペアで学習した。

事後学習では、Llama3.1と同様にSFT, Rejection Sampling, DPOのラウンドを複数回繰り返した。Llama3.1を用いて、in-domainの画像に対するQAをData Augmentationし、フィルタリングすることで合成データを作成。さらに報酬モデルを活用して全ての回答候補をランクづけして高品質なSFTデータを取得。また、モデルの安全性が高まるようなデータも追加した。

Llama3.1の事後学習のプロセスについては 論文紹介 / The Llama 3 Herd of Models, 2024.08 も参照のこと。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #Alignment #TextualInversion Issue Date: 2024-03-21 Comment

LLMの出力のスタイルを数百個の事例だけで学習しチューニングできるライブラリ。promptで指定するのとは異なり、数値でスタイルの強さを指定することが可能らしい(元ツイート)。画像生成分野におけるTextual Inversionと同じ技術とのこと。

Textual Inversionとは、少量のサンプルを用いて、テキストエンコーダ部分に新たな「単語」を追加し、単語と対応する画像を用いてパラメータを更新することで、prompt中で「単語」を利用した場合に学習した画像のスタイルやオブジェクト(オリジナルの学習データに存在しなくても可)を生成できるようにする技術、らしい。

Huggiegface: https://huggingface.co/docs/diffusers/training/text_inversion
(参考)GPTに質問した際のログ: https://chat.openai.com/share/e4558c44-ce09-417f-9c77-6f3855e583fa
元ツイート:

Loading…



Paper/Blog Link My Issue
#Article #Pocket #NLP #LanguageModel #Selected Papers/Blogs #ModelMerge #KeyPoint Notes #Nature Machine Intelligence Issue Date: 2024-03-21 GPT Summary- 進化アルゴリズムを使用した新しいアプローチを提案し、強力な基盤モデルの自動生成を実現。LLMの開発において、人間の直感やドメイン知識に依存せず、多様なオープンソースモデルの効果的な組み合わせを自動的に発見する。このアプローチは、日本語のLLMと数学推論能力を持つモデルなど、異なるドメイン間の統合を容易にし、日本語VLMの性能向上にも貢献。オープンソースコミュニティへの貢献と自動モデル構成の新しいパラダイム導入により、基盤モデル開発における効率的なアプローチを模索。 Comment

複数のLLMを融合するモデルマージの話。日本語LLMと英語の数学LLNをマージさせることで日本語の数学性能を大幅に向上させたり、LLMとVLMを融合したりすることで、日本にしか存在しない概念の画像も、きちんと回答できるようになる。

著者スライドによると、従来のモデルマージにはbase modelが同一でないとうまくいかなかったり(重みの線型結合によるモデルマージ)、パラメータが増減したり(複数LLMのLayerを重みは弄らず再配置する)。また日本語LLMに対してモデルマージを実施しようとすると、マージ元のLLMが少なかったり、広範囲のモデルを扱うとマージがうまくいかない、といった課題があった。本研究ではこれら課題を解決できる。

著者による資料(NLPコロキウム):
https://speakerdeck.com/iwiwi/17-nlpkorokiumu




Paper/Blog Link My Issue
#Article #NLP #Library #Prompting #MultiModal #AutomaticPromptEngineering Issue Date: 2023-12-01 Comment

Large Multimodal Model (LMM)において、雑なpromptを与えるても自動的に良い感じoutputを生成してくれるっぽい?



以下の例はリポジトリからの引用であるが、この例では、"Find dog." という雑なpromptから、画像中央に位置する犬に[9]というラベルを与えました、というresponseを得られている。pipelineとしては、Visual Promptに対してまずSAMを用いてイメージのsegmentationを行い、各セグメントにラベルを振る。このラベルが振られた画像と、"Find dog." という雑なpromptを与えるだけで良い感じに処理をしてくれるようだ。

image




Paper/Blog Link My Issue
#Article #Survey #MachineLearning #NLP Issue Date: 2023-11-22 Comment

以下の分野の代表的な論文がまとめられている(基本的にはTransformer登場後のものが多い)

- 言語モデル(Transformer, Elmoなど)
- Visionモデル(ViTなど)
- CNN(AlexNetなど)
- Single Stage Object Detectors
- Region-based Convolutional Neural Networks
- DocumentAI(TableNetなど)
- Layout Transformers
- Tabular Deeplearning




Paper/Blog Link My Issue
#Article #FoundationModel #InductiveBias Issue Date: 2023-07-12 Comment

10Mを超える3D objectのデータセットを公開し、3D Modelの基盤モデルとしてZero123-XLを訓練。
元ツイートのGifがわかりやすい。

Loading…


たとえばinputされたイメージに対して、自由にカメラの視点を設定し、その視点からの物体の画像を出力できる。



Paper/Blog Link My Issue
#Article #MachineLearning #NLP #Library #Explanation #Transformer #Blog Issue Date: 2022-12-01 Comment

transformersのモデルをたった2行追加するだけで、explainableにするライブラリ

基本的にtextとvisionのclassificationをサポートしている模様
text classificationの場合、たとえばinput tokenの各トークンの分類に対する寄与度をoutputしてくれる。




Paper/Blog Link My Issue
#Article #NeuralNetwork #Tutorial Issue Date: 2022-10-27 Comment

・Swin Transformer, Depth-wise conv, ConvNeXt, ViTとCNNのロバスト性の違いの話があり勉強になる

・最終的な結論が、CNNもTransformerも変わらない(明確な勝者はいない; 今のところ引き分け)というのはおもしろかった

depth-wise conv, point-wise convの解説記事: https://agirobots.com/depthwise-pointwise-convolution/



通常のCNNのフィルタによるfeature map計算を、空間方向(depth-wise conv)とチャネル方向(point-wise conv; 1x1 conv)に分解することで大幅にパラメータ数削減




Paper/Blog Link My Issue
#Article #NeuralNetwork #Tutorial #EfficiencyImprovement #Blog #ImageClassification Issue Date: 2021-05-24 Comment

既存画像認識モデルの構造は変化させず、広さ、深さ、解像度を複合スケーリングすることで、従来よりも少ないパラメータ数、かつ学習速度でSoTAを達成。広さ、深さ、解像度はそれぞれ性能に互いに影響しあっており、従来のように別々にスケーリングするのではなく、3つのバランスをとりながらスケーリングする。スケーリングする際は、結果的にはそれぞれをある値で定数倍すれば良く、そのある値は最大メモリや最大FLOPS数以下(およびFLOPSが2のΦ乗で増加するような)といった制約下でAccuracyが最大化される値をグリッドサーチで見つける(らしい。ざっくりとした理解)。
転移学習しても多くのタスクでSoTA達成した。




Paper/Blog Link My Issue
#Article #NeuralNetwork #Survey #NLP Issue Date: 2021-05-19 Comment

gMLP:大規模なself-attentionが無いSpatial Gating Unitを搭載したシンプルなMLPでも、Transformerの性能に近づけたよ(特にCV)。つまり、self-attentionはessentialというわけではなさそうだよ。

NLPの場合はgMLPだとTransformerとperplexityでcomparable、一部downstreamタスクだと勝てなかったけど、single headのtiny attentionを追加したら、TransformerをperplexityとGLUEの一部タスクでoutperformしたよ。
つまり、Transformerみたいに大規模なself-attentionは必須ではなく、小規模のattentionで(cross sentenceの関係性を捉えるには)十分だよ。
スケーラビリティもTransformerを上回ったよ。

って感じ?

んーTransformerに勝ったみたいな言い方をSNSだと見かけるけど、評価してるタスクが少ないし、どちらかというとcomparableなdownstreamタスクが多いし、それは言い過ぎでは?
この論文が言いたいのは、大規模なself-attentionが性能を出す上でessentialなわけではないよ、ってことであり、

・CVの場合はself-attentionは必須ではない
・NLPでは、tiny attentionでも十分

という感じなのでは。

まあでもTransformerとcomparableなら、Transformer一強では無くなったよね

Spatial Gating Unit(SGU)は、トークン間の関係性を捉えるためのゲートで、SGUが無いとgMLPブロックはただの二層のFFNとなる。

SGUは、入力をspatial dimensionに対して線形変換した値と、元の入力のelement-wiseな積で表現する。この線形変換をする際は、Wの値を0の近傍で初期化し、バイアス項を1に初期化することがクリティカルだった。これは、学習の初めでは線形変換はidentical mappingに近いものとなるため、gMLPブロックはFFNに近いものとなる。これが学習が進むにつれWの重みが調整され、cross tokenの関係性を捉えたブロックへと徐々に変化していくことになる。
また、SGUへの入力はGLUのようにchannel dimensionに二分割し、片方をelement-wise積に、もう一方をspatialな線形変換に利用する(4種類試した中で一番性能が良かった)。