ComputerVisionに関する論文・技術記事メモの一覧

ComputerVision

#NeuralNetwork #Analysis #Supervised #RepresentationLearning #Self-SupervisedLearning #CLIP #One-Line Notes
Issue Date: 2025-10-31 [Paper Notes] Investigating fine- and coarse-grained structural correspondences between deep neural networks and human object image similarity judgments using unsupervised alignment, Takahashi+, Neural Networks'26, 2026.03 Comment

元ポスト:

Loading…

CLIP, 自己教師あり学習, 教師あり学習を比較したときに、CLIPが人間が獲得するobjectのrepresentationともっともalignしている一方で、自己教師あり学習はほとんど偶然レベルでしかalignしない（ただし、粗いレベルで見ると人間で言うところのカテゴリレベルのクラスタを形成することができる）。このため、テキストベースでの学習が人間が獲得する表現とfine-grainedなレベルでalignするために非常に重要であることが示唆される、という感じらしい

#Pocket #NLP #MultiModal #OpenWeight #MoE(Mixture-of-Experts) #VisionLanguageModel
Issue Date: 2025-11-27 [Paper Note] Qwen3-VL Technical Report, Shuai Bai+, arXiv'25, 2025.11 GPT Summary- Qwen3-VLは、テキスト、画像、動画を統合した最先端のビジョン・ランゲージモデルで、256Kトークンの長文コンテキスト理解を実現。強化されたテキスト理解、堅牢なマルチモーダル推論、空間・時間モデリングのアップグレードを特徴とし、様々なベンチマークで優れたパフォーマンスを示す。密なアーキテクチャとエキスパート混合アーキテクチャの両方で高い性能を発揮し、実世界のマルチモーダルコードインテリジェンスの基盤エンジンとしての役割が期待される。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #Evaluation #MultiModal #Selected Papers/Blogs #Medical
Issue Date: 2025-11-26 [Paper Note] MTBBench: A Multimodal Sequential Clinical Decision-Making Benchmark in Oncology, Kiril Vasilev+, arXiv'25, 2025.11 GPT Summary- MTBBenchは、臨床ワークフローの複雑さを反映したマルチモーダル大規模言語モデル（LLMs）のための新しいベンチマークで、腫瘍学の意思決定をシミュレートします。既存の評価が単一モーダルであるのに対し、MTBBenchは異種データの統合や時間に基づく洞察の進化を考慮しています。臨床医によって検証されたグラウンドトゥルースの注釈を用い、複数のLLMを評価した結果、信頼性の欠如や幻覚の発生、データの調和に苦労することが明らかになりました。MTBBenchは、マルチモーダルおよび長期的な推論を強化するツールを提供し、タスクレベルのパフォーマンスを最大9.0%および11.2%向上させることが示されました。 Comment

dataset: https://huggingface.co/datasets/EeshaanJain/MTBBench

元ポスト:

Loading…

> Ground truth annotations are validated by clinicians via a co-developed app, ensuring clinical relevance.

素晴らしい

#Pocket #NLP #Dataset #AIAgents #Evaluation #Coding #LLM-as-a-Judge #ComputerUse #VisionLanguageModel #One-Line Notes #UI Issue Date: 2025-11-26 [Paper Note] Computer-Use Agents as Judges for Generative User Interface, Kevin Qinghong Lin+, arXiv'25, 2025.11 GPT Summary- CUAはGUIを自律的に操作する能力が向上しているが、従来のGUIは人間向けに設計されているため、効率的なタスク実行に不必要な行動を強いられる。Coderの進展により、自動GUI設計が変革される中、CUAがCoderを支援する役割を果たせるかを探るためにAUI-Gymを導入。1560のタスクをシミュレートし、信頼性を確保する検証ツールを開発。Coder-CUA協力フレームワークを提案し、CUAがデザインを評価し、タスク解決可能性を測定。CUAダッシュボードを設計し、ナビゲーション履歴を視覚的に要約。これにより、エージェントの能動的な参加を促進する。 Comment

pj page: https://showlab.github.io/AUI/

元ポスト:

Loading…

CUA自身にCUAにとって理解しやすいUIに関するJudgeをさせてフィードバックさせ（CUA-as-Judpe)、Coder（コード生成）を通じてUIを改善できるか？というタスクとベンチマークな模様

#Pocket #Transformer #DiffusionModel #TextToImageGeneration #ImageSynthesis #Pixel-based Issue Date: 2025-11-26 [Paper Note] PixelDiT: Pixel Diffusion Transformers for Image Generation, Yongsheng Yu+, arXiv'25, 2025.11 GPT Summary- PixelDiTは、オートエンコーダーを排除し、ピクセル空間での拡散プロセスを直接学習するエンドツーエンドモデルである。グローバルなセマンティクスとテクスチャの詳細を捉える二重レベルのトランスフォーマーアーキテクチャを採用し、効率的なトレーニングを実現。ImageNetで1.61のFIDを達成し、テキストから画像への生成にも拡張。GenEvalで0.74、DPG-benchで83.5を記録し、既存モデルを上回る性能を示した。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #ReinforcementLearning #PostTraining Issue Date: 2025-11-26 [Paper Note] Soft Adaptive Policy Optimization, Chang Gao+, arXiv'25, 2025.11 GPT Summary- 強化学習（RL）におけるポリシー最適化の課題を解決するために、Soft Adaptive Policy Optimization（SAPO）を提案。SAPOは、ハードクリッピングを温度制御されたゲートに置き換え、オフポリシー更新を適応的に減衰させつつ有用な学習信号を保持。これにより、シーケンス整合性とトークン適応性を向上させ、サンプル効率を改善。実証結果は、SAPOがトレーニングの安定性を向上させ、Qwen3-VLモデルシリーズで一貫したパフォーマンス向上を示すことを確認。SAPOはLLMsのRLトレーニングにおける信頼性の高い最適化戦略を提供。 Comment

元ポスト:

Loading…

所見:

Loading…

ポイント解説:

Loading…

#Pocket #NLP #Dataset #Evaluation #VisionLanguageModel Issue Date: 2025-11-25 [Paper Note] VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation, Kevin Qinghong Lin+, arXiv'25, 2025.11 GPT Summary- VCodeは、視覚中心のコーディングを促進するためにSVGコードを用いた新しいアプローチを提案。画像から象徴的な意味を持つSVGを生成し、CodeVQAという評価プロトコルでその忠実性を測定。VCoderを導入し、SVGコードの不一致を分析・洗練する「Thinking with Revision」と、構造的手がかりを提供する「Acting with Visual Tools」を通じて、言語中心と視覚中心のコーディングのギャップを埋める。実験により、VCoderは最前線のVLMに対して12.3ポイントの性能向上を実現。 Comment

元ポスト:

Loading…

pj page: https://csu-jpg.github.io/VCode/

画像を意味情報を保持したSVGコードとして書き起こし、書き起こしたSVGに対してQAをすることで正しさを測るようなベンチマークらしい

#Pocket #NLP #WorldModels #VisionLanguageActionModel #UMM #One-Line Notes Issue Date: 2025-11-25 [Paper Note] RynnVLA-002: A Unified Vision-Language-Action and World Model, Jun Cen+, arXiv'25, 2025.11 GPT Summary- RynnVLA-002は、ビジョン・言語・アクション（VLA）モデルと世界モデルを統合した新しいモデルで、アクションと視覚入力を用いて未来の画像状態を予測し、環境の物理法則を学習します。このフレームワークにより、環境のダイナミクスとアクション計画の共同学習が可能となり、実験では個別モデルを上回る性能を示しました。シミュレーションでは97.4%の成功率を達成し、実世界のロボットタスクでも成功率が50%向上しました。 Comment

HF: https://huggingface.co/Alibaba-DAMO-Academy/RynnVLA-002

元ポスト:

Loading…

VLAによるアクション予測とWorldModelによる視覚的な画像生成の交互作用をさせたという話に見える。

#EfficiencyImprovement #Pocket #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #NeurIPS #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-25 [Paper Note] Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models, Jiaqi Wang+, NeurIPS'25, 2025.05 GPT Summary- 強化学習を用いて視覚と言語モデルの推論を強化するために、TONという二段階のトレーニング戦略を提案。簡単な質問には推論をスキップし、必要な時に考える人間の思考プロセスを模倣。実験により、TONは従来の手法に比べて推論ステップを最大90％削減し、性能を向上させることが示された。モデルはトレーニングを通じて不要な推論を回避することを学習。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

いつ思考をするか/しないかを学習することでCoTのtrajectoryを節約する。選択的に思考しないということをモデルは基本的に学習していないのでSFTで模倣学習することでコールドスタートを脱っし、その後RLによって選択的に思考しないことも含めて思考を最適化する、といった話に見える。

#Pocket #NLP #Dataset #Evaluation #NeurIPS #VisionLanguageModel #One-Line Notes #Poster Issue Date: 2025-11-25 [Paper Note] Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers, Wei Pang+, NeurIPS'25, 2025.05 GPT Summary- 学術ポスター生成のための新しいベンチマークとメトリクスを導入し、PosterAgentというマルチエージェントパイプラインを提案。Parserが論文を構造化し、Plannerがレイアウトを整え、Painter-Commenterが視覚的整合性を確保。評価では、GPT-4oの出力は視覚的には魅力的だが、テキストの質が低く、PaperQuizスコアも不十分であることが判明。オープンソースのバリアントは、既存のシステムを上回り、コスト効率も良好。これにより、次世代の自動ポスター生成モデルの方向性が示された。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

GPT4oは細かい文字のfidelityが低く、視覚的な魅力も小さい（なのでそういったものは学習で補う必要がある）という知見があるとのこと。arXivに投稿された当時結構話題になっていた気がする。

論文だけに留まらず、長いテキストを視覚的に見やすく圧縮する技術は一種の要約として見ることもでき、生成AIによって情報がさらに溢れかえるようになった昨今は、こういった技術はさらに重要な技術になると思われる。

#Pocket #CVPR #3D Reconstruction Issue Date: 2025-11-20 [Paper Note] SLAM3R: Real-Time Dense Scene Reconstruction from Monocular RGB Videos, Yuzheng Liu+, CVPR'25 Highlight, 2024.12 GPT Summary- SLAM3Rは、RGBビデオを用いたリアルタイムの高品質な密な3D再構築システムで、フィードフォワードニューラルネットワークを活用してローカル3D再構築とグローバル座標登録を統合。スライディングウィンドウメカニズムでビデオを重なり合ったクリップに変換し、RGB画像から直接3Dポイントマップを回帰。実験により、最先端の再構築精度と20 FPS以上のリアルタイム性能を達成。コードは公開されている。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #FoundationModel #DiffusionModel #TextToImageGeneration #SmallModel #VideoGeneration/Understandings #VisionLanguageModel Issue Date: 2025-11-20 [Paper Note] Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation, Vladimir Arkhipkin+, arXiv'25, 2025.11 GPT Summary- Kandinsky 5.0は、高解像度画像と10秒動画合成のための最先端モデルで、3つのコアモデル（Image Lite、Video Lite、Video Pro）から構成される。データキュレーションライフサイクルのレビューや、自己教師ありファインチューニングや強化学習を用いた品質向上技術を取り入れ、高い生成速度とパフォーマンスを実現。オープンソースコードとトレーニングチェックポイントの提供により、研究コミュニティの発展に寄与することを目指す。 Comment

HF: https://huggingface.co/kandinskylab

元ポスト:

Loading…

#Pocket #Dataset #Transformer #Evaluation #FoundationModel #2D (Image) #4D (Video) #SpatialUnderstanding Issue Date: 2025-11-17 [Paper Note] Depth Anything 3: Recovering the Visual Space from Any Views, Haotong Lin+, arXiv'25, 2025.11 GPT Summary- Depth Anything 3（DA3）は、カメラポーズの有無にかかわらず、視覚入力から空間的一貫性のあるジオメトリを予測するモデルです。DA3は、単一のプレーンなトランスフォーマーをバックボーンとして使用し、複雑なマルチタスク学習を排除することで、Depth Anything 2（DA2）と同等の性能を達成しました。新たに設立した視覚ジオメトリベンチマークでは、DA3がすべてのタスクで最先端の結果を示し、カメラポーズ精度で従来の最先端を44.3%、ジオメトリ精度で25.1%上回りました。すべてのモデルは公共の学術データセットでトレーニングされています。 Comment

元ポスト:

Loading…

pj page: https://depth-anything-3.github.io/

#Pocket #Transformer #FoundationModel #read-later #2D (Image) #3D (Scene) #Robotics #SpatialUnderstanding #Omni #Geometric #Robustness Issue Date: 2025-11-16 [Paper Note] OmniVGGT: Omni-Modality Driven Visual Geometry Grounded, Haosong Peng+, arXiv'25, 2025.11 GPT Summary- OmniVGGTという新しいフレームワークを提案し、RGB以外の幾何学的手がかりを活用して3D基盤モデルの性能を向上させる。GeoAdapterを用いて深度情報やカメラパラメータをモデルにエンコードし、安定した最適化を実現。確率的なマルチモーダル融合手法により、任意の数のモダリティ入力を可能にし、堅牢な空間表現を学習。実験により、OmniVGGTが従来手法を上回り、視覚-言語-行動モデルに統合することでロボティクスタスクでも性能向上を達成。 Comment

元ポスト:

Loading…

depth mapやcameraの情報などの様々な幾何学的情報を入力した場合（depth mapがないなど情報が欠落していても良い）にロバストに対応できるような基盤モデルを構築する手法らしい

https://github.com/user-attachments/assets/b09c10b6-628a-418f-9faf-ea43a4d3f692" />

評価データ:
- [Paper Note] A naturalistic open source movie for optical flow evaluation, Butler+, ECCV'12
- [Paper Note] ReFusion: 3D Reconstruction in Dynamic Environments for RGB-D Cameras Exploiting Residuals, Emanuele Palazzolo+, IROS'19, 2019.05
- [Paper Note] Indoor Segmentation and Support Inference from RGBD Images, Silberman+, ECCV'12
- [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images,Shotton+, CVPR'13
- [Paper Note] ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes, Angela Dai+, CVPR'17, 2017.02
- [Paper Note] A Multi-view Stereo Benchmark with High-Resolution Images and Multi-camera Videos, Schöps+, CVPR'17
- [Paper Note] Large-Scale Data for Multiple-View Stereopsis, Aanæs+, IJCV'16
- [Paper Note] Tanks and temples: Benchmarking large-scale scene reconstruction, Knapitsch+, TOG'17
- [Paper Note] Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life 3D Category Reconstruction, Reizenstein+, ICCV'21
- [Paper Note] Stereo Magnification: Learning View Synthesis using Multiplane Images, Tinghui Zhou+, SIGGRAPH'18, 2018.05
- [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images, Shotton+, CVPR'13
- [Paper Note] CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks, Oier Mees+, RA-L'22 Best Paper Award, 2021.12

#Pocket #Transformer #NeuralArchitectureSearch #Encoder-Decoder #ObjectDetection #Realtime Issue Date: 2025-11-14 [Paper Note] RF-DETR: Neural Architecture Search for Real-Time Detection Transformers, Isaac Robinson+, arXiv'25, 2025.11 GPT Summary- RF-DETRは、オープンボキャブラリ検出器の一般化問題を解決するために導入された軽量の専門検出トランスフォーマーであり、重み共有ニューラルアーキテクチャサーチ（NAS）を用いて精度とレイテンシのトレードオフを評価します。RF-DETRは、COCOおよびRoboflow100-VLで従来の手法を大幅に上回り、特にRF-DETR（2x-large）はCOCOで60 APを超えた初のリアルタイム検出器です。 Comment

元ポスト:

Loading…

#Controllable #Pocket #DiffusionModel #VideoGeneration/Understandings Issue Date: 2025-11-14 [Paper Note] Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising, Assaf Singer+, arXiv'25, 2025.11 GPT Summary- Time-to-Move（TTM）は、画像から動画への拡散モデルを用いたトレーニング不要の動画生成フレームワークで、動きと外観を制御する。ユーザーが得た粗いアニメーションを動きの手がかりとして利用し、二重時計デノイジングにより外観を保持しつつ動きの整合性を強化。TTMは追加のトレーニングなしでリアリズムと動きの制御において既存手法と同等以上の性能を示し、ピクセルレベルの条件付けを通じて外観制御の精度を向上させた。 Comment

元ポスト:

Loading…

#Pocket #AIAgents #Generalization #VisionLanguageModel #3D (Scene) #Game #Realtime Issue Date: 2025-11-13 [Paper Note] Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds, Weihao Tan+, arXiv'25, 2025.11 GPT Summary- Lumineは、3Dオープンワールド環境で複雑なミッションをリアルタイムで完了できる一般的なエージェントのためのオープンレシピです。人間のようなインタラクションを採用し、視覚と言語のモデルを統合して知覚、推論、行動を実現。Genshin Impactで訓練されたLumineは、自然言語の指示に従い、幅広いタスクを効率的に実行します。また、ファインチューニングなしで他のゲームでも高いパフォーマンスを示し、オープンエンドな環境における一般的なエージェントへの進展を示しています。 Comment

pj page: https://www.lumine-ai.org/

> 1731 hours of human gameplay for pre-training to master action primitives;

> 200 hours of instruction following data to ground control in language;

> 15 hours of reasoning data to enable adaptive thinking.

元ポスト:

Loading…

#Pocket #Zero/Few/ManyShotPrompting #VideoGeneration/Understandings #Robotics #WorldModels #EmbodiedAI #One-Line Notes Issue Date: 2025-11-12 [Paper Note] Robot Learning from a Physical World Model, Jiageng Mao+, arXiv'25, 2025.11 GPT Summary- PhysWorldは、物理世界のモデル化を通じてビデオ生成とロボット学習を結びつけるフレームワークです。従来のビデオ生成モデルは物理を無視しがちで、ロボットの操作に不正確さをもたらしますが、PhysWorldはタスク条件付きのビデオを生成し、物理世界を再構築します。これにより、生成されたビデオの動きを物理的に正確なアクションに変換し、実際のロボットデータ収集なしでゼロショットのロボット操作を実現します。実験により、PhysWorldは操作精度を大幅に向上させることが示されました。 Comment

pj page: https://pointscoder.github.io/PhysWorld_Web/

画像とタスクプロンプトを与えて動画を生成し、生成された動画に対してworld modelを用いて物理世界の情報を再構築し、そこからロボットのアクションとして何が必要かを推定することでRLをする、結果的にzeroshotでのロボット操作が実現できる、みたいな話に見える(Figure2)

元ポスト:

Loading…

#Analysis #Pretraining #Pocket #NLP #Dataset #LanguageModel #Selected Papers/Blogs #DataMixture #PhaseTransition Issue Date: 2025-11-12 [Paper Note] Why Less is More （Sometimes）: A Theory of Data Curation, Elvis Dohmatob+, arXiv'25, 2025.11 GPT Summary- 本論文では、データを少なく使う方が良い場合についての理論的枠組みを提案し、小規模な厳選データセットが優れた性能を発揮する理由を探ります。データキュレーション戦略を通じて、ラベルに依存しない・依存するルールのテスト誤差のスケーリング法則を明らかにし、特定の条件下で小規模データが大規模データを上回る可能性を示します。ImageNetでの実証結果を通じて、キュレーションが精度を向上させることを確認し、LLMの数学的推論における矛盾する戦略への理論的説明も提供します。 Comment

元ポスト:

Loading…

#Pocket #Transformer #DiffusionModel #Selected Papers/Blogs #2D (Image) #WorldModels Issue Date: 2025-11-11 [Paper Note] ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation, Jay Zhangjie Wu+, arXiv'25, 2025.10 GPT Summary- ChronoEditフレームワークを提案し、画像編集を動画生成として再定義。入力画像と編集画像を動画の最初と最後のフレームとし、時間的一貫性を学習した動画生成モデルを活用。推論時に時間的推論ステージを導入し、物理的に実現可能な変換を制約する編集軌道を生成。新しいベンチマークPBench-Editで、ChronoEditが視覚的忠実性と物理的妥当性で最先端の手法を上回ることを示した。 Comment

HF: https://huggingface.co/nvidia/ChronoEdit-14B-Diffusers

LoRAによるUpscaler: https://huggingface.co/nvidia/ChronoEdit-14B-Diffusers-Upscaler-Lora

元ポスト:

Loading…

スケッチ+promptでの編集
HF: https://huggingface.co/nvidia/ChronoEdit-14B-Diffusers-Paint-Brush-Lora

元ポスト:

Loading…

#Pocket #DiffusionModel #LongSequence #VideoGeneration/Understandings #One-Line Notes Issue Date: 2025-11-10 [Paper Note] Rolling Forcing: Autoregressive Long Video Diffusion in Real Time, Kunhao Liu+, arXiv'25, 2025.09 GPT Summary- ストリーミングビデオ生成におけるエラーの蓄積を抑えるために、新技術「Rolling Forcing」を提案。複数フレームの共同デノイジング、注意シンクメカニズムの導入、効率的なトレーニングアルゴリズムを特徴とし、リアルタイムでの高品質なビデオ生成を実現。実験により、エラーの蓄積が大幅に削減されることが確認された。 Comment

self forcingと比較して複数フレームを同時にdenoisingしエラーの蓄積を低減するコンセプトな模様。

#Pocket #NLP #Dataset #LanguageModel #Evaluation #MultiModal #read-later #Selected Papers/Blogs #Robotics #EmbodiedAI Issue Date: 2025-11-10 [Paper Note] PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs, Zixin Zhang+, arXiv'25, 2025.10 GPT Summary- MLLMsの物理的道具に対する理解を評価するための新しいベンチマークPhysToolBenchを提案。1,000以上の画像-テキストペアからなるVQAデータセットで、道具認識、道具理解、道具創造の3つの能力を評価。32のMLLMsに対する評価で道具理解に欠陥があることが明らかになり、初歩的な解決策を提案。コードとデータセットは公開。 Comment

元ポスト:

Loading…

興味深い

#Pocket #Transformer #ImageSegmentation #Prompting #FoundationModel #2D (Image) #4D (Video) Issue Date: 2025-11-09 [Paper Note] SAM 2: Segment Anything in Images and Videos, Nikhila Ravi+, ICLR'25, 2024.08 GPT Summary- Segment Anything Model 2（SAM 2）は、プロンプト可能な視覚セグメンテーションのための基盤モデルで、ユーザーのインタラクションを通じてデータを改善するデータエンジンを構築し、最大の動画セグメンテーションデータセットを収集。シンプルなトランスフォーマーアーキテクチャを用い、リアルタイム動画処理に対応。SAM 2は、動画セグメンテーションで従来の手法より3倍少ないインタラクションで高精度を達成し、画像セグメンテーションでも従来モデルより精度が高く、6倍速い。データ、モデル、コード、デモを公開し、関連タスクの重要なマイルストーンを目指す。 Comment

openreview: https://openreview.net/forum?id=Ha6RTeWMd0

SAMはこちら:
- Segment Anything, Alexander Kirillov+, arXiv'23

#EfficiencyImprovement #Pocket #ImageSegmentation #SmallModel #OpenWeight #Video #2D (Image) Issue Date: 2025-11-09 [Paper Note] EdgeTAM: On-Device Track Anything Model, Chong Zhou+, arXiv'25, 2025.01 GPT Summary- SAM 2は動画セグメンテーションの基盤モデルであり、メモリバンクメカニズムを通じて性能を向上させています。本研究では、モバイルデバイス上での効率を高めるために、EdgeTAMを提案し、2D空間パーセプターを用いて計算コストを削減します。これにより、メモリの空間構造を保持しつつ、推論オーバーヘッドなしで性能を向上させる蒸留パイプラインも導入。EdgeTAMは複数のデータセットで高いJ&Fスコアを達成し、iPhone 15 Pro Maxで16 FPSで動作します。 Comment

元ポスト:

Loading…

SAM2より性能は少し劣るが、edge-deviceてわ動作可能で非常に高速なモデル（promptによって制御可能なsegmentation)とのこと
- [Paper Note] SAM 2: Segment Anything in Images and Videos, Nikhila Ravi+, ICLR'25, 2024.08

#Pocket #NLP #LanguageModel #MultiModal #SpeechProcessing #Speech #NeurIPS #VisionLanguageModel #2D (Image) #TTS #AudioLanguageModel Issue Date: 2025-11-05 [Paper Note] VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction, Chaoyou Fu+, NeurIPS'25, 2025.01 GPT Summary- 音声の役割を重視したマルチモーダル大規模言語モデル（MLLM）の訓練手法を提案。視覚と音声の相互作用を強化し、ASRやTTSモジュールなしで効率的な音声対話を実現。ベンチマークで最先端手法と比較し、リアルタイムの視覚と音声の相互作用が可能であることを示す。 Comment

元ポスト:

Loading…

image/video, speechを入力として受けとりリアルタイムに音声を出力するマルチモーダルモデル。

#NeuralNetwork #Pocket #Attention #NeurIPS #Selected Papers/Blogs #ObjectDetection Issue Date: 2025-11-05 [Paper Note] YOLOv12: Attention-Centric Real-Time Object Detectors, Yunjie Tian+, NeurIPS'25, 2025.02 GPT Summary- YOLOv12は、注意メカニズムを活用した新しいYOLOフレームワークで、CNNベースのモデルと同等の速度を維持しつつ、精度を向上させる。特に、YOLOv12-NはT4 GPU上で1.64 msの推論遅延で40.6%のmAPを達成し、YOLOv10-NおよびYOLOv11-Nを上回る性能を示す。また、YOLOv12はRT-DETRやRT-DETRv2よりも優れた性能を発揮し、計算量とパラメータ数を大幅に削減しながらも高速な実行を実現している。 Comment

元ポスト:

Loading…

#Pocket #NLP #MultiModal #Reasoning #SelfCorrection #NeurIPS #VisionLanguageModel Issue Date: 2025-11-05 [Paper Note] VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning, Haozhe Wang+, NeurIPS'25, 2025.04 GPT Summary- スロースロース思考システムは、明示的な反省を通じて難しい問題を解決する可能性を示しているが、マルチモーダル推論能力はファストスロース思考モデルと同等である。本研究では、強化学習を用いて視覚と言語のモデルのスロースロース思考能力を向上させることを目指し、選択的サンプルリプレイ（SSR）と強制的再考を導入。これにより、モデルVL-RethinkerはMathVista、MathVerseでそれぞれ80.4%、63.5%の最先端スコアを達成し、他のベンチマークでも優れた性能を示した。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #Evaluation #MultiModal #SpeechProcessing #2D (Image) #4D (Video) #Omni #text Issue Date: 2025-11-05 [Paper Note] UNO-Bench: A Unified Benchmark for Exploring the Compositional Law Between Uni-modal and Omni-modal in Omni Models, Chen Chen+, arXiv'25, 2025.10 GPT Summary- 新しいベンチマークUNO-Benchを提案し、ユニモーダルとオムニモーダルの能力を44のタスクと5つのモダリティで評価。人間生成データと自動圧縮データを用い、複雑な推論を評価する多段階オープンエンド質問形式を導入。実験により、オムニモーダルの能力がモデルの強さに応じて異なる影響を与えることを示した。 Comment

pj page: https://meituan-longcat.github.io/UNO-Bench/

元ポスト:

Loading…

#Pocket #NLP #Dataset #Evaluation #EMNLP #VisionLanguageModel #One-Line Notes #Short Issue Date: 2025-11-04 [Paper Note] Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint, Heekyung Lee+, EMNLP'25, 2025.05 GPT Summary- リバスパズルは視覚的な謎であり、VLMに特有の挑戦をもたらす。従来のタスクとは異なり、マルチモーダルな抽象化や象徴的推論が必要。本研究では、英語のリバスパズルのベンチマークを構築し、VLMの解釈能力を調査。結果、VLMはシンプルな視覚的手がかりには強いが、抽象的推論や視覚的メタファーの理解には苦労することが明らかになった。 Comment

元ポスト:

Loading…

Rebus Puzzleの例。たとえば上の例はlong time no seeが答えだが、Timeを認識してCが抜けており、かつseeとCの音韻が似ているといった解釈をしなければならない。Waterfallの例では、Waterという文字列が滝のように下に向かっている様子から類推しなければならない。おもしろい。

#Pocket #NLP #Dataset #AIAgents #Evaluation #Safety #ComputerUse #VisionLanguageModel #Live #Safeguard Issue Date: 2025-11-03 [Paper Note] OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows, Qiushi Sun+, arXiv'25, 2025.10 GPT Summary- モバイルプラットフォームでのエージェントの安全性を確保するため、MobileRisk-Liveという動的サンドボックス環境を導入し、OS-Sentinelという新しいハイブリッド安全性検出フレームワークを提案。OS-Sentinelは、システムレベルの違反検出と文脈リスク評価を統合し、実験で既存手法に対して10%-30%の性能向上を達成。自律型モバイルエージェントの信頼性向上に寄与する重要な洞察を提供。 Comment

dataset: https://huggingface.co/datasets/OS-Copilot/MobileRisk
pj page: https://qiushisun.github.io/OS-Sentinel-Home/

元ポスト:

Loading…

#Pocket #3D (Scene) #Robotics #VisionLanguageActionModel #SpatialUnderstanding Issue Date: 2025-11-03 [Paper Note] From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors, Zhengshen Zhang+, arXiv'25, 2025.10 GPT Summary- FALCON（From Spatial to Action）は、視覚-言語-行動（VLA）モデルの空間的推論のギャップを解消する新しいパラダイムで、3D空間トークンを行動ヘッドに注入します。RGBから幾何学的情報を提供し、深度やポーズを融合させることで高い忠実度を実現し、再訓練やアーキテクチャの変更は不要です。FALCONは、空間表現やモダリティの転送可能性を向上させ、11の現実世界のタスクで最先端のパフォーマンスを達成しました。 Comment

pj page: https://falcon-vla.github.io/

元ポスト:

Loading…

#Pocket #ReinforcementLearning #Self-SupervisedLearning #RLVR #VisionLanguageModel #2D (Image) #3D (Scene) #SpatialUnderstanding #One-Line Notes #Pixel-based Issue Date: 2025-11-03 [Paper Note] Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning, Yuhong Liu+, arXiv'25, 2025.10 GPT Summary- 空間理解におけるLVLMの弱点を克服するため、自己教師あり強化学習パラダイムSpatial-SSRLを提案。5つの前提タスクを自動定式化し、検証が容易な信号を導出。これにより、空間推論が大幅に改善され、7つのベンチマークでQwen2.5-VLベースラインに対して平均精度が4.63%（3B）および3.89%（7B）向上。シンプルな監視がRLVRを可能にし、LVLMの空間知能向上に寄与することを示した。 Comment

元ポスト:

Loading…

RGB/RGB-D imageがgivenなときに、
- cropped patch inpainting
- flipped patch recognition
- shuffled patch reordering
- regional depth ordering
- relative 3D position prediction

の5つのverifiableなタスクを定義しself supervisedなmannerでRLすることでSpatial Understanding能力を向上させる話らしい

#Tutorial #Pocket #DiffusionModel Issue Date: 2025-10-29 [Paper Note] The Principles of Diffusion Models, Chieh-Hsin Lai+, arXiv'25, 2025.10 GPT Summary- このモノグラフでは、拡散モデルの核心原則とその多様な定式化の起源を探ります。拡散モデリングは、データをノイズに腐敗させる前方プロセスから始まり、逆プロセスを学習してノイズをデータに戻すことを目的としています。三つの視点（変分的、スコアベース、フローベース）を通じて、ノイズ除去やデータ生成の方法を説明し、共通の基盤として時間依存の速度場を提案します。さらに、制御可能な生成や効率的な数値ソルバーについても議論し、深層学習の知識を持つ読者に拡散モデルの理解を提供します。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #Transformer #read-later #NormalizingFlow #Compression Issue Date: 2025-10-28 [Paper Note] FARMER: Flow AutoRegressive Transformer over Pixels, Guangting Zheng+, arXiv'25, 2025.10 GPT Summary- FARMERという新しい生成フレームワークを提案し、正規化フローと自己回帰モデルを統合して高品質な画像合成と尤度推定を実現。潜在シーケンスへの変換や自己教師あり次元削減により、ARモデリングの効率を向上。推論速度を加速する蒸留スキームと画像生成品質を向上させる分類器フリーガイダンスを導入。実験により、FARMERは既存モデルと比較して競争力のある性能を示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

これは...👀👀👀

#MachineLearning #Pocket #NLP #LanguageModel #Transformer #Architecture #Normalization Issue Date: 2025-10-28 [Paper Note] SeeDNorm: Self-Rescaled Dynamic Normalization, Wenrui Cai+, arXiv'25, 2025.10 GPT Summary- SeeDNormは、入力に基づいて動的にスケーリング係数を調整する新しい正規化層であり、RMSNormの限界を克服します。これにより、入力のノルム情報を保持し、データ依存の自己再スケーリングを実現。大規模言語モデルやコンピュータビジョンタスクでの有効性を検証し、従来の正規化手法と比較して優れた性能を示しました。 #Pocket #Dataset #Transformer #FoundationModel #3D Reconstruction #3D (Scene) #UMM #SpatialUnderstanding Issue Date: 2025-10-28 [Paper Note] IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction, Hao Li+, arXiv'25, 2025.10 GPT Summary- 人間の3Dシーン理解を模倣するため、空間再構築とインスタンス理解を統合したInstanceGrounded Geometry Transformer（IGGT）を提案。IGGTは2D視覚入力を用いて幾何学的構造とインスタンスクラスタリングを統一的に表現し、3Dシーンの一貫性を向上させる。新たに構築したInsScene-15Kデータセットを用いて、3D一貫性のあるインスタンスレベルのマスク注釈を提供。 Comment

pj page: https://lifuguan.github.io/IGGT_official/

元ポスト:

Loading…

ポイント解説:

Loading…

#Pocket #ImageSegmentation #VideoGeneration/Understandings #VisionLanguageModel #UMM Issue Date: 2025-10-27 [Paper Note] Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos, Haobo Yuan+, arXiv'25, 2025.01 GPT Summary- Sa2VAは、画像と動画の基盤理解のための統一モデルであり、最小限のワンショット指示チューニングで多様なタスクをサポート。SAM-2とLLaVAを組み合わせ、テキスト、画像、動画を統合。新たに導入したRef-SAVデータセットにより、複雑な動画シーンでのオブジェクト表現を強化。実験結果は、特に参照動画オブジェクトセグメンテーションで最先端の成果を示し、実世界の応用が期待される。 Comment

HF: https://huggingface.co/collections/ByteDance/sa2va-model-zoo

元ポスト:

Loading…

ポイント解説:

Loading…

#Analysis #Pocket #Dataset #Zero/Few/ManyShotPrompting #MultiModal #In-ContextLearning #ICCV #VisionLanguageModel Issue Date: 2025-10-27 [Paper Note] Kaputt: A Large-Scale Dataset for Visual Defect Detection, Sebastian Höfer+, ICCV'25, 2025.10 GPT Summary- 新しい大規模データセットを提案し、小売物流における欠陥検出の課題に対応。230,000枚の画像と29,000以上の欠陥インスタンスを含み、MVTec-ADの40倍の規模。既存手法の限界を示し、56.96%のAUROCを超えない結果を得た。データセットは今後の研究を促進するために利用可能。 Comment

元ポスト:

Loading…

#Pocket #Dataset #Zero/Few/ManyShotPrompting #Evaluation #MultiModal #In-ContextLearning #NeurIPS #read-later #Selected Papers/Blogs #OOD #Generalization #VisionLanguageModel #One-Line Notes #ObjectDetection Issue Date: 2025-10-27 [Paper Note] Roboflow100-VL: A Multi-Domain Object Detection Benchmark for Vision-Language Models, Peter Robicheaux+, NeurIPS'25, 2025.05 GPT Summary- 視覚と言語のモデル（VLMs）は、一般的な物体に対して優れたゼロショット検出性能を示すが、分布外のクラスやタスクに対しては一般化が難しい。そこで、少数の視覚例と豊富なテキスト記述を用いてVLMを新しい概念に整合させる必要があると提案。Roboflow100-VLという多様な概念を持つ100のマルチモーダル物体検出データセットを導入し、最先端モデルの評価を行った。特に、難しい医療画像データセットでのゼロショット精度が低く、少数ショットの概念整合が求められることを示した。 Comment

元ポスト:

Loading…

VLMが「現実世界をどれだけ理解できるか」を評価するためのobject detection用ベンチマークを構築。100のopen source datasetから構成され、それぞれにはtextでのfew shot instructionやvisual exampleが含まれている。データセットは合計で約165kの画像、約1.35M件のアノテーションが含まれ、航空、生物、産業などの事前学習ではあまりカバーされていない新規ドメインの画像が多数含まれているとのこと。

そして現在のモデルは事前学習に含まれていないOODな画像に対する汎化性能が低く、いちいちモデルを追加で学習するのではなく、ICLによって適用できた方が好ましいという考えがあり、そして結果的に現在のVLMでは、ICLがあまりうまくいかない（ICLによるOODの汎化が効果的にできない）ことがわかった、という話らしい。

が、
- [Paper Note] Many-Shot In-Context Learning in Multimodal Foundation Models, Yixing Jiang+, arXiv'24, 2024.05

での知見と異なる。差異はなんだろうか？

以下のスレッドで議論がされている:

Loading…

pj page: https://rf100-vl.org

うーんあとでしっかり読みたい、、、

#Pocket #VisionLanguageModel #Robotics #memory #VisionLanguageActionModel #One-Line Notes #LongHorizon Issue Date: 2025-10-27 [Paper Note] MemER: Scaling Up Memory for Robot Control via Experience Retrieval, Ajay Sridhar+, arXiv'25, 2025.10 GPT Summary- 本研究では、ロボットポリシーに人間のような記憶能力を与えるための階層的ポリシーフレームワークを提案。高レベルポリシーが関連するキーフレームを選択し、低レベルポリシーに指示を生成することで、長期的な依存関係を効率的に推論。実験により、提案手法MemERが従来の方法を上回る性能を示した。 Comment

元ポスト:

Loading…

pj page: https://jen-pan.github.io/memer/

動画ストリーム全てを常にinputするのではなくキーフレームは限られているので、VLMにキーフレームをメモリ上で管理するような役割を与え、instructionと実現するためのサブタスクに応じて動的に必要な情報のみをVLAに与えることでlong horizonでのスケーラビリティを改善する、みたいな話らしい

#Pocket #Transformer #DiffusionModel #read-later Issue Date: 2025-10-26 [Paper Note] Positional Encoding Field, Yunpeng Bai+, arXiv'25, 2025.10 GPT Summary- Diffusion Transformers（DiTs）は、視覚生成において優れた性能を示すアーキテクチャであり、パッチトークンと位置エンコーディング（PE）を用いています。本研究では、DiTsがどのように視覚コンテンツを整理するかを再考し、PEの摂動に対しても一貫した出力を生成することを発見しました。これに基づき、位置エンコーディングを3Dフィールドに拡張したPE-Fieldを提案し、ボリュメトリック推論と階層的エンコーディングを組み込みました。強化されたDiTは、新しい視点合成と空間画像編集において最先端の性能を達成しました。 Comment

pj page: https://yunpeng1998.github.io/PE-Field-HomePage/

元ポスト:

Loading…

#Pocket #ICCV Issue Date: 2025-10-22 [Paper Note] Beyond Isolated Words: Diffusion Brush for Handwritten Text-Line Generation, Gang Dai+, ICCV'25, 2025.08 GPT Summary- 手書きテキスト生成において、DiffBrushという新しい拡散ベースのモデルを提案。スタイルと内容の正確性を両立させるため、スタイル学習を内容から切り離し、マルチスケールで内容を学習する戦略を採用。実験により、高品質なテキストライン生成が確認された。 Comment

元ポスト:

Loading…

手書き文字生成

#EfficiencyImprovement #Pocket #NLP #LanguageModel #MultiModal #Pixel-based Issue Date: 2025-10-22 [Paper Note] Text or Pixels? It Takes Half: On the Token Efficiency of Visual Text Inputs in Multimodal LLMs, Yanhong Li+, arXiv'25, 2025.10 GPT Summary- テキストを画像として提供することで、LLMのトークン使用量を削減しつつ性能を維持できることを示す。長いテキストを画像にレンダリングし、デコーダーに直接入力することで、必要なトークン数を大幅に減少させる。実験により、RULERとCNN/DailyMailのベンチマークで性能を損なうことなく、トークンの節約が実現できることを確認。 Comment

元ポスト:

Loading…

#Controllable #Pocket #Transformer #DiffusionModel #VariationalAutoEncoder #Selected Papers/Blogs #ICCV #KeyPoint Notes Issue Date: 2025-10-22 [Paper Note] OminiControl: Minimal and Universal Control for Diffusion Transformer, Zhenxiong Tan+, ICCV'25 Highlight, 2024.11 GPT Summary- OminiControlは、Diffusion Transformer（DiT）アーキテクチャにおける画像条件付けの新しいアプローチで、パラメータオーバーヘッドを最小限に抑えつつ、柔軟なトークン相互作用と動的な位置エンコーディングを実現。広範な実験により、複数の条件付けタスクで専門的手法を上回る性能を示し、合成された画像ペアのデータセット「Subjects200K」を導入。効率的で多様な画像生成システムの可能性を示唆。 Comment

元ポスト:

Loading…

DiTのアーキテクチャは（MMA以外は）変更せずに、Condition Image C_IをVAEでエンコードしたnoisy inputをDiTのinputにconcatし順伝播させることで、DiTをunified conditioningモデル（＝C_Iの特徴量を他のinputと同じlatent spaceで学習させ統合的に扱う）として学習する[^1]。

[^1]: 既存研究は別のエンコーダからエンコードしたfeatureが加算されていて（式3）、エンコーダ部分に別途パラメータが必要だっただけでなく、加算は空間的な対応関係が存在しない場合はうまく対処できず（featureの次元が空間的な情報に対応しているため）、conditional tokenとimageの交互作用を妨げていた。

また、positional encodingのindexをconditional tokenとnoisy image tokensと共有すると、空間的な対応関係が存在するタスク（edge guided generation等）はうまくいったが、被写体を指定する生成（subject driven generation)のような対応関係が存在しないタスク（non-aligned task)の場合はうまくいかなかった。しかし、non-aligned taskの場合は、indexにオフセットを加えシフトさせる（式4）ことで、conditional text/image token間で空間的にoverlapしないようにすることで性能が大幅に改善した。

既存研究では、C_Iの強さをコントロールするために、ハイパーパラメータとして定数を導入し、エンコードされたfeatureを加算する際の強さを調整していたが（3.2.3節）、本手法ではconcatをするためこのような方法は使えない。そのため、Multi-Modal Attention(MMA)にハイパーパラメータによって強さを調整可能なbias matrixを導入し、C_IとXのattentionの交互作用の強さを調整することで対応した（式5,6）。

#Multi #Pocket #NLP #Dataset #QuestionAnswering #MultiModal #Conversation #VisionLanguageModel #2D (Image) Issue Date: 2025-10-22 [Paper Note] FineVision: Open Data Is All You Need, Luis Wiedmann+, arXiv'25, 2025.09 GPT Summary- 本研究では、視覚と言語のモデル（VLM）のために、24百万サンプルからなる統一コーパス「FineVision」を紹介。これは200以上のソースを統合し、半自動化されたパイプラインでキュレーションされている。データの衛生と重複排除が行われ、66の公的ベンチマークに対する汚染除去も適用。FineVisionで訓練されたモデルは、既存のオープンミックスモデルを上回る性能を示し、データ中心のVLM研究の加速を目指す。 Comment

pj page: https://huggingface.co/spaces/HuggingFaceM4/FineVision

ポイント解説:

Loading…

著者ポスト:

Loading…

#Pocket #DiffusionModel #LongSequence #read-later #VideoGeneration/Understandings #4D (Video) Issue Date: 2025-10-22 [Paper Note] Self-Forcing++: Towards Minute-Scale High-Quality Video Generation, Justin Cui+, arXiv'25, 2025.10 GPT Summary- 本論文では、長い動画生成における品質劣化を軽減する新しいアプローチを提案します。教師モデルの知識を活用し、自己生成した長い動画から抽出したサンプルセグメントを通じて学生モデルにガイダンスを提供することで、長さを最大20倍にスケールアップしつつ時間的一貫性を維持します。これにより、最大4分15秒の動画を生成可能で、従来の手法よりも忠実度と一貫性で大幅に優れた結果を示しました。 Comment

元ポスト:

Loading…

おー、もう++が出てきた。すごいスピード感だ。

Self Forcingと比較して50s以上での生成の性能が向上しているように見える

#EfficiencyImprovement #Pocket #NLP #ContextWindow #LongSequence #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes Issue Date: 2025-10-21 [Paper Note] Glyph: Scaling Context Windows via Visual-Text Compression, Jiale Cheng+, arXiv'25, 2025.10 GPT Summary- 本研究では、長いコンテキストを持つ大規模言語モデル（LLMs）の実用性を向上させるため、Glyphというフレームワークを提案し、テキストを画像に変換して視覚と言語のモデル（VLMs）で処理します。このアプローチにより、3-4倍のトークン圧縮を実現し、精度を維持しつつ処理速度を約4倍向上させます。さらに、128KコンテキストのVLMが1Mトークンのテキストタスクを処理可能になることを示しました。 Comment

元ポスト:

Loading…

所見:

Loading…

テキストを画像にレンダリングしてVLMに入力することでtextと比較して3.2倍KV Cache (context)を圧縮し、prefillingとデコード速度も4.8, 4.4倍高速化するフレームワークらしい

#Pocket #NLP #Temporal #LanguageModel #SyntheticData #MultiModal #SpeechProcessing #Architecture #2D (Image) #TTS #4D (Video) #Omni #audio #text Issue Date: 2025-10-21 [Paper Note] OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM, Hanrong Ye+, arXiv'25, 2025.10 GPT Summary- OmniVinciは、視覚と音声を統合したオムニモーダルLLMを構築するプロジェクトであり、3つの革新（OmniAlignNet、Temporal Embedding Grouping、Constrained Rotary Time Embedding）を提案。2400万の会話データを用いて、モダリティ間の相互強化を実現。DailyOmni、MMAR、Video-MMEでの性能向上を達成し、トレーニングトークンの使用量を大幅に削減。ロボティクスや医療AIなどの応用におけるオムニモーダルの利点を示す。 Comment

pj page: https://nvlabs.github.io/OmniVinci/

元ポスト:

Loading…

image, video, テキスト, 音声を理解しテキストを出力（TTSも可）するモデルに関する新たなアーキテクチャとデータキュレーションパイプラインを提案している模様

#MachineLearning #Pocket #NLP #MultiModal #DiffusionModel #SSM (StateSpaceModel) #UMM Issue Date: 2025-10-21 [Paper Note] End-to-End Multi-Modal Diffusion Mamba, Chunhao Lu+, arXiv'25, 2025.10 GPT Summary- MDM（Multi-modal Diffusion Mamba）という新しいアーキテクチャを提案し、エンドツーエンドのマルチモーダル処理を統一。Mambaベースの選択拡散モデルを用いて、エンコーディングとデコーディングでモダリティ特有の情報を段階的に生成。高解像度画像とテキストを同時に生成し、既存モデルを大幅に上回る性能を示す。計算効率を保ちながらマルチモーダルプロセスを統一する新たな方向性を確立。 Comment

元ポスト:

Loading…

#Pocket #Chain-of-Thought #DiffusionModel #Reasoning #VideoGeneration/Understandings #2D (Image) Issue Date: 2025-10-20 [Paper Note] VChain: Chain-of-Visual-Thought for Reasoning in Video Generation, Ziqi Huang+, arXiv'25, 2025.10 GPT Summary- VChainは、マルチモーダルモデルの視覚的推論を動画生成に活用する新しいフレームワークで、重要なキーフレームを生成し、動画生成器のチューニングを効率的にガイドします。このアプローチにより、複雑なシナリオにおいて生成動画の品質が大幅に向上しました。 Comment

pj page: https://eyeline-labs.github.io/VChain/

元ポスト:

Loading…

Chain-of-Visual-Thoughts

keyframeをchain-of-thoughtsに含めることで、時間発展をより正確にしようという試みに見える。追加の学習なしで実施できるとのこと。
https://github.com/user-attachments/assets/a7283398-2a61-45be-b7a4-eb7452656e06" />

#Pocket #LanguageModel #InstructionTuning #DiffusionModel #TextToImageGeneration #read-later #Selected Papers/Blogs #ICCV #ImageSynthesis Issue Date: 2025-10-20 [Paper Note] MetaMorph: Multimodal Understanding and Generation via Instruction Tuning, Shengbang Tong+, ICCV'25, 2024.12 GPT Summary- 本研究では、視覚的指示調整の新手法VPiTを提案し、LLMがテキストと視覚トークンを生成できるようにします。VPiTは、キュレーションされた画像とテキストデータからトークンを予測する能力をLLMに教え、視覚生成能力が向上することを示しました。特に、理解データが生成データよりも効果的に両方の能力に寄与することが明らかになりました。MetaMorphモデルを訓練し、視覚理解と生成で競争力のあるパフォーマンスを達成し、LLMの事前学習から得た知識を活用することで、視覚生成における一般的な失敗を克服しました。これにより、LLMが視覚理解と生成に適応できる可能性が示唆されました。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #Transformer #Self-SupervisedLearning #ICCV #Scalability Issue Date: 2025-10-20 [Paper Note] Scaling Language-Free Visual Representation Learning, David Fan+, ICCV'25, 2025.04 GPT Summary- 視覚的自己教師あり学習（SSL）は、CLIPに比べて視覚的質問応答（VQA）でのパフォーマンスが劣るが、同じデータセットで訓練することで、視覚的SSLモデルがCLIPモデルよりもスケールが良いことを示した。視覚的SSLは、VQAや従来の視覚ベンチマークでCLIPレベルのパフォーマンスを達成できる可能性がある。これにより、視覚中心の表現学習に新たな機会が開かれる。 Comment

pj page: https://davidfan.io/webssl/

元ポスト:

Loading…

#Pretraining #Pocket #DiffusionModel #Self-SupervisedLearning Issue Date: 2025-10-20 [Paper Note] Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-training, Jiachen Lei+, arXiv'25, 2025.10 GPT Summary- 新しい二段階トレーニングフレームワークを提案し、ピクセル空間生成モデルの性能と効率のギャップを埋める。第一段階で意味のあるセマンティクスをキャプチャし、第二段階でエンコーダとデコーダを統合してファインチューニング。ImageNetデータセットで優れた性能を示し、特に拡散モデルは従来手法を大きく上回り、一貫性モデルは高解像度画像での直接トレーニングに成功。 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #Supervised-FineTuning (SFT) #InstructionTuning #Evaluation #MultiModal #DiffusionModel #UMM #SpatialUnderstanding Issue Date: 2025-10-20 [Paper Note] Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation, Kang Liao+, arXiv'25, 2025.10 GPT Summary- カメラ中心の理解と生成を統合したマルチモーダルモデル「Puffin」を提案。Puffinは、言語回帰と拡散生成を組み合わせ、カメラを言語として扱う新しいアプローチを採用。400万の視覚-言語-カメラのデータセット「Puffin-4M」で訓練され、空間的な視覚的手がかりを考慮した推論を実現。実験結果では、専門モデルを上回る性能を示し、指示チューニングにより多様なタスクに対応可能。研究成果はコードやデータセットと共に公開予定。 Comment

元ポスト:

Loading…

pj page: https://kangliao929.github.io/projects/puffin/

#ReinforcementLearning #Reasoning #NeurIPS #VisionLanguageModel #WorldModels Issue Date: 2025-10-19 VAGEN Reinforcing World Model Reasoning for Multi-Turn VLM Agents, Wang+, NeurIPS'25 Comment

元ポスト:

Loading…

#Controllable #Pocket #DiffusionModel #ComputerUse #VideoGeneration/Understandings #4D (Video) Issue Date: 2025-10-19 [Paper Note] Ctrl-VI: Controllable Video Synthesis via Variational Inference, Haoyi Duan+, arXiv'25, 2025.10 GPT Summary- ビデオ生成モデルの制約を克服するために、Ctrl-VIという新しいビデオ合成手法を提案。指定要素に対して高い制御性を持ち、非指定要素には多様性を維持。変分推論を用いて複数のビデオ生成バックボーンで合成分布を近似し、KLダイバージェンスの最小化を段階的に行う。実験により、制御性、多様性、3Dの一貫性が向上したことを示す。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #VisionLanguageModel #UMM #Scalability Issue Date: 2025-10-19 [Paper Note] From Pixels to Words -- Towards Native Vision-Language Primitives at Scale, Haiwen Diao+, arXiv'25, 2025.10 GPT Summary- ネイティブなビジョン・ランゲージモデル（VLM）の課題を明確にし、効果的な構築指針を示す。具体的には、ピクセルと単語の整合、ビジョンとランゲージの統合、クロスモーダル特性の具現化を重視。新たに開発したNEOは、390Mの画像-テキスト例で視覚的知覚を効率的に発展させ、コスト効率の高いエコシステムを提供。 Comment

元ポスト:

Loading…

#Pocket #ReinforcementLearning #SmallModel #VisionLanguageModel #Robotics #VisionLanguageActionModel Issue Date: 2025-10-18 [Paper Note] ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning, Hanyang Chen+, arXiv'25, 2025.10 GPT Summary- Embodied Reasoning Agent (ERA)は、事前知識学習とオンライン強化学習を統合した二段階のフレームワークで、視覚言語モデルの性能向上を目指す。第一段階では、軌道拡張、環境固定、外部知識から基礎知識を抽出し、第二段階でオンラインRLを用いてエージェントのパフォーマンスを向上させる。自己要約、密な報酬形成、ターンレベルのポリシー最適化を導入し、EB-ALFREDとEB-Manipulationタスクで大規模モデルを上回る成果を示した。ERAは具現化知能の実用的な道を提供する。 Comment

pj page: https://embodied-reasoning-agent.github.io

元ポスト:

Loading…

#Pocket #DiffusionModel #TextToImageGeneration #VisionLanguageModel #2D (Image) #Editing #ImageSynthesis Issue Date: 2025-10-18 [Paper Note] Learning an Image Editing Model without Image Editing Pairs, Nupur Kumari+, arXiv'25, 2025.10 GPT Summary- 本研究では、ペアデータを使用せずに画像編集モデルをトレーニングする新しいパラダイムを提案。拡散モデルを展開し、視覚-言語モデル（VLM）からのフィードバックを活用して直接最適化を行う。生成画像の視覚的忠実性を保つために分布マッチング損失（DMD）を導入。標準ベンチマークで評価した結果、従来の教師ありペアデータを用いたモデルと同等の性能を達成し、RLベースの手法をも上回ることが示された。 Comment

元ポスト:

Loading…

#Pocket #Transformer #Attention #ICCV Issue Date: 2025-10-18 [Paper Note] Frequency-Dynamic Attention Modulation for Dense Prediction, Linwei Chen+, ICCV'25, 2025.07 GPT Summary- 本研究では、Vision Transformers（ViTs）の周波数応答を改善するために、Frequency-Dynamic Attention Modulation（FDAM）を提案。FDAMは、注意行列のローパスフィルタを反転させるAttention Inversion（AttInv）と、異なる周波数成分に重み付けを行うFrequency Dynamic Scaling（FreqScale）から成る。これにより、表現の崩壊を回避し、セマンティックセグメンテーションや物体検出などのタスクで一貫した性能向上を実現。リモートセンシング検出でも最先端の結果を達成。コードは公開されている。 Comment

元ポスト:

Loading…

#Pocket #LongSequence #AttentionSinks #read-later #Selected Papers/Blogs #VideoGeneration/Understandings #interactive Issue Date: 2025-10-17 [Paper Note] LongLive: Real-time Interactive Long Video Generation, Shuai Yang+, arXiv'25, 2025.09 GPT Summary- LongLiveは、リアルタイムでインタラクティブな長編動画生成のためのフレームレベルの自己回帰フレームワークを提案。因果的注意ARモデルを採用し、KV再キャッシュメカニズムを統合することで、視覚的一貫性と意味的整合性を保ちながら効率的な生成を実現。1.3Bパラメータのモデルを32 GPU日でファインチューニングし、単一のNVIDIA H100で20.7 FPSを維持。最大240秒の動画生成をサポートし、INT8量子化推論も対応。 Comment

元ポスト:

Loading…

pj page: https://nvlabs.github.io/LongLive/

#EfficiencyImprovement #Pocket #Dataset #Evaluation #Attention #LongSequence #AttentionSinks #read-later #Selected Papers/Blogs #VideoGeneration/Understandings #VisionLanguageModel #KeyPoint Notes Issue Date: 2025-10-15 [Paper Note] StreamingVLM: Real-Time Understanding for Infinite Video Streams, Ruyi Xu+, arXiv'25, 2025.10 GPT Summary- StreamingVLMは、無限のビデオストリームをリアルタイムで理解するためのモデルで、トレーニングと推論を統一したフレームワークを採用。アテンションシンクの状態を再利用し、短いビジョントークンと長いテキストトークンのウィンドウを保持することで、計算コストを抑えつつ高い性能を実現。新しいベンチマークInf-Streams-Evalで66.18%の勝率を達成し、一般的なVQA能力を向上させることに成功。 Comment

元ポスト:

Loading…

これは興味深い

保持するKV Cacheの上限を決め、Sink Token[^1]は保持し[^2]（512トークン）、textual tokenは長距離で保持、visual tokenは短距離で保持、またpositional encodingとしてはRoPEを採用するが、固定されたレンジの中で動的にindexを更新することで、位相を学習時のrangeに収めOODにならないような工夫をすることで、memoryと計算コストを一定に保ちながらlong contextでの一貫性とリアルタイムのlatencyを実現する、といった話にみえる。

学習時はフレームがoverlapした複数のチャンクに分けて、それぞれをfull attentionで学習する（Sink Tokenは保持する）。これは上述のinference時のパターンと整合しており学習時とinference時のgapが最小限になる。また、わざわざlong videoで学習する必要がない。（美しい解決方法）

[^1]: decoder-only transformerの余剰なattention scoreの捨て場として機能するsequence冒頭の数トークン(3--4トークン程度）のこと。本論文では512トークンと大きめのSink Tokenを保持している。
[^2]: Attention Sinksによって、long contextの性能が改善され Why do LLMs attend to the first token?, Federico Barbero+, COLM'25 decoder-only transformerの層が深い部分でのトークンの表現が均一化されてしまうover-mixingを抑制する Efficient Streaming Language Models with Attention Sinks, Guangxuan Xiao+, ICLR'24 ことが報告されている

↑これは元ポストを読んで（と論文斜め読み）の感想のようなものなので、詳細は後で元論文を読む。

関連:
- Molmo, AI2, 2024.09

models:
- https://huggingface.co/allenai/MolmoAct-7B-D-Pretrain-0812
- https://huggingface.co/allenai/MolmoAct-7B-D-0812

datasets:
- https://huggingface.co/datasets/allenai/MolmoAct-Dataset
- https://huggingface.co/datasets/allenai/MolmoAct-Pretraining-Mixture
- https://huggingface.co/datasets/allenai/MolmoAct-Midtraining-Mixture

データは公開されているが、コードが見当たらない？

チェックポイントとコードも公開された模様:
-

Loading…

- https://github.com/allenai/MolmoAct

#Pocket #NLP #ReinforcementLearning #SyntheticData #MultiModal #RLVR #VisionLanguageModel Issue Date: 2025-08-10 [Paper Note] StructVRM: Aligning Multimodal Reasoning with Structured and Verifiable Reward Models, Xiangxiang Zhang+, arXiv'25 GPT Summary- StructVRMは、複雑な多質問推論タスクにおいて、部分的な正確性を評価するための構造化された検証可能な報酬モデルを導入。サブ質問レベルのフィードバックを提供し、微妙な部分的なクレジットスコアリングを可能にする。実験により、Seed-StructVRMが12のマルチモーダルベンチマークのうち6つで最先端のパフォーマンスを達成したことが示された。これは、複雑な推論におけるマルチモーダルモデルの能力向上に寄与する。 Comment

元ポスト:

Loading…

複数のsub-questionが存在するような複雑な問題に対して、既存のRLVRにおける全体に対してbinary rewardを適用する方法は報酬が荒すぎるため、よりfine-grainedなverifiableな報酬を設計することで、学習を安定化し性能も向上

以下がverifierのサンプル

general purposeなreal worldに対するmultimodal reasoningシステムを作成するには高品質で多様なデータが必要なので、以下のようなパイプラインを用いて、学習データを合成している模様。後で読む。サマリが元ポストに記載されているので全体像をざっくり知りたい場合は参照のこと。

#Pretraining #ContrastiveLearning #Encoder Issue Date: 2025-08-07 [Paper Note] Scaling Vision Pre-Training to 4K Resolution, Baifeng Shi+, arXiv'25 GPT Summary- PS3を用いてCLIPスタイルの視覚事前学習を4K解像度にスケールアップし、計算コストを抑えつつ高解像度の視覚認識を改善。VILA-HDモデルは、低解像度でのグローバル画像エンコードを行い、局所的な高解像度領域を選択的に処理。これにより、従来のベースラインと比較して高い性能を発揮し、トークン使用量を最大4.3倍削減。PS3は解像度のスケーリング特性を持ち、複数のベンチマークで優れた効率を達成。新たに提案された4KProベンチマークでは、VILA-HDが他のMLLMを上回る結果を示した。 Comment

元ポスト:

Loading…

商用利用は不可な模様

#Pocket #read-later #ICCV Issue Date: 2025-08-03 [Paper Note] BUFFER-X: Towards Zero-Shot Point Cloud Registration in Diverse Scenes, Minkyun Seo+, ICCV'25 GPT Summary- BUFFER-Xというゼロショット登録パイプラインを提案し、環境特有のボクセルサイズや探索半径への依存、ドメイン外ロバスト性の低さ、スケール不一致の問題に対処。マルチスケールのパッチベースの記述子生成と階層的インライア検索を用いて、さまざまなシーンでのロバスト性を向上。新しい一般化ベンチマークを用いて、BUFFER-Xが手動調整なしで大幅な一般化を達成することを示した。 Comment

元ポスト:

Loading…

この辺の分野ぱっと見で全然わからない…

#Pocket #NLP #Dataset #MultiLingual #CLIP #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-07-30 [Paper Note] MetaCLIP 2: A Worldwide Scaling Recipe, Yung-Sung Chuang+, NeurIPS'25 Spotlight GPT Summary- MetaCLIP 2を提案し、CLIPをゼロから訓練するための新しいアプローチを示す。英語と非英語データの相互利益を得るための最小限の変更を加え、ゼロショットのImageNet分類で英語専用モデルを上回る性能を達成。多言語ベンチマークでも新たな最先端を記録。 Comment

元ポスト:

Loading…

マルチリンガルなCLIP

openreview: https://openreview.net/forum?id=aYRNINhNGV&referrer=%5Bthe%20profile%20of%20Saining%20Xie%5D(%2Fprofile%3Fid%3D~Saining_Xie2)

HF: https://huggingface.co/facebook/metaclip-2-mt5-worldwide-b32

#Pocket #NLP #LanguageModel #MultiModal #SpeechProcessing #OpenWeight #UMM Issue Date: 2025-07-26 [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25 GPT Summary- Ming-Omniは、画像、テキスト、音声、動画を処理できる統一マルチモーダルモデルで、音声生成と画像生成において優れた能力を示す。専用エンコーダを用いて異なるモダリティからトークンを抽出し、MoEアーキテクチャで処理することで、効率的にマルチモーダル入力を融合。音声デコーダと高品質な画像生成を統合し、コンテキストに応じたチャットやテキストから音声への変換、画像編集が可能。Ming-Omniは、GPT-4oに匹敵する初のオープンソースモデルであり、研究と開発を促進するためにコードとモデルの重みを公開。 Comment

元ポスト:

Loading…

現在はv1.5も公開されておりさらに性能が向上している模様？

HF: https://huggingface.co/inclusionAI/Ming-Lite-Omni

#NaturalLanguageGeneration #Controllable #Pocket #NLP #LanguageModel #VisionLanguageModel Issue Date: 2025-07-25 [Paper Note] CaptionSmiths: Flexibly Controlling Language Pattern in Image Captioning, Kuniaki Saito+, arXiv'25 GPT Summary- CaptionSmithsは、画像キャプショニングモデルがキャプションの特性（長さ、記述性、単語の独自性）を柔軟に制御できる新しいアプローチを提案。人間の注釈なしで特性を定量化し、短いキャプションと長いキャプションの間で補間することで条件付けを実現。実証結果では、出力キャプションの特性をスムーズに変化させ、語彙的整合性を向上させることが示され、誤差を506%削減。コードはGitHubで公開。 Comment

元ポスト:

Loading…

従来はDiscreteに表現されていたcaptioningにおける特性をCondition Caluculatorを導入することでcontinuousなrepresentationによって表現し、Caluculatorに人間によるinput, あるいは表現したいConditionを持つexampleをinputすることで、生成時に反映させるような手法を提案している模様。Conditionで利用するpropertyについては、提案手法ではLength, Descriptive, Uniqueness of Vocabulariesの3つを利用している（が、他のpropertyでも本手法は適用可能と思われる）。このとき、あるpropertyの値を変えることで他のpropertyが変化してしまうと制御ができなくなるため、property間のdecorrelationを実施している。これは、あるproperty Aから別のproperty Bの値を予測し、オリジナルのpropertyの値からsubtractする、といった処理を順次propertyごとに実施することで実現される。Appendixに詳細が記述されている。

#Pocket #read-later #4D Reconstruction Issue Date: 2025-07-17 [Paper Note] Streaming 4D Visual Geometry Transformer, Dong Zhuo+, arXiv'25 GPT Summary- 動画から4D空間-時間幾何学を認識・再構築するために、ストリーミング4Dビジュアルジオメトリトランスフォーマーを提案。因果トランスフォーマーアーキテクチャを用いて、過去の情報をキャッシュしながらリアルタイムで4D再構築を実現。効率的なトレーニングのために、双方向ビジュアルジオメトリからの知識蒸留を行い、推論速度を向上させつつ競争力のある性能を維持。スケーラブルな4Dビジョンシステムの実現に寄与。 Comment

元ポスト:

Loading…

モデルのアーキテクチャ

#Pretraining #Pocket #Transformer #PEFT(Adaptor/LoRA) #ICML #Finetuning Issue Date: 2025-07-14 [Paper Note] ExPLoRA: Parameter-Efficient Extended Pre-Training to Adapt Vision Transformers under Domain Shifts, Samar Khanna+, ICML'25 GPT Summary- PEFT技術を用いたExPLoRAは、事前学習済みビジョントランスフォーマー（ViT）を新しいドメインに適応させる手法で、教師なし事前学習を通じて効率的にファインチューニングを行う。実験では、衛星画像において最先端の結果を達成し、従来のアプローチよりも少ないパラメータで精度を最大8%向上させた。 Comment

元ポスト:

Loading…

これまでドメイン適応する場合にラベル付きデータ+LoRAでFinetuningしていたのを、ラベル無しデータ+継続事前学習の枠組みでやりましょう、という話のようである。

手法は下記で、事前学習済みのモデルに対してLoRAを適用し継続事前学習する。ただし、最後尾のLayer、あるいは最初と最後尾のLayerの両方をunfreezeして、trainableにする。また、LoRAはfreezeしたLayerのQ,Vに適用し、それらのLayerのnormalization layerもunfreezeする。最終的に、継続事前学習したモデルにヘッドをconcatしてfinetuningすることで目的のタスクを実行できるようにする。詳細はAlgorithm1を参照のこと。

同じモデルで単にLoRAを適用しただけの手法や、既存手法をoutperform

https://github.com/user-attachments/assets/14935879-75a4-4e4a-a176-1b1eabc4b8fd" />

画像+ViT系のモデルだけで実験されているように見えるが、LLMとかにも応用可能だと思われる。

#Pocket #NLP #Dataset #Evaluation #VisionLanguageModel Issue Date: 2025-07-14 [Paper Note] VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge, Yueqi Song+, arXiv'25 GPT Summary- VisualPuzzlesは、専門知識への依存を最小限に抑えた視覚的推論を評価する新しいベンチマークで、5つの推論カテゴリーから成る多様な質問を含む。実験により、VisualPuzzlesはドメイン特有の知識を大幅に減少させ、より複雑な推論を要求することが示された。最先端のマルチモーダルモデルは、VisualPuzzlesで人間のパフォーマンスに遅れをとり、知識集約型タスクでの成功が推論タスクでの成功に必ずしもつながらないことが明らかになった。また、モデルのサイズとパフォーマンスの間に明確な相関は見られず、VisualPuzzlesは事実の記憶を超えた推論能力を評価する新たな視点を提供する。 Comment

元ポスト:

Loading…

画像はPJページより引用。新たにVisual Puzzleと呼ばれる特定のドメイン知識がほとんど必要ないマルチモーダルなreasoningベンチマークを構築。o1ですら、人間の5th percentileに満たない性能とのこと。

Chinese Civil Service Examination中のlogical reasoning questionを手作業で翻訳したとのこと。

データセットの統計量は以下で、合計1168問で、難易度は3段階に分かれている模様。

project page: https://neulab.github.io/VisualPuzzles/

#Pocket #NLP #MultiModal #Reasoning #OpenWeight #VisionLanguageModel Issue Date: 2025-07-14 [Paper Note] Kimi-VL Technical Report, Kimi Team+, arXiv'25 GPT Summary- Kimi-VLは、効率的なオープンソースのMixture-of-Expertsビジョン・ランゲージモデルであり、2.8Bパラメータの言語デコーダーを活性化して高度なマルチモーダル推論を実現。マルチターンエージェントタスクや大学レベルの画像・動画理解において優れた性能を示し、最先端のVLMと競争。128Kの拡張コンテキストウィンドウを持ち、長い入力を処理可能。Kimi-VL-Thinking-2506は、長期的推論能力を強化するために教師ありファインチューニングと強化学習を用いて開発され、堅牢な一般能力を獲得。コードは公開されている。 Comment

- [Paper Note] Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset, Ke Wang+, NeurIPS'24 Datasets and Benchmarks Track
での性能（Vision+テキストの数学の問題）。他の巨大なモデルと比べ2.8BのActivation paramsで高い性能を達成

https://github.com/user-attachments/assets/3ec08621-f269-4f1d-97bb-3ebca537f2ea" />

その他のベンチマークでも高い性能を獲得

https://github.com/user-attachments/assets/b30afc4f-efce-4206-b499-f4f089d97226" />

モデルのアーキテクチャ。MoonViT (Image Encoder, 1Dのpatchをinput, 様々な解像度のサポート, FlashAttention, SigLIP-SO-400Mを継続事前学習, RoPEを採用) + Linear Projector + MoE Language Decoderの構成
https://github.com/user-attachments/assets/f59d7655-c1c7-4284-b79c-9d62739da889" />

学習のパイプライン。ViTの事前学習ではSigLIP loss (contrastive lossの亜種)とcaption生成のcross-entropy lossを採用している。joint cooldown stageにおいては、高品質なQAデータを合成することで実験的に大幅に性能が向上することを確認したので、それを採用しているとのこと。optimizerは
- [Paper Note] Muon is Scalable for LLM Training, Jingyuan Liu+, arXiv'25

https://github.com/user-attachments/assets/720b02f7-a260-497f-85c5-04cf382c2f98" />

https://github.com/user-attachments/assets/bb78d799-5db4-4904-8669-540d2142c95c" />

post-trainingにおけるRLでは以下の目的関数を用いており、RLVRを用いつつ、現在のポリシーモデルをreferenceとし更新をするような目的関数になっている。curriculum sampling, prioritize samplingをdifficulty labelに基づいて実施している。
https://github.com/user-attachments/assets/298fdef8-9807-4511-96f6-02241393ab9f" />

https://github.com/user-attachments/assets/4ad0d815-ef1c-4945-ae08-ab2b072ec63f" />

#Pocket #NLP #ReinforcementLearning #MultiModal #Reasoning #On-Policy #VisionLanguageModel Issue Date: 2025-07-12 [Paper Note] Perception-Aware Policy Optimization for Multimodal Reasoning, Zhenhailong Wang+, arXiv'25 GPT Summary- 強化学習における検証可能な報酬（RLVR）は、LLMsに多段階推論能力を与えるが、マルチモーダル推論では最適な性能を発揮できない。視覚入力の認識が主なエラー原因であるため、知覚を意識したポリシー最適化（PAPO）を提案。PAPOはGRPOの拡張で、内部監視信号から学習し、追加のデータや外部報酬に依存しない。KLダイバージェンス項を導入し、マルチモーダルベンチマークで4.4%の改善、視覚依存タスクでは8.0%の改善を達成。知覚エラーも30.5%減少し、PAPOの効果を示す。研究は視覚に基づく推論を促進する新しいRLフレームワークの基盤を築く。 Comment

元ポスト:

Loading…

VLMにおいて、画像をマスクした場合のポリシーモデルの出力と、画像をマスクしない場合のポリシーモデルの出力のKL Divergenceを最大化することで、画像の認知能力が向上し性能向上するよ、みたいな話な模様。

#Embeddings #Pocket #NLP #Dataset #Evaluation #MultiModal #ICLR #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-09 [Paper Note] VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks, Ziyan Jiang+, ICLR'25 GPT Summary- 本研究では、ユニバーサルマルチモーダル埋め込みモデルの構築を目指し、二つの貢献を行った。第一に、MMEB（Massive Multimodal Embedding Benchmark）を提案し、36のデータセットを用いて分類や視覚的質問応答などのメタタスクを網羅した。第二に、VLM2Vecというコントラストトレーニングフレームワークを開発し、視覚-言語モデルを埋め込みモデルに変換する手法を示した。実験結果は、VLM2Vecが既存のモデルに対して10%から20%の性能向上を達成することを示し、VLMの強力な埋め込み能力を証明した。 Comment

openreview: https://openreview.net/forum?id=TE0KOzWYAF

#Embeddings #InformationRetrieval #Pocket #NLP #LanguageModel #MultiModal #RAG(RetrievalAugmentedGeneration) #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-09 [Paper Note] VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents, Rui Meng+, arXiv'25 GPT Summary- VLM2Vec-V2という統一フレームワークを提案し、テキスト、画像、動画、視覚文書を含む多様な視覚形式の埋め込みを学習。新たにMMEB-V2ベンチマークを導入し、動画検索や視覚文書検索など5つのタスクを追加。広範な実験により、VLM2Vec-V2は新タスクで強力なパフォーマンスを示し、従来の画像ベンチマークでも改善を達成。研究はマルチモーダル埋め込みモデルの一般化可能性に関する洞察を提供し、スケーラブルな表現学習の基盤を築く。 Comment

元ポスト:

Loading…

Video Classification, Visual Document Retrievalなどのモダリティも含まれている。

#MachineLearning #Pocket #NLP #LanguageModel #Transformer #MultiModal #Architecture #VideoGeneration/Understandings #VisionLanguageModel Issue Date: 2025-07-06 [Paper Note] Energy-Based Transformers are Scalable Learners and Thinkers, Alexi Gladstone+, arXiv'25 GPT Summary- エネルギーベースのトランスフォーマー（EBTs）を用いて、無監督学習から思考を学ぶモデルを提案。EBTsは、入力と候補予測の互換性を検証し、エネルギー最小化を通じて予測を行う。トレーニング中に従来のアプローチよりも高いスケーリング率を達成し、言語タスクでの性能を29%向上させ、画像のノイズ除去でも優れた結果を示す。EBTsは一般化能力が高く、モデルの学習能力と思考能力を向上させる新しいパラダイムである。 Comment

元ポスト:

Loading…

Project Page: https://energy-based-transformers.github.io

First Authorの方による解説ポスト:

Loading…

#Pocket #DiffusionModel #2D (Image) #3D (Scene) #FeatureMatching Issue Date: 2025-07-04 [Paper Note] Learning Dense Feature Matching via Lifting Single 2D Image to 3D Space, Yingping Liang+, arXiv'25 GPT Summary- 新しい二段階フレームワーク「Lift to Match (L2M)」を提案し、2D画像を3D空間に持ち上げることで、特徴マッチングの一般化を向上させる。第一段階で3D特徴エンコーダを学習し、第二段階で特徴デコーダを学習することで、堅牢な特徴マッチングを実現。実験により、ゼロショット評価ベンチマークで優れた一般化性能を示した。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #MultiModal #RLHF #Reasoning #LongSequence #mid-training #RewardHacking #PostTraining #CurriculumLearning #RLVR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-03 [Paper Note] GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning, GLM-V Team+, arXiv'25 GPT Summary- 視覚言語モデルGLM-4.1V-Thinkingを発表し、推論中心のトレーニングフレームワークを開発。強力な視覚基盤モデルを構築し、カリキュラムサンプリングを用いた強化学習で多様なタスクの能力を向上。28のベンチマークで最先端のパフォーマンスを達成し、特に難しいタスクで競争力のある結果を示す。モデルはオープンソースとして公開。 Comment

元ポスト:

Loading…

Qwen2.5-VLよりも性能が良いVLM

アーキテクチャはこちら。が、pretraining(データのフィルタリング, マルチモーダル→long context継続事前学習)->SFT(cold startへの対処, reasoning能力の獲得)->RL(RLVRとRLHFの併用によるパフォーマンス向上とAlignment, RewardHackingへの対処,curriculum sampling)など、全体の学習パイプラインの細かいテクニックの積み重ねで高い性能が獲得されていると考えられる。

#Pocket #NLP #Dataset #LanguageModel #Evaluation #ACL #VisionLanguageModel #Findings Issue Date: 2025-07-02 [Paper Note] Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation, Qiyue Gao+, ACL（Findings）'25 GPT Summary- 内部世界モデル（WMs）はエージェントの理解と予測を支えるが、最近の大規模ビジョン・ランゲージモデル（VLMs）の基本的なWM能力に関する評価は不足している。本研究では、知覚と予測を評価する二段階のフレームワークを提案し、WM-ABenchというベンチマークを導入。15のVLMsに対する660の実験で、これらのモデルが基本的なWM能力に顕著な制限を示し、特に運動軌道の識別においてほぼランダムな精度であることが明らかになった。VLMsと人間のWMとの間には重要なギャップが存在する。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #Evaluation #MultiModal Issue Date: 2025-07-02 [Paper Note] MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning, Yulun Jiang+, arXiv'25 GPT Summary- MARBLEという新しいマルチモーダル推論ベンチマークを提案し、MLLMsの複雑な推論能力を評価。MARBLEは、空間的・視覚的・物理的制約下での多段階計画を必要とするM-PortalとM-Cubeの2つのタスクから成る。現在のMLLMsは低いパフォーマンスを示し、視覚的入力からの情報抽出においても失敗が見られる。これにより、次世代モデルの推論能力向上が期待される。 Comment

元ポスト:

Loading…

Portal2を使った新たなベンチマーク。筆者は昔このゲームを少しだけプレイしたことがあるが、普通に難しかった記憶がある😅

細かいが表中のGPT-o3は正しくはo3だと思われる。
時間がなくて全然しっかりと読めていないが、reasoning effortやthinkingモードはどのように設定して評価したのだろうか。

#Pocket #NLP #Dataset #LanguageModel #Zero/Few/ManyShotPrompting #MultiModal #In-ContextLearning Issue Date: 2025-07-01 [Paper Note] SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning, Melanie Rieff+, arXiv'25 GPT Summary- マルチモーダルインコンテキスト学習（ICL）は医療分野での可能性があるが、十分に探求されていない。SMMILEという医療タスク向けの初のマルチモーダルICLベンチマークを導入し、111の問題を含む。15のMLLMの評価で、医療タスクにおけるICL能力が中程度から低いことが示された。ICLはSMMILEで平均8%、SMMILE++で9.4%の改善をもたらし、無関係な例がパフォーマンスを最大9.5%低下させることも確認。例の順序による最近性バイアスがパフォーマンス向上に寄与することも明らかになった。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pretraining #Pocket #OpenWeight #OpenSource #Selected Papers/Blogs #ICCV #Encoder #Backbone Issue Date: 2025-06-26 [Paper Note] OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning, Xianhang Li+, ICCV'25 GPT Summary- OpenVisionは、完全にオープンでコスト効果の高いビジョンエンコーダーのファミリーを提案し、CLIPと同等以上の性能を発揮します。既存の研究を基に構築され、マルチモーダルモデルの進展に実用的な利点を示します。5.9Mから632.1Mパラメータのエンコーダーを提供し、容量と効率の柔軟なトレードオフを実現します。 Comment

元ポスト:

Loading…

v2へアップデート:

Loading…

事前学習時にtext, image encoderのcontrastive lossで学習していたが、text encoderを無くしimage encoderに入力されたimageからcaptionを生成するcaption lossのみにすることで性能を落とすことなく効率を改善

テクニカルペーパーが出た模様

- [Paper Note] OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning, Yanqing Liu+, arXiv'25

HF: https://huggingface.co/collections/UCSC-VLAA/openvision-681a4c27ee1f66411b4ae919
pj page: https://ucsc-vlaa.github.io/OpenVision/

CLIP, SigLIPとは異なり完全にオープンなVision Encoder

v2の解説:

Loading…

#Analysis #Pocket #pretrained-LM #Scaling Laws #TMLR Issue Date: 2025-06-26 [Paper Note] An Empirical Study of Pre-trained Model Selection for Out-of-Distribution Generalization and Calibration, Hiroki Naganuma+, TMLR'25 GPT Summary- 事前学習済みモデルのファインチューニングが分布外一般化タスクにおいて重要であることを示し、モデルのサイズやデータセットの選択がOOD精度と信頼性キャリブレーションに与える影響を調査。120,000時間以上の実験を通じて、大きなモデルと大規模なデータセットがOODパフォーマンスとキャリブレーションを改善することを発見。これは、従来の研究と対照的であり、事前学習済みモデルの選択の重要性を強調している。 Comment

OpenReview: https://openreview.net/forum?id=tYjoHjShxF

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #Transformer #LongSequence #SSM (StateSpaceModel) #VideoGeneration/Understandings #ICCV Issue Date: 2025-06-26 [Paper Note] Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers, Weiming Ren+, arXiv'25 GPT Summary- VAMBAモデルは、Mamba-2ブロックを用いてビデオトークンを線形にエンコードし、トークン削減なしで1024フレームを処理可能。これにより、GPUメモリ使用量を50%削減し、トレーニング速度を倍増。1時間のビデオ理解ベンチマークLVBenchで4.3%の精度向上を達成し、様々なビデオ理解タスクで優れた性能を示す。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #MultiModal #Tokenizer Issue Date: 2025-06-24 [Paper Note] Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations, Jiaming Han+, arXiv'25 GPT Summary- 本論文では、視覚理解と生成を統一するマルチモーダルフレームワークTarを提案。Text-Aligned Tokenizer（TA-Tok）を用いて画像を離散トークンに変換し、視覚とテキストを統一空間に統合。スケール適応型のエンコーディングとデコーディングを導入し、高忠実度の視覚出力を生成。迅速な自己回帰モデルと拡散ベースのモデルを用いたデトークナイザーを活用し、視覚理解と生成の改善を実現。実験結果では、Tarが既存手法と同等以上の性能を示し、効率的なトレーニングを達成。 Comment

元ポスト:

Loading…

text modalityとvision modalityを共通の空間で表現する

Visual Understanding/Generationのベンチで全体的に高い性能を達成

#Embeddings #Pocket #NLP #RepresentationLearning #MultiModal Issue Date: 2025-06-24 [Paper Note] jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval, Michael Günther+, arXiv'25 GPT Summary- 3.8億パラメータのマルチモーダル埋め込みモデル「jina-embeddings-v4」を提案。新しいアーキテクチャにより、クエリベースの情報検索やクロスモーダルの類似性検索を最適化。タスク特化型のLoRAアダプターを組み込み、視覚的に豊かなコンテンツの処理に優れた性能を発揮。新しいベンチマーク「Jina-VDR」も導入。 Comment

元ポスト:

Loading…

#Pocket #Dataset #VideoGeneration/Understandings Issue Date: 2025-06-23 [Paper Note] Sekai: A Video Dataset towards World Exploration, Zhen Li+, arXiv'25 GPT Summary- 高品質な一人称視点のビデオデータセット「Sekai」を紹介。750の都市から5,000時間以上のビデオを収集し、位置やシーンなどの豊富な注釈を付与。データセットを用いてインタラクティブなビデオ世界探査モデル「YUME」をトレーニング。Sekaiはビデオ生成と世界探査に貢献することが期待される。 Comment

元ポスト:

Loading…

#Pocket #Transformer #CVPR #read-later #Selected Papers/Blogs #3D Reconstruction #Backbone Issue Date: 2025-06-22 [Paper Note] VGGT: Visual Geometry Grounded Transformer, Jianyuan Wang+, CVPR'25 GPT Summary- VGGTは、シーンの主要な3D属性を複数のビューから直接推測するフィードフォワードニューラルネットワークであり、3Dコンピュータビジョンの分野において新たな進展を示します。このアプローチは効率的で、1秒未満で画像を再構築し、複数の3Dタスクで最先端の結果を達成します。また、VGGTを特徴バックボーンとして使用することで、下流タスクの性能が大幅に向上することが示されています。コードは公開されています。 Comment

元ポスト:

Loading…

#Pocket #Transformer #DiffusionModel #VideoGeneration/Understandings Issue Date: 2025-06-13 [Paper Note] Seedance 1.0: Exploring the Boundaries of Video Generation Models, Yu Gao+, arXiv'25 GPT Summary- Seedance 1.0は、動画生成の基盤モデルであり、プロンプト遵守、動きの妥当性、視覚的品質を同時に向上させることを目指しています。主な技術改善として、意味のある動画キャプションを用いたデータキュレーション、マルチショット生成のサポート、動画特有のRLHFを活用したファインチューニング、推論速度の約10倍向上を実現する蒸留戦略が挙げられます。Seedance 1.0は、1080p解像度の5秒間の動画を41.4秒で生成し、高品質かつ迅速な動画生成を実現しています。 Comment

元ポスト:

Loading…

#Pocket #DiffusionModel #CVPR Issue Date: 2025-06-06 [Paper Note] Generative Omnimatte: Learning to Decompose Video into Layers, Yao-Chih Lee+, CVPR'25 GPT Summary- オムニマット手法は、ビデオを意味的に有意義な層に分解することを目指すが、既存手法は静的背景や正確なポーズを前提としており、これが破られると性能が低下する。新たに提案する生成的層状ビデオ分解フレームワークは、静止シーンや深度情報を必要とせず、動的領域の補完を行う。核心的なアイデアは、ビデオ拡散モデルを訓練し、シーン効果を特定・除去することであり、これにより高品質な分解と編集結果を実現する。 Comment

元ポスト:

Loading…

ざっくりしか読めていないが、Inputとして動画とmask（白:残す, 黒:消す, グレー: 不確定なオブジェクトやエフェクトが含まれるエリア≒背景？)を受け取り、Casperと呼ばれるモデルでオブジェクトを消し消した部分をinpaintingすることで、layerっぽいものを作成するっぽい？Casperはの3組データでFinetuningしている模様。

project pageがサンプルもありとてもわかりやすい: https://gen-omnimatte.github.io

#Pocket #NLP #LanguageModel #MultiModal #RLVR #DataMixture Issue Date: 2025-06-05 [Paper Note] MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning, Yiqing Liang+, arXiv'25 GPT Summary- 検証可能な報酬を用いた強化学習（RLVR）をマルチモーダルLLMsに適用するためのポストトレーニングフレームワークを提案。異なる視覚と言語の問題を含むデータセットをキュレーションし、最適なデータ混合戦略を導入。実験により、提案した戦略がMLLMの推論能力を大幅に向上させることを示し、分布外ベンチマークで平均5.24%の精度向上を達成。 Comment

元ポスト:

Loading…

マルチモーダルな設定でRLVRを適用すると、すべてのデータセットを学習に利用する場合より、特定のタスクのみのデータで学習した方が当該タスクでは性能が高くなったり（つまりデータが多ければ多いほど良いわけでは無い）、特定のデータをablationするとOODに対する予測性能が改善したりするなど、データ間で干渉が起きて敵対的になってしまうような現象が起きる。このことから、どのように適切にデータを混合できるか？という戦略の必要性が浮き彫りになり、モデルベースなMixture戦略（どうやらデータの混合分布から学習後の性能を予測するモデルな模様）の性能がuniformにmixするよりも高い性能を示した、みたいな話らしい。

#Pocket #NLP #LanguageModel #MultiModal #DiffusionModel Issue Date: 2025-05-24 LaViDa: A Large Diffusion Language Model for Multimodal Understanding, Shufan Li+, arXiv'25 GPT Summary- LaViDaは、離散拡散モデル（DM）を基にしたビジョン・ランゲージモデル（VLM）で、高速な推論と制御可能な生成を実現。新技術を取り入れ、マルチモーダルタスクにおいてAR VLMと競争力のある性能を達成。COCOキャプショニングで速度向上と性能改善を示し、AR VLMの強力な代替手段であることを証明。 Comment

元ポスト:

Loading…

Diffusion Modelの波が来た

同程度のサイズのARモデルをoutperform [^1]

[^1]:ただし、これが本当にDiffusion Modelを使ったことによる恩恵なのかはまだ論文を読んでいないのでわからない。必要になったら読む。ただ、Physics of Language Modelのように、完全にコントロールされたデータで異なるアーキテクチャを比較しないとその辺はわからなそうではある。

#Analysis #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #SyntheticData #ACL #DPO #PostTraining #Probing Issue Date: 2025-05-18 Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding, Kung-Hsiang Huang+, ACL'25 GPT Summary- Vision Language Models (VLMs)は視覚的算術に苦労しているが、CogAlignという新しいポストトレーニング戦略を提案し、VLMの性能を向上させる。CogAlignは視覚的変換の不変特性を認識するように訓練し、CHOCOLATEで4.6%、MATH-VISIONで2.9%の性能向上を実現し、トレーニングデータを60%削減。これにより、基本的な視覚的算術能力の向上と下流タスクへの転送の効果が示された。 Comment

元ポスト:

Loading…

既存のLLM (proprietary, openweightそれぞれ)が、シンプルなvisual arithmeticタスク(e.g., 線分の長さ比較, Chart上のdotの理解)などの性能が低いことを明らかにし、

それらの原因を(1)Vision Encoderのrepresentationと(2)Vision EncoderをFreezeした上でのText Decoderのfinetuningで分析した。その結果、(1)ではいくつかのタスクでlinear layerのprobingでは高い性能が達成できないことがわかった。このことから、Vision Encoderによるrepresentationがタスクに関する情報を内包できていないか、タスクに関する情報は内包しているがlinear layerではそれを十分に可能できない可能性が示唆された。

これをさらに分析するために(2)を実施したところ、Vision Encoderをfreezeしていてもfinetuningによりquery stringに関わらず高い性能を獲得できることが示された。このことから、Vision Encoder側のrepresentationの問題ではなく、Text Decoderと側でデコードする際にFinetuningしないとうまく活用できないことが判明した。

手法のところはまだ全然しっかり読めていないのだが、画像に関する特定の属性に関するクエリと回答のペアを合成し、DPOすることで、zero-shotの性能が向上する、という感じっぽい？

#Embeddings #Analysis #Pocket #NLP #LanguageModel #RepresentationLearning #Supervised-FineTuning (SFT) #Chain-of-Thought #SSM (StateSpaceModel) #ICML #PostTraining #read-later #CompressionValleys Issue Date: 2025-05-04 Layer by Layer: Uncovering Hidden Representations in Language Models, Oscar Skean+, ICML'25 GPT Summary- 中間層の埋め込みが最終層を超えるパフォーマンスを示すことを分析し、情報理論や幾何学に基づくメトリクスを提案。32のテキスト埋め込みタスクで中間層が強力な特徴を提供することを実証し、AIシステムの最適化における中間層の重要性を強調。 Comment

現代の代表的な言語モデルのアーキテクチャ（decoder-only model, encoder-only model, SSM）について、最終層のembeddingよりも中間層のembeddingの方がdownstream task（MTEBの32Taskの平均）に、一貫して（ただし、これはMTEBの平均で見たらそうという話であり、個別のタスクで一貫して強いかは読んでみないとわからない）強いことを示した研究。

このこと自体は経験的に知られているのであまり驚きではないのだが（ただ、SSMでもそうなのか、というのと、一貫して強いというのは興味深い）、この研究はMatrix Based Entropyと呼ばれるものに基づいて、これらを分析するための様々な指標を定義し理論的な根拠を示し、Autoregressiveな学習よりもMasked Languageによる学習の方がこのようなMiddle Layerのボトルネックが緩和され、同様のボトルネックが画像の場合でも起きることを示し、CoTデータを用いたFinetuningについても分析している模様。この辺の貢献が非常に大きいと思われるのでここを理解することが重要だと思われる。あとで読む。

openreview: https://openreview.net/forum?id=WGXb7UdvTX

#Pocket #NLP #Dataset #LanguageModel #Evaluation #MultiModal #ICLR #ComputerUse Issue Date: 2025-04-18 AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents, Christopher Rawles+, ICLR'25 GPT Summary- 本研究では、116のプログラムタスクに対して報酬信号を提供する「AndroidWorld」という完全なAndroid環境を提案。これにより、自然言語で表現されたタスクを動的に構築し、現実的なベンチマークを実現。初期結果では、最良のエージェントが30.6%のタスクを完了し、さらなる研究の余地が示された。また、デスクトップWebエージェントのAndroid適応が効果薄であることが明らかになり、クロスプラットフォームエージェントの実現にはさらなる研究が必要であることが示唆された。タスクの変動がエージェントのパフォーマンスに影響を与えることも確認された。 Comment

Android環境でのPhone Useのベンチマーク

#Pocket #Transformer #FoundationModel #OpenWeight #CVPR Issue Date: 2025-04-11 AM-RADIO: Agglomerative Vision Foundation Model -- Reduce All Domains Into One, Mike Ranzinger+, CVPR'25 GPT Summary- 視覚基盤モデル（VFM）をマルチティーチャー蒸留を通じて統合するアプローチAM-RADIOを提案。これにより、ゼロショットの視覚-言語理解やピクセルレベルの理解を向上させ、個々のモデルの性能を超える。新しいアーキテクチャE-RADIOは、ティーチャーモデルよりも少なくとも7倍速い。包括的なベンチマークで様々な下流タスクを評価。 Comment

元ポスト:

Loading…

vision系のfoundation modelはそれぞれ異なる目的関数で訓練されてきており（CLIPは対照学習 Learning Transferable Visual Models From Natural Language Supervision, Radford+, OpenAI, ICML'21 , DINOv2は自己教師あり学習 DINOv2: Learning Robust Visual Features without Supervision, Maxime Oquab+, TMLR'24 , SAMはsegmentation Segment Anything, Alexander Kirillov+, arXiv'23 )それぞれ別の能力を持ってたが、それらを一個のモデルに蒸留しました、という話らしい

#Pocket #NLP #LanguageModel #MultiModal #SpeechProcessing #OpenWeight #Video Issue Date: 2025-03-31 Qwen2.5-Omni Technical Report, Jin Xu+, arXiv'25 GPT Summary- マルチモーダルモデル「Qwen2.5-Omni」は、テキスト、画像、音声、動画を認識し、ストリーミング方式で自然な音声応答を生成する。音声と視覚エンコーダはブロック処理を用い、TMRoPEによる新しい位置埋め込みで音声と動画の同期を実現。Thinker-Talkerアーキテクチャにより、テキスト生成と音声出力を干渉なく行う。Qwen2.5-Omniは、エンドツーエンドで訓練され、音声指示に対する性能がテキスト入力と同等で、ストリーミングTalkerは既存手法を上回る自然さを持つ。 Comment

Qwen TeamによるマルチモーダルLLM。テキスト、画像、動画音声をinputとして受け取り、テキスト、音声をoutputする。

weight: https://huggingface.co/collections/Qwen/qwen25-omni-67de1e5f0f9464dc6314b36e

元ポスト: https://www.linkedin.com/posts/niels-rogge-a3b7a3127_alibabas-qwen-team-has-done-it-again-this-activity-7311036679627132929-HUqy?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

#Pocket #NLP #LanguageModel #DiffusionModel #NeurIPS Issue Date: 2025-03-02 Large Language Diffusion Models, Shen Nie+, NeurIPS'25 GPT Summary- LLaDAは、自己回帰モデル（ARMs）に代わる拡散モデルであり、ゼロから訓練され、データマスキングを通じて分布をモデル化。広範なベンチマークで強力なスケーラビリティを示し、自己構築したARMベースラインを上回る。特に、LLaDA 8Bは文脈内学習や指示追従能力に優れ、逆詩の完成タスクでGPT-4oを超える性能を発揮。拡散モデルがARMsの実行可能な代替手段であることを示す。 Comment

元ポスト:

Loading…

参考:

Loading…

openreview(ICLR'25): https://openreview.net/forum?id=W2tWu0aikL

pj page: https://ml-gsai.github.io/LLaDA-demo/

openreview(NeurIPS'25): https://openreview.net/forum?id=KnqiC0znVF

#Analysis #MachineLearning #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #ICML #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2025-01-30 SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training, Tianzhe Chu+, ICML'25 GPT Summary- SFTとRLの一般化能力の違いを研究し、GeneralPointsとV-IRLを用いて評価。RLはルールベースのテキストと視覚変種に対して優れた一般化を示す一方、SFTは訓練データを記憶し分布外シナリオに苦労。RLは視覚認識能力を向上させるが、SFTはRL訓練に不可欠であり、出力形式を安定させることで性能向上を促進。これらの結果は、複雑なマルチモーダルタスクにおけるRLの一般化能力を示す。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=dYur3yabMj&referrer=%5Bthe%20profile%20of%20Yi%20Ma%5D(%2Fprofile%3Fid%3D~Yi_Ma4)

#Pocket #NLP #Dataset #LanguageModel #Evaluation #Selected Papers/Blogs Issue Date: 2025-01-25 [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25 GPT Summary- 「人類の最後の試験（HLE）」を導入し、LLMの能力を測定する新しいマルチモーダルベンチマークを提案。HLEは2,500の質問から成り、数学や自然科学など広範な科目をカバー。専門家によって開発され、自動採点が可能な形式で、インターネット検索では迅速に回答できない。最先端のLLMはHLEに対して低い精度を示し、現在のLLMの能力と専門家の知識との間に大きなギャップがあることを明らかに。HLEは公開され、研究や政策立案に役立てられる。 Comment

o1, DeepSeekR1の正解率が10%未満の新たなベンチマーク

#Pocket #NLP #Dataset #Supervised-FineTuning (SFT) #MultiModal #Reasoning #NeurIPS #VisionLanguageModel #TreeSearch Issue Date: 2024-12-31 Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search, Huanjin Yao+, NeurIPS'25 GPT Summary- 本研究では、MLLMを用いて質問解決のための推論ステップを学習する新手法CoMCTSを提案。集団学習を活用し、複数モデルの知識で効果的な推論経路を探索。マルチモーダルデータセットMulberry-260kを構築し、モデルMulberryを訓練。実験により提案手法の優位性を確認。 #EfficiencyImprovement #NLP #LanguageModel #Transformer #MultiModal #SpeechProcessing #Architecture #TMLR #UMM Issue Date: 2024-11-12 Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models, Weixin Liang+, TMLR'25 GPT Summary- 大規模言語モデル（LLMs）のマルチモーダル処理を効率化するために、Mixture-of-Transformers（MoT）を提案。MoTは計算コストを削減し、モダリティごとにパラメータを分離して特化した処理を実現。Chameleon 7B設定では、55.8%のFLOPsで密なベースラインに匹敵する性能を示し、音声を含む場合も37.2%のFLOPsで同様の結果を達成。さらに、Transfusion設定では、7BのMoTモデルが密なベースラインの画像性能に対してFLOPsの3分の1で匹敵し、760Mのモデルは主要な画像生成指標で上回る結果を得た。MoTは実用的な利点も示し、画像品質を47.2%、テキスト品質を75.6%の経過時間で達成。 #Pocket #NLP #LanguageModel #ModelMerge Issue Date: 2024-03-21 Evolutionary Optimization of Model Merging Recipes, Takuya Akiba+, N_A, Nature Machine Intelligence'25 GPT Summary- 進化アルゴリズムを使用した新しいアプローチを提案し、強力な基盤モデルの自動生成を実現。LLMの開発において、人間の直感やドメイン知識に依存せず、多様なオープンソースモデルの効果的な組み合わせを自動的に発見する。このアプローチは、日本語のLLMと数学推論能力を持つモデルなど、異なるドメイン間の統合を容易にし、日本語VLMの性能向上にも貢献。オープンソースコミュニティへの貢献と自動モデル構成の新しいパラダイム導入により、基盤モデル開発における効率的なアプローチを模索。 Comment

複数のLLMを融合するモデルマージの話。日本語LLMと英語の数学LLNをマージさせることで日本語の数学性能を大幅に向上させたり、LLMとVLMを融合したりすることで、日本にしか存在しない概念の画像も、きちんと回答できるようになる。

著者スライドによると、従来のモデルマージにはbase modelが同一でないとうまくいかなかったり（重みの線型結合によるモデルマージ）、パラメータが増減したり（複数LLMのLayerを重みは弄らず再配置する）。また日本語LLMに対してモデルマージを実施しようとすると、マージ元のLLMが少なかったり、広範囲のモデルを扱うとマージがうまくいかない、といった課題があった。本研究ではこれら課題を解決できる。

著者による資料（NLPコロキウム）:
https://speakerdeck.com/iwiwi/17-nlpkorokiumu

#Analysis #Pocket #NLP #Zero/Few/ManyShotPrompting #MultiModal #In-ContextLearning #VisionLanguageModel Issue Date: 2025-10-27 [Paper Note] Many-Shot In-Context Learning in Multimodal Foundation Models, Yixing Jiang+, arXiv'24, 2024.05 GPT Summary- 本研究では、マルチモーダル基盤モデルの少数ショットから多数ショットのインコンテキスト学習（ICL）の性能を評価し、2,000のデモンストレーション例を用いることで、すべてのデータセットにおいて大幅な改善を観察しました。特に、Gemini 1.5 Proは多くのデータセットで対数的に性能が向上し、オープンウェイトモデルはデモンストレーション例からの恩恵を受けないことが明らかになりました。また、複数のクエリをバッチ処理することで、ゼロショットおよび多数ショットICLの性能が向上し、コストとレイテンシが削減されました。最終的に、GPT-4oとGemini 1.5 Proは類似のゼロショット性能を示しつつ、Gemini 1.5 Proはより早く学習することが確認されました。多数ショットICLは新しいアプリケーションへの適応を効率化する可能性を示唆しています。 Comment

元ポスト:

Loading…

#Analysis #Pocket #DiffusionModel #TextToImageGeneration #CVPR #ImageSynthesis #GeometryUnderstanding Issue Date: 2025-10-24 [Paper Note] Shadows Don't Lie and Lines Can't Bend Generative Models don't know Projective Geometry...for now, Ayush Sarkar+, CVPR'24, 2023.11 GPT Summary- 生成モデルはリアルな画像を生成するが、幾何学的特徴において実際の画像と異なることを示す。事前に選別された生成画像を用いて、幾何学的特性に基づく分類器が生成画像を高精度で識別できることを確認。3つの分類器を使用し、画像の透視場、線、物体と影の関係を分析。これにより、生成画像の検出精度が向上し、現在の生成器は実際の画像の幾何学的特性を再現できないと結論付ける。 Comment

pj page: https://projective-geometry.github.io/

#Survey #Pocket #DiffusionModel #TMLR #VideoGeneration/Understandings #4D (Video) Issue Date: 2025-10-17 [Paper Note] Video Diffusion Models: A Survey, Andrew Melnik+, TMLR'24, 2024.05 GPT Summary- 拡散生成モデルは高品質な動画コンテンツの生成において重要な技術であり、本調査はそのアーキテクチャや時間的ダイナミクスのモデリングを包括的にまとめている。テキストから動画への生成の進展や、モデルの分類法、評価指標についても議論し、現在の課題や将来の方向性を考察している。研究者や実務者にとって有益なリソースを提供することを目指している。 #Pocket #NLP #LanguageModel #MultiModal #OpenWeight #MoE(Mixture-of-Experts) #VisionLanguageModel Issue Date: 2025-10-07 [Paper Note] Aria: An Open Multimodal Native Mixture-of-Experts Model, Dongxu Li+, arXiv'24, 2024.10 GPT Summary- Ariaは、オープンなマルチモーダルネイティブAIモデルであり、視覚とテキストのタスクにおいて高い性能を発揮します。3.9Bの視覚トークンと3.5Bのテキストトークンを持つエキスパートの混合モデルで、既存のプロプライエタリモデルを上回ります。言語理解やマルチモーダル理解を強化する4段階のパイプラインで事前トレーニングされ、モデルウェイトとコードベースはオープンソースとして提供されます。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/rhymes-ai/Aria

提案された当時2024年10月時点で、VisionとText Understanding双方でに強い初めてのモデルで、初のマルチモーダルMoEモデルで（当時まだ話題になっていなかったDeepSeek-V2アーキテクチャを採用）、LongVideoのUnderstanidinpで当時の最高性能であったとのこと。

#Pocket #PEFT(Adaptor/LoRA) #ECCV Issue Date: 2025-09-16 [Paper Note] Implicit Style-Content Separation using B-LoRA, Yarden Frenkel+, ECCV'24 GPT Summary- 画像スタイライズにおいて、LoRAを用いてスタイルとコンテンツを暗黙的に分離する手法B-LoRAを提案。特定のブロックのLoRA重みを共同で学習することで、独立したトレーニングでは達成できない分離を実現。これによりスタイル操作が改善され、過学習の問題を克服。トレーニング後は、独立したコンポーネントとして様々なスタイライズタスクに利用可能。 Comment

pj page: https://b-lora.github.io/B-LoRA/

#Pocket #NLP #Dataset #Evaluation #DiffusionModel #read-later #Selected Papers/Blogs #UMM Issue Date: 2025-09-11 [Paper Note] ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment, Xiwei Hu+, arXiv'24 GPT Summary- 拡散モデルに大規模言語モデル（LLM）を組み込む「効率的な大規模言語モデルアダプター（ELLA）」を提案。これにより、複雑なプロンプトの整合性を向上させ、意味的特徴を適応させる新しいモジュール「時間ステップ認識セマンティックコネクタ（TSC）」を導入。ELLAは密なプロンプトに対する性能が最先端手法を上回ることを実験で示し、特に複数のオブジェクト構成において優位性を発揮。 Comment

pj page: https://ella-diffusion.github.io

#Analysis #Pocket #Prompting Issue Date: 2025-08-25 [Paper Note] As Generative Models Improve, People Adapt Their Prompts, Eaman Jahani+, arXiv'24 GPT Summary- オンライン実験で1893人の参加者を対象に、DALL-E 2とDALL-E 3のプロンプトの重要性の変化を調査。DALL-E 3を使用した参加者は、DALL-E 2よりも高いパフォーマンスを示し、これは技術的能力の向上とプロンプトの質の変化によるもの。特に、DALL-E 3の参加者はより長く、意味的に類似したプロンプトを作成。プロンプト修正機能を持つDALL-E 3はさらに高いパフォーマンスを示したが、その利点は減少。結果として、モデルの進化に伴い、プロンプトも適応されることが示唆される。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #MultiModal #FoundationModel #CVPR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-08-23 [Paper Note] InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks, Zhe Chen+, CVPR'24 GPT Summary- 大規模視覚-言語基盤モデル（InternVL）は、60億パラメータで設計され、LLMと整合させるためにウェブ規模の画像-テキストデータを使用。視覚認知タスクやゼロショット分類、検索など32のベンチマークで最先端の性能を達成し、マルチモーダル対話システムの構築に寄与。ViT-22Bの代替として強力な視覚能力を持つ。コードとモデルは公開されている。 Comment

既存のResNetのようなSupervised pretrainingに基づくモデル、CLIPのようなcontrastive pretrainingに基づくモデルに対して、text encoder部分をLLMに置き換えて、contrastive learningとgenerativeタスクによる学習を組み合わせたパラダイムを提案。

InternVLのアーキテクチャは下記で、3 stageの学習で構成される。最初にimage text pairをcontrastive learningし学習し、続いてモデルのパラメータはfreezeしimage text retrievalタスク等でモダリティ間の変換を担う最終的にQlLlama(multilingual性能を高めたllama)をvision-languageモダリティを繋ぐミドルウェアのように捉え、Vicunaをテキストデコーダとして接続してgenerative cossで学習する、みたいなアーキテクチャの模様（斜め読みなので少し違う可能性あり

現在のVLMの主流であるvision encoderとLLMをadapterで接続する方式はここからかなりシンプルになっていることが伺える。

#Pocket #NLP #Dataset #QuestionAnswering #Evaluation #MultiModal #MultiLingual #VisionLanguageModel #Cultural Issue Date: 2025-08-18 [Paper Note] CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark, David Romero+, arXiv'24 GPT Summary- CVQAは、文化的に多様な多言語のVisual Question Answeringベンチマークで、30か国からの画像と質問を含み、31の言語と13のスクリプトをカバー。データ収集にはネイティブスピーカーを関与させ、合計10,000の質問を提供。マルチモーダル大規模言語モデルをベンチマークし、文化的能力とバイアスを評価するための新たな基準を示す。 #Pocket #NLP #Dataset #InstructionTuning #Evaluation #MultiLingual #VisionLanguageModel Issue Date: 2025-08-18 [Paper Note] Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages, Xiang Yue+, arXiv'24 GPT Summary- Pangeaは、39の言語にわたる6M指示データセットPangeaInsを用いて訓練された多言語マルチモーダルLLMであり、異文化間のカバレッジを確保しています。Pangeaは、47の言語をカバーする評価スイートPangeaBenchで既存のモデルを大幅に上回る性能を示し、英語データの比率やマルチモーダル訓練サンプルの重要性を明らかにしました。データ、コード、訓練済みチェックポイントはオープンソース化され、言語的および文化的公平性を推進します。 #Analysis #Pocket #ImageSegmentation #SSM (StateSpaceModel) #ImageClassification Issue Date: 2025-08-14 [Paper Note] MambaOut: Do We Really Need Mamba for Vision?, Weihao Yu+, arXiv'24 GPT Summary- MambaはRNNのようなトークンミキサーを持つアーキテクチャで、視覚タスクにおいて期待外れの性能を示す。Mambaは長いシーケンスと自己回帰的な特性に適しているが、画像分類には不向きであると仮定。MambaOutモデルを構築し、実験によりMambaOutがImageNetの画像分類で視覚Mambaモデルを上回ることを示し、検出およびセグメンテーションタスクではMambaの可能性を探る価値があることを確認。 #Pocket #NLP #Dataset #Evaluation #MultiModal #Reasoning #CVPR Issue Date: 2025-08-09 [Paper Note] MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI, Xiang Yue+, CVPR'24 GPT Summary- MMMUは、大学レベルの専門知識と意図的な推論を必要とするマルチモーダルモデルの評価のための新しいベンチマークで、11,500のマルチモーダル質問を含む。6つの主要分野をカバーし、30種類の画像タイプを使用。既存のベンチマークと異なり、専門家が直面するタスクに類似した課題を提供。GPT-4VとGeminiの評価では、56%と59%の精度にとどまり、改善の余地があることを示す。MMMUは次世代のマルチモーダル基盤モデルの構築に寄与することが期待されている。 Comment

MMMUのリリースから20ヶ月経過したが、いまだに人間のエキスパートのアンサンブルには及ばないとのこと

Loading…

MMMUのサンプルはこちら。各分野ごとに専門家レベルの知識と推論が求められるとのこと。

#Survey #Pocket #NLP #Prompting #VisionLanguageModel Issue Date: 2025-08-07 [Paper Note] Visual Prompting in Multimodal Large Language Models: A Survey, Junda Wu+, arXiv'24 GPT Summary- 本論文は、マルチモーダル大規模言語モデル（MLLMs）における視覚的プロンプト手法の包括的な調査を行い、視覚的プロンプトの生成や構成的推論、プロンプト学習に焦点を当てています。既存の視覚プロンプトを分類し、自動プロンプト注釈の生成手法を議論。視覚エンコーダとバックボーンLLMの整合性を向上させる手法や、モデル訓練と文脈内学習による視覚的プロンプトの理解向上についても述べています。最後に、MLLMsにおける視覚的プロンプト手法の未来に関するビジョンを提示します。 #Survey #Controllable #Pocket #NLP #DiffusionModel #TextToImageGeneration Issue Date: 2025-08-07 [Paper Note] Controllable Generation with Text-to-Image Diffusion Models: A Survey, Pu Cao+, arXiv'24 GPT Summary- 拡散モデルはテキスト誘導生成において大きな進展を遂げたが、テキストのみでは多様な要求に応えられない。本調査では、T2I拡散モデルの制御可能な生成に関する文献をレビューし、理論的基盤と実践的進展をカバー。デノイジング拡散確率モデルの基本を紹介し、制御メカニズムを分析。生成条件の異なるカテゴリに整理した文献リストを提供。 #Analysis #Pocket #NLP #Dataset #CVPR #Scaling Laws #VisionLanguageModel #DataFiltering Issue Date: 2025-07-20 [Paper Note] Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic, Sachin Goyal+, CVPR'24 GPT Summary- 視覚と言語のモデル（VLMs）のトレーニングにおいて、高品質なデータのフィルタリングが重要であるが、計算リソースとは無関係に行われることが多い。本研究では、データの品質と量のトレードオフ（QQT）に対処するため、ウェブデータの非均質性を考慮したニューラルスケーリング法則を提案。これにより、データの有用性の違いや繰り返し使用による劣化を評価し、複数のデータプールの組み合わせによるモデルのパフォーマンスを推定可能にする。最適なデータプールのキュレーションを通じて、計算リソースに応じた最高のパフォーマンスを達成できることを示した。 Comment

元ポスト:

Loading…

高品質なデータにフィルタリングすることで多くの研究がモデルがより高い性能を達成できることを示しているが、高品質なデータには限りがあることと、繰り返し学習をすることですぐにその効用が低下する（Quality-Quantity tradeoff!)という特性がある。このような状況において、たとえば計算の予算がデータ6パケット分の時に、めちゃめちゃフィルタリングを頑張っg高品質なデータプールEのみを使って6 epoch学習するのが良いのか、少し品質は落ちるデータDも混ぜてE+Dを3 epoch学習するのが良いのか、ときにどちらが良いのか？という話のようである。

#Pocket #NLP #Dataset #Japanese #read-later #VisionLanguageModel Issue Date: 2025-07-16 [Paper Note] Heron-Bench: A Benchmark for Evaluating Vision Language Models in Japanese, Yuichi Inoue+, arXiv'24 GPT Summary- 日本語に特化したVision Language Models (VLM)の評価のために、新しいベンチマーク「Japanese Heron-Bench」を提案。日本の文脈に基づく画像-質問応答ペアを用いて、日本語VLMの能力を測定。提案されたVLMの強みと限界を明らかにし、強力なクローズドモデルとの能力ギャップを示す。今後の日本語VLM研究の発展を促進するため、データセットと訓練コードを公開。 Comment

解説: https://zenn.dev/turing_motors/articles/8e913f46374ede

#Pocket #NLP #Dataset #Evaluation #Mathematics #VisionLanguageModel Issue Date: 2025-07-14 [Paper Note] Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset, Ke Wang+, NeurIPS'24 Datasets and Benchmarks Track GPT Summary- MATH-Vision（MATH-V）データセットを提案し、3,040の視覚的文脈を持つ数学問題を収集。16の数学分野と5つの難易度で構成され、LMMsの数学的推論能力を評価。実験により、LMMsと人間のパフォーマンス間に顕著なギャップがあることを示し、さらなる進展の必要性を強調。エラー分析を通じて今後の研究に貴重な洞察を提供。 Comment

openreview: https://openreview.net/forum?id=QWTCcxMpPA#discussion
project page: https://mathllm.github.io/mathvision/

Project Pageのランディングページが非常にわかりやすい。こちらは人間の方がまだまだ性能が高そう。

https://github.com/user-attachments/assets/586edf6d-cd77-48cb-b209-8ea819e725fc" />

#Pocket #Transformer #FoundationModel #Self-SupervisedLearning #TMLR Issue Date: 2025-04-11 DINOv2: Learning Robust Visual Features without Supervision, Maxime Oquab+, TMLR'24 GPT Summary- 自己教師あり手法を用いて、多様なキュレーションデータから汎用的な視覚特徴を生成する新しい事前学習手法を提案。1BパラメータのViTモデルを訓練し、小型モデルに蒸留することで、OpenCLIPを上回る性能を達成。 #Pocket #NLP #Dataset #LanguageModel #Evaluation #MultiModal #ACL Issue Date: 2025-01-06 [Paper Note] OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems, Chaoqun He+, ACL'24 GPT Summary- 大規模言語モデル（LLMs）やマルチモーダルモデル（LMMs）の能力を測定するために、オリンピアドレベルのバイリンガルマルチモーダル科学ベンチマーク「OlympiadBench」を提案。8,476の数学と物理の問題を含み、専門家レベルの注釈が付けられている。トップモデルのGPT-4Vは平均17.97%のスコアを達成したが、物理では10.74%にとどまり、ベンチマークの厳しさを示す。一般的な問題として幻覚や論理的誤謬が指摘され、今後のAGI研究に貴重なリソースとなることが期待される。 #InformationRetrieval #NLP #Dataset #LanguageModel #RAG(RetrievalAugmentedGeneration) #MultiLingual #COLING #VisionLanguageModel Issue Date: 2024-12-16 VLR-Bench: Multilingual Benchmark Dataset for Vision-Language Retrieval Augmented Generation, Hyeonseok Lim+, arXiv'24 GPT Summary- 視覚言語モデル（VLM）を評価するための新しいベンチマークVLR-Benchを提案。これは5つの入力パッセージを用いて、特定のクエリに対する有用な情報の判断能力をテストする。32,000の自動生成された指示からなるデータセットVLR-IFを構築し、VLMのRAG能力を強化。Llama3ベースのモデルで性能を検証し、両データセットはオンラインで公開。 Comment

Multilingual VLMを用いたRAGのベンチマークデータセット

#Pretraining #Pocket #Transformer #NeurIPS Issue Date: 2024-12-12 Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction, Keyu Tian+, NeurIPS'24 GPT Summary- Visual AutoRegressive modeling (VAR)を提案し、画像生成において自己回帰学習を次のスケール予測として再定義。VARは、GPTのようなARモデルが拡散トランスフォーマーを上回ることを実現し、ImageNet 256x256ベンチマークでFIDを18.65から1.73、ISを80.4から350.2に改善。推論速度は約20倍向上し、画像品質やデータ効率でも優れた性能を示す。VARはゼロショット一般化能力を持ち、スケーリング法則を示す。全モデルとコードを公開し、視覚生成の研究を促進。 Comment

NeurIPS2024のベストペーパー

第一著者がByteDance社から訴訟を起こされている模様…？
https://var-integrity-report.github.io

OpenReview: https://openreview.net/forum?id=gojL67CfS8

Next Token Prediction, Next Image Token Generation (従来手法）, Next Scale (resolution) prediction (提案手法)の違いの図解。非常に分かりやすい。next token predictionでは次トークンのみを予測するがVARでは、次の解像度画像の全体のトークンマップを予測する。

学習方法の概要。2-Stageで学習される。最初のステージでK種類の解像度の画像（＝K種類のマルチスケールのtoken maps r_k）を得るためにAutoEncoderを学習し、次のステージでblock-wiseのcausal attention maskを用いて、K_各r_kをデコードする際にr_

従来手法と比べより小さいパラメータで高い性能を実現し、inference timeも非常に早い。

ScalingLawsも成立する。

#Pretraining #Pocket #NLP #LanguageModel #MultiModal Issue Date: 2024-11-25 Multimodal Autoregressive Pre-training of Large Vision Encoders, Enrico Fini+, arXiv'24 GPT Summary- 新しい手法AIMV2を用いて、大規模なビジョンエンコーダの事前学習を行う。これは画像とテキストを組み合わせたマルチモーダル設定に拡張され、シンプルな事前学習プロセスと優れた性能を特徴とする。AIMV2-3BエンコーダはImageNet-1kで89.5%の精度を達成し、マルチモーダル画像理解において最先端のコントラストモデルを上回る。 #Tutorial #Pocket #DiffusionModel Issue Date: 2024-11-17 Tutorial on Diffusion Models for Imaging and Vision, Stanley H. Chan, arXiv'24 GPT Summary- 生成ツールの成長により、テキストから画像や動画を生成する新しいアプリケーションが可能に。拡散モデルの原理がこれらの生成ツールの基盤であり、従来のアプローチの欠点を克服。チュートリアルでは、拡散モデルの基本的なアイデアを学部生や大学院生向けに解説。 Comment

いつか読まなければならない

#MachineLearning #Pocket #Supervised-FineTuning (SFT) #InstructionTuning #PEFT(Adaptor/LoRA) #Catastrophic Forgetting Issue Date: 2024-11-12 Online-LoRA: Task-free Online Continual Learning via Low Rank Adaptation, Xiwen Wei+, arXiv'24 GPT Summary- 破滅的忘却に対処するため、タスクフリーのオンライン継続学習（OCL）フレームワークOnline-LoRAを提案。リハーサルバッファの制約を克服し、事前学習済みビジョントランスフォーマー（ViT）モデルをリアルタイムで微調整。新しいオンライン重み正則化戦略を用いて重要なモデルパラメータを特定し、データ分布の変化を自動認識。多様なベンチマークデータセットで優れた性能を示す。 Comment

#Pocket #Dataset Issue Date: 2024-09-30 COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language Benchmark, Koki Maeda+, N_A, ECCV'24 GPT Summary- 手続き的なビデオ理解のために、COM Kitchensという新しいデータセットを提案。これは、参加者がレシピに基づいて食材を準備する様子を上方視点で撮影した編集されていないビデオで構成されている。多様なデータ収集のためにスマートフォンを使用し、オンラインレシピ検索（OnRR）と密なビデオキャプショニング（DVC-OV）という新しいタスクを提案。実験により、既存のウェブビデオベースの手法の能力と限界を検証。 Comment

とてもおもしろそう！

#Pocket #NLP #Dataset #LanguageModel Issue Date: 2024-09-30 What matters when building vision-language models?, Hugo Laurençon+, N_A, arXiv'24 GPT Summary- 視覚と言語のモデル（VLM）の設計における裏付けのない決定が性能向上の特定を妨げていると指摘。事前学習済みモデルやアーキテクチャ、データ、トレーニング手法に関する実験を行い、80億パラメータの基盤VLM「Idefics2」を開発。Idefics2はマルチモーダルベンチマークで最先端の性能を達成し、4倍のサイズのモデルと同等の性能を示す。モデルとデータセットを公開。 Comment

元ポストにOpenVLMの進展の歴史が載っている。構築されたデータセットも公開される模様。

元ポスト:

Loading…

#Pocket #CLIP Issue Date: 2024-09-30 Long-CLIP: Unlocking the Long-Text Capability of CLIP, Beichen Zhang+, N_A, ECCV'24 GPT Summary- Long-CLIPは、CLIPのテキスト入力の長さ制限を克服し、ゼロショットの一般化能力を保持または超える新しいモデルです。効率的なファインチューニング戦略を用いて、CLIPの性能を維持しつつ、長文テキスト-画像ペアを活用することで、テキスト-画像検索タスクで約20%の性能向上を達成しました。また、Long-CLIPは詳細なテキスト説明から画像を生成する能力を強化します。 #Pocket #DiffusionModel Issue Date: 2024-09-01 Diffusion Models Are Real-Time Game Engines, Dani Valevski+, N_A, arXiv'24 GPT Summary- GameNGenは、ニューラルモデルによって完全に動作するゲームエンジンであり、高品質で長い軌跡上で複雑な環境とのリアルタイムインタラクションを可能にします。GameNGenは、単一のTPU上で秒間20フレーム以上でクラシックゲームDOOMをインタラクティブにシミュレートすることができます。次フレーム予測では、PSNRが29.4に達し、劣化JPEG圧縮と比較可能です。GameNGenは、2つの段階でトレーニングされます：（1）RLエージェントがゲームをプレイすることを学び、トレーニングセッションが記録され、（2）拡散モデルが過去のフレームとアクションのシーケンスに応じて次のフレームを生成するようにトレーニングされます。条件付きの拡張により、長い軌跡上で安定した自己回帰生成が可能となります。 Comment

Diffusion Modelでゲーム映像を生成する取り組みらしい。ゲームのenvironmentに対して、ユーザのActionとframeの系列をエピソードとみなして生成するっぽい？

project pageにデモがのっている

https://gamengen.github.io/

#Pocket #NLP #LanguageModel #Chain-of-Thought Issue Date: 2024-04-08 Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models, Wenshan Wu+, N_A, arXiv'24 GPT Summary- LLMsの空間推論能力を向上させるために、Visualization-of-Thought（VoT）プロンプティングを提案。VoTは、LLMsの推論トレースを可視化し、空間推論タスクで使用することで、既存のMLLMsを上回る性能を示す。VoTは、空間推論を促進するために「メンタルイメージ」を生成する能力を持ち、MLLMsでの有効性を示唆する。 #Pretraining #Pocket #NLP #Transformer #InstructionTuning #MultiModal #SpeechProcessing #CVPR #Selected Papers/Blogs #Encoder-Decoder #Robotics #UMM #EmbodiedAI Issue Date: 2023-12-29 Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action, Jiasen Lu+, N_A, CVPR'24 GPT Summary- Unified-IO 2は、最初の自己回帰型のマルチモーダルモデルであり、画像、テキスト、音声、アクションを理解し生成することができます。異なるモダリティを統一するために、共有の意味空間に入力と出力を配置し、単一のエンコーダ・デコーダトランスフォーマーモデルで処理します。さまざまなアーキテクチャの改善を提案し、大規模なマルチモーダルな事前トレーニングコーパスを使用してモデルをトレーニングします。Unified-IO 2は、GRITベンチマークを含む35以上のベンチマークで最先端のパフォーマンスを発揮します。 Comment

画像、テキスト、音声、アクションを理解できる初めてのautoregressive model。AllenAI

モデルのアーキテクチャ図

マルチモーダルに拡張したことで、訓練が非常に不安定になったため、アーキテクチャ上でいくつかの工夫を加えている:

- 2D Rotary Embedding
- Positional EncodingとしてRoPEを採用
- 画像のような2次元データのモダリティの場合はRoPEを2次元に拡張する。具体的には、位置(i, j)のトークンについては、Q, Kのembeddingを半分に分割して、それぞれに対して独立にi, jのRoPE Embeddingを適用することでi, j双方の情報を組み込む。
- QK Normalization
- image, audioのモダリティを組み込むことでMHAのlogitsが非常に大きくなりatteetion weightが0/1の極端な値をとるようになり訓練の不安定さにつながった。このため、dot product attentionを適用する前にLayerNormを組み込んだ。
- Scaled Cosine Attention
- Image Historyモダリティにおいて固定長のEmbeddingを得るためにPerceiver Resamplerを扱ったているが、こちらも上記と同様にAttentionのlogitsが極端に大きくなったため、cosine類似度をベースとしたScaled Cosine Attention [Paper Note] Swin Transformer V2: Scaling Up Capacity and Resolution, Ze Liu+, arXiv'21 を利用することで、大幅に訓練の安定性が改善された。
- その他
- attention logitsにはfp32を適用
- 事前学習されたViTとASTを同時に更新すると不安定につながったため、事前学習の段階ではfreezeし、instruction tuningの最後にfinetuningを実施

目的関数としては、Mixture of Denoisers (UL2: Unifying Language Learning Paradigms, Yi Tay+, N/A, ICLR'23 )に着想を得て、Multimodal Mixture of Denoisersを提案。MoDでは、
- \[R\]: 通常のspan corruption (1--5 token程度のspanをmaskする)
- \[S\]: causal language modeling (inputを2つのサブシーケンスに分割し、前方から後方を予測する。前方部分はBi-directionalでも可)
- \[X\]: extreme span corruption (12>=token程度のspanをmaskする)

の3種類が提案されており、モダリティごとにこれらを使い分ける:
- text modality: UL2 (UL2: Unifying Language Learning Paradigms, Yi Tay+, N/A, ICLR'23 )を踏襲
- image, audioがtargetの場合: 2つの類似したパラダイムを定義し利用
- \[R\]: patchをランダムにx%マスクしre-constructする
- \[S\]: inputのtargetとは異なるモダリティのみの情報から、targetモダリティを生成する

訓練時には prefixとしてmodality token \[Text\], \[Image\], \[Audio\] とparadigm token \[R\], \[S\], \[X\] をタスクを指示するトークンとして利用している。

また、image, audioのマスク部分のdenoisingをautoregressive modelで実施する際には普通にやるとdecoder側でリークが発生する(a)。これを防ぐには、Encoder側でマスクされているトークンを、Decoder側でteacher-forcingする際にの全てマスクする方法(b)があるが、この場合、生成タスクとdenoisingタスクが相互に干渉してしまいうまく学習できなくなってしまう（生成タスクでは通常Decoderのinputとして[mask]が入力され次トークンを生成する、といったことは起きえないが、愚直に(b)をやるとそうなってしまう）。ので、(c)に示したように、マスクされているトークンをinputとして生成しなければならない時だけ、マスクを解除してdecoder側にinputする、という方法 (Dynamic Masking) でこの問題に対処している。
https://github.com/user-attachments/assets/0dba8d5d-0c93-4c56-852b-fce9869428e7" />

#Analysis #Pretraining #Pocket #NLP #LanguageModel #CVPR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2023-12-14 VILA: On Pre-training for Visual Language Models, Ji Lin+, N_A, CVPR'24 GPT Summary- 最近の大規模言語モデルの成功により、ビジュアル言語モデル（VLM）が進歩している。本研究では、VLMの事前学習のためのデザインオプションを検討し、以下の結果を示した：(1) LLMを凍結することでゼロショットのパフォーマンスが達成できるが、文脈に基づいた学習能力が不足している。(2) 交互に行われる事前学習データは有益であり、画像とテキストのペアだけでは最適ではない。(3) テキストのみの指示データを画像とテキストのデータに再ブレンドすることで、VLMのタスクの精度を向上させることができる。VILAというビジュアル言語モデルファミリーを構築し、最先端モデルを凌駕し、優れたパフォーマンスを発揮することを示した。マルチモーダルの事前学習は、VILAの特性を向上させる。 Comment

#Pocket #NLP #LanguageModel #AutomaticPromptEngineering #EACL #System Demonstration Issue Date: 2023-11-23 NeuroPrompts: An Adaptive Framework to Optimize Prompts for Text-to-Image Generation, Shachar Rosenman+, N_A, EACL'24 Sustem Demonstration Track GPT Summary- 本研究では、テキストから画像への生成モデルの品質を向上させるための適応型フレームワークNeuroPromptsを提案します。このフレームワークは、事前学習された言語モデルを使用して制約付きテキストデコーディングを行い、人間のプロンプトエンジニアが生成するものに類似したプロンプトを生成します。これにより、高品質なテキストから画像への生成が可能となり、ユーザーはスタイルの特徴を制御できます。また、大規模な人間エンジニアリングされたプロンプトのデータセットを使用した実験により、当アプローチが自動的に品質の高いプロンプトを生成し、優れた画像品質を実現することを示しました。 #Pocket #PEFT(Adaptor/LoRA) #ECCV Issue Date: 2023-11-23 [Paper Note] ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs, Viraj Shah+, N_A, ECCV'24 GPT Summary- 概要：概念駆動型のパーソナライズのための生成モデルの微調整手法であるZipLoRAを提案。ZipLoRAは、独立してトレーニングされたスタイルと主題のLoRAを統合し、任意の主題とスタイルの組み合わせで生成することができる。実験結果は、ZipLoRAが主題とスタイルの忠実度を改善しながら魅力的な結果を生成できることを示している。 Comment

pj page: https://ziplora.github.io/

#Pocket #NLP #Dataset #LanguageModel #Evaluation #MultiLingual #NAACL #VisionLanguageModel Issue Date: 2023-11-14 MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks, Sanchit Ahuja+, N_A, NAACL'24 GPT Summary- LLMsの研究は急速に進展しており、英語以外の言語での評価が必要とされている。本研究では、新しいデータセットを追加したMEGAVERSEベンチマークを提案し、さまざまなLLMsを評価する。実験の結果、GPT4とPaLM2が優れたパフォーマンスを示したが、データの汚染などの問題があるため、さらなる取り組みが必要である。 #Pocket #NLP #LanguageModel #QuestionAnswering #CVPR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2023-10-09 Improved Baselines with Visual Instruction Tuning, Haotian Liu+, N_A, CVPR'24 GPT Summary- LLaVAは、ビジョンと言語のクロスモーダルコネクタであり、データ効率が高く強力な性能を持つことが示されています。CLIP-ViT-L-336pxを使用し、学術タスク指向のVQAデータを追加することで、11のベンチマークで最先端のベースラインを確立しました。13Bのチェックポイントはわずか120万の公開データを使用し、1日で完全なトレーニングを終えます。コードとモデルは公開されます。 Comment

画像分析が可能なオープンソースLLMとのこと。

# Overview

画像生成をできるわけではなく、inputとして画像を扱えるのみ。

pj page: https://llava-vl.github.io

#Pretraining #Pocket #Transformer #ImageSegmentation #FoundationModel Issue Date: 2023-04-30 Segment Anything in Medical Images, Jun Ma+, N_A, Nature Communications'24 GPT Summary- 本研究では、自然画像セグメンテーションに革新的な手法であるSegment anything model (SAM)を医療画像に拡張するためのMedSAMを提案し、様々な医療ターゲットのセグメンテーションのための汎用ツールを作成することを目的としています。MedSAMは、大規模な医療画像データセットを用いて開発され、SAMを一般的な医療画像セグメンテーションに適応するためのシンプルなファインチューニング手法を開発しました。21の3Dセグメンテーションタスクと9の2Dセグメンテーションタスクに対する包括的な実験により、MedSAMは、平均Dice類似係数（DSC）がそれぞれ22.5％と17.6％で、デフォルトのSAMモデルを上回ることが示されました。コードとトレーニング済みモデルは、\url{https://github.com/bowang-lab/MedSAM}で公開されています。 Comment

SAMの性能は医療画像に対しては限定的だったため、11の異なるモダリティに対して200kのマスクをした医療画像を用意しfinetuningしたMedSAMによって、医療画像のセグメンテーションの性能を大幅に向上。
コードとモデルはpublicly available

#NLP #LanguageModel #MultiModal #SpeechProcessing #AAAI Issue Date: 2023-04-26 AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head, AAAI'24 GPT Summary- AudioGPTは、複雑な音声情報を処理し、音声対話をサポートするマルチモーダルAIシステムである。基盤モデルとASR、TTSインターフェースを組み合わせ、音声、音楽、トーキングヘッドの理解と生成を行う。実験により、AudioGPTが多様なオーディオコンテンツの創造を容易にする能力を示した。 Comment

text, audio, imageといったマルチモーダルなpromptから、audioに関する様々なタスクを実現できるシステム

マルチモーダルデータをjointで学習したというわけではなく、色々なモデルの組み合わせてタスクを実現しているっぽい

#Pocket #NLP #ImageSegmentation #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes #Grounding Issue Date: 2025-11-25 [Paper Note] Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V, Jianwei Yang+, arXiv'23, 2023.10 GPT Summary- Set-of-Mark (SoM)という新しい視覚プロンプティング手法を提案し、GPT-4Vの視覚的能力を引き出す。画像を異なる領域に分割し、マークを重ねることで、視覚的基盤を必要とする質問に答えることが可能に。実験では、SoMを用いたGPT-4Vがゼロショット設定で最先端のモデルを上回る性能を示した。 Comment

pj page: https://som-gpt4v.github.io

日本語解説: https://ai-scholar.tech/articles/prompting-method/SoM

画像をsegmentationし、segmentationした領域上に数字のマーカーをオーバーレイした画像を入力すると、VLMのgrounding能力が向上する、という話らしい

#MachineLearning #Pocket #ICLR #Selected Papers/Blogs #RectifiedFlow Issue Date: 2025-10-10 [Paper Note] Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow, Xingchao Liu+, ICLR'23, 2022.09 GPT Summary- rectified flowという新しいアプローチを提案し、2つの分布間での輸送を学習するODEモデルを用いる。これは、直線的な経路を学習することで計算効率を高め、生成モデルやドメイン転送において統一的な解決策を提供する。rectificationを通じて、非増加の凸輸送コストを持つ新しい結合を生成し、再帰的に適用することで直線的なフローを得る。実証研究では、画像生成や翻訳において優れた性能を示し、高品質な結果を得ることが確認された。 Comment

openreview: https://openreview.net/forum?id=XVjTT1nw5z

日本語解説(fmuuly, zenn):
- Rectified Flow 1: https://zenn.dev/fmuuly/articles/37cc3a2f17138e
- Rectified Flow 2: https://zenn.dev/fmuuly/articles/a062fcd340207f
- Rectified Flow 3: https://zenn.dev/fmuuly/articles/0f262fc003e202

#Pocket #NLP #Dataset #Evaluation #TextToImageGeneration #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-09-11 [Paper Note] GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment, Dhruba Ghosh+, NeurIPS'23 GPT Summary- テキストから画像への生成モデルの自動評価方法「GenEval」を提案。物体の共起、位置、数、色などの特性を評価し、現在の物体検出モデルを活用して生成タスクを分析。最近のモデルは改善を示すが、複雑な能力には課題が残る。GenEvalは失敗モードの発見にも寄与し、次世代モデルの開発に役立つ。コードは公開中。 Comment

openreview: https://openreview.net/forum?id=Wbr51vK331¬eId=NpvYJlJFqK

#NeuralNetwork #Pocket #Regularization #ICML Issue Date: 2025-08-30 [Paper Note] Dropout Reduces Underfitting, Zhuang Liu+, ICML'23 GPT Summary- 本研究では、ドロップアウトをトレーニング初期に使用することでアンダーフィッティングを軽減できることを示し、初期ドロップアウト手法を提案します。これにより、勾配の方向的分散が減少し、SGDの確率性に対抗します。実験により、初期ドロップアウトを用いたモデルは、ドロップアウトなしのモデルよりも低いトレーニング損失を示し、一般化精度が向上することが確認されました。また、後期ドロップアウトという手法も探求し、トレーニング後半での正則化効果を検証しました。これらの結果は、深層学習における正則化の理解を深めることに寄与します。 Comment

日本語解説: https://www.docswell.com/s/DeepLearning2023/54QM6D-dldropout-reduces-underfitting

#Pocket #Transformer #DiffusionModel #read-later #Selected Papers/Blogs #Backbone Issue Date: 2025-08-27 [Paper Note] Scalable Diffusion Models with Transformers, William Peebles+, ICCV'23 GPT Summary- 新しいトランスフォーマーに基づく拡散モデル（Diffusion Transformers, DiTs）を提案し、U-Netをトランスフォーマーに置き換えた。DiTsは高いGflopsを持ち、低いFIDを維持しながら良好なスケーラビリティを示す。最大のDiT-XL/2モデルは、ImageNetのベンチマークで従来の拡散モデルを上回り、最先端のFID 2.27を達成した。 Comment

日本語解説: https://qiita.com/sasgawy/items/8546c784bc94d94ef0b2

よく見るDiT

- [Paper Note] DiT: Self-supervised Pre-training for Document Image Transformer, Junlong Li+, ACMMM'22

も同様の呼称だが全く異なる話なので注意

#Embeddings #Pocket #NLP #Deduplication Issue Date: 2025-08-16 [Paper Note] SemDeDup: Data-efficient learning at web-scale through semantic deduplication, Amro Abbas+, arXiv'23 GPT Summary- SemDeDupは、事前学習モデルの埋め込みを用いて意味的に重複するデータペアを特定し削除する手法。LAIONのサブセットで50%のデータ削除を実現し、トレーニング時間を半分に短縮。分布外性能も向上し、C4データセットでも効率性を改善。質の高い埋め込みを活用することで、データ削減と学習加速を両立。 Comment

embedding空間において近傍のサンプル(near-duplicates)を削除することで、学習効率が向上します、という話な模様。
https://github.com/user-attachments/assets/11511a7e-feaa-4e7b-8276-628fe5099be9" />

openreview: https://openreview.net/forum?id=IRSesTQUtb¬eId=usQjFYYAZJ

openreviewによると、embedding空間においてnear-duplicatesを削除するというアイデアは興味深いが、提案手法は既存研究のアイデアを組み合わせているに留まっており（多くのブログポストやdeduplicationのためのライブラリも存在する）新規性が明確ではない点や、実験結果が不足している（i.e., 全てのケースでSoTAというわけでもなく、大規模モデルでの実験やstrong baselineの不在（実験結果はrandom pruningに対してoutperformすることが主に示されている）など、論文の主張をサポートするための結果が足りない）という指摘がされている。
実用的にはwell-writtenでexampleも豊富とのことなので、Deduplicationの理解を深めるのに良さそう。

先行研究:
- （画像）[Paper Note] Beyond neural scaling laws: beating power law scaling via data pruning, Ben Sorscher+, NeurIPS'22
- （テキスト）[Paper Note] Deduplicating Training Data Makes Language Models Better, Katherine Lee+, ACL'22

[Paper Note] Beyond neural scaling laws: beating power law scaling via data pruning, Ben Sorscher+, NeurIPS'22 では、分類が難しい画像のデータという観点にフォーカスしており、[Paper Note] Deduplicating Training Data Makes Language Models Better, Katherine Lee+, ACL'22 では、テキストの表層的な情報の一致に基づいてDeduplicationを実施している。

#Controllable #Pocket #NLP #MultiModal #TextToImageGeneration Issue Date: 2025-08-07 [Paper Note] Adding Conditional Control to Text-to-Image Diffusion Models, Lvmin Zhang+, arXiv'23 GPT Summary- ControlNetは、テキストから画像への拡散モデルに空間的な条件制御を追加するためのニューラルネットワークアーキテクチャであり、事前学習済みのエンコーディング層を再利用して多様な条件制御を学習します。ゼロ畳み込みを用いてパラメータを徐々に増加させ、有害なノイズの影響を軽減します。Stable Diffusionを用いて様々な条件制御をテストし、小規模および大規模データセットに対して堅牢性を示しました。ControlNetは画像拡散モデルの制御における広範な応用の可能性を示唆しています。 Comment

ControlNet論文

#Pocket #DiffusionModel #ICLR #Selected Papers/Blogs #FlowMatching #OptimalTransport Issue Date: 2025-07-09 [Paper Note] Flow Matching for Generative Modeling, Yaron Lipman+, ICLR'23 GPT Summary- Continuous Normalizing Flows（CNFs）に基づく新しい生成モデルの訓練手法Flow Matching（FM）を提案。FMは固定された条件付き確率経路のベクトル場を回帰し、シミュレーション不要で訓練可能。拡散経路と併用することで、より堅牢な訓練が実現。最適輸送を用いた条件付き確率経路は効率的で、訓練とサンプリングが速く、一般化性能も向上。ImageNetでの実験により、FMは拡散ベース手法よりも優れた性能を示し、迅速なサンプル生成を可能にする。 Comment

#Pretraining #Pocket #LanguageModel #MultiModal #Selected Papers/Blogs #ICCV Issue Date: 2025-06-29 [Paper Note] Sigmoid Loss for Language Image Pre-Training, Xiaohua Zhai+, ICCV'23 GPT Summary- シンプルなペアワイズシグモイド損失（SigLIP）を提案し、画像-テキストペアに基づく言語-画像事前学習を改善。シグモイド損失はバッチサイズの拡大を可能にし、小さなバッチサイズでも性能向上を実現。SigLiTモデルは84.5%のImageNetゼロショット精度を達成。バッチサイズの影響を研究し、32kが合理的なサイズであることを確認。モデルは公開され、さらなる研究の促進を期待。 Comment

SigLIP論文

#Pocket #NLP #Transformer #MultiModal #SpeechProcessing #Architecture #Normalization Issue Date: 2025-04-19 Foundation Transformers, Hongyu Wang+, PMLR'23 GPT Summary- 言語、視覚、音声、マルチモーダルにおけるモデルアーキテクチャの収束が進む中、異なる実装の「Transformers」が使用されている。汎用モデリングのために、安定性を持つFoundation Transformerの開発が提唱され、Magnetoという新しいTransformer変種が紹介される。Sub-LayerNormと理論に基づく初期化戦略を用いることで、さまざまなアプリケーションにおいて優れたパフォーマンスと安定性を示した。 Comment

マルチモーダルなモデルなモデルの事前学習において、PostLNはvision encodingにおいてsub-optimalで、PreLNはtext encodingにおいてsub-optimalであることが先行研究で示されており、マルタモーダルを単一のアーキテクチャで、高性能、かつ学習の安定性な高く、try and error無しで適用できる基盤となるアーキテクチャが必要というモチベーションで提案された手法。具体的には、Sub-LayerNorm(Sub-LN)と呼ばれる、self attentionとFFN部分に追加のLayerNormを適用するアーキテクチャと、DeepNetを踏襲しLayer数が非常に大きい場合でも学習が安定するような重みの初期化方法を理論的に分析し提案している。

具体的には、Sub-LNの場合、LayerNormを
- SelfAttention計算におけるQKVを求めるためのinput Xのprojectionの前とAttentionの出力projectionの前
- FFNでの各Linear Layerの前
に適用し、

初期化をする際には、FFNのW, およびself-attentionのV_projと出力のout_projの初期化をγ（＝sqrt(log(2N))によってスケーリングする方法を提案している模様。

#Pocket #Transformer #ImageSegmentation #FoundationModel Issue Date: 2025-04-11 Segment Anything, Alexander Kirillov+, arXiv'23 GPT Summary- Segment Anything (SA)プロジェクトは、画像セグメンテーションの新しいタスク、モデル、データセットを提案し、1億以上のマスクを含む1,100万のプライバシー尊重した画像からなる最大のセグメンテーションデータセットを構築しました。プロンプト可能なモデルはゼロショットで新しい画像分布やタスクに適応でき、評価の結果、ゼロショット性能が高く、従来の監視された結果を上回ることもあります。SAMとSA-1Bデータセットは、研究促進のために公開されています。 Comment

SAM論文

pj page: https://segment-anything.com

#Pocket #NLP #LanguageModel #MultiModal #OpenWeight Issue Date: 2025-04-11 PaLI-3 Vision Language Models: Smaller, Faster, Stronger, Xi Chen+, arXiv'23 GPT Summary- PaLI-3は、従来のモデルに比べて10倍小型で高速な視覚言語モデル（VLM）であり、特にローカリゼーションや視覚的テキスト理解において優れた性能を示す。SigLIPベースのPaLIは、20億パラメータにスケールアップされ、多言語クロスモーダル検索で新たな最先端を達成。50億パラメータのPaLI-3は、VLMの研究を再燃させることを期待されている。 Comment

OpenReview: https://openreview.net/forum?id=JpyWPfzu0b

実験的に素晴らしい性能が実現されていることは認められつつも
- 比較対象がSigLIPのみでより広範な比較実験と分析が必要なこと
- BackboneモデルをContrastive Learningすること自体の有用性は既に知られており、新規性に乏しいこと

としてICLR'24にRejectされている

#Pocket #LanguageModel #Zero/Few/ManyShotPrompting #Self-SupervisedLearning Issue Date: 2024-10-07 SINC: Self-Supervised In-Context Learning for Vision-Language Tasks, Yi-Syuan Chen+, N_A, ICCV'23 GPT Summary- 自己教師あり文脈内学習（SINC）フレームワークを提案し、大規模言語モデルに依存せずに文脈内学習を実現。特別に調整されたデモンストレーションを用いたメタモデルが、視覚と言語のタスクで少数ショット設定において勾配ベースの手法を上回る性能を示す。SINCは文脈内学習の利点を探求し、重要な要素を明らかにする。 #Pocket #NLP #GenerativeAI #MultiModal Issue Date: 2023-12-01 SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction, Xinyuan Chen+, N_A, arXiv'23 GPT Summary- 本研究では、ビデオ生成において連続した長いビデオを生成するためのジェネレーティブなトランジションと予測に焦点を当てたモデルSEINEを提案する。SEINEはテキストの説明に基づいてトランジションを生成し、一貫性と視覚的品質を確保した長いビデオを生成する。さらに、提案手法は他のタスクにも拡張可能であり、徹底的な実験によりその有効性が検証されている。 Comment

https://huggingface.co/spaces/Vchitect/SEINE

画像 + テキストpromptで、動画を生成するデモ

#Pocket #ImageSegmentation #Prompting #In-ContextLearning Issue Date: 2023-11-23 Visual In-Context Prompting, Feng Li+, N_A, arXiv'23 GPT Summary- 本研究では、ビジョン領域における汎用的なビジュアルインコンテキストプロンプティングフレームワークを提案します。エンコーダーデコーダーアーキテクチャを使用し、さまざまなプロンプトをサポートするプロンプトエンコーダーを開発しました。さらに、任意の数の参照画像セグメントをコンテキストとして受け取るように拡張しました。実験結果から、提案手法が非凡な参照および一般的なセグメンテーション能力を引き出し、競争力のあるパフォーマンスを示すことがわかりました。 Comment

Image Segmentationには、ユーザが与えたプロンプトと共通のコンセプトを持つすべてのオブジェクトをセグメンテーションするタスクと、ユーザの入力の特定のオブジェクトのみをセグメンテーションするタスクがある。従来は個別のタスクごとに、特定の入力方法（Visual Prompt, Image Prompt）を前提とした手法や、個々のタスクを実施できるがIn-Context Promptしかサポートしていない手法しかなかったが、この研究では、Visual Prompt, Image Prompt, In-Context Promptをそれぞれサポートし両タスクを実施できるという位置付けの模様。また、提案手法ではストローク、点、ボックスといったユーザの画像に対する描画に基づくPromptingをサポートし、Promptingにおける参照セグメント数も任意の数指定できるとのこと。

#Pocket #NLP #LayoutGeneration Issue Date: 2023-11-14 LayoutPrompter: Awaken the Design Ability of Large Language Models, Jiawei Lin+, N_A, NeurIPS'23 GPT Summary- LayoutPrompterは、大規模言語モデル（LLMs）を使用して条件付きのグラフィックレイアウト生成を行う手法であり、入力-出力のシリアル化、動的な模範的選択、およびレイアウトのランキングの3つのコンポーネントで構成されています。LayoutPrompterは、既存の手法と競合したり上回ったりする性能を持ち、トレーニングや微調整なしで使用できる汎用性のあるアプローチであることが実験結果から示されています。また、データ効率にも優れており、トレーニングベースラインよりも有意に優れていることも示されています。プロジェクトは、https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompterで利用可能です。 Comment

Conditional Graphic Layout Generation

#Pocket #NLP #MultitaskLearning #MultiModal #FoundationModel Issue Date: 2023-11-13 Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks, Bin Xiao+, N_A, arXiv'23 GPT Summary- Florence-2は、ビジョン基盤モデルであり、さまざまなビジョンタスクに対応するための統一されたプロンプトベースの表現を持っています。このモデルは、テキストプロンプトを受け取り、キャプショニング、オブジェクト検出、グラウンディング、セグメンテーションなどのタスクを実行し、テキスト形式で結果を生成します。また、FLD-5Bという大規模な注釈付きデータセットも開発されました。Florence-2は、多目的かつ包括的なビジョンタスクを実行するためにシーケンスツーシーケンス構造を採用しており、前例のないゼロショットおよびファインチューニングの能力を持つ強力なモデルです。 Comment

Vison Foundation Model。Spatialな階層構造や、Semanticを捉えられるように訓練。Image/Prompt Encoderでエンコードされ、outputはtext + location informationとなる。

#Pocket #NLP #LanguageModel #MultiModal #OCR Issue Date: 2023-10-26 Exploring OCR Capabilities of GPT-4V（ision） : A Quantitative and In-depth Evaluation, Yongxin Shi+, N_A, arXiv'23 GPT Summary- この論文では、GPT-4Vという大規模マルチモーダルモデルの光学文字認識（OCR）能力を評価します。さまざまなOCRタスクにおいてモデルのパフォーマンスを評価し、ラテン文字の認識と理解において優れた性能を示す一方、多言語や複雑なタスクには苦戦することがわかりました。これに基づいて、専門のOCRモデルの必要性やGPT-4Vを活用する戦略についても検討します。この研究は、将来のLMMを用いたOCRの研究に役立つものです。評価のパイプラインと結果は、GitHubで利用可能です。 Comment

GPT4-VをさまざまなOCRタスク「手書き、数式、テーブル構造認識等を含む）で性能検証した研究。
MLT19データセットを使った評価では、日本語の性能は非常に低く、英語とフランス語が性能高い。手書き文字認識では英語と中国語でのみ評価。

#Survey #FoundationModel Issue Date: 2023-08-08 Foundational Models Defining a New Era in Vision: A Survey and Outlook, Muhammad Awais+, N_A, arXiv'23 GPT Summary- 本研究では、視覚システムの基礎モデルについて包括的なレビューを提供します。これには、異なるモダリティを組み合わせるためのアーキテクチャ設計やトレーニング目標、トレーニングデータセットなどが含まれます。また、基礎モデルの評価や課題、最近の発展についても議論します。詳細なリストは、\url{https://github.com/awaisrauf/Awesome-CV-Foundational-Models}で入手できます。 Comment

CVにおけるfoundation modelのsurvey。残されたチャレンジと研究の方向性が議論されている

#Pocket #NLP #LanguageModel #FoundationModel Issue Date: 2023-07-23 [Paper Note] Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning, Lili Yu+, arXiv'23 GPT Summary- CM3Leonは、テキストと画像の生成・補完が可能なマルチモーダル言語モデルで、リトリーバル拡張型のトークンベースのデコーダを使用。CM3アーキテクチャを基に、多様な指示スタイルでのスケーリングとチューニングに優れ、初のテキスト専用モデルから適応されたマルチモーダルモデル。高品質な出力を生成する対照的デコーディング手法を導入し、少ない計算量で最先端の性能を達成。SFT後は、画像編集や生成において高い制御性を示す。 #NaturalLanguageGeneration #NLP #Dataset #Evaluation Issue Date: 2023-07-22 InfoMetIC: An Informative Metric for Reference-free Image Caption Evaluation, ACL'23 GPT Summary- 自動画像キャプションの評価には、情報豊かなメトリック（InfoMetIC）が提案されています。これにより、キャプションの誤りや欠落した情報を詳細に特定することができます。InfoMetICは、テキストの精度スコア、ビジョンの再現スコア、および全体の品質スコアを提供し、人間の判断との相関も高いです。また、トークンレベルの評価データセットも構築されています。詳細はGitHubで公開されています。 #Pocket #NLP #LanguageModel #AIAgents Issue Date: 2023-07-22 Towards A Unified Agent with Foundation Models, Norman Di Palo+, N_A, arXiv'23 GPT Summary- 本研究では、言語モデルとビジョン言語モデルを強化学習エージェントに組み込み、効率的な探索や経験データの再利用などの課題に取り組む方法を調査しました。スパースな報酬のロボット操作環境でのテストにおいて、ベースラインに比べて大幅な性能向上を実証し、学習済みのスキルを新しいタスクの解決や人間の専門家のビデオの模倣に活用する方法を示しました。 Comment

#Pocket #Personalization #DiffusionModel Issue Date: 2023-07-22 FABRIC: Personalizing Diffusion Models with Iterative Feedback, Dimitri von Rütte+, N_A, arXiv'23 GPT Summary- 本研究では、拡散ベースのテキストから画像への変換モデルに人間のフィードバックを組み込む戦略を提案する。自己注意層を利用したトレーニングフリーなアプローチであるFABRICを提案し、さまざまな拡散モデルに適用可能であることを示す。また、包括的な評価方法を導入し、人間のフィードバックを統合した生成ビジュアルモデルのパフォーマンスを定量化するための堅牢なメカニズムを提供する。徹底的な分析により、反復的なフィードバックの複数のラウンドを通じて生成結果が改善されることを示す。これにより、個別化されたコンテンツ作成やカスタマイズなどの領域に応用が可能となる。 Comment

upvote downvoteをフィードバックし、iterativeなmannerでDiffusionモデルの生成結果を改善できる手法。多くのDiffusion based Modelに対して適用可能
デモ: https://huggingface.co/spaces/dvruette/fabric

#Pocket #NLP #LanguageModel #SpokenLanguageProcessing #MultiModal #SpeechProcessing Issue Date: 2023-07-22 Meta-Transformer: A Unified Framework for Multimodal Learning, Yiyuan Zhang+, N_A, arXiv'23 GPT Summary- 本研究では、マルチモーダル学習のためのMeta-Transformerというフレームワークを提案しています。このフレームワークは、異なるモダリティの情報を処理し関連付けるための統一されたネットワークを構築することを目指しています。Meta-Transformerは、対応のないデータを使用して12のモダリティ間で統一された学習を行うことができ、テキスト、画像、ポイントクラウド、音声、ビデオなどの基本的なパーセプションから、X線、赤外線、高分光、IMUなどの実用的なアプリケーション、グラフ、表形式、時系列などのデータマイニングまで、幅広いタスクを処理することができます。Meta-Transformerは、トランスフォーマーを用いた統一されたマルチモーダルインテリジェンスの開発に向けた有望な未来を示しています。 Comment

12種類のモダリティに対して学習できるTransformerを提案
Dataをsequenceにtokenizeし、unifiedにfeatureをencodingし、それぞれのdownstreamタスクで学習

#NLP #Dataset #Personalization #MultiModal #Conversation Issue Date: 2023-07-15 MPCHAT: Towards Multimodal Persona-Grounded Conversation, ACL'23 GPT Summary- 本研究では、テキストと画像の両方を使用してパーソナを拡張し、マルチモーダルな対話エージェントを構築するためのデータセットであるMPCHATを提案します。さらに、マルチモーダルパーソナを組み込むことで、応答予測、パーソナのグラウンディング予測、話者の識別といったタスクのパフォーマンスを統計的に有意に改善できることを示します。この研究は、マルチモーダルな対話理解においてマルチモーダルパーソナの重要性を強調し、MPCHATが高品質なリソースとして役立つことを示しています。 #NaturalLanguageGeneration #NLP #LanguageModel #TabularData #TextToImageGeneration Issue Date: 2023-07-15 Table and Image Generation for Investigating Knowledge of Entities in Pre-trained Vision and Language Models, ACL'23 GPT Summary- 本研究では、Vision＆Language（V＆L）モデルにおけるエンティティの知識の保持方法を検証するために、テーブルと画像の生成タスクを提案します。このタスクでは、エンティティと関連する画像の知識を含むテーブルを生成する第一の部分と、キャプションとエンティティの関連知識を含むテーブルから画像を生成する第二の部分があります。提案されたタスクを実行するために、Wikipediaの約20万のinfoboxからWikiTIGデータセットを作成しました。最先端のV＆LモデルOFAを使用して、提案されたタスクのパフォーマンスを評価しました。実験結果は、OFAが一部のエンティティ知識を忘れることを示しています。 #NaturalLanguageGeneration #NLP #MultiModal #DiffusionModel #TextToImageGeneration Issue Date: 2023-07-15 Learning to Imagine: Visually-Augmented Natural Language Generation, ACL'23 GPT Summary- 本研究では、視覚情報を活用した自然言語生成のためのLIVEという手法を提案しています。LIVEは、事前学習済み言語モデルを使用して、テキストに基づいて場面を想像し、高品質な画像を合成する方法です。また、CLIPを使用してテキストの想像力を評価し、段落ごとに画像を生成します。さまざまな実験により、LIVEの有効性が示されています。コード、モデル、データは公開されています。 Comment

>まず、テキストに基づいて場面を想像します。入力テキストに基づいて高品質な画像を合成するために拡散モデルを使用します。次に、CLIPを使用して、テキストが想像力を喚起できるかを事後的に判断します。最後に、私たちの想像力は動的であり、段落全体に1つの画像を生成するのではなく、各文に対して合成を行います。

興味深い

#Pretraining #Pocket #NLP #Transformer #MultiModal Issue Date: 2023-07-12 Generative Pretraining in Multimodality, Quan Sun+, N_A, arXiv'23 GPT Summary- Emuは、マルチモーダルなコンテキストで画像とテキストを生成するためのTransformerベースのモデルです。このモデルは、単一モダリティまたはマルチモーダルなデータ入力を受け入れることができます。Emuは、マルチモーダルなシーケンスでトレーニングされ、画像からテキストへのタスクやテキストから画像へのタスクなど、さまざまなタスクで優れたパフォーマンスを示します。また、マルチモーダルアシスタントなどの拡張機能もサポートしています。 #Pretraining #Pocket #NLP #MultiModal Issue Date: 2023-07-12 EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone, Shraman Pramanick+, N_A, arXiv'23 GPT Summary- エゴセントリックビデオ言語の事前学習の第2世代（EgoVLPv2）は、ビデオと言語のバックボーンにクロスモーダルの融合を直接組み込むことができる。EgoVLPv2は強力なビデオテキスト表現を学習し、柔軟かつ効率的な方法でさまざまなダウンストリームタスクをサポートする。さらに、提案されたバックボーン戦略は軽量で計算効率が高い。EgoVLPv2は幅広いVLタスクで最先端のパフォーマンスを達成している。詳細はhttps://shramanpramanick.github.io/EgoVLPv2/を参照。 #FoundationModel #Navigation Issue Date: 2023-07-11 ViNT: A Foundation Model for Visual Navigation, Dhruv Shah+, N_A, arXiv'23 GPT Summary- 本研究では、汎用事前学習モデルであるVisual Navigation Transformer（ViNT）を提案し、ビジョンベースのロボットナビゲーションに成功をもたらします。ViNTは、大規模なナビゲーションデータセットで訓練され、柔軟なTransformerベースのアーキテクチャを使用してさまざまなナビゲーションタスクに適応します。ViNTは、拡散ベースのサブゴール提案と組み合わせることで、新しい環境を探索し、キロメートルスケールのナビゲーション問題を解決することができます。また、ViNTはプロンプトチューニングに触発された技術を使用して、新しいタスク仕様に適応することができます。ViNTはモバイルロボティクスのための効果的な基礎モデルとして確立されています。詳細はプロジェクトページを参照してください。 Comment

事前学習済みモデルを視覚ベースのロボットナビゲーションに活用するFoundation Model。FlexibleなTransformerベースのアーキテクチャに基づいて構築されており、さまざまなナビゲーションタスクに取り組むことが可能

#LanguageModel #QuestionAnswering #MultiModal Issue Date: 2023-07-11 SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs, Lijun Yu+, N_A, arXiv'23 GPT Summary- この研究では、Semantic Pyramid AutoEncoder（SPAE）を使用して、凍結されたLLMsが非言語的なモダリティを含むタスクを実行できるようにします。SPAEは、LLMの語彙から抽出されたトークンと生のピクセルデータの変換を行います。生成されたトークンは、視覚再構成に必要な意味と詳細を捉え、LLMが理解できる言語に変換します。実験結果では、我々のアプローチが画像理解と生成のタスクにおいて最先端のパフォーマンスを25％以上上回ることを示しています。 Comment

画像をLLMのtokenスペースにマッピングすることで、LLMがパラメータの更新なしにvisual taskを解くことを可能にした。in context learningによって、様々なvisuataskを解くことができる。

#LanguageModel #QuestionAnswering #MultiModal Issue Date: 2023-06-30 Towards Language Models That Can See: Computer Vision Through the LENS of Natural Language, William Berrios+, N_A, arXiv'23 GPT Summary- 私たちは、LENSというモジュラーなアプローチを提案しています。このアプローチでは、大規模言語モデル（LLMs）を使用してコンピュータビジョンの問題に取り組みます。LENSは、独立したビジョンモジュールの出力に対して言語モデルを使用して推論を行います。私たちは、ゼロショットおよびフューショットのオブジェクト認識などのコンピュータビジョンの設定でLENSを評価しました。LENSは市販のLLMに適用でき、非常に競争力のあるパフォーマンスを発揮します。コードはオープンソースで提供されています。 Comment

参考:

Loading…

#Pocket #Personalization Issue Date: 2023-06-16 Photoswap: Personalized Subject Swapping in Images, Jing Gu+, N_A, arXiv'23 GPT Summary- 本研究では、Photoswapという新しいアプローチを提案し、既存の画像において個人的な対象物の交換を可能にすることを目的としています。Photoswapは、参照画像から対象物の視覚的な概念を学習し、トレーニングフリーでターゲット画像に交換することができます。実験により、Photoswapが効果的で制御可能であり、ベースライン手法を大幅に上回る人間の評価を得ていることが示されました。Photoswapは、エンターテインメントからプロの編集まで幅広い応用可能性を持っています。 #Pocket #NLP #Personalization #DiffusionModel #TextToImageGeneration Issue Date: 2023-06-16 ViCo: Detail-Preserving Visual Condition for Personalized Text-to-Image Generation, Shaozhe Hao+, N_A, arXiv'23 GPT Summary- 拡散モデルを用いたパーソナライズされた画像生成において、高速で軽量なプラグインメソッドであるViCoを提案。注目モジュールを導入し、注目ベースのオブジェクトマスクを使用することで、一般的な過学習の劣化を軽減。元の拡散モデルのパラメータを微調整せず、軽量なパラメータトレーニングだけで、最新のモデルと同等またはそれ以上の性能を発揮することができる。 #Pocket #NLP #QuestionAnswering #MultiModal Issue Date: 2023-06-16 AVIS: Autonomous Visual Information Seeking with Large Language Models, Ziniu Hu+, N_A, arXiv'23 GPT Summary- 本論文では、自律的な情報収集ビジュアル質問応答フレームワークであるAVISを提案する。AVISは、大規模言語モデル（LLM）を活用して外部ツールの利用戦略を動的に決定し、質問に対する回答に必要な不可欠な知識を獲得する。ユーザースタディを実施して収集したデータを用いて、プランナーや推論エンジンを改善し、知識集約型ビジュアル質問応答ベンチマークで最先端の結果を達成することを示している。 Comment

#NeuralNetwork #Controllable #Pocket #VideoGeneration/Understandings Issue Date: 2023-05-12 Sketching the Future （STF）: Applying Conditional Control Techniques to Text-to-Video Models, Rohan Dhesikan+, arXiv'23 GPT Summary- ゼロショットのテキストから動画生成をControlNetと組み合わせ、スケッチされたフレームを基に動画を生成する新手法を提案。フレーム補間を行い、Text-to-Video Zeroアーキテクチャを活用して高品質で一貫性のある動画を生成。デモ動画やリソースを提供し、さらなる研究を促進。 #NeuralNetwork #Embeddings #Pocket #RepresentationLearning #ContrastiveLearning #ICLR #Semi-Supervised Issue Date: 2023-04-30 SemPPL: Predicting pseudo-labels for better contrastive representations, Matko Bošnjak+, N_A, ICLR'23 GPT Summary- 本研究では、コンピュータビジョンにおける半教師あり学習の問題を解決するために、Semantic Positives via Pseudo-Labels (SemPPL)という新しい手法を提案している。この手法は、ラベル付きとラベルなしのデータを組み合わせて情報豊富な表現を学習することができ、ResNet-$50$を使用してImageNetの$1\%$および$10\%$のラベルでトレーニングする場合、競合する半教師あり学習手法を上回る最高性能を発揮することが示された。SemPPLは、強力な頑健性、分布外および転移性能を示すことができる。 Comment

後ほど説明を追記する

#Pocket #NeurIPS Issue Date: 2023-04-27 Stable and low-precision training for large-scale vision-language models, Wortsman+, University of Washington, NeurIPS'23 GPT Summary- 大規模な言語-視覚モデルのトレーニングを加速し安定させる新手法を提案。SwitchBackを用いたint8量子化で、CLIP ViT-Hugeのトレーニング速度を13-25%向上させ、bfloat16と同等の性能を維持。float8トレーニングも効果的であることを示し、初期化方法が成功に寄与。損失のスパイクを分析し、AdamW-Adafactorハイブリッドを推奨することで、トレーニングの安定性を向上させた。 Comment

#ImageSegmentation #TechnicalReport Issue Date: 2023-04-25 Track Anything: Segment Anything Meets Videos, yang+, SUSTech VIP Lab, arXiv'23 Comment

MetaのSAMを、videoに適用し、videow内のsegmentationを追加学習なしでやりました、という話だと思われる。

#NeuralNetwork #Pocket #SIGGRAPH Issue Date: 2022-12-01 Sketch-Guided Text-to-Image Diffusion Models, Andrey+, Google Research, SIGGRAPH'23 GPT Summary- テキストから画像へのモデルは高品質な画像合成を実現するが、空間的特性の制御が不足している。本研究では、スケッチからの空間マップを用いて事前学習済みモデルを導く新しいアプローチを提案。専用モデルを必要とせず、潜在ガイダンス予測器（LGP）を訓練し、画像を空間マップに一致させる。ピクセルごとの訓練により柔軟性を持ち、スケッチから画像への翻訳タスクにおいて効果的な生成が可能であることを示す。 Comment

スケッチとpromptを入力することで、スケッチ biasedな画像を生成することができる技術。すごい。

#NeuralNetwork #Pocket #NLP #ICML #Selected Papers/Blogs #OOD #Finetuning #Generalization #Encoder #Encoder-Decoder #KeyPoint Notes #Souping Issue Date: 2025-11-28 [Paper Note] Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time, Mitchell Wortsman+, ICML'22, 2022.03 GPT Summary- ファインチューニングされたモデルの重みを平均化する「モデルスープ」手法を提案し、精度と堅牢性を向上させることを示す。従来のアンサンブル手法とは異なり、追加のコストなしで複数のモデルを平均化でき、ImageNetで90.94%のトップ1精度を達成。さらに、画像分類や自然言語処理タスクにも適用可能で、分布外性能やゼロショット性能を改善することが確認された。 Comment

日本語解説: https://www.docswell.com/s/DeepLearning2023/ZW13L1-dlmodel-soups-averaging-weights-of-multiple-finetuned-models-improves-accuracy-without-increasing-inference-time

transformerベースの事前学習済みモデル（encoder-only, encoder-decoderモデル）のファインチューニングの話で、共通のベースモデルかつ共通のパラメータの初期化を持つ、様々なハイパーパラメータで学習したモデルの重みを平均化することでよりロバストで高性能なモデルを作ります、という話。似たような手法にアンサンブルがあるが、アンサンブルでは利用するモデルに対して全ての推論結果を得なければならないため、計算コストが増大する。一方、モデルスープは単一モデルと同じ計算量で済む（＝計算量は増大しない）。

スープを作る際は、Validation dataのAccが高い順に異なるFinetuning済みモデルをソートし、逐次的に重みの平均をとりValidation dataのAccが上がる場合に、当該モデルをsoupのingridientsとして加える。要は、開発データで性能が高い順にモデルをソートし、逐次的にモデルを取り出していき、現在のスープに対して重みを平均化した時に開発データの性能が上がるなら平均化したモデルを採用し、上がらないなら無視する、といった処理を繰り返す。これをgreedy soupと呼ぶ。他にもuniform soup, learned soupといった手法も提案され比較されているが、画像系のモデル（CLIP, ViTなど)やNLP(T5, BERT)等で実験されており、greedy soupの性能とロバストさ（OOD;分布シフトに対する予測性能）が良さそうである。

#Pocket #Dataset #Evaluation #Robotics #RA-L Issue Date: 2025-11-20 [Paper Note] CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks, Oier Mees+, RA-L'22 Best Paper Award, 2021.12 GPT Summary- ロボットが人間と共存する環境で、言語を知覚や行動に関連付けるためのシミュレーションベンチマークCALVINを提案。CALVINは、長期的な言語条件付きタスクを学習し、複雑なロボット操作を人間の言語指示に基づいて解決するエージェントの開発を目指す。ゼロショット評価を行い、既存のモデルが低パフォーマンスであることから、新たなエージェントの開発の可能性を示唆。 Comment

pj page: http://calvin.cs.uni-freiburg.de

#Pocket #DiffusionModel #Selected Papers/Blogs #VideoGeneration/Understandings #4D (Video) Issue Date: 2025-10-17 [Paper Note] Video Diffusion Models, Jonathan Ho+, arXiv'22, 2022.04 GPT Summary- 高忠実度で一貫した動画生成のための拡散モデルを提案。画像と動画データを共同でトレーニングし、最適化を加速。新しい条件付きサンプリング技術により、長く高解像度の動画生成で優れた性能を発揮。大規模なテキスト条件付き動画生成タスクでの初期結果と、既存ベンチマークでの最先端結果を示す。 Comment

Surveyはこちら:
- [Paper Note] Video Diffusion Models: A Survey, Andrew Melnik+, TMLR'24, 2024.05

#Pocket #TextToImageGeneration #VariationalAutoEncoder #CVPR #Selected Papers/Blogs #Encoder-Decoder #ImageSynthesis #U-Net Issue Date: 2025-10-10 [Paper Note] High-Resolution Image Synthesis with Latent Diffusion Models, Robin Rombach+, CVPR'22, 2021.12 GPT Summary- 拡散モデル（DMs）は、逐次的なデノイジングオートエンコーダを用いて画像生成プロセスを効率化し、最先端の合成結果を達成。従来のピクセル空間での訓練に比べ、強力な事前訓練されたオートエンコーダの潜在空間での訓練により、計算リソースを削減しつつ視覚的忠実度を向上。クロスアテンション層を導入することで、テキストやバウンディングボックスに基づく柔軟な生成が可能となり、画像インペインティングや無条件画像生成などで競争力のある性能を発揮。 Comment

ここからtext等による条件付けをした上での生成が可能になった（らしい）

#Pocket #Transformer #DiffusionModel #Selected Papers/Blogs Issue Date: 2025-10-10 [Paper Note] Classifier-Free Diffusion Guidance, Jonathan Ho+, arXiv'22, 2022.07 GPT Summary- 分類器ガイダンスは条件付き拡散モデルのポストトレーニング手法で、モードカバレッジとサンプル忠実度のトレードオフを図る。著者は、分類器なしで生成モデルによるガイダンスが可能であることを示し、これを分類器フリーガイダンスと呼ぶ。条件付きおよび無条件の拡散モデルを共同でトレーニングし、サンプル品質と多様性のトレードオフを達成する。 Comment

日本語解説: https://qiita.com/UMAboogie/items/160c1159811743c49d99

#NeuralNetwork #Pretraining #Pocket #NeurIPS #Scaling Laws #Deduplication Issue Date: 2025-09-04 [Paper Note] Beyond neural scaling laws: beating power law scaling via data pruning, Ben Sorscher+, NeurIPS'22 GPT Summary- データセットサイズに対する誤差のスケーリングを研究し、高品質なデータプルーニングメトリックを用いることで誤差を指数スケーリングに減少させる可能性を示す。CIFAR-10、SVHN、ImageNetでの実験により、冪法則スケーリングを超える改善を確認。ImageNetにおける10種類のデータプルーニングメトリックのベンチマークを実施し、従来のメトリックに代わる新しい自己教師ありプルーニングメトリックを開発。良好なデータプルーニングメトリックがニューラルスケーリング法則の改善とリソースコスト削減に寄与する可能性を示唆。 Comment

openreview: https://openreview.net/forum?id=UmvSlP-PyV

日本語解説スライド: https://speakerdeck.com/takase/snlp2023-beyond-neural-scaling-laws

#NeuralNetwork #Selected Papers/Blogs #Backbone Issue Date: 2025-08-29 [Paper Note] A ConvNet for the 2020s, Zhuang Liu+, arXiv'22 GPT Summary- ConvNetはVision Transformersの登場により地位を失ったが、ハイブリッドアプローチの効果はトランスフォーマーの優位性に依存している。本研究では、ConvNetの限界をテストし、ConvNeXtという新しいモデルを提案。ConvNeXtは標準的なConvNetモジュールのみで構成され、精度とスケーラビリティでトランスフォーマーと競争し、ImageNetで87.8%の精度を達成し、COCO検出およびADE20KセグメンテーションでSwin Transformersを上回る。 Comment

ConvNeXt

#Pocket #Transformer #OCR #ACMMM #Backbone Issue Date: 2025-08-22 [Paper Note] DiT: Self-supervised Pre-training for Document Image Transformer, Junlong Li+, ACMMM'22 GPT Summary- 自己監視型事前学習モデルDiTを提案し、ラベルなしテキスト画像を用いて文書AIタスクにおける性能を向上。文書画像分類やレイアウト分析、表検出、OCRなどで新たな最先端結果を達成。コードとモデルは公開中。 #NeuralNetwork #MachineLearning #Pocket #NLP #MultitaskLearning #MultiModal #SpeechProcessing #ICLR Issue Date: 2025-07-10 [Paper Note] Perceiver IO: A General Architecture for Structured Inputs & Outputs, Andrew Jaegle+, ICLR'22 GPT Summary- 汎用アーキテクチャPerceiver IOを提案し、任意のデータ設定に対応し、入力と出力のサイズに対して線形にスケール可能。柔軟なクエリメカニズムを追加し、タスク特有の設計を不要に。自然言語、視覚理解、マルチタスクで強力な結果を示し、GLUEベンチマークでBERTを上回る性能を達成。 Comment

当時相当話題となったさまざまなモーダルを統一された枠組みで扱えるPerceiver IO論文

#Pocket #NLP #Dataset #MultiModal #CLIP #NeurIPS Issue Date: 2025-05-06 LAION-5B: An open large-scale dataset for training next generation image-text models, Christoph Schuhmann+, NeurIPS'22 GPT Summary- LAION-5Bは、5.85億のCLIPフィルタリングされた画像-テキストペアから成る大規模データセットで、英語のペアが2.32B含まれています。このデータセットは、CLIPやGLIDEなどのモデルの再現とファインチューニングに利用され、マルチモーダルモデルの研究を民主化します。また、データ探索やサブセット生成のためのインターフェースや、コンテンツ検出のためのスコアも提供されます。 #NeuralNetwork #MachineLearning #Pocket #Supervised-FineTuning (SFT) #CLIP #ICLR #OOD Issue Date: 2023-05-15 Fine-Tuning can Distort Pretrained Features and Underperform Out-of-Distribution, Ananya Kumar+, N_A, ICLR'22 GPT Summary- 事前学習済みモデルをダウンストリームタスクに転移する際、ファインチューニングと線形プロービングの2つの方法があるが、本研究では、分布のシフトが大きい場合、ファインチューニングが線形プロービングよりも分布外で精度が低くなることを発見した。LP-FTという2段階戦略の線形プロービング後の全体のファインチューニングが、両方のデータセットでファインチューニングと線形プロービングを上回ることを示唆している。 Comment

事前学習済みのニューラルモデルをfinetuningする方法は大きく分けて
1. linear layerをヘッドとしてconcatしヘッドのみのパラメータを学習
2. 事前学習済みモデル全パラメータを学習

の2種類がある。
前者はin-distributionデータに強いが、out-of-distributionに弱い。後者は逆という互いが互いを補完し合う関係にあった。
そこで、まず1を実施し、その後2を実施する手法を提案。in-distribution, out-of-distributionの両方で高い性能を出すことを示した（実験では画像処理系のデータを用いて、モデルとしてはImageNet+CLIPで事前学習済みのViTを用いている)。

#Dataset #Evaluation #ICCV Issue Date: 2025-11-20 [Paper Note] Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life 3D Category Reconstruction, Reizenstein+, ICCV'21 GPT Summary- 実世界の3Dオブジェクトカテゴリの学習を促進するため、約19,000本のビデオから150万フレームを含む大規模データセット「Common Objects in 3D」を収集。これにより、合成データセットと同程度の規模の実データを提供。新しいビュー合成と3D再構築手法の評価を行い、少数のビューからオブジェクトを再構築するためのTransformerを用いたニューラルレンダリング手法「NerFormer」を提案。 #NeuralNetwork #Pocket #DiffusionModel #Selected Papers/Blogs #Encoder-Decoder #PMLR #ScoreMatching #U-Net Issue Date: 2025-10-10 [Paper Note] Improved Denoising Diffusion Probabilistic Models, Alex Nichol+, PMLR'21, 2021.02 GPT Summary- DDPMは高品質なサンプル生成が可能な生成モデルであり、簡単な修正により競争力のある対数尤度を達成できることを示す。逆拡散プロセスの分散を学習することで、サンプリング回数を大幅に削減しつつサンプル品質を維持。DDPMとGANのターゲット分布のカバー能力を比較し、モデルの容量とトレーニング計算量に対してスケーラブルであることを明らかにした。コードは公開されている。 Comment

#NeuralNetwork #Pocket #DiffusionModel #TextToImageGeneration #NeurIPS #Selected Papers/Blogs #Encoder-Decoder #ScoreMatching #U-Net Issue Date: 2025-10-10 [Paper Note] Diffusion Models Beat GANs on Image Synthesis, Prafulla Dhariwal+, NeurIPS'21 Spotlight, 2021.05 GPT Summary- 拡散モデルが最先端の生成モデルを上回る画像サンプル品質を達成。無条件画像合成ではアーキテクチャの改善、条件付き画像合成では分類器のガイダンスを用いて品質向上。ImageNetでのFIDスコアは、128×128で2.97、256×256で4.59、512×512で7.72を達成し、BigGAN-deepに匹敵。分類器のガイダンスはアップサンプリング拡散モデルと組み合わせることでさらに改善され、256×256で3.94、512×512で3.85を記録。コードは公開中。 Comment

openreview: https://openreview.net/forum?id=AAWuCvzaVt

日本語解説: https://qiita.com/UMAboogie/items/160c1159811743c49d99

バックボーンとして使われているU-Netはこちら:
- [Paper Note] U-Net: Convolutional Networks for Biomedical Image Segmentation, Olaf Ronneberger+, MICCAI'15, 2015.05

#Pocket #Transformer #ICLR #Selected Papers/Blogs #Backbone Issue Date: 2025-08-25 [Paper Note] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, Alexey Dosovitskiy+, ICLR'21 GPT Summary- 純粋なトランスフォーマーを画像パッチのシーケンスに直接適用することで、CNNへの依存なしに画像分類タスクで優れた性能を発揮できることを示す。大量のデータで事前学習し、複数の画像認識ベンチマークで最先端のCNNと比較して優れた結果を達成し、計算リソースを大幅に削減。 Comment

openreview: https://openreview.net/forum?id=YicbFdNTTy

ViTを提案した研究

#Pretraining #Pocket #Transformer #Architecture #Backbone Issue Date: 2025-07-19 [Paper Note] Swin Transformer V2: Scaling Up Capacity and Resolution, Ze Liu+, arXiv'21 GPT Summary- 本論文では、大規模ビジョンモデルのトレーニングと応用における課題に対処するための3つの技術を提案。具体的には、トレーニングの安定性向上のための残差後正規化法、低解像度から高解像度への転送を可能にする位置バイアス法、ラベル付きデータの必要性を減少させる自己教師あり学習法を用いる。これにより、30億パラメータのSwin Transformer V2モデルをトレーニングし、複数のビジョンタスクで新記録を樹立。トレーニング効率も向上し、ラベル付きデータと時間を大幅に削減。 #Pocket #Transformer #Attention #Architecture #Selected Papers/Blogs #ICCV #Backbone Issue Date: 2025-07-19 [Paper Note] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows, Ze Liu+, ICCV'21 GPT Summary- Swin Transformerは、コンピュータビジョンの新しいバックボーンとして機能する階層的トランスフォーマーを提案。シフトウィンドウ方式により、効率的な自己注意計算を実現し、さまざまなスケールでのモデリングが可能。画像分類や物体検出、セマンティックセグメンテーションなどで従来の最先端を上回る性能を示し、トランスフォーマーのビジョンバックボーンとしての可能性を示唆。コードは公開されている。 Comment

日本語解説: https://qiita.com/m_sugimura/items/139b182ee7c19c83e70a

画像処理において、物体の異なるスケールや、解像度に対処するために、PatchMergeと呼ばれるプーリングのような処理と、固定サイズのローカルなwindowに分割してSelf-Attentionを実施し、layerごとに通常のwindowとシフトされたwindowを適用することで、window間を跨いだ関係性も考慮できるようにする機構を導入したモデル。

#EfficiencyImprovement #Pretraining #Pocket #NLP #LanguageModel #Transformer #MultiModal Issue Date: 2023-08-22 ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision, Wonjae Kim+, N_A, ICML'21 GPT Summary- VLP（Vision-and-Language Pre-training）のアプローチは、ビジョンと言語のタスクでのパフォーマンスを向上させているが、現在の方法は効率性と表現力の面で問題がある。そこで、本研究では畳み込みフリーのビジョンと言語のトランスフォーマ（ViLT）モデルを提案する。ViLTは高速でありながら競争力のあるパフォーマンスを示し、コードと事前学習済みの重みはGitHubで利用可能である。 Comment

日本語解説: https://tech.fusic.co.jp/posts/2021-12-29-vilt/

#NLP #MultiModal #ContrastiveLearning #ICML Issue Date: 2023-04-27 Learning Transferable Visual Models From Natural Language Supervision, Radford+, OpenAI, ICML'21 Comment

CLIP論文。大量の画像と画像に対応するテキストのペアから、対象学習を行い、画像とテキスト間のsimilarityをはかれるようにしたモデル

#NeuralNetwork #NaturalLanguageGeneration #NLP #Game Issue Date: 2022-09-15 Generating Racing Game Commentary from Vision, Language, and Structured Data, Tatsuya+, INLG'21 Comment

データセット: https://kirt.airc.aist.go.jp/corpus/ja/RacingCommentary

#NeuralNetwork #NeurIPS Issue Date: 2021-11-04 ResNet strikes back: An improved training procedure in timm, Wightman+, NeurIPS'21 Workshop ImageNet PPF GPT Summary- 本論文では、Residual Networks（ResNet-50）の性能を新たなトレーニング手法を用いて再評価し、競争力のある設定で80.4%のトップ1精度を達成したことを報告します。これにより、将来の研究のためのより良いベースラインを提供することを目指しています。 Comment

2015年以後、様々な最適化アルゴリズム、正則化手法、データ拡張などが提案される中で、最新アーキテクチャのモデルにはそれらが適用される一方ベースラインとなるResNetではそれらが適用されず、論文の値のみが参照される現状はフェアではないので、ResNetの性能を向上させるような訓練手法を追求した研究。

ResNetにおける有効な訓練手法として下記を模索：

損失関数として、MixUp（訓練画像を重ね合わせ、組み合わせた画像のラベルをミックスして新しい学習インスタンスを作るデータ拡張手法）と、CutMix（画像を切り貼りして、切り貼り部分の面積に応じてラベルのスコアを調整するデータ拡張手法）を適用し、CutMixによって大幅に性能が改善することを示した。このとき、ラベルの確率の和が1となる前提の元クロスエントロピーで学習するのではなく、元画像に含まれる物体が両方存在するという全体の元BinaryCrossEntropyを適用しマルチラベル問題として学習することで、性能が向上。

データ拡張手法として、MixUp, CutMixだけでなく、通常のリサイズ・切り抜きと、水平方向の反転を適用しデータ拡張する。加えてRandAugment（14種類のデータ拡張操作から、N個サンプルし、強さMで順番に適用するデータ拡張手法。N,Mはそれぞれ0〜10の整数なので、10の二乗オーダーでグリッドサーチすれば、最適なN,Mを得る。グリッドサーチするだけでお手軽だが非常に強力）を適用した。

正則化として、Weight Decay（学習過程で重みが大きくなりすぎないようにペナルティを課し、過学習を防止する手法。L2正則化など。）と、label smoothing（正解ラベルが1、その他は0とラベル付けするのではなく、ラベルに一定のノイズを入れ、正解ラベル以外にも重みが入っている状態にし、ラベル付けのノイズにロバストなモデルを学習する手法。ノイズの強さは定数で調整する）、Repeated Augmentation（同じバッチ内の画像にデータ拡張を適用しバッチサイズを大きくする）、Stochastic Depth（ランダムでレイヤーを削除し、その間を恒等関数で繋ぎ訓練することで、モデルの汎化能力と訓練時間を向上する）を適用。

Optimizerとして、オリジナルのResNetでは、SGDやAdamWで訓練されることが多いが、Repeated Augmentationとバイナリクロスエントロピーを組み合わせた場合はLAMBが有効であった。また、従来よりも長い訓練時間（600epoch、様々な正則化手法を使っているので過学習しづらいため）で学習し、最初にウォームアップを使い徐々に学習率を上げ（finetuningの再認識これまでのweightをなるべく壊したくないから小さい学習率から始める、あるいはMomentumやAdamといった移動平均を使う手法では移動平均を取るための声倍の蓄積が足りない場合学習の信頼度が低いので最初の方は学習率小さくするみたいな、イメージ）その後コサイン関数に従い学習率を減らしていくスケジューリング法で学習。

論文中では上記手法の3種類の組み合わせ（A1,A2,A3）を提案し実験している。

ResNet-50に対してA1,2,3を適用した結果、A1を適用した場合にImageNetのトップ1精度が80.4%であり、これはResNet-50を使った場合のSoTA。元のResNetの精度が76%程度だったので大幅に向上した。

同じ実験設定を使った場合の他のアーキテクチャ（ViTやEfficientNetなど）と比べても遜色のない性能を達成。

また、本論文で提案されているA2と、DeiTと呼ばれるアーキテクチャで提案されている訓練手法（T2）をそれぞれのモデルに適用した結果、ResNetではA2、DeiTではT2の性能が良かった。つまり、「アーキテクチャと訓練方法は同時に最適化する必要がある」ということ。これがこの論文のメッセージの肝とのこと。

（ステートオブAIガイドの内容を一部補足して記述しました。いつもありがとうございます。）

画像系でどういった訓練手法が利用されるか色々書かれていたので勉強になった。特に画像系のデータ拡張手法なんかは普段触らないので勉強になる。

OpenReview: https://openreview.net/forum?id=NG6MJnVl6M5

#NeuralNetwork #Pocket #DiffusionModel #NeurIPS #Selected Papers/Blogs #Encoder-Decoder #ScoreMatching #ImageSynthesis #U-Net Issue Date: 2025-10-10 [Paper Note] Denoising Diffusion Probabilistic Models, Jonathan Ho+, NeurIPS'20, 2020.06 GPT Summary- 拡散確率モデルを用いた高品質な画像合成を提案。新しい重み付き変分境界でのトレーニングにより、優れた結果を得る。無条件CIFAR10で9.46のInceptionスコア、256x256のLSUNでProgressiveGANに匹敵する品質を達成。実装はGitHubで公開。 #Pocket #DataAugmentation #ContrastiveLearning #Self-SupervisedLearning #ICLR #Selected Papers/Blogs Issue Date: 2025-05-18 A Simple Framework for Contrastive Learning of Visual Representations, Ting Chen+, ICML'20 GPT Summary- 本論文では、視覚表現の対比学習のためのシンプルなフレームワークSimCLRを提案し、特別なアーキテクチャやメモリバンクなしで対比自己教師あり学習を簡素化します。データ拡張の重要性、学習可能な非線形変換の導入による表現の質向上、対比学習が大きなバッチサイズと多くのトレーニングステップから利益を得ることを示し、ImageNetで従来の手法を上回る結果を達成しました。SimCLRによる自己教師あり表現を用いた線形分類器は76.5%のトップ1精度を達成し、教師ありResNet-50に匹敵します。ラベルの1%でファインチューニングした場合、85.8%のトップ5精度を達成しました。 Comment

日本語解説: https://techblog.cccmkhd.co.jp/entry/2022/08/30/163625

#NeuralNetwork #MachineLearning #Pocket #NLP #ICLR #KnowledgeEditing #read-later Issue Date: 2025-05-07 Editable Neural Networks, Anton Sinitsin+, ICLR'20 GPT Summary- 深層ニューラルネットワークの誤りを迅速に修正するために、Editable Trainingというモデル非依存の訓練手法を提案。これにより、特定のサンプルの誤りを効率的に修正し、他のサンプルへの影響を避けることができる。大規模な画像分類と機械翻訳タスクでその有効性を実証。 Comment

（おそらく）Knowledge Editingを初めて提案した研究

OpenReview: https://openreview.net/forum?id=HJedXaEtvS

#Pocket #Dataset #Evaluation #Robotics #IROS Issue Date: 2025-11-20 [Paper Note] ReFusion: 3D Reconstruction in Dynamic Environments for RGB-D Cameras Exploiting Residuals, Emanuele Palazzolo+, IROS'19, 2019.05 GPT Summary- 動的要素を含むシーンのマッピングとローカリゼーションのために、RGB-Dセンサーを用いた新しいアプローチを提案。TSDFに基づく効率的なトラッキングを行い、色情報を利用してセンサーのポーズを推定。動的要素の検出には残差と自由空間のモデリングを活用。実験により、提案手法が最先端の密SLAM手法を上回る性能を示し、データセットも公開。オープンソースコードも提供。 #Pocket #NLP #Transformer #MultiModal #Architecture Issue Date: 2025-08-21 [Paper Note] Supervised Multimodal Bitransformers for Classifying Images and Text, Douwe Kiela+, arXiv'19 GPT Summary- テキストと画像情報を融合する監視型マルチモーダルビットランスフォーマーモデルを提案し、さまざまなマルチモーダル分類タスクで最先端の性能を達成。特に、難易度の高いテストセットでも強力なベースラインを上回る結果を得た。 Comment

テキスト+imageを用いるシンプルなtransformer

#NeuralNetwork #EfficiencyImprovement #Pocket #ICML #Selected Papers/Blogs #Backbone Issue Date: 2025-05-12 EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks, Mingxing Tan+, ICML'19 GPT Summary- 本論文では、ConvNetsのスケーリングを深さ、幅、解像度のバランスを考慮して体系的に研究し、新しいスケーリング手法を提案。これにより、MobileNetsやResNetのスケールアップを実証し、EfficientNetsという新しいモデルファミリーを設計。特にEfficientNet-B7は、ImageNetで84.3%のトップ1精度を達成し、従来のConvNetsよりも小型かつ高速である。CIFAR-100やFlowersなどのデータセットでも最先端の精度を記録。ソースコードは公開されている。 Comment

元論文をメモってなかったので追加。
- EfficientNet解説, omiita (オミータ), 2019

も参照のこと。

#NeuralNetwork #Pocket #NLP Issue Date: 2021-06-15 On Empirical Comparisons of Optimizers for Deep Learning, Dami Choi+, N_A, arXiv'19 GPT Summary- 深層学習のオプティマイザの比較は重要であり、ハイパーパラメータの探索空間が性能に影響することが示唆されている。特に、適応的勾配法は常に他のオプティマイザよりも性能が低下しないことが実験で示されており、ハイパーパラメータのチューニングに関する実用的なヒントも提供されている。 Comment

SGD, Momentum,RMSProp, Adam,NAdam等の中から、どの最適化手法(Optimizer)が優れているかを画像分類と言語モデルにおいて比較した研究（下記日本語解説記事から引用）

日本語での解説: https://akichan-f.medium.com/optimizerはどれが優れているか-on-empirical-comparisons-of-optimizers-for-deep-learningの紹介-f843179e8a8d

Adamが良いのだけど、学習率以外のハイパーパラメータをチューニングしないと本来のパフォーマンス発揮されないかもよ、という感じっぽい

ICLR 2020 Open Review: https://openreview.net/forum?id=HygrAR4tPS

OpenReview: https://openreview.net/forum?id=HygrAR4tPS

#Pocket #Dataset #Evaluation #SIGGRAPH Issue Date: 2025-11-20 [Paper Note] Stereo Magnification: Learning View Synthesis using Multiplane Images, Tinghui Zhou+, SIGGRAPH'18, 2018.05 GPT Summary- 視点合成問題において、狭ベースラインのステレオカメラから新しい視点を生成する手法を提案。マルチプレーン画像（MPI）を用いた学習フレームワークを構築し、YouTube動画をデータソースとして活用。これにより、入力画像ペアからMPIを予測し、従来の手法よりも優れた視点外挿を実現。 Comment

pj page: https://tinghuiz.github.io/projects/mpi/

#NeuralNetwork #Analysis #MachineLearning #Pocket #Batch Issue Date: 2025-07-12 [Paper Note] Revisiting Small Batch Training for Deep Neural Networks, Dominic Masters+, arXiv'18 GPT Summary- ミニバッチサイズが深層ニューラルネットワークのトレーニング性能に与える影響を実験的に比較。大きなミニバッチは計算の並列性を向上させるが、小さなミニバッチは一般化性能を高め、安定したトレーニングを実現。最良の性能はミニバッチサイズ$m = 2$から$m = 32$の範囲で得られ、数千のミニバッチサイズを推奨する研究とは対照的。 Comment

{Res, Reduced Alex}Netにおいて、バッチサイズを大きくすると、学習が安定しかつ高い予測性能を獲得できる学習率のrangeが小さくなる。一方、バッチサイズが小さいと有効な学習率のrangeが広い。また、バッチサイズが小さい場合は、勾配計算とパラメータのアップデートがより頻繁に行われる。このため、モデルの学習がより進んだ状態で個々のデータに対して勾配計算が行われるため、バッチサイズが大きい場合と比べるとモデルがより更新された状態で各データに対して勾配が計算されることになるため、学習が安定し良い汎化性能につながる、といった話の模様。

#NeuralNetwork #MachineLearning #Pocket #Normalization Issue Date: 2025-04-02 Group Normalization, Yuxin Wu+, arXiv'18 GPT Summary- グループ正規化（GN）は、バッチ正規化（BN）の代替手段として提案され、バッチサイズに依存せず安定した精度を提供します。特に、バッチサイズ2のResNet-50では、GNがBNよりも10.6%低い誤差を示し、一般的なバッチサイズでも同等の性能を発揮します。GNは物体検出やビデオ分類などのタスクでBNを上回る結果を示し、簡単に実装可能です。 Comment

BatchNormalizationはバッチサイズが小さいとうまくいかず、メモリの制約で大きなバッチサイズが設定できない場合に困るからバッチサイズに依存しないnormalizationを考えたよ。LayerNormとInstanceNormもバッチサイズに依存しないけど提案手法の方が画像系のタスクだと性能が良いよ、という話らしい。

各normalizationとの比較。分かりやすい。

#Dataset #Evaluation #TOG Issue Date: 2025-11-20 [Paper Note] Tanks and temples: Benchmarking large-scale scene reconstruction, Knapitsch+, TOG'17 GPT Summary- 画像ベースの3D再構築のための新しいベンチマークを提案。実際の条件下で取得された高解像度ビデオシーケンスを用い、産業用レーザースキャナーでキャプチャしたグラウンドトゥルースデータを含む。屋外と屋内のシーンを対象に、再構築の忠実度向上を目指す新しいパイプラインの開発を支援し、既存の3D再構築手法の性能を報告。結果は今後の研究の課題と機会を示唆。 #Dataset #Evaluation #CVPR Issue Date: 2025-11-20 [Paper Note] A Multi-view Stereo Benchmark with High-Resolution Images and Multi-camera Videos, Schöps+, CVPR'17 GPT Summary- 新しいマルチビュー立体視データセットを提案し、高精度のレーザースキャナーと低解像度のステレオビデオを用いて多様なシーンを記録。幾何学に基づく手法で画像とレーザースキャンを整合。従来のデータセットとは異なり、自然および人工環境をカバーし、高解像度のデータを提供。データセットは手持ちのモバイルデバイスの使用ケースにも対応し、オンライン評価サーバーで利用可能。 #Pocket #Dataset #Evaluation #CVPR Issue Date: 2025-11-20 [Paper Note] ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes, Angela Dai+, CVPR'17, 2017.02 GPT Summary- 限られたRGB-Dシーン理解のために、1513シーンの2.5Mビューを含むScanNetデータセットを導入。自動表面再構築とクラウドソースによるセマンティックアノテーションを用いたキャプチャシステムを設計し、3Dオブジェクト分類やセマンティックボクセルラベリングで最先端のパフォーマンスを達成。データセットは無料で提供。 #NeuralNetwork #Pocket #Optimizer Issue Date: 2023-12-13 Large Batch Training of Convolutional Networks, Yang You+, N_A, arXiv'17 GPT Summary- 大規模な畳み込みネットワークのトレーニングを高速化するために、新しいトレーニングアルゴリズムを提案しました。このアルゴリズムは、Layer-wise Adaptive Rate Scaling（LARS）を使用して、大きなバッチサイズでのトレーニングを行いながらモデルの精度を損なわずにトレーニングすることができます。具体的には、Alexnetを8Kのバッチサイズまでスケーリングし、Resnet-50を32Kのバッチサイズまでスケーリングしました。 Comment

BatchSizeを大きくすると性能が落ちますよ、系の話（CNN）

OpenReview: https://openreview.net/forum?id=rJ4uaX2aW

ICLR'18にrejectされている

先行研究で提案よりも大きなバッチサイズを扱えるsynchronized SGDは強みだが、評価が一つのタスクのみなのでより増やした方がconvincingだということ、提案手法に追加のハイパーパラメータが必要な点が手法をless appealingにしてしまっていること、layer wise rate scailng (LARS)の理論的なjustificationが何か欲しいこと、先行研究との比較がクリアではないこと、などが理由な模様。

#Pocket #NLP #CommentGeneration #CVPR Issue Date: 2019-09-27 Attend to You: Personalized Image Captioning with Context Sequence Memory Networks, Park+, CVPR'17 Comment

画像が与えられたときに、その画像に対するHashtag predictionと、personalizedなpost generationを行うタスクを提案。

InstagramのPostの簡易化などに応用できる。

Postを生成するためには、自身の言葉で、画像についての説明や、contextといったことを説明しなければならず、image captioningをする際にPersonalization Issueが生じることを指摘。

official implementation: https://github.com/cesc-park/attend2u

#NeuralNetwork #NaturalLanguageGeneration #NLP #ACL Issue Date: 2017-12-31 [Paper Note] Multi-Task Video Captioning with Video and Entailment Generation, Pasunuru+, ACL'17 Comment

解説スライド： https://www.slideshare.net/HangyoMasatsugu/hangyo-acl-paperreading2017multitask-video-captioning-with-video-and-entailment-generation/1

multitask learningで動画（かなり短め）のキャプション生成を行なった話

(2025.05.12)
上記解説資料中のスクショがいくつか掲載されていましたが削除しました。

#NeuralNetwork #Tutorial #Pocket #GenerativeAdversarialNetwork Issue Date: 2017-12-28 [Paper Note] Generative Adversarial Networks: An Overview, Antonia Creswell+, IEEE-SPM'17, 2017.10 GPT Summary- GANは、注釈なしのデータで深い表現を学習する手法で、競争プロセスを通じて逆伝播信号を導出します。画像合成やスタイル転送など多様な応用が可能です。本レビューは、信号処理コミュニティ向けにGANの概要を提供し、トレーニング方法や残された課題についても言及します。 #Dataset #Evaluation #IJCV Issue Date: 2025-11-20 [Paper Note] Large-Scale Data for Multiple-View Stereopsis, Aanæs+, IJCV'16 GPT Summary- 新しいマルチビュー立体視（MVS）データセットを提案し、49または64のカメラ位置から80のシーンを評価。すべての画像は7つの照明条件下で撮影され、正確な構造光スキャンも含まれる。3つの最先端MVSアルゴリズムを適用し、評価プロトコルを拡張。再構築された3Dポイントの品質と物体表面の完全性のトレードオフを観察し、鏡面反射や照明変化の影響は軽微であることを確認。MVSの主要な課題はテクスチャの欠如とメッシングであることが示された。 #NeuralNetwork #Visual Words #Pocket #CVPR #One-Line Notes Issue Date: 2017-12-28 [Paper Note] Generating Visual Explanations, Lisa Anne Hendricks+, CVPR'16, 2016.03 GPT Summary- 分類決定の説明は重要であり、既存の深層視覚認識アプローチは不透明である。新たに提案するモデルは、可視オブジェクトの識別特性に基づき、クラスラベルを予測し、その理由を説明する。サンプリングと強化学習に基づく新しい損失関数を用いて、グローバルな文の特性を実現する。実験結果は、提案モデルが一貫性のある識別的な説明を生成できることを示している。 Comment

画像そのものだけでなく、モデルへのInputにVisual Wordsを明示的に加えることで、captioningの精度が上がりましたという論文

#NeuralNetwork #Visual Words #Pocket #CVPR Issue Date: 2017-12-28 [Paper Note] What value do explicit high level concepts have in vision to language problems?, Qi Wu+, CVPR'16 GPT Summary- CNN-RNNアプローチに高次の概念を組み込むことで、画像キャプショニングと視覚的質問応答の性能を向上。外部の意味情報を導入することでさらなる改善を実現し、V2L問題における高次の意味情報の重要性を分析。 #NeuralNetwork #ECCV Issue Date: 2017-12-28 [Paper Note] Generating Visual Explanations, Hendrickks+, ECCV'16 #NeuralNetwork #Pocket #Selected Papers/Blogs #Encoder-Decoder #Backbone #U-Net Issue Date: 2025-09-22 [Paper Note] U-Net: Convolutional Networks for Biomedical Image Segmentation, Olaf Ronneberger+, MICCAI'15, 2015.05 GPT Summary- データ拡張を活用した新しいネットワークアーキテクチャを提案し、少ない注釈付きサンプルからエンドツーエンドでトレーニング可能であることを示す。電子顕微鏡スタックの神経構造セグメンテーションで従来手法を上回り、透過光顕微鏡画像でも優れた結果を達成。512x512画像のセグメンテーションは1秒未満で完了。実装とトレーニング済みネットワークは公開されている。 #NeuralNetwork #Pocket #ICLR #Backbone Issue Date: 2025-08-25 [Paper Note] Very Deep Convolutional Networks for Large-Scale Image Recognition, Karen Simonyan+, ICLR'15 GPT Summary- 本研究では、3x3の畳み込みフィルタを用いた深い畳み込みネットワークの精度向上を評価し、16-19層の重み層で従来の最先端構成を大幅に改善したことを示す。これにより、ImageNet Challenge 2014で1位と2位を獲得し、他のデータセットでも優れた一般化性能を示した。最も性能の良い2つのConvNetモデルを公開し、深層視覚表現の研究を促進する。 Comment

いわゆるVGGNetを提案した論文

#DocumentSummarization #NaturalLanguageGeneration #Pocket #NLP #Evaluation #ImageCaptioning #Reference-based Issue Date: 2023-05-10 CIDEr: Consensus-based Image Description Evaluation, Ramakrishna Vedantam+, N_A, CVPR'15 GPT Summary- 画像を文章で自動的に説明することは、長年の課題である。本研究では、人間の合意を利用した画像説明の評価のための新しいパラダイムを提案し、新しい自動評価指標と2つの新しいデータセットを含む。提案手法は、人間の判断をより正確に捉えることができ、5つの最先端の画像説明手法を評価し、将来の比較のためのベンチマークを提供する。CIDEr-Dは、MS COCO評価サーバーの一部として利用可能であり、システマティックな評価とベンチマークを可能にする。 #Dataset #Evaluation #CVPR #CameraPoseEstimation Issue Date: 2025-11-20 [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images, Shotton+, CVPR'13 GPT Summary- RGB-Dカメラのポーズ推定を、単一画像から3Dシーンに対して行う手法を提案。回帰フォレストを用いて、RGBおよび深度ピクセルの比較特徴から3Dポイントとの対応関係を推定し、興味点検出器は不要。カメラポーズは、初期仮定からRANSACを用いて洗練され、高精度な再位置決めを実現。提案手法は、最先端のベースラインを大幅に上回る性能を示した。 #Dataset #Evaluation #CVPR Issue Date: 2025-11-20 [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images,Shotton+, CVPR'13 GPT Summary- 単一の画像を用いてRGB-Dカメラのポーズを既知の3Dシーンに対して推定する手法を提案。回帰フォレストを使用し、深度とRGBピクセルの比較特徴のみで対応関係を推定。興味点検出器は不要で、堅牢な最適化手法でカメラポーズを推定。事前RANSACにより仮定ポーズを洗練し、様々なシーンで高精度な再局所化を実現し、最先端の手法を大幅に上回る性能を示した。 #Dataset #Evaluation #ECCV Issue Date: 2025-11-20 [Paper Note] Indoor Segmentation and Support Inference from RGBD Images, Silberman+, ECCV'12 GPT Summary- RGBD画像を用いて、散らかった屋内シーンの主要な表面や物体、支持関係を解析するアプローチを提案。物理的相互作用を考慮し、3Dの手がかりが構造化された解釈に与える影響を探求。新たに1449のRGBD画像からなるデータセットを作成し、支持関係の推測能力を実験で検証。3D手がかりと推測された支持が物体セグメンテーションの向上に寄与することを示す。 #Dataset #Evaluation #ECCV Issue Date: 2025-11-20 [Paper Note] A naturalistic open source movie for optical flow evaluation, Butler+, ECCV'12 GPT Summary- 新しい光学フローデータセットを「Sintel」から作成し、長いシーケンスや大きな動き、鏡面反射などの特徴を持つ。既存の光学フローアルゴリズムがこの複雑なデータセットで困難を抱えていることを示し、さらなる研究の必要性を提起。合成データの使用を実際の映像と比較し、類似性を確認。データセットと評価ツールは公開されている。 Comment

dataset: https://www.kaggle.com/datasets/artemmmtry/mpi-sintel-dataset

#NeuralNetwork #NeurIPS #Selected Papers/Blogs #ImageClassification #Backbone Issue Date: 2025-05-13 ImageNet Classification with Deep Convolutional Neural Networks, Krizhevsky+, NIPS'12 Comment

ILSVRC 2012において圧倒的な性能示したことで現代のDeepLearningの火付け役となった研究AlexNet。メモってなかったので今更ながら追加した。

AlexNet以前の画像認識技術については牛久先生がまとめてくださっている（当時の課題とそれに対する解決法、しかしまだ課題が…と次々と課題に直面し解決していく様子が描かれており非常に興味深かった)。現在でも残っている技術も紹介されている。:
https://speakerdeck.com/yushiku/pre_alexnet

> 過去の技術だからといって聞き流していると時代背景の変化によってなし得たイノベーションを逃すかも

これは肝に銘じたい。

#Dataset #Selected Papers/Blogs #ImageClassification #ObjectRecognition #ObjectLocalization Issue Date: 2025-05-13 ImageNet: A Large-Scale Hierarchical Image Database, Deng+, CVPR'09 #Article #Blog #FlowMatching #reading #RectifiedFlow #FlowMaps Issue Date: 2025-11-28 生成AI革命の最前線：拡散を超える「流れ」の思想とMambaの台頭, laughman-ai, 2025.10 #Article #Blog #read-later #FlowMatching #RectifiedFlow #Physics Issue Date: 2025-11-28 Flow With What You Know, Scott H. Hawley, 2024.11 #Article #NLP #Repository #ComputerUse #VisionLanguageModel #One-Line Notes #Grounding Issue Date: 2025-11-25 GPT-4V-Act, ddupont808, 2023.10 Comment

GPT4V(VLM)と、SoMを用いてVLMによってWebUIとClick/Keyboard操作を通じてinteractできる実装

- [Paper Note] Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V, Jianwei Yang+, arXiv'23, 2023.10

#Article #NLP #Evaluation #VisionLanguageModel #OCR #One-Line Notes Issue Date: 2025-11-25 OCR Arena, extend.ai, 2025.11 Comment

元ポスト:

Loading…

OCRのアリーナ（＝ユーザがPDFをアップロードし2モデルでOCRし優劣をユーザが判定しその結果からElo Rateを算出する）。

言語間の性能差はわからないので参考程度にすると良いと思われる。

#Article #GenerativeAI #ProprietaryLLM #Selected Papers/Blogs #2D (Image) Issue Date: 2025-11-21 Introducing Nano Banana Pro, Google, 2025.11 Comment

元ポスト:

Loading…

所見:

Loading…

所見:

Loading…

#Article #Transformer #DiffusionModel #OpenWeight #VideoGeneration/Understandings Issue Date: 2025-11-21 Hunyuan Video 1.5 Technical Report, Tencent, 2025.11 Comment

pj page: https://hunyuan.tencent.com/video/zh?tabIndex=0
HF: https://huggingface.co/tencent/HunyuanVideo-1.5

元ポスト:

Loading…

#Article #Tutorial #NLP #Blog #ScientificDiscovery #Japanese #Robotics Issue Date: 2025-11-20 TAURO Project, note, 2024.10 Comment

元ポスト:

Loading…

👀👀👀

#Article #NLP #TabularData #OpenWeight #read-later #DocParser #VisionLanguageModel #OCR Issue Date: 2025-11-20 NVIDIA-Nemotron-Parse-v1.1, NVIDIA, 2025.11 Comment

元ポスト:

Loading…

olmocr2と比較して性能はどうだろうか、特に日本語
- olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10

#Article #FoundationModel #Blog #read-later #Selected Papers/Blogs #3D Reconstruction #3D (Scene) Issue Date: 2025-11-20 Introducing SAM 3D: Powerful 3D Reconstruction for Physical World Images, Meta, 2025.11 Comment

元ポスト:

Loading…

解説:

Loading…

#Article #ImageSegmentation #FoundationModel #Blog #read-later #Selected Papers/Blogs #2D (Image) #4D (Video) Issue Date: 2025-11-20 Introducing Meta Segment Anything Model 3 and Segment Anything Playground, Meta, 2025.11 Comment

元ポスト:

Loading…

今度はSAM3、最近毎日なんか新しいの出てるな

#Article #Survey #NLP #MultiModal #Repository #VisionLanguageModel #SpatialUnderstanding Issue Date: 2025-11-18 Awesome Spatial Intelligence in VLMs, mll-lab-nu, 2025.11 Comment

元ポスト:

Loading…

VLM, マルチモーダルなLLMにおけるSpatial Intelligenceに関する論文リスト

#Article #Transformer #FoundationModel #Medical Issue Date: 2025-11-15 How to Train a State-of-the-Art Pathology Foundation Model with $1.6k, Kaplan+, 2025.11 GPT Summary- OpenMidnightは、Midnight病理基盤モデルを再現・改善したもので、12,000枚の全スライド画像を用いて$1.6Kでトレーニングし、複数のベンチマークで最先端の性能を達成。大規模データなしでもトップパフォーマンスが可能であり、トレーニングパイプライン、コード、モデルの重みを公開して研究を促進する。 Comment

HF: https://huggingface.co/SophontAI/OpenMidnight

元ポストより

> The surprising performance of our model points to the challenges of the pathology FM space.
> Performance doesn't seem to scale with compute or dataset size, and for some benchmarks, really simple baselines perform shockingly well.

> In our mind, this indicates both that current models aren't being trained efficiently, and that the current benchmarks are poor.

まだデータセットサイズや計算量に応じてスケールしているようには見えず、現在のモデルが効率的に学習ができてとらず、かつ現在のベンチマークがモデルの性能を適切に測れていないのでは、といった話が記述されている。興味深い。

#Article #NLP #Blog #Reasoning #ComputerUse #VisionLanguageModel #3D (Scene) #Game Issue Date: 2025-11-14 SIMA 2: An Agent that Plays, Reasons, and Learns With You in Virtual 3D Worlds, Google DeepMind, 2025.11 Comment

元ポスト:

Loading…

もはやAIがゲームをできるのは当たり前の時代だが、どのくらいOODに汎化するのかは気になる。

#Article #NLP #FoundationModel #OpenWeight #2D (Image) Issue Date: 2025-11-06 OlmoEarth-v1-Large, Ai2, 2025.11 Comment

元ポスト:

Loading…

衛星画像で学習されたモデルらしい

#Article #Tutorial #Slide #ObjectLocalization #Geometric #Mapping Issue Date: 2025-11-04 Do we still need geometry for Visual Localization and Mapping?, Paul-Edouard Sarlin, 50th Pattern Recognition and Computer Vision Colloquium - CVUT, 2025.10 Comment

元ポスト:

Loading…

#Article #Survey #Slide #read-later #ICCV Issue Date: 2025-11-01 ICCV 2025 Report, Kataoka+, LIMIT.Lab, cvpaper.challenge, Visual Geometry Group （VGG）, 2025.10 Comment

元ポスト:

Loading…

#Article #Survey #WorldModels Issue Date: 2025-11-01 Awesome World Models, Siqiao Huang, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #SpeechProcessing #OpenWeight #MoE(Mixture-of-Experts) #2D (Image) #UMM #4D (Video) #Omni #audio #text Issue Date: 2025-11-01 LongCat-Flash-Omni Technical Report, 2025.10 Comment

元ポスト:

Loading…

HF: https://huggingface.co/meituan-longcat/LongCat-Flash-Omni

text, image/video, audioをinputし、audioを生成するomniモデル

#Article #NLP #Dataset #VisionLanguageModel Issue Date: 2025-10-29 Nemotron-VLM-Dataset-v2, Nvidia, 2025.10 Comment

元ポスト:

Loading…

#Article #Tutorial #ICCV Issue Date: 2025-10-29 From Egocentric Perception to Embodied Intelligence: Building the World in First Person, Ziwei Liu, 2025.10 Comment

元ポスト:

Loading…

#Article #Tutorial #ICCV Issue Date: 2025-10-29 Multimodal Reasoning for Human-Centric Generative Models, Ziwei Liu, 2025.10 Comment

元ポスト:

Loading…

#Article #Tutorial #MultiModal #ICCV Issue Date: 2025-10-29 Native Multimodal Models: Architecture, Post-Training, and Evaluation, Ziwei Liu, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #TTS #Routing #UMM #Omni #Sparse #ImageSynthesis Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

過去一番多くのタグを付与した気がするが、果たして大規模、Omniモデルかつ、UMMにしたことによる恩恵（＝様々なモダリティを統一された空間上に学習させる恩恵）はどの程度あるのだろうか？

アーキテクチャを見ると、モダリティごとに（モダリティ単位でのバイアスがかかった）Routerが用意されexpertにルーティングされるような構造になっている。