<h2 id=Pixel-based> Pixel-based</h2><div class="visible-content"> #ComputerVision #Pocket #ReinforcementLearning #Self-SupervisedLearning #RLVR #VisionLanguageModel #2D (Image) #3D (Scene) #SpatialUnderstanding #One-Line Notes


Issue Date: 2025-11-03 [Paper Note] Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning, Yuhong Liu+, arXiv’25, 2025.10 GPT Summary- 空間理解におけるLVLMの弱点を克服するため、自己教師あり強化学習パラダイムSpatial-SSRLを提案。5つの前提タスクを自動定式化し、検証が容易な信号を導出。これにより、空間推論が大幅に改善され、7つのベンチマークでQwen2.5-VLベースラインに対して平均精度が4.63%(3B)および3.89%(7B)向上。シンプルな監視がRLVRを可能にし、LVLMの空間知能向上に寄与することを示した。 Comment<p>元ポスト:

Loading…

</p><p>RGB/RGB-D imageがgivenなときに、
- cropped patch inpainting
- flipped patch recognition
- shuffled patch reordering
- regional depth ordering
- relative 3D position prediction

の5つのverifiableなタスクを定義しself supervisedなmannerでRLすることでSpatial Understanding能力を向上させる話らしい
image</p></span>

#ComputerVision #EfficiencyImprovement #Pocket #NLP #LanguageModel #MultiModal


Issue Date: 2025-10-22 [Paper Note] Text or Pixels? It Takes Half: On the Token Efficiency of Visual Text Inputs in Multimodal LLMs, Yanhong Li+, arXiv’25, 2025.10 GPT Summary- テキストを画像として提供することで、LLMのトークン使用量を削減しつつ性能を維持できることを示す。長いテキストを画像にレンダリングし、デコーダーに直接入力することで、必要なトークン数を大幅に減少させる。実験により、RULERとCNN/DailyMailのベンチマークで性能を損なうことなく、トークンの節約が実現できることを確認。 Comment<p>元ポスト:

Loading…

</p></span>

#Pocket #NLP #Dataset #Evaluation #VisionLanguageModel #UMM


Issue Date: 2025-10-21 [Paper Note] PixelWorld: Towards Perceiving Everything as Pixels, Zhiheng Lyu+, arXiv’25, 2025.01 GPT Summary- 「Perceive Everything as Pixels(PEAP)」の概念を提案し、自然言語や図式的な入力を単一のピクセル空間に統合するベンチマーク「PixelWorld」を公開。PEAPは意味理解タスクで競争力のある精度を示すが、推論が重要なタスクではパフォーマンスが低下。Chain-of-Thoughtプロンプティングがこのギャップを部分的に緩和し、視覚とテキストの統合により前処理の複雑さが軽減されることが確認された。PixelWorldは統一された視覚言語モデルの評価に役立つ。 Comment<p>元ポスト:

Loading…

</p></span>

</div>

#Pocket #NLP #LanguageModel #Transformer #ICLR #Encoder Issue Date: 2025-10-22 [Paper Note] Language Modelling with Pixels, Phillip Rust+, ICLR'23, 2022.07 GPT Summary- PIXELは、テキストを画像として表現する新しい言語モデルで、語彙のボトルネックを回避し、言語間での表現転送を可能にする。86MパラメータのPIXELは、BERTと同じデータで事前学習され、非ラテン文字を含む多様な言語での構文的および意味的タスクでBERTを大幅に上回る性能を示したが、ラテン文字ではやや劣る結果となった。また、PIXELは正字法的攻撃や言語コードスイッチングに対してBERTよりも堅牢であることが確認された。 Comment

元ポスト:

Loading…