Scalability
#RecommenderSystems
#Pocket
#LanguageModel
#ReinforcementLearning
#VariationalAutoEncoder
#PostTraining
#read-later
#Selected Papers/Blogs
#One-Line Notes
Issue Date: 2025-11-26 [Paper Note] MiniOneRec: An Open-Source Framework for Scaling Generative Recommendation, Xiaoyu Kong+, arXiv'25, 2025.10 GPT Summary- MiniOneRecを提案し、SID構築から強化学習までのエンドツーエンドの生成レコメンデーションフレームワークを提供。実験により、モデルサイズの増加に伴いトレーニング損失と評価損失が減少し、生成アプローチのパラメータ効率が確認された。さらに、SID整合性の強制と強化学習を用いたポストトレーニングパイプラインにより、ランキング精度と候補の多様性が大幅に向上。 Comment
#Pocket #Selected Papers/Blogs #Robotics #Sim-to-Real #Loco-Manipulation
Issue Date: 2025-11-21 [Paper Note] VIRAL: Visual Sim-to-Real at Scale for Humanoid Loco-Manipulation, Tairan He+, arXiv'25, 2025.11 GPT Summary- VIRALというフレームワークを用いて、ヒューマノイドロボットのロコマニピュレーションをシミュレーションから実世界に展開。教師-生徒の強化学習を通じて、視覚ベースのポリシーを訓練し、計算規模が成功に重要であることを示す。シミュレーションと実世界の整合性を確保し、Unitree G1ヒューマノイドでの実験により、専門家レベルの性能に近づくことを確認。 Comment
discussionの部分が興味深い
#ComputerVision #Pretraining #Pocket #Transformer #Self-SupervisedLearning #ICCV
Issue Date: 2025-10-20 [Paper Note] Scaling Language-Free Visual Representation Learning, David Fan+, ICCV'25, 2025.04 GPT Summary- 視覚的自己教師あり学習(SSL)は、CLIPに比べて視覚的質問応答(VQA)でのパフォーマンスが劣るが、同じデータセットで訓練することで、視覚的SSLモデルがCLIPモデルよりもスケールが良いことを示した。視覚的SSLは、VQAや従来の視覚ベンチマークでCLIPレベルのパフォーマンスを達成できる可能性がある。これにより、視覚中心の表現学習に新たな機会が開かれる。 Comment
Issue Date: 2025-11-26 [Paper Note] MiniOneRec: An Open-Source Framework for Scaling Generative Recommendation, Xiaoyu Kong+, arXiv'25, 2025.10 GPT Summary- MiniOneRecを提案し、SID構築から強化学習までのエンドツーエンドの生成レコメンデーションフレームワークを提供。実験により、モデルサイズの増加に伴いトレーニング損失と評価損失が減少し、生成アプローチのパラメータ効率が確認された。さらに、SID整合性の強制と強化学習を用いたポストトレーニングパイプラインにより、ランキング精度と候補の多様性が大幅に向上。 Comment
github: https://github.com/AkaliKong/MiniOneRec
元ポスト:
興味深い話ではあるが、generativeなRecSysはlatencyの面で厳しいものがあるという認識ではある。読みたい。
#Pocket #Selected Papers/Blogs #Robotics #Sim-to-Real #Loco-Manipulation
Issue Date: 2025-11-21 [Paper Note] VIRAL: Visual Sim-to-Real at Scale for Humanoid Loco-Manipulation, Tairan He+, arXiv'25, 2025.11 GPT Summary- VIRALというフレームワークを用いて、ヒューマノイドロボットのロコマニピュレーションをシミュレーションから実世界に展開。教師-生徒の強化学習を通じて、視覚ベースのポリシーを訓練し、計算規模が成功に重要であることを示す。シミュレーションと実世界の整合性を確保し、Unitree G1ヒューマノイドでの実験により、専門家レベルの性能に近づくことを確認。 Comment
pj page: https://viral-humanoid.github.io/
元ポスト:
関連:
- ACT-1: A Robot Foundation Model Trained on Zero Robot Data, Sunday Team, 2025.11
解説:
discussionの部分が興味深い
#ComputerVision #Pretraining #Pocket #Transformer #Self-SupervisedLearning #ICCV
Issue Date: 2025-10-20 [Paper Note] Scaling Language-Free Visual Representation Learning, David Fan+, ICCV'25, 2025.04 GPT Summary- 視覚的自己教師あり学習(SSL)は、CLIPに比べて視覚的質問応答(VQA)でのパフォーマンスが劣るが、同じデータセットで訓練することで、視覚的SSLモデルがCLIPモデルよりもスケールが良いことを示した。視覚的SSLは、VQAや従来の視覚ベンチマークでCLIPレベルのパフォーマンスを達成できる可能性がある。これにより、視覚中心の表現学習に新たな機会が開かれる。 Comment
pj page: https://davidfan.io/webssl/
元ポスト:
#Pocket
#NLP
#LanguageModel
#Coding
#LLM-as-a-Judge
#Test-Time Scaling
#One-Line Notes
Issue Date: 2025-10-19
[Paper Note] Scaling Test-Time Compute to Achieve IOI Gold Medal with Open-Weight Models, Mehrzad Samadi+, arXiv'25, 2025.10
GPT Summary- 競技プログラミングはLLMsの能力を評価する重要なベンチマークであり、IOIはその中でも特に権威ある大会です。本論文では、オープンウェイトモデルがIOI金メダルレベルのパフォーマンスを達成するためのフレームワーク「GenCluster」を提案します。このフレームワークは、生成、行動クラスタリング、ランキング、ラウンドロビン戦略を組み合わせて多様な解決空間を効率的に探索します。実験により、GenClusterは計算リソースに応じてスケールし、オープンシステムとクローズドシステムのギャップを縮小することが示され、IOI 2025で金メダルを達成する可能性を示唆しています。
Comment
#ComputerVision #Pretraining #Pocket #VisionLanguageModel #UMM Issue Date: 2025-10-19 [Paper Note] From Pixels to Words -- Towards Native Vision-Language Primitives at Scale, Haiwen Diao+, arXiv'25, 2025.10 GPT Summary- ネイティブなビジョン・ランゲージモデル(VLM)の課題を明確にし、効果的な構築指針を示す。具体的には、ピクセルと単語の整合、ビジョンとランゲージの統合、クロスモーダル特性の具現化を重視。新たに開発したNEOは、390Mの画像-テキスト例で視覚的知覚を効率的に発展させ、コスト効率の高いエコシステムを提供。 Comment
元ポスト:
OpenWeight modelで初めてIOI金メダル級のパフォーマンスを実現できるフレームワークで、まずLLMに5000個程度の潜在的なsolutionを生成させ、それぞれのsolutionを100種のtest-caseで走らせて、その後solutionをbehaviorに応じてクラスタリングする。これによりアプローチのユニークさにそってクラスタが形成される。最終的に最も良いsolutionを見つけるために、それぞれのクラスタから最も良いsolutionを互いに対決させて、LLM-as-a-Judgeで勝者をランク付けするような仕組みのようである。https://github.com/user-attachments/assets/899026dd-38a9-4a1d-a871-2a37bcfeb623"
/>
#ComputerVision #Pretraining #Pocket #VisionLanguageModel #UMM Issue Date: 2025-10-19 [Paper Note] From Pixels to Words -- Towards Native Vision-Language Primitives at Scale, Haiwen Diao+, arXiv'25, 2025.10 GPT Summary- ネイティブなビジョン・ランゲージモデル(VLM)の課題を明確にし、効果的な構築指針を示す。具体的には、ピクセルと単語の整合、ビジョンとランゲージの統合、クロスモーダル特性の具現化を重視。新たに開発したNEOは、390Mの画像-テキスト例で視覚的知覚を効率的に発展させ、コスト効率の高いエコシステムを提供。 Comment
元ポスト: