FoundationModel


Paper/Blog Link My Issue
#NLP #MultiModal #SpeechProcessing #OpenWeight #AudioLanguageModel #Music Issue Date: 2026-01-17 GPT Summary- オープンソースの音楽基盤モデルファミリーを提案し、音楽理解と生成を促進する。主要な4つのコンポーネントは、音声・テキストアラインメント、堅牢な歌詞認識、高忠実度音楽コーデック、ユーザー制御可能な条件での歌生成を含む。特化モードでは、音楽属性の制御と短い魅力的な生成が可能。これにより、商業グレードのシステムを再現し、多モーダルコンテンツ制作を促進する基盤を構築。 Comment

pj page: https://heartmula.github.io/
HF: https://huggingface.co/HeartMuLa/HeartMuLa-oss-3B

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Evaluation #TextToImageGeneration #2D (Image) #3D (Scene) #WorldModels #KeyPoint Notes #TextToVideoGeneration Issue Date: 2025-12-19 GPT Summary- MMGR(Multi-Modal Generative Reasoning Evaluation and Benchmark)を導入し、物理的、論理的、空間的、時間的な推論能力に基づくビデオ基盤モデルの評価フレームワークを提案。既存の指標では見落とされる因果関係や物理法則の違反を考慮し、主要なビデオおよび画像モデルをベンチマークした結果、抽象的推論でのパフォーマンスが低いことが明らかに。MMGRは、生成的世界モデルの推論能力向上に向けた統一診断ベンチマークを提供。 Comment

pj page: https://zefan-cai.github.io/MMGR.github.io/

元ポスト:

Loading…

video/image 生成モデルを(単なる動画生成という枠ではなく世界モデルという観点で評価するために)
- physical reasoning: ロボットのシミュレーションやinteractionに必要な物理世界の理解力
- logical (abstract) reasoning: System2 Thinkingい必要な抽象的なコンテプトやルールに従う能力(Aが起きたらBが続く)
- 3D spatial reasoning: 世界の認知mapを内包するために必要な3D空間における関係性や、環境の案内、物事の構造や全体像を把握する能力
- 2D spatial reasoning: 複雑なpromptをgroundingするために必要な2D空間に写像されたレイアウト、形状、相対位置を理解する能力
- Temporal Reasoning: coherenceを保つために必要な、因果関係、イベントの順序、長期的な依存関係を捉える能力
の5つの軸で評価するフレームワーク。




Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Supervised-FineTuning (SFT) #ReinforcementLearning #DiffusionModel #TextToImageGeneration #SmallModel #VideoGeneration/Understandings #VisionLanguageModel Issue Date: 2025-11-20 GPT Summary- Kandinsky 5.0は、高解像度画像と10秒動画合成のための最先端モデルで、3つのコアモデル(Image Lite、Video Lite、Video Pro)から構成される。データキュレーションライフサイクルのレビューや、自己教師ありファインチューニングや強化学習を用いた品質向上技術を取り入れ、高い生成速度とパフォーマンスを実現。オープンソースコードとトレーニングチェックポイントの提供により、研究コミュニティの発展に寄与することを目指す。 Comment

HF: https://huggingface.co/kandinskylab

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #Dataset #Transformer #Evaluation #2D (Image) #4D (Video) #SpatialUnderstanding Issue Date: 2025-11-17 GPT Summary- Depth Anything 3(DA3)は、カメラポーズの有無にかかわらず、視覚入力から空間的一貫性のあるジオメトリを予測するモデルです。DA3は、単一のプレーンなトランスフォーマーをバックボーンとして使用し、複雑なマルチタスク学習を排除することで、Depth Anything 2(DA2)と同等の性能を達成しました。新たに設立した視覚ジオメトリベンチマークでは、DA3がすべてのタスクで最先端の結果を示し、カメラポーズ精度で従来の最先端を44.3%、ジオメトリ精度で25.1%上回りました。すべてのモデルは公共の学術データセットでトレーニングされています。 Comment

関連:
- [Paper Note] Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data, Lihe Yang+, CVPR'24, 2024.01
- [Paper Note] Depth Anything V2, Lihe Yang+, NeurIPS'24, 2024.06

元ポスト:

Loading…

pj page: https://depth-anything-3.github.io/

openreview: https://openreview.net/forum?id=yirunib8l8




Paper/Blog Link My Issue
#ComputerVision #Transformer #read-later #2D (Image) #3D (Scene) #Robotics #SpatialUnderstanding #Omni #Geometric #Robustness Issue Date: 2025-11-16 GPT Summary- OmniVGGTという新しいフレームワークを提案し、RGB以外の幾何学的手がかりを活用して3D基盤モデルの性能を向上させる。GeoAdapterを用いて深度情報やカメラパラメータをモデルにエンコードし、安定した最適化を実現。確率的なマルチモーダル融合手法により、任意の数のモダリティ入力を可能にし、堅牢な空間表現を学習。実験により、OmniVGGTが従来手法を上回り、視覚-言語-行動モデルに統合することでロボティクスタスクでも性能向上を達成。 Comment

元ポスト:

Loading…

depth mapやcameraの情報などの様々な幾何学的情報を入力した場合(depth mapがないなど情報が欠落していても良い)にロバストに対応できるような基盤モデルを構築する手法らしい

image

評価データ:
- [Paper Note] A naturalistic open source movie for optical flow evaluation, Butler+, ECCV'12
- [Paper Note] ReFusion: 3D Reconstruction in Dynamic Environments for RGB-D Cameras Exploiting Residuals, Emanuele Palazzolo+, IROS'19, 2019.05
- [Paper Note] Indoor Segmentation and Support Inference from RGBD Images, Silberman+, ECCV'12
- [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images,Shotton+, CVPR'13
- [Paper Note] ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes, Angela Dai+, CVPR'17, 2017.02
- [Paper Note] A Multi-view Stereo Benchmark with High-Resolution Images and Multi-camera Videos, Schöps+, CVPR'17
- [Paper Note] Large-Scale Data for Multiple-View Stereopsis, Aanæs+, IJCV'16
- [Paper Note] Tanks and temples: Benchmarking large-scale scene reconstruction, Knapitsch+, TOG'17
- [Paper Note] Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life 3D Category Reconstruction, Reizenstein+, ICCV'21
- [Paper Note] Stereo Magnification: Learning View Synthesis using Multiplane Images, Tinghui Zhou+, SIGGRAPH'18, 2018.05
- [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images, Shotton+, CVPR'13
- [Paper Note] CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks, Oier Mees+, RA-L'22 Best Paper Award, 2021.12




Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #NLP #TabularData Issue Date: 2025-11-14 GPT Summary- 次世代の表形式基盤モデルTabPFN-2.5は、最大50,000のデータポイントと2,000の特徴量を持つデータセット向けに設計され、TabPFNv2と比較してデータセルが20倍増加。業界標準のTabArenaで主要な手法となり、以前のモデルを上回る精度を達成。小規模から中規模のデータセットに対して100%の勝率を持ち、大規模データセットでも高い勝率を誇る。商用ユース向けに新しい蒸留エンジンを導入し、低レイテンシーでの展開を実現。これにより、TabPFNエコシステムに基づくアプリケーションのパフォーマンスが向上する。 Comment

TabArenaの2025.11時点でのSoTA
- [Paper Note] TabArena: A Living Benchmark for Machine Learning on Tabular Data, Nick Erickson+, NeurIPS'25 Spotlight, 2025.06

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #Transformer #ImageSegmentation #Prompting #2D (Image) #4D (Video) Issue Date: 2025-11-09 GPT Summary- Segment Anything Model 2(SAM 2)は、プロンプト可能な視覚セグメンテーションのための基盤モデルで、ユーザーのインタラクションを通じてデータを改善するデータエンジンを構築し、最大の動画セグメンテーションデータセットを収集。シンプルなトランスフォーマーアーキテクチャを用い、リアルタイム動画処理に対応。SAM 2は、動画セグメンテーションで従来の手法より3倍少ないインタラクションで高精度を達成し、画像セグメンテーションでも従来モデルより精度が高く、6倍速い。データ、モデル、コード、デモを公開し、関連タスクの重要なマイルストーンを目指す。 Comment

openreview: https://openreview.net/forum?id=Ha6RTeWMd0

SAMはこちら:
- Segment Anything, Alexander Kirillov+, arXiv'23




Paper/Blog Link My Issue
#ComputerVision #Dataset #Transformer #3D Reconstruction #3D (Scene) #UMM #SpatialUnderstanding Issue Date: 2025-10-28 GPT Summary- 人間の3Dシーン理解を模倣するため、空間再構築とインスタンス理解を統合したInstanceGrounded Geometry Transformer(IGGT)を提案。IGGTは2D視覚入力を用いて幾何学的構造とインスタンスクラスタリングを統一的に表現し、3Dシーンの一貫性を向上させる。新たに構築したInsScene-15Kデータセットを用いて、3D一貫性のあるインスタンスレベルのマスク注釈を提供。 Comment

pj page: https://lifuguan.github.io/IGGT_official/

元ポスト:

Loading…

ポイント解説:

Loading…




Paper/Blog Link My Issue
#ComputerVision #read-later #Selected Papers/Blogs Issue Date: 2025-09-25 GPT Summary- 大規模言語モデル(LLMs)のゼロショット能力が自然言語処理を変革したように、生成ビデオモデルも一般目的の視覚理解に向かう可能性がある。Veo 3は、物体のセグメンテーションやエッジ検出など、訓練されていない幅広いタスクを解決できることを示し、視覚推論の初期形態を可能にする。Veoのゼロショット能力は、ビデオモデルが一般的な視覚基盤モデルになる道を示唆している。 Comment

pj page: https://video-zero-shot.github.io

ポイント解説:

Loading…

所見:

Loading…

解説:

Loading…




Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #AIAgents #read-later Issue Date: 2025-09-17 GPT Summary- 大規模言語モデル(LLMs)を用いたエージェントシステムは、複雑な問題解決において進化しているが、ポストトレーニングアプローチではパフォーマンスが低下することが多い。これは、堅牢な基盤モデルの欠如が原因である。そこで、継続的な事前トレーニング(Agentic CPT)を導入し、強力なエージェント基盤モデルを構築することを提案。新たに開発したAgentFounderモデルは、10のベンチマークで最先端のパフォーマンスを達成し、特にBrowseComp-enで39.9%、BrowseComp-zhで43.3%、HLEでのPass@1で31.5%を記録した。 Comment

元ポスト:

Loading…

AI Agentのための基盤モデルを継続事前学習によって実現した模様




Paper/Blog Link My Issue
#LanguageModel #Navigation #VisionLanguageModel #Robotics #EmbodiedAI Issue Date: 2025-09-16 GPT Summary- NavFoMは、800万のナビゲーションサンプルで訓練されたクロス具現化・クロスタスクのナビゲーション基盤モデルであり、ビジョンと言語のナビゲーションや自律運転など多様なタスクに対応。異なるカメラ構成や時間的視野を考慮し、動的に調整されたサンプリング戦略を用いて、ファインチューニングなしで最先端の性能を達成。実世界での実験でも強力な一般化能力を示す。 Comment

pj page: https://pku-epic.github.io/NavFoM-Web/

元ポスト:

Loading…




Paper/Blog Link My Issue
#RecommenderSystems #Embeddings #LanguageModel #read-later Issue Date: 2025-08-26 GPT Summary- LFM4Adsは、オンライン広告のための全表現マルチ粒度転送フレームワークで、ユーザー表現(UR)、アイテム表現(IR)、ユーザー-アイテム交差表現(CR)を包括的に転送。最適な抽出層を特定し、マルチ粒度メカニズムを導入することで転送可能性を強化。テンセントの広告プラットフォームで成功裏に展開され、2.45%のGMV向上を達成。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #Transformer #OpenWeight #CVPR Issue Date: 2025-04-11 GPT Summary- 視覚基盤モデル(VFM)をマルチティーチャー蒸留を通じて統合するアプローチAM-RADIOを提案。これにより、ゼロショットの視覚-言語理解やピクセルレベルの理解を向上させ、個々のモデルの性能を超える。新しいアーキテクチャE-RADIOは、ティーチャーモデルよりも少なくとも7倍速い。包括的なベンチマークで様々な下流タスクを評価。 Comment

元ポスト:

Loading…

vision系のfoundation modelはそれぞれ異なる目的関数で訓練されてきており(CLIPは対照学習 Learning Transferable Visual Models From Natural Language Supervision, Radford+, OpenAI, ICML'21 , DINOv2は自己教師あり学習 DINOv2: Learning Robust Visual Features without Supervision, Maxime Oquab+, TMLR'24 , SAMはsegmentation Segment Anything, Alexander Kirillov+, arXiv'23 )それぞれ別の能力を持ってたが、それらを一個のモデルに蒸留しました、という話らしい
image




Paper/Blog Link My Issue
#RecommenderSystems #LanguageModel #Personalization Issue Date: 2025-01-29 GPT Summary- ランキングおよび推薦システムの課題に対処するため、テキストインターフェースを持つ大規模基盤モデルを活用した研究を紹介。150Bパラメータのデコーダー専用モデル360Brew V1.0は、LinkedInのデータを用いて30以上の予測タスクを解決し、従来の専用モデルと同等以上のパフォーマンスを達成。特徴エンジニアリングの複雑さを軽減し、複数のタスクを単一モデルで管理可能にする利点を示す。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #DataAugmentation #CVPR #2D (Image) #DepthEstimation Issue Date: 2025-11-18 GPT Summary- Depth Anythingは、堅牢な単眼深度推定のための基盤モデルを提案し、6200万の未ラベルデータを自動的に注釈付けしてデータセットを拡大。データ拡張と補助的な監視を用いてモデルの一般化能力を向上させ、ゼロショット評価で優れた結果を示した。NYUv2およびKITTIでファインチューニングし、最先端の性能を達成。モデルは公開されている。 Comment

日本語解説: https://computray.com/98/depth-anything/




Paper/Blog Link My Issue
#ComputerVision #Pretraining #MultiModal #CVPR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-08-23 GPT Summary- 大規模視覚-言語基盤モデル(InternVL)は、60億パラメータで設計され、LLMと整合させるためにウェブ規模の画像-テキストデータを使用。視覚認知タスクやゼロショット分類、検索など32のベンチマークで最先端の性能を達成し、マルチモーダル対話システムの構築に寄与。ViT-22Bの代替として強力な視覚能力を持つ。コードとモデルは公開されている。 Comment

既存のResNetのようなSupervised pretrainingに基づくモデル、CLIPのようなcontrastive pretrainingに基づくモデルに対して、text encoder部分をLLMに置き換えて、contrastive learningとgenerativeタスクによる学習を組み合わせたパラダイムを提案。
image

InternVLのアーキテクチャは下記で、3 stageの学習で構成される。最初にimage text pairをcontrastive learningし学習し、続いてモデルのパラメータはfreezeしimage text retrievalタスク等でモダリティ間の変換を担う最終的にQlLlama(multilingual性能を高めたllama)をvision-languageモダリティを繋ぐミドルウェアのように捉え、Vicunaをテキストデコーダとして接続してgenerative cossで学習する、みたいなアーキテクチャの模様(斜め読みなので少し違う可能性あり

image

現在のVLMの主流であるvision encoderとLLMをadapterで接続する方式はここからかなりシンプルになっていることが伺える。




Paper/Blog Link My Issue
#ComputerVision #Transformer #Self-SupervisedLearning #TMLR Issue Date: 2025-04-11 GPT Summary- 自己教師あり手法を用いて、多様なキュレーションデータから汎用的な視覚特徴を生成する新しい事前学習手法を提案。1BパラメータのViTモデルを訓練し、小型モデルに蒸留することで、OpenCLIPを上回る性能を達成。

Paper/Blog Link My Issue
#Survey #Evaluation #SpeechProcessing #Speech #One-Line Notes Issue Date: 2024-04-21 GPT Summary- 音声処理の基盤モデルパラダイムを探求するため、新たにSpeech processing Universal PERformance Benchmark(SUPERB)を設立。凍結された基盤モデルに軽量な予測ヘッドを適用したマルチタスキングフレームワークを提案し、音声タスクにおける基盤モデルの有効性を実証。結果は、競争力のある一般化能力を示し、決定論的なベンチマークとオンラインリーダーボードを導入し、コミュニティのコラボレーションを促進。最後に、タスク間の情報フローやベンチマークの統計的有意性を分析。 Comment

Speech関連のFoundation Modelの評価結果が掲載されており、大変興味深い。

image

参考:

Loading…




Paper/Blog Link My Issue
#ComputerVision #Pretraining #Transformer #ImageSegmentation #One-Line Notes Issue Date: 2023-04-30 GPT Summary- 医用画像分割は診断や治療計画に不可欠だが、既存手法は特定のモダリティや疾患に限られがち。そこで、10の画像モダリティと30種以上のがんに対応する基盤モデルMedSAMを提案。1,570,263の画像-マスクペアで訓練され、精度と頑健性で専門モデルを上回ることを実証。MedSAMは診断ツールの進化と個別化治療計画を加速する可能性を秘めている。 Comment

SAMの性能は医療画像に対しては限定的だったため、11の異なるモダリティに対して200kのマスクをした医療画像を用意しfinetuningしたMedSAMによって、医療画像のセグメンテーションの性能を大幅に向上。
コードとモデルはpublicly available




Paper/Blog Link My Issue
#ComputerVision #Transformer #ImageSegmentation Issue Date: 2025-04-11 GPT Summary- Segment Anything (SA)プロジェクトは、画像セグメンテーションの新しいタスク、モデル、データセットを提案し、1億以上のマスクを含む1,100万のプライバシー尊重した画像からなる最大のセグメンテーションデータセットを構築しました。プロンプト可能なモデルはゼロショットで新しい画像分布やタスクに適応でき、評価の結果、ゼロショット性能が高く、従来の監視された結果を上回ることもあります。SAMとSA-1Bデータセットは、研究促進のために公開されています。 Comment

SAM論文

pj page: https://segment-anything.com




Paper/Blog Link My Issue
#ComputerVision #NLP #MultitaskLearning #MultiModal Issue Date: 2023-11-13 GPT Summary- Florence-2は、ビジョン基盤モデルであり、さまざまなビジョンタスクに対応するための統一されたプロンプトベースの表現を持っています。このモデルは、テキストプロンプトを受け取り、キャプショニング、オブジェクト検出、グラウンディング、セグメンテーションなどのタスクを実行し、テキスト形式で結果を生成します。また、FLD-5Bという大規模な注釈付きデータセットも開発されました。Florence-2は、多目的かつ包括的なビジョンタスクを実行するためにシーケンスツーシーケンス構造を採用しており、前例のないゼロショットおよびファインチューニングの能力を持つ強力なモデルです。 Comment

Vison Foundation Model。Spatialな階層構造や、Semanticを捉えられるように訓練。Image/Prompt Encoderでエンコードされ、outputはtext + location informationとなる。

image

image




Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Mathematics Issue Date: 2023-10-29 GPT Summary- 私たちは、数学のための大規模な言語モデルであるLlemmaを提案します。Llemmaは、Proof-Pile-2と呼ばれるデータセットを用いて事前学習され、MATHベンチマークで他のモデルを上回る性能を示しました。さらに、Llemmaは追加のfine-tuningなしでツールの使用や形式的な定理証明が可能です。アーティファクトも公開されています。 Comment

CodeLLaMAを200B tokenの数学テキスト(proof-pile-2データ;論文、数学を含むウェブテキスト、数学のコードが含まれるデータ)で継続的に事前学習することでfoundation modelを構築
image

約半分のパラメータ数で数学に関する性能でGoogleのMinervaと同等の性能を達成
image

元ツイート:

Loading…

まだ4-shotしてもAcc.50%くらいなのか。




Paper/Blog Link My Issue
#Survey #ComputerVision Issue Date: 2023-08-08 GPT Summary- 視覚システムの理解と推論における基盤モデルの役割をレビュー。異なるモダリティを組み合わせるアーキテクチャやトレーニング方法、プロンプティングパターンを含む。オープンな課題や研究方向性、評価の困難さ、文脈理解の限界なども議論。基盤モデルの応用を包括的にカバーし、詳細なリストはオンラインで提供。 Comment

CVにおけるfoundation modelのsurvey。残されたチャレンジと研究の方向性が議論されている




Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel Issue Date: 2023-07-23 GPT Summary- CM3Leonは、テキストと画像の生成・補完が可能なマルチモーダル言語モデルで、リトリーバル拡張型のトークンベースのデコーダを使用。CM3アーキテクチャを基に、多様な指示スタイルでのスケーリングとチューニングに優れ、初のテキスト専用モデルから適応されたマルチモーダルモデル。高品質な出力を生成する対照的デコーディング手法を導入し、少ない計算量で最先端の性能を達成。SFT後は、画像編集や生成において高い制御性を示す。

Paper/Blog Link My Issue
#NLP #LanguageModel #OpenWeight #KeyPoint Notes Issue Date: 2023-07-22 GPT Summary- Llama 2という7億から700億パラメータの範囲の大規模言語モデルを開発・公開。対話に最適化されたファインチューニング済みモデルLlama 2-Chatは、多くのベンチマークでオープンソースモデルを上回り、人間による評価でもクローズドソースモデルの代替となる可能性を示す。ファインチューニングと安全性向上のアプローチを詳細に説明し、コミュニティへの貢献を促進。 Comment

参考:

Loading…

Llama, およびLlama2では、一般的なTransformer Decoderとは異なり、linear layerの”前に”RMSPropをかませている点が異なる。

また、Llama2では、Llamaと比較して

- Group Query Attentionの利用 [Paper Note] GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, arXiv'23, 2023.05

- 活性化関数として、ReLUではなく、SwiGLU [Paper Note] GLU Variants Improve Transformer, Noam Shazeer, arXiv'20, 2020.02 の活用

- Positional Embeddingとして、RoPE [Paper Note] RoFormer: Enhanced Transformer with Rotary Position Embedding, Jianlin Su+, Neurocomputing Vol. 568, 2021.04 の活用

- より長いContext Windowsでの学習(4k)

を実施している。

image



出典: https://cameronrwolfe.substack.com/p/llama-2-from-the-ground-up




Paper/Blog Link My Issue
#ComputerVision #Dataset #InductiveBias #NeurIPS #Selected Papers/Blogs #3D Reconstruction #3D (Scene) #NovelViewSynthesis #3D Object Generation Issue Date: 2023-07-12 GPT Summary- 1000万以上の3Dオブジェクトから構成されるデータセットObjaverse-XLを紹介。手作業で設計されたオブジェクトや写真測量スキャンからの多様なオブジェクトを含む。Objaverse-XLは3Dビジョン分野の最大規模と多様性を持ち、Zero123を用いた新規ビュー合成で強力なゼロショット一般化を実現。これにより、3Dビジョンでのさらなる革新が期待される。 Comment

10Mを超える3D objectのデータセットを公開し、3D Modelの基盤モデルとしてZero123-XLを訓練。
元ツイートのGifがわかりやすい。

Loading…


たとえばinputされたイメージに対して、自由にカメラの視点を設定し、その視点からの物体の画像を出力できる。

openreview: https://openreview.net/forum?id=Sq3CLKJeiz¬eId=hnXWj1z2rI




Paper/Blog Link My Issue
#ComputerVision #Transformer #Navigation #Robotics #One-Line Notes Issue Date: 2023-07-11 GPT Summary- 汎用的なファウンデーションモデルViNTを紹介し、ロボットナビゲーションにおける汎用的な成功を目指す。ViNTは、一般的なゴール到達を目的とした学習目標で訓練され、さまざまなナビゲーションタスクに適応可能なTransformerベースのアーキテクチャを持つ。既存データセットで訓練され、専門モデルを上回る性能を示す。新環境探索やタスク仕様への適応にも柔軟で、モバイルロボティクスの基盤モデルとしての有効性を持つ。 Comment

事前学習済みモデルを視覚ベースのロボットナビゲーションに活用するFoundation Model。FlexibleなTransformerベースのアーキテクチャに基づいて構築されており、さまざまなナビゲーションタスクに取り組むことが可能

image




Paper/Blog Link My Issue
#ComputerVision #Pretraining #4D (Video) #One-Line Notes #VideoActionModel Issue Date: 2026-02-27 GPT Summary- オンラインのラベルなし動画を用いた半教師付き模倣学習により、逐次決定領域へインターネット規模の事前学習を拡張。逆ダイナミクスモデルを利用して、少量のラベル付きデータから一般的な行動知識を獲得。これにより、模倣学習と強化学習でのファインチューニングが可能となり、困難な探索課題に対するゼロショット能力を示す。初めて、ダイヤモンドの道具を作成できるコンピュータエージェントが報告され、人間レベルの性能を実現。 Comment

Inverse Dynamics Model (IDM)

observationによる状態の変化が、どのアクションによって引き起こされたかを推定するモデル(Inverse Dynamics Model)を学習し(すべてのobservationのtrajectoryから時刻tでのアクションを予測するモデル)アクション-状態遷移のダイナミクスの知識を理解したモデルを学習。その後大量のunlabeled dataに対してIDM Modelによって、アクションをラベル付けし、当該アクションラベルを教師として、Forward Dynamics Model (時刻tまでの状態遷移が与えられた時に次にどのようなアクションが実施されるかを予測するモデル)を学習することで事前学習をする手法な模様。




Paper/Blog Link My Issue
#NeuralNetwork #MachineTranslation #NLP #Transformer #Attention #PositionalEncoding #NeurIPS #Normalization #Selected Papers/Blogs #KeyPoint Notes #Reference Collection Issue Date: 2018-01-19 GPT Summary- Transformerは、再帰や畳み込みを排除し、注意機構のみに基づいた新しいネットワークアーキテクチャである。実験により、機械翻訳タスクで優れた品質を示し、トレーニング時間を大幅に短縮。WMT 2014の英独翻訳で28.4 BLEU、英仏翻訳で41.8 BLEUを達成し、既存モデルを上回る性能を示した。また、英語の構文解析にも成功裏に適用可能であることを示した。 Comment

Transformer (self-attentionを利用) 論文

解説スライド: https://www.slideshare.net/DeepLearningJP2016/dlattention-is-all-you-need

解説記事: https://qiita.com/nishiba/items/1c99bc7ddcb2d62667c6



* 新しい翻訳モデル(Transformer)を提案。既存のモデルよりも並列化に対応しており、短時間の訓練で(既存モデルの1/4以下のコスト)高いBLEUスコアを達成した。

* TransformerはRNNやCNNを使わず、attentionメカニズムに基づいている。



(解説より)

分かりやすい:
https://qiita.com/halhorn/items/c91497522be27bde17ce

Transformerの各コンポーネントでのoutputのshapeや、attention_maskの形状、実装について記述されており有用:
https://qiita.com/FuwaraMiyasaki/items/239f3528053889847825

集合知

Transformer提案時と最近の動向への流れ

- BPEによるOOVの防止
- その後sentencepieceによる真の多言語化の実現
- Positional Encodingの提案
- 本稿はSinusoidal PE(絶対位置エンコーディング)で提案され、その後相対位置エンコーディング / RoPE / NoPE などの変種が登場
- Residual Connectionによる勾配爆発・消失の低減による深いモデル化
- 最近はHyperConnection等のResidual Streamの改善が進む
- Scaled dot product attention(のsqrt(d)での除算)によるノルム肥大化の防止
- Multi-head-attentionによるトークン間の多様な関係性のモデル化
- トークン間を跨いだ情報のmixing
- FFNによるトークン内での情報のmixing
- O(n^2)によるボトルネックを改善するために Sparse Attention / Linear Attention 等のより計算量が小さい手法へ進展
- また、実装上の工夫としてFlash Attentionが標準に
- Layer Normalizationによる正規化(内部共変量シフト防止)による学習の安定化
- 本稿ではPostLN
- その後Pre-LNの方が性能は落ちるが学習が安定するため主流となり、現在またPost-LNが再考されている
- また、現在はLayerNormalizationではなくRMSNormを使用する傾向がある
- 本稿ではRNNと比較して並列計算可能なEncoder-Decoderアーキテクチャとして提案されMTで評価
- Decoder側ではCausal Maskの導入によるleakの防止
- その後、Decoder-only Model として現在のLLMの基盤に
- 実装上の工夫としてKV Cacheによる生成の高速化




Paper/Blog Link My Issue
#Article #ComputerVision #Pretraining #DiffusionModel #ComputerUse #4D (Video) #One-Line Notes #VideoActionModel Issue Date: 2026-02-27 Comment

元ポスト:

Loading…

公式ポスト:

Loading…

関連:
- [Paper Note] Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos, Bowen Baker+, arXiv'22, 2022.06

Training Recipeの部分を読むと、上記研究で提案されているVideo PreTrainingと同じ手法を用いているように見える。
つまり、Inverse Dynamics Modelを学習し、大量のvideoデータに対してアクションラベルを付与し、付与されたアクションラベルを用いて半教師あり学習によるnext action predictionを実施することによって基盤モデルを学習する、というアプローチ。

この基盤モデルによってたとえば1時間のサンフランシスコをdrivingしている動画によってfinetuningすることで、自動運転をするようなモデルが学習できる、といったことが実現可能な模様。




Paper/Blog Link My Issue
#Article #MachineLearning #NLP #Post #WorldModels #Initial Impression Notes Issue Date: 2026-02-13 Comment

やはり次のFoundation Modelsの軸としてWorld Modelsやシミュレーションが注目されているように感じる。実際、シミュレーションによって様々なデータが合成できれば現在の基盤モデルをさらに引き上げると思われる。

関連:

Loading…

Karpathy氏のポスト:

Loading…

続報:

Loading…




Paper/Blog Link My Issue
#Article #Pretraining #Selected Papers/Blogs #DataMixture #Robotics #VisionLanguageActionModel #4D (Video) #EmbodiedAI #KeyPoint Notes #EmergentAbilities #EgocentricView #DomainGap Issue Date: 2025-12-18 Comment

元ポスト:

Loading…

pi_0.5と呼ばれる基盤モデルのfinetuningにおいてロボット用の学習データに追加して人間のegocentricなvideoをmixtureするだけで創発現象が生じ、人間の動画側にしか存在しない4種類のgeneralizationが必要なシナリオにおいて2倍の性能を示した。そしてこの傾向は、事前学習における基盤モデルのサイズをスケールさせる、ロボットのデータをより多く投入することでより顕著となった。
image

人間とロボットの特徴量を2D plotした散布図を見ると、事前学習で利用するロボットの学習データ(事前学習時点では人間の動画は含まれないことに注意)をスケールさせると、両者の特徴量が重なるようになったので、human-robotのalignmentをモデルが獲得していることが示唆される。
これにより、今後VLAを学習する際に、domain gapを埋めるための特別な処理が不要となる可能性がある、といった話らしい。

これが真だとすると、たとえば以下のように、人間のegocentric viewデータを大量に保有したところが有利にはなりそうではある。
- Interactive Intelligence from Human Xperience, Ropedia, 2025.12




Paper/Blog Link My Issue
#Article #ComputerVision #Transformer #Medical Issue Date: 2025-11-15 GPT Summary- OpenMidnightは、Midnight病理基盤モデルを再現・改善したもので、12,000枚の全スライド画像を用いて$1.6Kでトレーニングし、複数のベンチマークで最先端の性能を達成。大規模データなしでもトップパフォーマンスが可能であり、トレーニングパイプライン、コード、モデルの重みを公開して研究を促進する。 Comment

HF: https://huggingface.co/SophontAI/OpenMidnight

元ポストより

> The surprising performance of our model points to the challenges of the pathology FM space.
> Performance doesn't seem to scale with compute or dataset size, and for some benchmarks, really simple baselines perform shockingly well.

> In our mind, this indicates both that current models aren't being trained efficiently, and that the current benchmarks are poor.

まだデータセットサイズや計算量に応じてスケールしているようには見えず、現在のモデルが効率的に学習ができてとらず、かつ現在のベンチマークがモデルの性能を適切に測れていないのでは、といった話が記述されている。興味深い。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #OpenWeight #RecurrentModels #Operator Issue Date: 2025-09-26 Comment

元ポスト:

Loading…

LiquidAIによるedgeデバイス向けのFoundation Model。品質、スピード、メモリ、ハードウェアのバランスを最適にしておるとのこと。たとえばQwenと比較して2倍のデコードとprefill速度とのこと。また、同サイズのモデル群よりも高い性能を実現しているらしい。
下記グラフはMMLU, IFEval,IFBENCH,GSM8K,MMMLUでの評価の平均。他にもGPQA,MGSMでも評価しており、同サイズのモデルと比べて同等か少し劣るくらい。

image

アーキテクチャはRNNをベースにしており、従来の時間がstepごとに発展するRNNではなく、連続時間を扱えるようなRNNの変種なようでより柔軟に時間スケールを扱えるようなアーキテクチャらしい。また、LIV Operatorと呼ばれる入力に応じて動的に異なる線形変換を実施するOperatorを採用している模様。たとえば入力に応じて、convolution, attention, recurrenceなどのoperationが変化する。これに基づいて、さまざまなアーキテクチャのNNを定義できるようになったので、最適なアーキテクチャを模索するためにSTARと呼ばれるアルゴリズムでNeural Architecture Searchを実施した模様。

メモリに制約があるエッジデバイス向けにKVCache不要で現在の隠れ状態のみを保持すれば良いRNNベースのアーキテクチャを採用するのは理に適っている。

日本語解説: https://qiita.com/peony_snow/items/36fb856925c2d7beef26




Paper/Blog Link My Issue
#Article #StructuredData Issue Date: 2025-09-02 Comment

元ポスト:

Loading…

large structured-data model (LDM)と呼ばれる構造化データに対する基盤モデルな模様




Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiModal #MultiLingual Issue Date: 2024-12-04 Comment

参考: https://qiita.com/ysit/items/8433d149dbaab702d526

テクニカルレポート: https://assets.amazon.science/9f/a3/ae41627f4ab2bde091f1ebc6b830/the-amazon-nova-family-of-models-technical-report-and-model-card.pdf

後で個々のベンチマークとメトリックをまとめたい。

まあでもざっくり言うと、他のproprietaryモデルともおおむね同等の性能です、という感じに見える。個々のタスクレベルで見ると、得意なものと不得意なものはありそうではある。

image
image
image
image
image
image

スループットとかも、ProとGPT4oをパッと見で比較した感じ、優れているわけでもなさそう。Liteに対応するGPTはおそらくGPT4o-miniだと思われるが、スループットはLiteの方が高そう。
image

image
image
image

(画像は論文中からスクショし引用)

下記ポストは独自に評価した結果や、コストと性能のバランスについて言及している。

- ProはGPT4oのコストの約1/3
- Pro, Lite, Flashはほれぞれコストパフォーマンスに非常に優れている(Quality vs. Price参照)

元ポスト:

Loading…




Paper/Blog Link My Issue
#Article #LanguageModel Issue Date: 2023-12-19 Comment

Llama2の日本語性能を継続事前学習で引き上げたLLM。2023年12月時点の日本語オープンソースLLMの中で最高性能とのこと。

開発者の方による詳細はこちら:
https://zenn.dev/tokyotech_lm/articles/d6cb3a8fdfc907

すごい読み応え…checkpointの容量のデカさや、A100x8 60ノード使った話や、ノード不良やスケジュール管理の話、独自に実装をゴリゴリ加えたものではなく最終的に完成度の高さからMegatronLMを採用した話など、バグった規模感と試行錯誤や実体験に基づくエピソード満載。

参考:
ELYZA-tasks-100 でLLM14個の日本語性能を横断評価してみた




Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #MultiModal #Blog Issue Date: 2023-11-01 Comment

NTT製のLLM。パラメータ数は7Bと軽量だが高性能。
MTBenchのようなGPT4に勝敗を判定させるベンチマークで、地理、歴史、政治、社会に関する質問応答タスク(図6)でgpt3.5turboと同等、国産LLMの中でトップの性能。GPT3.5turboには、コーディングや数学などの能力では劣るとのこと。
image
image
> *6 Rakudaベンチマーク
日本語の言語モデルの性能を評価するベンチマークの一つで、日本の地理・政治・歴史・社会に関する質問応答タスクによって評価を行う。
URL: https://yuzuai.jp/benchmark

>*7 Japanese Vicuna QAベンチマーク
Rakudaよりもさらに幅広いカテゴリで言語モデルのQAや指示遂行の能力を問う評価方法。一般知識、ロールプレイなど多数の質問から構成される。
URL: https://github.com/hitoshizuku7/LLM_Judge_ku/blob/main/README.md

tsuzumiはアダプタを追加することで、モデル全体のパラメータを更新することなく、さまざまな知識を持たせたり、振る舞いを変えたりできるようになるとのこと(LoRAアダプタのようなものだと思われる)。
まて、将来的に視覚や聴覚などのマルチモーダル対応も実施。

思想がLoRA Hub LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA Composition, Chengsong Huang+, N/A, COLM'24 に近く、アダプタを着脱すれば柔軟に生成を変えられるのは有用だと思う。




Paper/Blog Link My Issue
#Article #NaturalLanguageGeneration #NLP #LanguageModel #Blog #Coding #KeyPoint Notes #needs-revision Issue Date: 2023-05-06 Comment

・15.5Bパラメータ
・80種類以上のプログラミング言語で訓練
・Multi Query Attentionを利用
・context window size 8192
・Fill in the middle objectiveを利用

Instruction tuningがされておらず、prefixとsuffixの間を埋めるような訓練のされ方をしているので、たとえば関数名をinputして、そのmiddle(関数の中身)を出力させる、といった使い方になる模様。

paper: https://drive.google.com/file/d/1cN-b9GnWtHzQRoE7M7gAEyivY0kl4BYs/view

StarCoder:
https://huggingface.co/bigcode/starcoder

StarCoderBaseを35Bのpython tokenでfinetuningしたモデル。
既存モデルよりも高性能と主張

image