Generalization

#ComputerVision #Pocket #AIAgents #VisionLanguageModel #3D (Scene) #Game #Realtime
Issue Date: 2025-11-13 [Paper Note] Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds, Weihao Tan+, arXiv'25, 2025.11 GPT Summary- Lumineは、3Dオープンワールド環境で複雑なミッションをリアルタイムで完了できる一般的なエージェントのためのオープンレシピです。人間のようなインタラクションを採用し、視覚と言語のモデルを統合して知覚、推論、行動を実現。Genshin Impactで訓練されたLumineは、自然言語の指示に従い、幅広いタスクを効率的に実行します。また、ファインチューニングなしで他のゲームでも高いパフォーマンスを示し、オープンエンドな環境における一般的なエージェントへの進展を示しています。 Comment

pj page: https://www.lumine-ai.org/

> 1731 hours of human gameplay for pre-training to master action primitives;

> 200 hours of instruction following data to ground control in language;

> 15 hours of reasoning data to enable adaptive thinking.

元ポスト:

Loading…


#Pocket #NLP #LanguageModel #MoE(Mixture-of-Experts) #PostTraining #Routing
Issue Date: 2025-11-12 [Paper Note] Routing Manifold Alignment Improves Generalization of Mixture-of-Experts LLMs, Zhongyang Li+, arXiv'25, 2025.11 GPT Summary- Sparse Mixture-of-Experts (MoE)は、推論コストを増やさずにモデル能力を拡張するが、既存のMoE LLMではルーターの最適性が欠けており、性能に10-20%のギャップが生じている。本研究では、ルーティング重みの多様体をタスク埋め込みの多様体と整合させる「Routing Manifold Alignment (RoMA)」手法を提案し、MoE LLMの一般化性能を向上させる。RoMAは、ルーターのファインチューニングを通じて、類似タスク間で専門家の選択を共有し、タスク理解と解決策生成を統一する。実験により、RoMAを用いたファインチューニングが多様なベンチマークで大幅な性能改善をもたらすことが示された。 Comment

元ポスト:

Loading…


#Pocket #NLP #LanguageModel #ReinforcementLearning #SelfImprovement #Catastrophic Forgetting #RLVR #Diversity #KeyPoint Notes
Issue Date: 2025-11-07 [Paper Note] RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization, Zeng Zhiyuan+, arXiv'25, 2025.11 GPT Summary- RLoopは、強化学習における過剰適合の問題を解決するための自己改善フレームワークであり、ポリシーの多様性を保ちながら一般化能力を向上させる。RLを用いて解空間を探索し、成功した軌跡から専門家データセットを作成し、拒否サンプリング微調整を行うことで、次の反復の出発点を洗練する。実験により、RLoopは忘却を軽減し、平均精度を9%、pass@32を15%以上向上させることが示された。 Comment

元ポスト:

Loading…

ポリシーを初期化し、RLを実行しtrajeatory tを取得。tをrejection samplingし成功したtrajectoryでエキスパートデータセットを作成。作成したエキスパートデータセットでポリシーをSFT(=Rejection SamplingしたデータでSFTすることをRFTと呼ぶ)する(これが次iterationの初期化となる)といったことを繰り返す。
image

RLはAdvantageによって学習されるため、trajectoryの相対的な品質に基づいて学習をする。このため、バッチ内のすべてのtrajectoryが正解した場合などはadvantageが限りなくゼロに近づき学習のシグナルを得られない。

一方RFTは絶対的なRewardを用いており(RLVRの場合は成功したら1,そうでなければ0)、これがバッチ全体のパフォーマンスに依存しない安定した分散の小さい学習のシグナルを与える。

このように両者は補完的な関係にある。ただしRFTは成功したtrajectory全てに均等な重みを与えるため、既にポリシーが解くことができる問題にフォーカスしすぎることによって効率性が悪化する問題があるため、提案手法では成功率が低いhardなサンプルのみにエキスパートデータをフィルタリングする(=active learning)ことで、モデルが自身に不足した能力を獲得することに効率的に注力することになる。

また、RFTを使うことは単なるヒューリスティックではなく、理論的なgroundingが存在する。すなわち、我々はまだ未知の"expert"な分布 p^*にポリシーが従うように学習をしたいがこれはMLEの観点で言うと式3に示されているような形式になる。p^*から直接データをサンプリングをすることができないが、RLのポリシーから近似的にサンプリングをすることができる。そこでMLEの式をimportance samplingの観点から再度定式化をすると式4のようになり、後はimportance weight wを求められれば良いことになる。これはp^*に近いtrajectoryはRewardが高く、そうでない場合は低い、つまりw \propto Reward な関係であるため近似的に求めることができ、これらを式4のMLEの式に代入するとRFTと同じ式が導出される。

みたいな話のようである。



#ComputerVision #Pocket #Dataset #Zero/Few/ManyShotPrompting #Evaluation #MultiModal #In-ContextLearning #NeurIPS #read-later #Selected Papers/Blogs #OOD #VisionLanguageModel #One-Line Notes #ObjectDetection Issue Date: 2025-10-27 [Paper Note] Roboflow100-VL: A Multi-Domain Object Detection Benchmark for Vision-Language Models, Peter Robicheaux+, NeurIPS'25, 2025.05 GPT Summary- 視覚と言語のモデル(VLMs)は、一般的な物体に対して優れたゼロショット検出性能を示すが、分布外のクラスやタスクに対しては一般化が難しい。そこで、少数の視覚例と豊富なテキスト記述を用いてVLMを新しい概念に整合させる必要があると提案。Roboflow100-VLという多様な概念を持つ100のマルチモーダル物体検出データセットを導入し、最先端モデルの評価を行った。特に、難しい医療画像データセットでのゼロショット精度が低く、少数ショットの概念整合が求められることを示した。 Comment

元ポスト:

Loading…

VLMが「現実世界をどれだけ理解できるか」を評価するためのobject detection用ベンチマークを構築。100のopen source datasetから構成され、それぞれにはtextでのfew shot instructionやvisual exampleが含まれている。データセットは合計で約165kの画像、約1.35M件のアノテーションが含まれ、航空、生物、産業などの事前学習ではあまりカバーされていない新規ドメインの画像が多数含まれているとのこと。

そして現在のモデルは事前学習に含まれていないOODな画像に対する汎化性能が低く、いちいちモデルを追加で学習するのではなく、ICLによって適用できた方が好ましいという考えがあり、そして結果的に現在のVLMでは、ICLがあまりうまくいかない(ICLによるOODの汎化が効果的にできない)ことがわかった、という話らしい。

が、
- [Paper Note] Many-Shot In-Context Learning in Multimodal Foundation Models, Yixing Jiang+, arXiv'24, 2024.05

での知見と異なる。差異はなんだろうか?

以下のスレッドで議論がされている:

Loading…

pj page: https://rf100-vl.org

うーんあとでしっかり読みたい、、、



#Pocket #NLP #LongSequence #SSM (StateSpaceModel) #Selected Papers/Blogs #memory Issue Date: 2025-10-18 [Paper Note] To Infinity and Beyond: Tool-Use Unlocks Length Generalization in State Space Models, Eran Malach+, arXiv'25, 2025.10 GPT Summary- 状態空間モデル(SSM)は、長文生成において効率的な代替手段であるが、真の長文生成問題を解決できないことが明らかにされた。外部ツールへのインタラクティブなアクセスを許可することで、この制限を克服できることが示され、SSMは問題依存のトレーニングデータを用いて任意の問題に一般化できる。ツールを強化したSSMは、算術や推論、コーディングタスクにおいて優れた長さの一般化を達成し、トランスフォーマーに対する効率的な代替手段となる可能性がある。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

所見:

Loading…

解説:

Loading…


#Pocket #NLP #AIAgents #Test-time Learning Issue Date: 2025-10-17 [Paper Note] Training-Free Group Relative Policy Optimization, Yuzheng Cai+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデル(LLM)の専門的なドメインでのパフォーマンス向上のため、Training-Free GRPOを提案。これは、パラメータ更新なしでLLMエージェントの性能を向上させ、少ないトレーニングデータで高品質な経験的知識を蒸留する手法。数学的推論やウェブ検索タスクでの実験により、Training-Free GRPOが小型LLMを上回る性能を示した。 Comment

元ポスト:

Loading…


#MachineLearning #Pocket #NLP #Abstractive #LanguageModel #Reasoning #memory #One-Line Notes #Test-time Learning Issue Date: 2025-10-13 [Paper Note] ArcMemo: Abstract Reasoning Composition with Lifelong LLM Memory, Matthew Ho+, arXiv'25, 2025.09 GPT Summary- LLMは推論時に外部メモリを活用し、概念レベルのメモリを導入することで、再利用可能でスケーラブルな知識の保存を実現。これにより、関連する概念を選択的に取得し、テスト時の継続的学習を可能にする。評価はARC-AGIベンチマークで行い、メモリなしのベースラインに対して7.5%の性能向上を達成。動的なメモリ更新が自己改善を促進することを示唆。 Comment

元ポスト:

Loading…

ARC-AGIでしか評価されていないように見える。



#ComputerVision #MachineLearning #Pocket #NLP #LanguageModel #MultiModal #NeurIPS #PostTraining #OOD Issue Date: 2025-10-05 [Paper Note] Visual Instruction Bottleneck Tuning, Changdae Oh+, NeurIPS'25, 2025.05 GPT Summary- MLLMは未知のクエリに対して性能が低下するが、既存の改善策は多くのデータや計算コストを要する。本研究では、情報ボトルネック原理に基づき、MLLMの堅牢性を向上させるためのVittleを提案。45のデータセットでの実証実験により、VittleがMLLMの堅牢性を一貫して改善することを示した。 Comment

元ポスト:

Loading…


#Analysis #MachineLearning #Pocket #DiffusionModel #Memorization Issue Date: 2025-10-04 [Paper Note] Selective Underfitting in Diffusion Models, Kiwhan Song+, arXiv'25, 2025.10 GPT Summary- 拡散モデルは生成モデルの主要なパラダイムとして注目されているが、どのスコアを学習しているかが未解決の疑問である。本研究では、選択的過少適合の概念を導入し、拡散モデルが特定の領域でスコアを正確に近似し、他の領域では過少適合することを示す。これにより、拡散モデルの一般化能力と生成性能に関する新たな洞察を提供する。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

著者ポスト:

Loading…


#Analysis #Pocket #NLP #LanguageModel #AIAgents #In-ContextLearning #RAG(RetrievalAugmentedGeneration) #ReversalCurse #memory Issue Date: 2025-09-22 [Paper Note] Latent learning: episodic memory complements parametric learning by enabling flexible reuse of experiences, Andrew Kyle Lampinen+, arXiv'25, 2025.09 GPT Summary- 機械学習システムの一般化失敗の原因として、潜在学習の欠如を指摘。認知科学の視点から、エピソード記憶やオラクルリトリーバルメカニズムが一般化を改善する手段であることを示す。文脈内学習が情報活用の鍵であり、リトリーバル手法がパラメトリック学習を補完することで、データ効率を向上させる可能性を提案。 Comment

元ポスト:

Loading…


#MachineLearning #Pocket #Transformer #LongSequence #Architecture #ICLR #RecurrentModels Issue Date: 2025-08-30 [Paper Note] Looped Transformers for Length Generalization, Ying Fan+, ICLR'25 GPT Summary- ループトランスフォーマーを用いることで、未見の長さの入力に対する算術的およびアルゴリズム的タスクの長さ一般化が改善されることを示す。RASP-L操作を含む既知の反復解法に焦点を当て、提案する学習アルゴリズムで訓練した結果、さまざまなタスクに対して高い一般化能力を持つ解法を学習した。 Comment

openreview: https://openreview.net/forum?id=2edigk8yoU



#RecommenderSystems #Embeddings #InformationRetrieval #Pocket #NLP #LanguageModel #RepresentationLearning #InstructionTuning #ContrastiveLearning #ICLR #Decoder Issue Date: 2025-07-10 [Paper Note] NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models, Chankyu Lee+, ICLR'25 GPT Summary- デコーダー専用のLLMベースの埋め込みモデルNV-Embedは、BERTやT5を上回る性能を示す。アーキテクチャ設計やトレーニング手法を工夫し、検索精度を向上させるために潜在的注意層を提案。二段階の対照的指示調整手法を導入し、検索と非検索タスクの両方で精度を向上。NV-EmbedモデルはMTEBリーダーボードで1位を獲得し、ドメイン外情報検索でも高スコアを達成。モデル圧縮技術の分析も行っている。 Comment

Decoder-Only LLMのlast hidden layerのmatrixを新たに導入したLatent Attention Blockのinputとし、Latent Attention BlockはEmbeddingをOutputする。Latent Attention Blockは、last hidden layer (系列長l×dの
matrix)をQueryとみなし、保持しているLatent Array(trainableなmatrixで辞書として機能する;後述の学習においてパラメータが学習される)[^1]をK,Vとして、CrossAttentionによってcontext vectorを生成し、その後MLPとMean Poolingを実施することでEmbeddingに変換する。
image

image

学習は2段階で行われ、まずQAなどのRetrievalタスク用のデータセットをIn Batch negativeを用いてContrastive Learningしモデルの検索能力を高める。その後、検索と非検索タスクの両方を用いて、hard negativeによってcontrastive learningを実施し、検索以外のタスクの能力も高める(下表)。両者において、instructionテンプレートを用いて、instructionによって条件付けて学習をすることで、instructionに応じて生成されるEmbeddingが変化するようにする。また、学習時にはLLMのcausal maskは無くし、bidirectionalにrepresentationを考慮できるようにする。
image

[^1]: [Paper Note] Perceiver IO: A General Architecture for Structured Inputs & Outputs, Andrew Jaegle+, ICLR'22 Perceiver-IOにインスパイアされている。



#RecommenderSystems #Embeddings #InformationRetrieval #Pocket #LanguageModel #SequentialRecommendation Issue Date: 2025-07-08 [Paper Note] Do We Really Need Specialization? Evaluating Generalist Text Embeddings for Zero-Shot Recommendation and Search, Matteo Attimonelli+, arXiv'25 GPT Summary- 事前学習済み言語モデル(GTEs)は、逐次推薦や製品検索においてファインチューニングなしで優れたゼロショット性能を発揮し、従来のモデルを上回ることを示す。GTEsは埋め込み空間に特徴を均等に分配することで表現力を高め、埋め込み次元の圧縮がノイズを減少させ、専門モデルの性能向上に寄与する。再現性のためにリポジトリを提供。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models, Chankyu Lee+, ICLR'25



#NeuralNetwork #Pocket #Transformer #SpeechProcessing #AutomaticSpeechRecognition(ASR) #Selected Papers/Blogs #KeyPoint Notes #Robustness Issue Date: 2025-11-14 [Paper Note] Robust Speech Recognition via Large-Scale Weak Supervision, Alec Radford+, ICML'23, 2022.12 GPT Summary- 680,000時間の多言語音声トランスクリプトを用いて訓練した音声処理システムを研究。得られたモデルは、ゼロショット転送設定で良好に一般化し、従来の監視結果と競争力を持つ。人間の精度に近づくことが確認され、モデルと推論コードを公開。 Comment

いまさらながらWhisper論文

日本語解説: https://www.ai-shift.co.jp/techblog/3001

長文認識のためのヒューリスティックに基づくデコーディング戦略も解説されているので参照のこと。

研究のコアとなるアイデアとしては、既存研究は自己教師あり学習、あるいはself-learningによって性能向上を目指す流れがある中で、教師あり学習に着目。既存研究で教師あり学習によって性能が向上することが示されていたが、大規模なスケールで実施できていなかったため、それをweakly-supervisedなmanner(=つまり完璧なラベルではなくてノイジーでも良いからラベルを付与し学習する)といった方法で学習することで、より頑健で高性能なASRを実現したい、という気持ちの研究。また、複雑なサブタスク(language identification, inverse text normalization(ASR後のテキストを人間向けの自然なテキストに変換すること[^2]), phrase-level timestamps (audioとtranscriptのタイムスタンプ予測))を一つのパイプラインで実現するような統合的なインタフェースも提案している。モデルのアーキテクチャ自体はencoder-decoderモデルである。また、positional encodingとしてはSinusoidal Positional Encoding(すなわち、絶対位置エンコーディング)が用いられている。デコーダにはprompt[^1]と呼ばれるtranscriptのhistoryを(確率的に挿入し)入力して学習することで、過去のcontextを考慮したASRが可能となる。lossの計算は、translate/transcribeされたトークンのみを考慮して計算する。

Imagehttps://github.com/user-attachments/assets/3ae3847d-b38f-41de-b1b7-c8000df31de6" />


データセットについては詳細は記述されておらず、internetに存在する (audio, transcripts)のペアデータを用いたと書かれている。
しかしながら、収集したデータセットを確認んすると、transcriptionの品質が低いものが混ざっており、フィルタリングを実施している。これは、人間のtranscriptionとmachine-generatedなtranscriptionをmixして学習すると性能を損なうことが既存研究で知られているため、ヒューリスティックに基づいてmachine-generatedなtranscriptionは学習データから除外している。これは、初期のモデルを学習してエラー率を観測し、データソースを人手でチェックしてlow-qualityなtranscriptを除去するといった丁寧なプロセスもあ含まれる。

また、収集したデータの言語についてはVoxLingua107データセット [Paper Note] VoxLingua107: a Dataset for Spoken Language Recognition, Jörgen Valk+, SLT'21, 2020.11 によって学習された分類器(をさらにfinetuningしたモデルと書かれている。詳細は不明)によって自動的に付与する。すなわち、X->enのデータのX(つまりsource言語)のlanguage identificationについてもweakly-supervisedなラベルで学習されている。

audioファイルについては、30秒単位のセグメントに区切り全ての期間を学習データに利用。無音部分はサブサンプリング(=一部をサンプリングして使う)しVoice Activity Detectionも学習する。

[^1]: LLMの文脈で広く使われるPromptとは異なる点に注意。LLMはinstruction-tuningが実施されているため人間の指示に追従するような挙動となるが、Whisperではinstruction-tuningを実施していないのでそのような挙動にはならない。あくまで過去のhistoryの情報を与える役割と考えること。
[^2]: Whisperでは生のtranscriptをnormalizationせずに学習にそのまま利用するため書き起こしの表記の統一は行われないと考えられる。



#Pocket #LanguageModel #MultitaskLearning #Zero/Few/ManyShotPrompting #Supervised-FineTuning (SFT) #CrossLingual #ACL Issue Date: 2023-08-16 Crosslingual Generalization through Multitask Finetuning, Niklas Muennighoff+, N_A, ACL'23 GPT Summary- マルチタスクプロンプトフィネチューニング(MTF)は、大規模な言語モデルが新しいタスクに汎化するのに役立つことが示されています。この研究では、マルチリンガルBLOOMとmT5モデルを使用してMTFを実施し、英語のプロンプトを使用して英語および非英語のタスクにフィネチューニングすることで、タスクの汎化が可能であることを示しました。さらに、機械翻訳されたプロンプトを使用してマルチリンガルなタスクにフィネチューニングすることも調査し、モデルのゼロショットの汎化能力を示しました。また、46言語の教師ありデータセットのコンポジットであるxP3も紹介されています。 Comment

英語タスクを英語でpromptingしてLLMをFinetuningすると、他の言語(ただし、事前学習で利用したコーパスに出現する言語に限る)で汎化し性能が向上することを示した模様。
![Image](https://github.com/user-attachments/assets/44e9cf6e-e80f-4092-af46-ad74c30fe59c)



#NeuralNetwork #ComputerVision #Pocket #NLP #ICML #Selected Papers/Blogs #OOD #Finetuning #Encoder #Encoder-Decoder #KeyPoint Notes #Souping Issue Date: 2025-11-28 [Paper Note] Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time, Mitchell Wortsman+, ICML'22, 2022.03 GPT Summary- ファインチューニングされたモデルの重みを平均化する「モデルスープ」手法を提案し、精度と堅牢性を向上させることを示す。従来のアンサンブル手法とは異なり、追加のコストなしで複数のモデルを平均化でき、ImageNetで90.94%のトップ1精度を達成。さらに、画像分類や自然言語処理タスクにも適用可能で、分布外性能やゼロショット性能を改善することが確認された。 Comment

日本語解説: https://www.docswell.com/s/DeepLearning2023/ZW13L1-dlmodel-soups-averaging-weights-of-multiple-finetuned-models-improves-accuracy-without-increasing-inference-time

transformerベースの事前学習済みモデル(encoder-only, encoder-decoderモデル)のファインチューニングの話で、共通のベースモデルかつ共通のパラメータの初期化を持つ、様々なハイパーパラメータで学習したモデルの重みを平均化することでよりロバストで高性能なモデルを作ります、という話。似たような手法にアンサンブルがあるが、アンサンブルでは利用するモデルに対して全ての推論結果を得なければならないため、計算コストが増大する。一方、モデルスープは単一モデルと同じ計算量で済む(=計算量は増大しない)。

スープを作る際は、Validation dataのAccが高い順に異なるFinetuning済みモデルをソートし、逐次的に重みの平均をとりValidation dataのAccが上がる場合に、当該モデルをsoupのingridientsとして加える。要は、開発データで性能が高い順にモデルをソートし、逐次的にモデルを取り出していき、現在のスープに対して重みを平均化した時に開発データの性能が上がるなら平均化したモデルを採用し、上がらないなら無視する、といった処理を繰り返す。これをgreedy soupと呼ぶ。他にもuniform soup, learned soupといった手法も提案され比較されているが、画像系のモデル(CLIP, ViTなど)やNLP(T5, BERT)等で実験されており、greedy soupの性能とロバストさ(OOD;分布シフトに対する予測性能)が良さそうである。



#Pocket #NLP #Transformer #Architecture #ICLR #RecurrentModels Issue Date: 2025-08-30 [Paper Note] Universal Transformers, Mostafa Dehghani+, ICLR'19 GPT Summary- 再帰神経ネットワーク(RNN)は逐次処理によりシーケンスモデリングで広く使われてきたが、トレーニングが遅くなる欠点がある。最近のフィードフォワードや畳み込みアーキテクチャは並列処理が可能で優れた結果を出しているが、RNNが得意とする単純なタスクでの一般化には失敗する。そこで、我々はユニバーサル・トランスフォーマー(UT)を提案し、フィードフォワードの並列処理能力とRNNの帰納バイアスを組み合わせたモデルを開発した。UTは特定の条件下でチューリング完全であり、実験では標準的なトランスフォーマーを上回る性能を示し、特にLAMBADAタスクで新たな最先端を達成し、機械翻訳でもBLEUスコアを改善した。 Comment

openreview: https://openreview.net/forum?id=HyzdRiR9Y7



#Article #Blog #Zero/FewShotLearning #read-later #Robotics #LongHorizon Issue Date: 2025-11-20 ACT-1: A Robot Foundation Model Trained on Zero Robot Data, Sunday Team, 2025.11 Comment

元ポスト:

Loading…

テレオペレーション(遠隔操作; 模倣学習に使われるのだと思われる)ではなく、Skill Capture Gloveと呼ばれる手に装着するタイプのデバイスから収集したデータのみを収集して学習するらしい。手のデータは収集できるが、身長や腕の長さ、視覚的な情報が異なるではないか、という点については、グローブのデータを同等のロボットのデータに変換するみたいなことをするらしい。(ゆるふわ理解)



#Article #Pretraining #MachineLearning #NLP #LanguageModel #ReinforcementLearning #AIAgents #In-ContextLearning #Blog #RewardHacking #PostTraining #Diversity #Selected Papers/Blogs #PRM #Cultural #Emotion Issue Date: 2025-10-20 Andrej Karpathy — AGI is still a decade away, DWARKESH PATEL, 2025.10 Comment

元ポスト:

Loading…

関連:
- In-context Steerbility: [Paper Note] Spectrum Tuning: Post-Training for Distributional Coverage and In-Context Steerability, Taylor Sorensen+, arXiv'25, 2025.10

(整理すると楽しそうなので後で関連しそうな研究を他にもまとめる)

とても勉強になる!AIに代替されない20%, 1%になるには果たして

所見:

Loading…