Generalization


Paper/Blog Link My Issue
#Multi #MachineLearning #Pocket #NLP #LanguageModel #AIAgents #EvolutionaryAlgorithm #AdversarialTraining Issue Date: 2026-01-12 GPT Summary- 大規模言語モデル(LLMs)を用いた自己対戦アルゴリズム「デジタルレッドクイーン(DRQ)」を提案。DRQは、コアウォーというゲームでアセンブリプログラムを進化させ、動的な目的に適応することで「レッドクイーン」ダイナミクスを取り入れる。多くのラウンドを経て、戦士は人間の戦士に対して一般的な行動戦略に収束する傾向を示し、静的な目的から動的な目的へのシフトの価値を強調。DRQは、サイバーセキュリティや薬剤耐性などの実用的な多エージェント敵対的ドメインでも有用である可能性を示唆。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Analysis #MachineLearning #Metrics #Pocket #Dataset #read-later #Selected Papers/Blogs #OOD Issue Date: 2026-01-09 GPT Summary- 本研究では、データから新たな情報を生成する可能性や、情報の評価方法について探求する。シャノン情報やコルモゴロフの複雑性が無力である理由を示し、情報理論における三つの矛盾する現象を特定する。新たに導入した「エピプレキシティ」は、計算制約のある観察者がデータから学べる情報を捉え、データの構造的内容を評価する手法である。これにより、情報生成のメカニズムやデータの順序依存性を明らかにし、エピプレキシティを用いたデータ選択の理論的基盤を提供する。 Comment

元ポスト:

Loading…

解説:

Loading…

ポイント解説:

Loading…



Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #Pocket #NLP #LanguageModel #ICLR #read-later #Diversity #Selected Papers/Blogs #DataMixture #DownstreamTasks #Adaptive #Multi-Armed Bandit Issue Date: 2026-01-21 GPT Summary- データ選択は大規模言語モデルの事前トレーニングにおいて重要で、影響スコアでデータインスタンスの重要性を測定します。しかし、トレーニングデータの多様性不足や影響計算の時間が課題です。本研究では、品質と多様性を考慮したデータ選択手法\texttt{Quad}を提案します。アテンションレイヤーの$iHVP$計算を適応させ、データの品質評価を向上。データをクラスタリングし、選択プロセスでサンプルの影響を評価することで、全インスタンスの処理を回避します。マルチアームバンディット法を用い、品質と多様性のバランスを取ります。 Comment

openreview: https://openreview.net/forum?id=bMC1t7eLRc




Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #Dataset #SyntheticData #Evaluation #DiffusionModel #3D (Scene) #FlowMatching #Robotics #4D (Video) #HumanMotionGeneration Issue Date: 2026-01-11 GPT Summary- 3D人間動作生成(MoGen)は一般化能力に課題があるが、動画生成(ViGen)は優れた一般化を示す。これを受けて、ViGenからMoGenへの知識移転のためのフレームワークを提案。228,000の高品質な動作サンプルを含むデータセットViMoGen-228Kを作成し、MoCapデータとViGenモデルからの情報を統合したフローマッチングベースの拡散トランスフォーマーViMoGenを開発。さらに、動作の質や一般化能力を評価するための階層的ベンチマークMBenchを提示。実験結果は、提案手法が既存のアプローチを大幅に上回ることを示した。 Comment

dataset: https://huggingface.co/datasets/wruisi/ViMoGen-228K
leaderboard: https://huggingface.co/spaces/wruisi/MBench_leaderboard

元ポスト:

Loading…

ポイント解説:

Loading…



Paper/Blog Link My Issue
#ComputerVision #Pocket #DiffusionModel #Memorization #3D (Scene) Issue Date: 2026-01-03 GPT Summary- 3D生成モデルの記憶を定量化する評価フレームワークを設計し、データとモデリング設計が記憶に与える影響を研究。実験により、記憶はデータのモダリティに依存し、多様性が増すと記憶が増加することを発見。適度なガイダンススケールで記憶がピークに達し、長いVecsetやシンプルな回転拡張で軽減可能。生成品質を損なわずに記憶を減少させる戦略を提案。コードは公開されている。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#ComputerVision #Analysis #Pocket #RepresentationLearning #Encoder #Encoder-Decoder Issue Date: 2025-12-24 GPT Summary- 生成的アプローチが人間レベルの視覚認知に必要かを検討。生成的手法は帰納的バイアスを容易に強制でき、構成的一般化を実現可能。一方、非生成的手法は一般化に苦労し、大規模な事前学習が必要。生成的手法はデコーダの逆転を通じて構成的一般化を改善し、追加データなしで効果を発揮。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Analysis #MachineLearning #Pocket #DiffusionModel #NeurIPS #Memorization Issue Date: 2025-11-29 GPT Summary- 拡散モデルのトレーニングダイナミクスを調査し、一般化から記憶への移行における2つの時間スケール($τ_\mathrm{gen}$と$τ_\mathrm{mem}$)を特定。$τ_\mathrm{mem}$はトレーニングセットのサイズに線形に増加し、一般化が可能なトレーニング時間のウィンドウが拡大することを示す。これにより、過学習が消失する閾値が存在し、記憶を回避できることが明らかに。実験と理論分析により結果が支持される。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=BSZqpqgqM0

日本語解説: https://www.docswell.com/s/DeepLearning2023/59MQLY-2025-11-11-132245

ポイント解説:

Loading…



Paper/Blog Link My Issue
#ComputerVision #Pocket #AIAgents #VisionLanguageModel #3D (Scene) #Game #Realtime Issue Date: 2025-11-13 GPT Summary- Lumineは、3Dオープンワールド環境で複雑なミッションをリアルタイムで完了できる一般的なエージェントのためのオープンレシピです。人間のようなインタラクションを採用し、視覚と言語のモデルを統合して知覚、推論、行動を実現。Genshin Impactで訓練されたLumineは、自然言語の指示に従い、幅広いタスクを効率的に実行します。また、ファインチューニングなしで他のゲームでも高いパフォーマンスを示し、オープンエンドな環境における一般的なエージェントへの進展を示しています。 Comment

pj page: https://www.lumine-ai.org/

> 1731 hours of human gameplay for pre-training to master action primitives;

> 200 hours of instruction following data to ground control in language;

> 15 hours of reasoning data to enable adaptive thinking.

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #MoE(Mixture-of-Experts) #PostTraining #Routing Issue Date: 2025-11-12 GPT Summary- Sparse Mixture-of-Experts (MoE)は、推論コストを増やさずにモデル能力を拡張するが、既存のMoE LLMではルーターの最適性が欠けており、性能に10-20%のギャップが生じている。本研究では、ルーティング重みの多様体をタスク埋め込みの多様体と整合させる「Routing Manifold Alignment (RoMA)」手法を提案し、MoE LLMの一般化性能を向上させる。RoMAは、ルーターのファインチューニングを通じて、類似タスク間で専門家の選択を共有し、タスク理解と解決策生成を統一する。実験により、RoMAを用いたファインチューニングが多様なベンチマークで大幅な性能改善をもたらすことが示された。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #SelfImprovement #Catastrophic Forgetting #RLVR #Diversity #KeyPoint Notes Issue Date: 2025-11-07 GPT Summary- RLoopは、強化学習における過剰適合の問題を解決するための自己改善フレームワークであり、ポリシーの多様性を保ちながら一般化能力を向上させる。RLを用いて解空間を探索し、成功した軌跡から専門家データセットを作成し、拒否サンプリング微調整を行うことで、次の反復の出発点を洗練する。実験により、RLoopは忘却を軽減し、平均精度を9%、pass@32を15%以上向上させることが示された。 Comment

元ポスト:

Loading…

ポリシーを初期化し、RLを実行しtrajeatory tを取得。tをrejection samplingし成功したtrajectoryでエキスパートデータセットを作成。作成したエキスパートデータセットでポリシーをSFT(=Rejection SamplingしたデータでSFTすることをRFTと呼ぶ)する(これが次iterationの初期化となる)といったことを繰り返す。
image

RLはAdvantageによって学習されるため、trajectoryの相対的な品質に基づいて学習をする。このため、バッチ内のすべてのtrajectoryが正解した場合などはadvantageが限りなくゼロに近づき学習のシグナルを得られない。

一方RFTは絶対的なRewardを用いており(RLVRの場合は成功したら1,そうでなければ0)、これがバッチ全体のパフォーマンスに依存しない安定した分散の小さい学習のシグナルを与える。

このように両者は補完的な関係にある。ただしRFTは成功したtrajectory全てに均等な重みを与えるため、既にポリシーが解くことができる問題にフォーカスしすぎることによって効率性が悪化する問題があるため、提案手法では成功率が低いhardなサンプルのみにエキスパートデータをフィルタリングする(=active learning)ことで、モデルが自身に不足した能力を獲得することに効率的に注力することになる。

また、RFTを使うことは単なるヒューリスティックではなく、理論的なgroundingが存在する。すなわち、我々はまだ未知の"expert"な分布 p^*にポリシーが従うように学習をしたいがこれはMLEの観点で言うと式3に示されているような形式になる。p^*から直接データをサンプリングをすることができないが、RLのポリシーから近似的にサンプリングをすることができる。そこでMLEの式をimportance samplingの観点から再度定式化をすると式4のようになり、後はimportance weight wを求められれば良いことになる。これはp^*に近いtrajectoryはRewardが高く、そうでない場合は低い、つまりw \propto Reward な関係であるため近似的に求めることができ、これらを式4のMLEの式に代入するとRFTと同じ式が導出される。

みたいな話のようである。




Paper/Blog Link My Issue
#ComputerVision #Pocket #Dataset #Zero/Few/ManyShotPrompting #Evaluation #MultiModal #In-ContextLearning #NeurIPS #read-later #Selected Papers/Blogs #OOD #VisionLanguageModel #One-Line Notes #ObjectDetection Issue Date: 2025-10-27 GPT Summary- 視覚と言語のモデル(VLMs)は、一般的な物体に対して優れたゼロショット検出性能を示すが、分布外のクラスやタスクに対しては一般化が難しい。そこで、少数の視覚例と豊富なテキスト記述を用いてVLMを新しい概念に整合させる必要があると提案。Roboflow100-VLという多様な概念を持つ100のマルチモーダル物体検出データセットを導入し、最先端モデルの評価を行った。特に、難しい医療画像データセットでのゼロショット精度が低く、少数ショットの概念整合が求められることを示した。 Comment

元ポスト:

Loading…

VLMが「現実世界をどれだけ理解できるか」を評価するためのobject detection用ベンチマークを構築。100のopen source datasetから構成され、それぞれにはtextでのfew shot instructionやvisual exampleが含まれている。データセットは合計で約165kの画像、約1.35M件のアノテーションが含まれ、航空、生物、産業などの事前学習ではあまりカバーされていない新規ドメインの画像が多数含まれているとのこと。

そして現在のモデルは事前学習に含まれていないOODな画像に対する汎化性能が低く、いちいちモデルを追加で学習するのではなく、ICLによって適用できた方が好ましいという考えがあり、そして結果的に現在のVLMでは、ICLがあまりうまくいかない(ICLによるOODの汎化が効果的にできない)ことがわかった、という話らしい。

が、
- [Paper Note] Many-Shot In-Context Learning in Multimodal Foundation Models, Yixing Jiang+, arXiv'24, 2024.05

での知見と異なる。差異はなんだろうか?

以下のスレッドで議論がされている:

Loading…

pj page: https://rf100-vl.org

うーんあとでしっかり読みたい、、、




Paper/Blog Link My Issue
#Pocket #NLP #LongSequence #SSM (StateSpaceModel) #Selected Papers/Blogs #memory Issue Date: 2025-10-18 GPT Summary- 状態空間モデル(SSM)は、長文生成において効率的な代替手段であるが、真の長文生成問題を解決できないことが明らかにされた。外部ツールへのインタラクティブなアクセスを許可することで、この制限を克服できることが示され、SSMは問題依存のトレーニングデータを用いて任意の問題に一般化できる。ツールを強化したSSMは、算術や推論、コーディングタスクにおいて優れた長さの一般化を達成し、トランスフォーマーに対する効率的な代替手段となる可能性がある。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

所見:

Loading…

解説:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #AIAgents #Test-time Learning Issue Date: 2025-10-17 GPT Summary- 大規模言語モデル(LLM)の専門的なドメインでのパフォーマンス向上のため、Training-Free GRPOを提案。これは、パラメータ更新なしでLLMエージェントの性能を向上させ、少ないトレーニングデータで高品質な経験的知識を蒸留する手法。数学的推論やウェブ検索タスクでの実験により、Training-Free GRPOが小型LLMを上回る性能を示した。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#MachineLearning #Pocket #NLP #Abstractive #LanguageModel #Reasoning #memory #One-Line Notes #Test-time Learning Issue Date: 2025-10-13 GPT Summary- LLMは推論時に外部メモリを活用し、概念レベルのメモリを導入することで、再利用可能でスケーラブルな知識の保存を実現。これにより、関連する概念を選択的に取得し、テスト時の継続的学習を可能にする。評価はARC-AGIベンチマークで行い、メモリなしのベースラインに対して7.5%の性能向上を達成。動的なメモリ更新が自己改善を促進することを示唆。 Comment

元ポスト:

Loading…

ARC-AGIでしか評価されていないように見える。




Paper/Blog Link My Issue
#ComputerVision #MachineLearning #Pocket #NLP #LanguageModel #MultiModal #NeurIPS #PostTraining #OOD Issue Date: 2025-10-05 GPT Summary- MLLMは未知のクエリに対して性能が低下するが、既存の改善策は多くのデータや計算コストを要する。本研究では、情報ボトルネック原理に基づき、MLLMの堅牢性を向上させるためのVittleを提案。45のデータセットでの実証実験により、VittleがMLLMの堅牢性を一貫して改善することを示した。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#Analysis #MachineLearning #Pocket #DiffusionModel #Memorization Issue Date: 2025-10-04 GPT Summary- 拡散モデルは生成モデルの主要なパラダイムとして注目されているが、どのスコアを学習しているかが未解決の疑問である。本研究では、選択的過少適合の概念を導入し、拡散モデルが特定の領域でスコアを正確に近似し、他の領域では過少適合することを示す。これにより、拡散モデルの一般化能力と生成性能に関する新たな洞察を提供する。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

著者ポスト:

Loading…



Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #AIAgents #In-ContextLearning #RAG(RetrievalAugmentedGeneration) #ReversalCurse #memory Issue Date: 2025-09-22 GPT Summary- 機械学習システムの一般化失敗の原因として、潜在学習の欠如を指摘。認知科学の視点から、エピソード記憶やオラクルリトリーバルメカニズムが一般化を改善する手段であることを示す。文脈内学習が情報活用の鍵であり、リトリーバル手法がパラメトリック学習を補完することで、データ効率を向上させる可能性を提案。 Comment

元ポスト:

Loading…



Paper/Blog Link My Issue
#MachineLearning #Pocket #Transformer #LongSequence #Architecture #ICLR #RecurrentModels Issue Date: 2025-08-30 GPT Summary- ループトランスフォーマーを用いることで、未見の長さの入力に対する算術的およびアルゴリズム的タスクの長さ一般化が改善されることを示す。RASP-L操作を含む既知の反復解法に焦点を当て、提案する学習アルゴリズムで訓練した結果、さまざまなタスクに対して高い一般化能力を持つ解法を学習した。 Comment

openreview: https://openreview.net/forum?id=2edigk8yoU




Paper/Blog Link My Issue
#RecommenderSystems #Embeddings #InformationRetrieval #Pocket #NLP #LanguageModel #RepresentationLearning #InstructionTuning #ContrastiveLearning #ICLR #Decoder Issue Date: 2025-07-10 GPT Summary- デコーダー専用のLLMベースの埋め込みモデルNV-Embedは、BERTやT5を上回る性能を示す。アーキテクチャ設計やトレーニング手法を工夫し、検索精度を向上させるために潜在的注意層を提案。二段階の対照的指示調整手法を導入し、検索と非検索タスクの両方で精度を向上。NV-EmbedモデルはMTEBリーダーボードで1位を獲得し、ドメイン外情報検索でも高スコアを達成。モデル圧縮技術の分析も行っている。 Comment

Decoder-Only LLMのlast hidden layerのmatrixを新たに導入したLatent Attention Blockのinputとし、Latent Attention BlockはEmbeddingをOutputする。Latent Attention Blockは、last hidden layer (系列長l×dの
matrix)をQueryとみなし、保持しているLatent Array(trainableなmatrixで辞書として機能する;後述の学習においてパラメータが学習される)[^1]をK,Vとして、CrossAttentionによってcontext vectorを生成し、その後MLPとMean Poolingを実施することでEmbeddingに変換する。
image

image

学習は2段階で行われ、まずQAなどのRetrievalタスク用のデータセットをIn Batch negativeを用いてContrastive Learningしモデルの検索能力を高める。その後、検索と非検索タスクの両方を用いて、hard negativeによってcontrastive learningを実施し、検索以外のタスクの能力も高める(下表)。両者において、instructionテンプレートを用いて、instructionによって条件付けて学習をすることで、instructionに応じて生成されるEmbeddingが変化するようにする。また、学習時にはLLMのcausal maskは無くし、bidirectionalにrepresentationを考慮できるようにする。
image

[^1]: [Paper Note] Perceiver IO: A General Architecture for Structured Inputs & Outputs, Andrew Jaegle+, ICLR'22 Perceiver-IOにインスパイアされている。




Paper/Blog Link My Issue
#RecommenderSystems #Embeddings #InformationRetrieval #Pocket #LanguageModel #SequentialRecommendation Issue Date: 2025-07-08 GPT Summary- 事前学習済み言語モデル(GTEs)は、逐次推薦や製品検索においてファインチューニングなしで優れたゼロショット性能を発揮し、従来のモデルを上回ることを示す。GTEsは埋め込み空間に特徴を均等に分配することで表現力を高め、埋め込み次元の圧縮がノイズを減少させ、専門モデルの性能向上に寄与する。再現性のためにリポジトリを提供。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models, Chankyu Lee+, ICLR'25




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #NeurIPS #RewardModel #Adaptive #Multi-Armed Bandit Issue Date: 2025-09-23 GPT Summary- LASeRを導入し、報酬モデルの選択を多腕バンディット問題として定式化。これにより、最適なRMを選択しながらLLMsを効率的に訓練。常識的および数学的推論タスクでLlama-3-8Bの精度を2.67%向上させ、2倍のスピードアップを実現。WildChatタスクでは72.69%の勝率を達成し、長文生成でもF1ポイントの改善を示す。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=tSpWkTFASC&referrer=%5Bthe%20profile%20of%20Mohit%20Bansal%5D(%2Fprofile%3Fid%3D~Mohit_Bansal2)




Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #Reasoning #TMLR Issue Date: 2023-05-04 GPT Summary- 本研究では、大規模言語モデル(LLMs)の因果的議論生成能力をベンチマークし、様々なタスクで既存手法を上回る性能を示しました。特に、GPT-3.5および4は因果発見や反事実的推論タスクで高い精度を達成し、データセットの記憶だけでは説明できない能力を持つことが確認されました。しかし、LLMsには予測不可能な失敗モードがあり、改善の余地があることも指摘されています。LLMsは因果分析の労力を削減する可能性があり、今後はLLMsと既存の因果技術を組み合わせたアルゴリズムの開発が期待されます。 Comment

openreview: https://openreview.net/forum?id=mqoxLkX210

tmlr blog: https://medium.com/@TmlrOrg/announcing-the-2025-tmlr-outstanding-certification-e26d548ff011




Paper/Blog Link My Issue
#NeuralNetwork #Pocket #Transformer #SpeechProcessing #AutomaticSpeechRecognition(ASR) #Selected Papers/Blogs #KeyPoint Notes #Robustness Issue Date: 2025-11-14 GPT Summary- 680,000時間の多言語音声トランスクリプトを用いて訓練した音声処理システムを研究。得られたモデルは、ゼロショット転送設定で良好に一般化し、従来の監視結果と競争力を持つ。人間の精度に近づくことが確認され、モデルと推論コードを公開。 Comment

いまさらながらWhisper論文

日本語解説: https://www.ai-shift.co.jp/techblog/3001

長文認識のためのヒューリスティックに基づくデコーディング戦略も解説されているので参照のこと。

研究のコアとなるアイデアとしては、既存研究は自己教師あり学習、あるいはself-learningによって性能向上を目指す流れがある中で、教師あり学習に着目。既存研究で教師あり学習によって性能が向上することが示されていたが、大規模なスケールで実施できていなかったため、それをweakly-supervisedなmanner(=つまり完璧なラベルではなくてノイジーでも良いからラベルを付与し学習する)といった方法で学習することで、より頑健で高性能なASRを実現したい、という気持ちの研究。また、複雑なサブタスク(language identification, inverse text normalization(ASR後のテキストを人間向けの自然なテキストに変換すること[^2]), phrase-level timestamps (audioとtranscriptのタイムスタンプ予測))を一つのパイプラインで実現するような統合的なインタフェースも提案している。モデルのアーキテクチャ自体はencoder-decoderモデルである。また、positional encodingとしてはSinusoidal Positional Encoding(すなわち、絶対位置エンコーディング)が用いられている。デコーダにはprompt[^1]と呼ばれるtranscriptのhistoryを(確率的に挿入し)入力して学習することで、過去のcontextを考慮したASRが可能となる。lossの計算は、translate/transcribeされたトークンのみを考慮して計算する。

image


データセットについては詳細は記述されておらず、internetに存在する (audio, transcripts)のペアデータを用いたと書かれている。
しかしながら、収集したデータセットを確認んすると、transcriptionの品質が低いものが混ざっており、フィルタリングを実施している。これは、人間のtranscriptionとmachine-generatedなtranscriptionをmixして学習すると性能を損なうことが既存研究で知られているため、ヒューリスティックに基づいてmachine-generatedなtranscriptionは学習データから除外している。これは、初期のモデルを学習してエラー率を観測し、データソースを人手でチェックしてlow-qualityなtranscriptを除去するといった丁寧なプロセスもあ含まれる。

また、収集したデータの言語についてはVoxLingua107データセット [Paper Note] VoxLingua107: a Dataset for Spoken Language Recognition, Jörgen Valk+, SLT'21, 2020.11 によって学習された分類器(をさらにfinetuningしたモデルと書かれている。詳細は不明)によって自動的に付与する。すなわち、X->enのデータのX(つまりsource言語)のlanguage identificationについてもweakly-supervisedなラベルで学習されている。

audioファイルについては、30秒単位のセグメントに区切り全ての期間を学習データに利用。無音部分はサブサンプリング(=一部をサンプリングして使う)しVoice Activity Detectionも学習する。

[^1]: LLMの文脈で広く使われるPromptとは異なる点に注意。LLMはinstruction-tuningが実施されているため人間の指示に追従するような挙動となるが、Whisperではinstruction-tuningを実施していないのでそのような挙動にはならない。あくまで過去のhistoryの情報を与える役割と考えること。
[^2]: Whisperでは生のtranscriptをnormalizationせずに学習にそのまま利用するため書き起こしの表記の統一は行われないと考えられる。




Paper/Blog Link My Issue
#Pocket #LanguageModel #MultitaskLearning #Zero/Few/ManyShotPrompting #Supervised-FineTuning (SFT) #CrossLingual #ACL Issue Date: 2023-08-16 GPT Summary- マルチタスクプロンプトフィネチューニング(MTF)は、大規模な言語モデルが新しいタスクに汎化するのに役立つことが示されています。この研究では、マルチリンガルBLOOMとmT5モデルを使用してMTFを実施し、英語のプロンプトを使用して英語および非英語のタスクにフィネチューニングすることで、タスクの汎化が可能であることを示しました。さらに、機械翻訳されたプロンプトを使用してマルチリンガルなタスクにフィネチューニングすることも調査し、モデルのゼロショットの汎化能力を示しました。また、46言語の教師ありデータセットのコンポジットであるxP3も紹介されています。 Comment

英語タスクを英語でpromptingしてLLMをFinetuningすると、他の言語(ただし、事前学習で利用したコーパスに出現する言語に限る)で汎化し性能が向上することを示した模様。
![Image](https://github.com/user-attachments/assets/44e9cf6e-e80f-4092-af46-ad74c30fe59c)




Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #Pocket #NLP #ICML #Selected Papers/Blogs #OOD #Finetuning #Encoder #Encoder-Decoder #KeyPoint Notes #Souping Issue Date: 2025-11-28 GPT Summary- ファインチューニングされたモデルの重みを平均化する「モデルスープ」手法を提案し、精度と堅牢性を向上させることを示す。従来のアンサンブル手法とは異なり、追加のコストなしで複数のモデルを平均化でき、ImageNetで90.94%のトップ1精度を達成。さらに、画像分類や自然言語処理タスクにも適用可能で、分布外性能やゼロショット性能を改善することが確認された。 Comment

日本語解説: https://www.docswell.com/s/DeepLearning2023/ZW13L1-dlmodel-soups-averaging-weights-of-multiple-finetuned-models-improves-accuracy-without-increasing-inference-time

transformerベースの事前学習済みモデル(encoder-only, encoder-decoderモデル)のファインチューニングの話で、共通のベースモデルかつ共通のパラメータの初期化を持つ、様々なハイパーパラメータで学習したモデルの重みを平均化することでよりロバストで高性能なモデルを作ります、という話。似たような手法にアンサンブルがあるが、アンサンブルでは利用するモデルに対して全ての推論結果を得なければならないため、計算コストが増大する。一方、モデルスープは単一モデルと同じ計算量で済む(=計算量は増大しない)。

スープを作る際は、Validation dataのAccが高い順に異なるFinetuning済みモデルをソートし、逐次的に重みの平均をとりValidation dataのAccが上がる場合に、当該モデルをsoupのingridientsとして加える。要は、開発データで性能が高い順にモデルをソートし、逐次的にモデルを取り出していき、現在のスープに対して重みを平均化した時に開発データの性能が上がるなら平均化したモデルを採用し、上がらないなら無視する、といった処理を繰り返す。これをgreedy soupと呼ぶ。他にもuniform soup, learned soupといった手法も提案され比較されているが、画像系のモデル(CLIP, ViTなど)やNLP(T5, BERT)等で実験されており、greedy soupの性能とロバストさ(OOD;分布シフトに対する予測性能)が良さそうである。




Paper/Blog Link My Issue
#Pocket #NLP #Transformer #Architecture #ICLR #RecurrentModels Issue Date: 2025-08-30 GPT Summary- 再帰神経ネットワーク(RNN)は逐次処理によりシーケンスモデリングで広く使われてきたが、トレーニングが遅くなる欠点がある。最近のフィードフォワードや畳み込みアーキテクチャは並列処理が可能で優れた結果を出しているが、RNNが得意とする単純なタスクでの一般化には失敗する。そこで、我々はユニバーサル・トランスフォーマー(UT)を提案し、フィードフォワードの並列処理能力とRNNの帰納バイアスを組み合わせたモデルを開発した。UTは特定の条件下でチューリング完全であり、実験では標準的なトランスフォーマーを上回る性能を示し、特にLAMBADAタスクで新たな最先端を達成し、機械翻訳でもBLEUスコアを改善した。 Comment

openreview: https://openreview.net/forum?id=HyzdRiR9Y7




Paper/Blog Link My Issue
#Article #Blog #Zero/FewShotLearning #read-later #Robotics #One-Line Notes #LongHorizon Issue Date: 2025-11-20 Comment

元ポスト:

Loading…

テレオペレーション(遠隔操作; 模倣学習に使われるのだと思われる)ではなく、Skill Capture Gloveと呼ばれる手に装着するタイプのデバイスから収集したデータのみを収集して学習するらしい。手のデータは収集できるが、身長や腕の長さ、視覚的な情報が異なるではないか、という点については、グローブのデータを同等のロボットのデータに変換するみたいなことをするらしい。(ゆるふわ理解)




Paper/Blog Link My Issue
#Article #Pretraining #MachineLearning #NLP #LanguageModel #ReinforcementLearning #AIAgents #In-ContextLearning #Blog #RewardHacking #PostTraining #Diversity #Selected Papers/Blogs #PRM #Cultural #Emotion Issue Date: 2025-10-20 Comment

元ポスト:

Loading…

関連:
- In-context Steerbility: [Paper Note] Spectrum Tuning: Post-Training for Distributional Coverage and In-Context Steerability, Taylor Sorensen+, arXiv'25, 2025.10

(整理すると楽しそうなので後で関連しそうな研究を他にもまとめる)

とても勉強になる!AIに代替されない20%, 1%になるには果たして

所見:

Loading…