Adaptive


Paper/Blog Link My Issue
#EfficiencyImprovement #Pretraining #Pocket #NLP #LanguageModel #ICLR #read-later #Diversity #Selected Papers/Blogs #DataMixture #Generalization #DownstreamTasks #Multi-Armed Bandit Issue Date: 2026-01-21 GPT Summary- データ選択は大規模言語モデルの事前トレーニングにおいて重要で、影響スコアでデータインスタンスの重要性を測定します。しかし、トレーニングデータの多様性不足や影響計算の時間が課題です。本研究では、品質と多様性を考慮したデータ選択手法\texttt{Quad}を提案します。アテンションレイヤーの$iHVP$計算を適応させ、データの品質評価を向上。データをクラスタリングし、選択プロセスでサンプルの影響を評価することで、全インスタンスの処理を回避します。マルチアームバンディット法を用い、品質と多様性のバランスを取ります。 Comment

openreview: https://openreview.net/forum?id=bMC1t7eLRc




Paper/Blog Link My Issue
#Pretraining #Pocket #NLP #LanguageModel #ICLR #Scaling Laws #DataMixture Issue Date: 2026-01-21 GPT Summary- データの事前学習構成はモデル性能に重要ですが、標準的な分配ガイドラインは存在せず、従来の手法はワークフローの複雑性を増加させる。そこで、オンラインでデータ分布を最適化する「Adaptive Data Optimization(ADO)」を提案。ADOは他の知識やプロキシモデルに依存せず、トレーニング中にデータの適切な混合を調整し、スケーラビリティと統合性を向上させる。実験により、ADOは他手法と同等以上の性能を示し、計算効率を保ちながら動的なデータ調整を可能にし、データ収集戦略への新たな視点も提供する。 Comment

openreview: https://openreview.net/forum?id=aqok1UX7Z1




Paper/Blog Link My Issue
#Pretraining #Pocket #NLP #LanguageModel #ICLR #DataMixture Issue Date: 2026-01-21 GPT Summary- トレーニングデータの最適な混合が言語モデルの性能に影響を与えるが、既存の手法は層化サンプリングを一貫して上回れない。これを解明するため、標準フレームワークで手法を統一し、混合法則が不正確であることを示した。新たに提案したオンライン手法Aioliは、トレーニング中に混合パラメータを推定し動的に調整。実験では、Aioliが層化サンプリングを平均0.27ポイント上回り、短いランで最大12.012ポイントの向上を達成した。 Comment

openreview: https://openreview.net/forum?id=sZGZJhaNSe




Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #AIAgents #One-Line Notes Issue Date: 2025-12-21 GPT Summary- 本論文では、エージェントAIシステムの適応に関する体系的なフレームワークを提案し、エージェントの適応とツールの適応を分類。これにより、適応戦略の設計空間を明確化し、システム設計における戦略選択のガイダンスを提供。各アプローチの強みと限界を分析し、未解決の課題と将来の機会を強調。研究者や実務者に対して、能力が高く信頼性のあるエージェントAIシステム構築のための基盤を提供することを目指す。 Comment

元ポスト:

Loading…

AI Agentsには実行と適応の二つの軸があり、現在のエージェントは前者しか実施しない。このため、前提が変化すると環境に適応が誤りを繰り返す、適応することが重要[^1]といった話な模様。

適応と言った時にいくつかの軸があり、まずは
- エージェント自身
- エージェントが利用するツール

次に適応するためのシグナルとして
- ツールの実行結果
- エージェントのoutputの評価

がそれぞれあり、2x2のデザインスペースがあるが、現在はその1つしかできていない(i.e., フィードバック無しの実行)とのこと。


[^1]: デモではうまくいくが実際のユースケースではうまくいかないのはこのため、という主旨だとおもわれる。

解説:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #NeurIPS #Generalization #RewardModel #Multi-Armed Bandit Issue Date: 2025-09-23 GPT Summary- LASeRを導入し、報酬モデルの選択を多腕バンディット問題として定式化。これにより、最適なRMを選択しながらLLMsを効率的に訓練。常識的および数学的推論タスクでLlama-3-8Bの精度を2.67%向上させ、2倍のスピードアップを実現。WildChatタスクでは72.69%の勝率を達成し、長文生成でもF1ポイントの改善を示す。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=tSpWkTFASC&referrer=%5Bthe%20profile%20of%20Mohit%20Bansal%5D(%2Fprofile%3Fid%3D~Mohit_Bansal2)