Robustnessに関する論文・技術記事メモの一覧

Robustness

[Paper Note] Towards Robust Scaling Laws for Optimizers, Alexandra Volkova+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Optimizer #Scaling Laws #One-Line Notes Issue Date: 2026-02-12 GPT Summary- 最適化手法がLLMの事前学習の質に与える影響を調査。Chinchillaスタイルのスケーリング則は条件が悪く、代わりに特有の再スケーリング因子を持つ共有の冪則指数を提案。これにより異なる最適化手法間の比較が可能に。最終的には、損失の分解に基づく理論的分析を行い、Chinchillaスタイルのスケーリング則の出現を説明。 Comment

元ポスト:

Loading…

（きちんと理解できているか怪しいが）従来のチンチラ則に代表されるL(N,D)に関する（モデルサイズ、データ量、最終損失）Scaling LawsはOptimiserを固定（AdamやAdamW)した上で求められていたが、本研究では異なるOptimiser(Muon, Shampoo, SOAPなど)が適用された場合にロバストではないことを指摘し、Optimiser間で共有のパラメータと、Optimiser毎にfittingさせる係数を用いた定式化(3)によって、よりOptimiser間でロバストなScaling Lawsを提案しOptimiser間での比較を可能にした模様。また、損失をQuadratic Lossを最適化する観点から分解し、Theorem 6.3で示される理論的なスケーリング則を導出。これらの個別の項を解釈すると、第一項L^*がチンチラ則のEに対応し（普遍的に生じる基本的な損失）、第二項Θ(λ^ω_d)は近似誤差（当該モデルサイズでの性能の限界による誤差）がチンチラ則でのparameter efficiency term A/(N^α)に対応し、第三項O(e^−2kλd)は最適化誤差を表すが、これがチンチラ則でのdata efficiency term B/(D^β)に対応すると解釈でき、自然とチンチラ則スタイルのスケーリング則が導出されることを理論的に示したようである。

[Paper Note] Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL, Ian Wu+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#DocumentSummarization #NLP #LanguageModel #ReinforcementLearning #AIAgents #Reasoning #PostTraining #read-later #RLVR #Selected Papers/Blogs #OOD #Generalization #KeyPoint Notes #LongHorizon #Compression #Initial Impression Notes Issue Date: 2026-02-05 GPT Summary- 大規模言語モデル（LLM）は、テスト時の適応能力により複雑な問題を解決する外挿特性を持つが、標準的な強化学習（RL）はその変化に制約がある。これに対処するために、反復デコーディングアルゴリズム（RC）を導入し、LLMの応答生成能力を活用して推論を継続的に改善。実験では、16kトークンの訓練で4BモデルがHMMT 2025でのパフォーマンスを40%から約70%に引き上げ、既存のモデルを上回る結果を示した。RCを使用したモデルは、学習した要約生成能力によりテスト時のパフォーマンスも向上できることが証明された。 Comment

元ポスト:

Loading…

reasoningの生成と、生成されたreasoningとinputで条件付けでsummaryを生成、さらにinputとsummaryで条件付けてreasoningを生成するという、生成と要約を反復する枠組みを採用（LLMはreasoningを要約することが生成するよりも得意で、かつ過去の要約から将来の推論を生成できるという非対称性を活用）することで、訓練時の予算は決まっているため、訓練時の予算では到達できないhorizonにテスト時に遭遇すると汎化しない課題を克服し、テスト時により長いステップ数の推論もこなせるように外挿する。また、このようなgeneration-summaryの反復を各ステップごとでRLVRすることでさらに性能を向上でき、実際にlong horizonな推論や学習時よりもより長いreasoning token budgetの場合に大きなgainを獲得できている。

RLVRをする際に各ステップごとのSummaryを保存しておき、各ステップのsummaryが与えられたときに正解できるかどうかのシグナルに基づいて、ステップごとの要約で条件付けられた応答能力を改善する。これにより、さまざまなステップで応答を生成する能力が強化され、結果的にshort horizonからlong horizonの推論をする能力が強化される。
このときsummaryはリプレイバッファとして扱い後のepochの訓練でもオフポリシーデータとして活用する。要約はinputに条件付けられて生成されるものであり、optimizationのtargetとは異なるためリプレイバッファとして活用でき、かつさまざまな要約に対して正解が生成できるように学習されるためテスト時の要約の分布のシフトにロバストになる。また、オンポリシーデータだけだと、long horizonに対する要約は非常に稀になるため、リプレイバッファを利用することで補う。

テスト時に学習時を超えたhorizonで推論できることは現在のAIエージェントの大きな課題だと思うので非常に興味深い研究だと思う。

[Paper Note] Vision Language Models are Confused Tourists, Patrick Amadeus Irawan+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#ComputerVision #Dataset #Evaluation #Bias #VisionLanguageModel #Cultural Issue Date: 2025-12-25 GPT Summary- 文化的次元はVLMの評価において重要だが、多様な文化的入力に対する安定性は未検証。既存の評価は単一の文化的概念に依存し、複数の文化的手がかりを考慮していない。これに対処するため、ConfusedTouristという新しい評価手法を導入し、VLMの安定性を評価。実験で、画像スタッキングの摂動下で精度が低下し、注意が気を散らす手がかりにシフトすることが明らかに。これにより、視覚的文化概念の混合がVLMに大きな影響を与えることが示され、文化的にロバストな理解の必要性が強調された。 Comment

元ポスト:

Loading…

VLMの文化的な物体の認識に関するロバスト性を全く異なる国の国旗やランドマークをルールベース、あるいはimage editingなどによって敵対的に挿入する（distractor)ことで測るベンチマークで、distractorによって性能が低下することからVLMに地理的・文化的バイアスが存在することを示した研究、のように見える。

[Paper Note] OmniVGGT: Omni-Modality Driven Visual Geometry Grounded, Haosong Peng+, CVPR'25, 2025.11

Paper/Blog Link My Issue
#ComputerVision #Transformer #FoundationModel #read-later #2D (Image) #3D (Scene) #Robotics #SpatialUnderstanding #Omni #Geometric Issue Date: 2025-11-16 GPT Summary- OmniVGGTという新しいフレームワークを提案し、RGB以外の幾何学的手がかりを活用して3D基盤モデルの性能を向上させる。GeoAdapterを用いて深度情報やカメラパラメータをモデルにエンコードし、安定した最適化を実現。確率的なマルチモーダル融合手法により、任意の数のモダリティ入力を可能にし、堅牢な空間表現を学習。実験により、OmniVGGTが従来手法を上回り、視覚-言語-行動モデルに統合することでロボティクスタスクでも性能向上を達成。 Comment

元ポスト:

Loading…

depth mapやcameraの情報などの様々な幾何学的情報を入力した場合（depth mapがないなど情報が欠落していても良い）にロバストに対応できるような基盤モデルを構築する手法らしい

評価データ:
- [Paper Note] A naturalistic open source movie for optical flow evaluation, Butler+, ECCV'12
- [Paper Note] ReFusion: 3D Reconstruction in Dynamic Environments for RGB-D Cameras Exploiting Residuals, Emanuele Palazzolo+, IROS'19, 2019.05
- [Paper Note] Indoor Segmentation and Support Inference from RGBD Images, Silberman+, ECCV'12
- [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images,Shotton+, CVPR'13
- [Paper Note] ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes, Angela Dai+, CVPR'17, 2017.02
- [Paper Note] A Multi-view Stereo Benchmark with High-Resolution Images and Multi-camera Videos, Schöps+, CVPR'17
- [Paper Note] Large-Scale Data for Multiple-View Stereopsis, Aanæs+, IJCV'16
- [Paper Note] Tanks and temples: Benchmarking large-scale scene reconstruction, Knapitsch+, TOG'17
- [Paper Note] Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life 3D Category Reconstruction, Reizenstein+, ICCV'21
- [Paper Note] Stereo Magnification: Learning View Synthesis using Multiplane Images, Tinghui Zhou+, SIGGRAPH'18, 2018.05
- [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images, Shotton+, CVPR'13
- [Paper Note] CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks, Oier Mees+, RA-L'22 Best Paper Award, 2021.12

[Paper Note] Model Merging with Functional Dual Anchors, Kexuan Shi+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #LanguageModel #PostTraining #ModelMerge Issue Date: 2025-10-27 GPT Summary- モデルマージングの新しい戦略として、Functional Dual Anchors（FDAs）を提案。FDAsはタスク特有の機能的シフトを捉え、共同マルチタスクトレーニングとポストホックマージングを結びつける。実験により、FDAsがモデルマージングにおいて効果的であることを示した。 Comment

pj page: https://spherelab.ai/fda/

元ポスト:

Loading…

[Paper Note] Towards Video Thinking Test: A Holistic Benchmark for Advanced Video Reasoning and Understanding, Yuanhan Zhang+, ICCV'25, 2025.07

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Evaluation #MultiModal #Reasoning #VideoGeneration/Understandings #ICCV #4D (Video) Issue Date: 2025-10-24 GPT Summary- ビデオ理解における正確性と堅牢性のギャップを評価するために、Video Thinking Test（Video-TT）を導入。1,000本のYouTube Shortsビデオを用い、オープンエンドの質問と敵対的質問を通じて、ビデオLLMsと人間のパフォーマンスの違いを示す。 Comment

pj page: https://zhangyuanhan-ai.github.io/video-tt/

[Paper Note] Flipping the Dialogue: Training and Evaluating User Language Models, Tarek Naous+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#NLP #UserModeling #LanguageModel #UserBased #Evaluation #Conversation Issue Date: 2025-10-12 GPT Summary- LMとの会話には人間のユーザーとLMアシスタントが参加し、LMは構造化された応答を生成するよう最適化されている。しかし、ユーザーの発話は完璧ではなく、従来の研究ではアシスタントLMがユーザーをシミュレートすることが試みられたが、効果的ではないことが示された。そこで、目的特化型ユーザー言語モデル（User LMs）を導入し、これが人間の行動とより一致し、シミュレーションの堅牢性を向上させることを示した。User LMsを用いたコーディングや数学の会話シミュレーションでは、強力なアシスタントのパフォーマンスが低下し、現実的なシミュレーション環境がアシスタントの苦戦を引き起こすことが確認された。 Comment

HF: https://huggingface.co/microsoft/UserLM-8b

元ポスト:

Loading…

興味深い

所見:

Loading…

[Paper Note] Robust Speech Recognition via Large-Scale Weak Supervision, Alec Radford+, ICML'23, 2022.12

Paper/Blog Link My Issue
#NeuralNetwork #Transformer #SpeechProcessing #AutomaticSpeechRecognition(ASR) #Selected Papers/Blogs #Generalization #KeyPoint Notes Issue Date: 2025-11-14 GPT Summary- 680,000時間の多言語音声トランスクリプトを用いて訓練した音声処理システムを研究。得られたモデルは、ゼロショット転送設定で良好に一般化し、従来の監視結果と競争力を持つ。人間の精度に近づくことが確認され、モデルと推論コードを公開。 Comment

いまさらながらWhisper論文

日本語解説: https://www.ai-shift.co.jp/techblog/3001

長文認識のためのヒューリスティックに基づくデコーディング戦略も解説されているので参照のこと。

研究のコアとなるアイデアとしては、既存研究は自己教師あり学習、あるいはself-learningによって性能向上を目指す流れがある中で、教師あり学習に着目。既存研究で教師あり学習によって性能が向上することが示されていたが、大規模なスケールで実施できていなかったため、それをweakly-supervisedなmanner（=つまり完璧なラベルではなくてノイジーでも良いからラベルを付与し学習する）といった方法で学習することで、より頑健で高性能なASRを実現したい、という気持ちの研究。また、複雑なサブタスク(language identification, inverse text normalization（ASR後のテキストを人間向けの自然なテキストに変換すること[^2]）, phrase-level timestamps (audioとtranscriptのタイムスタンプ予測))を一つのパイプラインで実現するような統合的なインタフェースも提案している。モデルのアーキテクチャ自体はencoder-decoderモデルである。また、positional encodingとしてはSinusoidal Positional Encoding（すなわち、絶対位置エンコーディング）が用いられている。デコーダにはprompt[^1]と呼ばれるtranscriptのhistoryを（確率的に挿入し）入力して学習することで、過去のcontextを考慮したASRが可能となる。lossの計算は、translate/transcribeされたトークンのみを考慮して計算する。

データセットについては詳細は記述されておらず、internetに存在する (audio, transcripts)のペアデータを用いたと書かれている。
しかしながら、収集したデータセットを確認んすると、transcriptionの品質が低いものが混ざっており、フィルタリングを実施している。これは、人間のtranscriptionとmachine-generatedなtranscriptionをmixして学習すると性能を損なうことが既存研究で知られているため、ヒューリスティックに基づいてmachine-generatedなtranscriptionは学習データから除外している。これは、初期のモデルを学習してエラー率を観測し、データソースを人手でチェックしてlow-qualityなtranscriptを除去するといった丁寧なプロセスもあ含まれる。

また、収集したデータの言語についてはVoxLingua107データセット [Paper Note] VoxLingua107: a Dataset for Spoken Language Recognition, Jörgen Valk+, SLT'21, 2020.11 によって学習された分類器（をさらにfinetuningしたモデルと書かれている。詳細は不明）によって自動的に付与する。すなわち、X->enのデータのX（つまりsource言語）のlanguage identificationについてもweakly-supervisedなラベルで学習されている。

audioファイルについては、30秒単位のセグメントに区切り全ての期間を学習データに利用。無音部分はサブサンプリング（=一部をサンプリングして使う）しVoice Activity Detectionも学習する。

[^1]: LLMの文脈で広く使われるPromptとは異なる点に注意。LLMはinstruction-tuningが実施されているため人間の指示に追従するような挙動となるが、Whisperではinstruction-tuningを実施していないのでそのような挙動にはならない。あくまで過去のhistoryの情報を与える役割と考えること。
[^2]: Whisperでは生のtranscriptをnormalizationせずに学習にそのまま利用するため書き起こしの表記の統一は行われないと考えられる。

Qwen3-ASR & Qwen3-ForcedAligner is Now Open Sourced: Robust, Streaming and Multilingual, Qwen Team, 2026.01

Paper/Blog Link My Issue
#Article #SpeechProcessing #LongSequence #MultiLingual #OpenWeight #AutomaticSpeechRecognition(ASR) #AudioLanguageModel Issue Date: 2026-01-30 Comment

HF: https://huggingface.co/collections/Qwen/qwen3-asr
technical report: https://github.com/QwenLM/Qwen3-ASR/blob/main/assets/Qwen3_ASR.pdf

元ポスト:

Loading…