TMLR

#Pocket
Issue Date: 2025-09-19 [Paper Note] Understanding In-Context Learning of Linear Models in Transformers Through an Adversarial Lens, Usman Anwar+, TMLR'25 GPT Summary- 本研究では、トランスフォーマーの文脈内学習における敵対的ロバスト性をハイジャック攻撃を通じて調査し、線形トランスフォーマーとGPT-2が脆弱であることを示した。敵対的トレーニングによりロバスト性が向上することも確認。さらに、トランスフォーマーと線形モデルの敵対的脆弱性を比較し、異なるシードから訓練されたトランスフォーマー間で攻撃の転送が不十分であること、また古典的な線形モデルとの間で攻撃が転送されないことを観察した。これにより、トランスフォーマーの文脈内学習アルゴリズムと従来のアルゴリズムとの質的な違いが示唆された。 Comment

openreview: https://openreview.net/forum?id=CtMXJxO7SJ

元ポスト:

Loading…


#Analysis #Pocket #NLP #LanguageModel #Evaluation #Hallucination #read-later
Issue Date: 2025-09-18 [Paper Note] Shared Imagination: LLMs Hallucinate Alike, Yilun Zhou+, TMLR'25, 2025.08 GPT Summary- 大規模言語モデル(LLMs)の類似性を理解するために、想像上の質問応答(IQA)という新しい設定を提案。IQAでは、1つのモデルが架空の質問を生成し、別のモデルがそれに答える。驚くべきことに、全てのモデルがフィクションの質問に成功裏に応答できることから、共通の「想像空間」が存在することが示唆される。この現象について調査し、モデルの均質性や幻覚、計算的創造性に関する考察を行う。 Comment

openreview: https://openreview.net/forum?id=NUXpBMtDYs

元ポスト:

Loading…


#Analysis #MachineLearning #Pocket #NLP #LanguageModel #Transformer #Scheduler
Issue Date: 2025-09-03 [Paper Note] Training Dynamics of the Cooldown Stage in Warmup-Stable-Decay Learning Rate Scheduler, Aleksandr Dremov+, TMLR'25 GPT Summary- WSD学習率スケジューラのクールダウンフェーズを分析し、異なる形状がモデルのバイアス-バリアンスのトレードオフに与える影響を明らかに。探索と活用のバランスが最適なパフォーマンスをもたらすことを示し、特に$\beta_2$の値が高いと改善が見られる。損失のランドスケープを視覚化し、クールダウンフェーズの最適化の重要性を強調。 Comment

元ポスト:

Loading…


#ComputerVision #Analysis #Pocket #pretrained-LM #Scaling Laws Issue Date: 2025-06-26 [Paper Note] An Empirical Study of Pre-trained Model Selection for Out-of-Distribution Generalization and Calibration, Hiroki Naganuma+, TMLR'25 GPT Summary- 事前学習済みモデルのファインチューニングが分布外一般化タスクにおいて重要であることを示し、モデルのサイズやデータセットの選択がOOD精度と信頼性キャリブレーションに与える影響を調査。120,000時間以上の実験を通じて、大きなモデルと大規模なデータセットがOODパフォーマンスとキャリブレーションを改善することを発見。これは、従来の研究と対照的であり、事前学習済みモデルの選択の重要性を強調している。 Comment

OpenReview: https://openreview.net/forum?id=tYjoHjShxF

元ポスト:

Loading…


#ComputerVision #EfficiencyImprovement #NLP #LanguageModel #Transformer #MultiModal #SpeechProcessing #Architecture #UMM Issue Date: 2024-11-12 Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models, Weixin Liang+, TMLR'25 GPT Summary- 大規模言語モデル(LLMs)のマルチモーダル処理を効率化するために、Mixture-of-Transformers(MoT)を提案。MoTは計算コストを削減し、モダリティごとにパラメータを分離して特化した処理を実現。Chameleon 7B設定では、55.8%のFLOPsで密なベースラインに匹敵する性能を示し、音声を含む場合も37.2%のFLOPsで同様の結果を達成。さらに、Transfusion設定では、7BのMoTモデルが密なベースラインの画像性能に対してFLOPsの3分の1で匹敵し、760Mのモデルは主要な画像生成指標で上回る結果を得た。MoTは実用的な利点も示し、画像品質を47.2%、テキスト品質を75.6%の経過時間で達成。 #MachineLearning #Pocket #ReinforcementLearning Issue Date: 2025-06-14 [Paper Note] Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models, Avi Singh+, TMLR'24 GPT Summary- 言語モデルを人間データでファインチューニングする際の限界を超えるため、ReST$^{EM$という自己学習手法を提案。モデルから生成したサンプルをバイナリフィードバックでフィルタリングし、繰り返しファインチューニングを行う。PaLM-2モデルを用いた実験で、ReST$^{EM}$は人間データのみのファインチューニングを大幅に上回る性能を示し、フィードバックを用いた自己学習が人間生成データへの依存を減少させる可能性を示唆。 Comment

解説ポスト:

Loading…


#ComputerVision #Pocket #Transformer #FoundationModel #Self-SupervisedLearning Issue Date: 2025-04-11 DINOv2: Learning Robust Visual Features without Supervision, Maxime Oquab+, TMLR'24 GPT Summary- 自己教師あり手法を用いて、多様なキュレーションデータから汎用的な視覚特徴を生成する新しい事前学習手法を提案。1BパラメータのViTモデルを訓練し、小型モデルに蒸留することで、OpenCLIPを上回る性能を達成。 #Survey #Pocket #NLP #LanguageModel #Alignment Issue Date: 2025-04-06 Foundational Challenges in Assuring Alignment and Safety of Large Language Models, Usman Anwar+, TMLR'24 GPT Summary- 本研究では、LLMsの整合性と安全性に関する18の基盤的課題を特定し、科学的理解、開発・展開方法、社会技術的課題の3つのカテゴリに整理。これに基づき、200以上の具体的な研究質問を提起。 Comment

OpenReview: https://openreview.net/forum?id=oVTkOs8Pka



#Pocket #NLP #Dataset #LanguageModel #Evaluation Issue Date: 2023-07-03 Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models, Aarohi Srivastava+, N_A, TMLR'23 GPT Summary- 言語モデルの能力と制約を理解するために、BIG-benchという新しいベンチマークを導入しました。このベンチマークでは、現在の言語モデルの能力を超えるタスクに焦点を当てています。さまざまなトピックの204のタスクが含まれており、モデルのサイズや性能の比較も行いました。結果として、モデルの性能とキャリブレーションは向上していますが、絶対的な性能は低く、モデル間の性能も似ていることがわかりました。また、スパース性からの利益やタスクの特性についても調査しました。さらに、曖昧な文脈の設定では社会的な偏見が増加することも示されましたが、プロンプトの使用で改善できる可能性もあります。 Comment

OpenReview: https://openreview.net/forum?id=uyTL5Bvosj

BIG-Bench論文。ワードクラウドとキーワード分布を見ると一つの分野に留まらない非常に多様なタスクが含まれることがわかる。
image
image

BIG-Bench-hardは、2024年にClaude3.5によって、Average Human Scoreが67.7%のところ、93.1%を達成され攻略が完了した。現在は最先端のモデル間の性能を差別化することはできない。

- Killed by LLM, R0bk