TMLR

#ComputerVision#Analysis#Pocket#pretrained-LM#Scaling Laws
Issue Date: 2025-06-26 An Empirical Study of Pre-trained Model Selection for Out-of-Distribution Generalization and Calibration, Hiroki Naganuma+, TMLR25 CommentOpenReview:https://openreview.net/forum?id=tYjoHjShxF元ポスト:https://x.com/_hiroki11x/status/1938052113466323134?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #MachineLearning#Pocket#ReinforcementLearning
Issue Date: 2025-06-14 Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models, Avi Singh+, TMLR24 Comment解説ポスト:https://x.com/hillbig/status/1735065077668356106?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #ComputerVision#Pocket#Transformer#FoundationModel#Self-SupervisedLearning
Issue Date: 2025-04-11 DINOv2: Learning Robust Visual Features without Supervision, Maxime Oquab+, TMLR24

#Survey#Pocket#NLP#LanguageModel#Alignment
Issue Date: 2025-04-06 Foundational Challenges in Assuring Alignment and Safety of Large Language Models, Usman Anwar+, TMLR24 CommentOpenReview:https://openreview.net/forum?id=oVTkOs8Pka ... #Pocket#NLP#Dataset#LanguageModel#Evaluation
Issue Date: 2023-07-03 Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models, Aarohi Srivastava+, N_A, TMLR23 Summary言語モデルの能力と制約を理解するために、BIG-benchという新しいベンチマークを導入しました。このベンチマークでは、現在の言語モデルの能力を超えるタスクに焦点を当てています。さまざまなトピックの204のタスクが含まれており、モデルのサイズや性能の比較も行いました。結果として、モデルの性能とキャリブレーションは向上していますが、絶対的な性能は低く、モデル間の性能も似ていることがわかりました。また、スパース性からの利益やタスクの特性についても調査しました。さらに、曖昧な文脈の設定では社会的な偏見が増加することも示されましたが、プロンプトの使用で改善できる可能性もあります。 CommentOpenReview:https://openreview.net/forum?id=uyTL5BvosjBIG-Bench論文。ワードクラウドとキーワード分布を見ると一つの分野に留まらない非常に多様なタスクが含まれることがわかる。![image](https://github.com/user-a ...