InductiveBias
[Paper Note] Deep Delta Learning, Yifan Zhang+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #Pocket #NLP #KeyPoint Notes #ResidualStream Issue Date: 2026-01-03 GPT Summary- Deep Delta Learning(DDL)を提案し、学習可能な恒等ショートカット接続を用いて残差接続を一般化。デルタ演算子を導入し、動的に補間可能なゲートを用いて情報の消去と新しい特徴の書き込みを制御。これにより、複雑な状態遷移をモデル化しつつ、安定したトレーニング特性を維持。 Comment
元ポスト:
解説:
residual connectionは残差を加算するがこれがinducive biasとなり複雑な状態遷移を表現する上ての妨げになっていたが、residual connectionを学習可能なdelta operator(rank1の対称行列によって実現される幾何変換)とやらで一般化することで、表現力を向上させる、といった話な模様。この行列によって実現される幾何変換は3種類によって構成され、βの値によって性質が変わる。たとえばβ=0に近づくほど恒等写像(何もしない)に近づき、β=1に近づくほど射影(特定方向の成分を捨てる)、β=2に近づくほど反射(特定方向の成分を反転させる)といった変換になるらしい。
概念が示されたのみで実験結果はまだ無さそうに見える。
[Paper Note] Scaling Laws and Symmetry, Evidence from Neural Force Fields, Khang Ngo+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NeuralNetwork #Pretraining #MachineLearning #Pocket #Scaling Laws #One-Line Notes Issue Date: 2025-12-19 GPT Summary- 原子間ポテンシャルを学習する幾何学的タスクに関する実証研究を行い、等変性が大規模スケールで重要であることを示した。等変アーキテクチャは非等変モデルよりも優れたスケーリングを示し、高次の表現がより良いスケーリング指数に寄与することが分かった。データとモデルのサイズはアーキテクチャに関係なく連動してスケールすべきであり、対称性などの基本的な帰納的バイアスをモデルに発見させるべきではないと結論付けた。 Comment
元ポスト:
openreview: https://openreview.net/forum?id=qyjaVda7t2
Inducive Bias(対称性vs.非対称性)によってスケーリング則の係数が変わることを原子間ポテンシャルを予測するタスクにおいて示した、という話っぽい?openreviewだとweaknessが多く指摘されている(この性質が一定の一般性を持つ話として記述されているが実験が限定的だからスコープを狭めるべきみたいな話やNLPから多くの手法を引っ張ってきているが原子間ポテンシャル予測は根本的に性質が異なるみたいな指摘など)ように見えるが果たして。
Measuring Inductive Biases of In-Context Learning with Underspecified Demonstrations, ACL'23
Paper/Blog Link My Issue
#NLP #In-ContextLearning Issue Date: 2023-07-15 GPT Summary- インコンテキスト学習(ICL)は、大規模言語モデル(LLMs)を新しいタスクに適応させるための重要なパラダイムですが、ICLの一般化の振る舞いはまだ十分に理解されていません。本研究では、ICLの帰納的なバイアスについて調査を行いました。具体的には、不完全なデモンストレーションが与えられた場合、ICLはどのフィーチャーをより頻繁に使用する傾向があるのかを調べました。実験の結果、LLMsが明確なフィーチャーバイアスを示すことがわかりました。また、特定のフィーチャーを好むような帰納的なバイアスを課すためのさまざまな介入の効果も評価しました。全体として、ICLがより頻繁に利用する可能性のあるフィーチャーのタイプと、意図したタスクとより一致した帰納的なバイアスを課す方法について、より広範な情報を提供する結果となりました。
Objaverse-XL: A Universe of 10M+ 3D Objects
Paper/Blog Link My Issue
#Article #ComputerVision #FoundationModel Issue Date: 2023-07-12 Comment
10Mを超える3D objectのデータセットを公開し、3D Modelの基盤モデルとしてZero123-XLを訓練。
元ツイートのGifがわかりやすい。
たとえばinputされたイメージに対して、自由にカメラの視点を設定し、その視点からの物体の画像を出力できる。