InductiveBias


Paper/Blog Link My Issue
#Analysis #MachineLearning #NLP #Transformer #Generalization #Initial Impression Notes Issue Date: 2026-03-03 GPT Summary- トランスフォーマーは実践的に成功しているが、状態追跡能力に限界があることが指摘されている。本研究では、トランスフォーマーとRNNのデータ効率を比較し、トランスフォーマーは状態空間とシーケンス長が増えるにつれて学習データの必要量が急激に増加することを示した。また、トランスフォーマーは異なるシーケンス長間での重み共有が少なく、長さ特有の学習を行っているのに対し、RNNはデータ再利用を通じて性能向上を実現している。これにより、トランスフォーマーの状態追跡が依然として根本的な課題であることが明らかになった。 Comment

元ポスト:

Loading…

関連する話でAI Agentにおいて、学習データのtrajectoryが内包するhorizonを超えた途端に成功率が下がる、みたいな話があった気がしたのだが、どの論文だったか、、、。

linear attentionを一部用いているアーキテクチャなどでも、状態遷移の学習をうまくできないのだろうか?




Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #NLP #KeyPoint Notes #ResidualStream Issue Date: 2026-01-03 GPT Summary- Deep Delta Learning(DDL)を提案し、学習可能な恒等ショートカット接続を用いて残差接続を一般化。デルタ演算子を導入し、動的に補間可能なゲートを用いて情報の消去と新しい特徴の書き込みを制御。これにより、複雑な状態遷移をモデル化しつつ、安定したトレーニング特性を維持。 Comment

元ポスト:

Loading…

解説:

Loading…

residual connectionは残差を加算するがこれがinducive biasとなり複雑な状態遷移を表現する上ての妨げになっていたが、residual connectionを学習可能なdelta operator(rank1の対称行列によって実現される幾何変換)とやらで一般化することで、表現力を向上させる、といった話な模様。この行列によって実現される幾何変換は3種類によって構成され、βの値によって性質が変わる。たとえばβ=0に近づくほど恒等写像(何もしない)に近づき、β=1に近づくほど射影(特定方向の成分を捨てる)、β=2に近づくほど反射(特定方向の成分を反転させる)といった変換になるらしい。

概念が示されたのみで実験結果はまだ無さそうに見える。

実験が追加された模様:

Loading…

code: https://github.com/yifanzhang-pro/deep-delta-learning




Paper/Blog Link My Issue
#NeuralNetwork #Pretraining #MachineLearning #Scaling Laws #One-Line Notes Issue Date: 2025-12-19 GPT Summary- 原子間ポテンシャルを学習する幾何学的タスクに関する実証研究を行い、等変性が大規模スケールで重要であることを示した。等変アーキテクチャは非等変モデルよりも優れたスケーリングを示し、高次の表現がより良いスケーリング指数に寄与することが分かった。データとモデルのサイズはアーキテクチャに関係なく連動してスケールすべきであり、対称性などの基本的な帰納的バイアスをモデルに発見させるべきではないと結論付けた。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=qyjaVda7t2

Inducive Bias(対称性vs.非対称性)によってスケーリング則の係数が変わることを原子間ポテンシャルを予測するタスクにおいて示した、という話っぽい?openreviewだとweaknessが多く指摘されている(この性質が一定の一般性を持つ話として記述されているが実験が限定的だからスコープを狭めるべきみたいな話やNLPから多くの手法を引っ張ってきているが原子間ポテンシャル予測は根本的に性質が異なるみたいな指摘など)ように見えるが果たして。




Paper/Blog Link My Issue
#NLP #In-ContextLearning Issue Date: 2023-07-15 GPT Summary- インコンテキスト学習(ICL)は、大規模言語モデル(LLMs)を新しいタスクに適応させるための重要なパラダイムですが、ICLの一般化の振る舞いはまだ十分に理解されていません。本研究では、ICLの帰納的なバイアスについて調査を行いました。具体的には、不完全なデモンストレーションが与えられた場合、ICLはどのフィーチャーをより頻繁に使用する傾向があるのかを調べました。実験の結果、LLMsが明確なフィーチャーバイアスを示すことがわかりました。また、特定のフィーチャーを好むような帰納的なバイアスを課すためのさまざまな介入の効果も評価しました。全体として、ICLがより頻繁に利用する可能性のあるフィーチャーのタイプと、意図したタスクとより一致した帰納的なバイアスを課す方法について、より広範な情報を提供する結果となりました。

Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #Transformer #TabularData #NeurIPS #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2023-04-28 GPT Summary- 深層学習はテキストと画像で進展を見せているが、表形式データでの優位性は不明。標準と新規の深層学習法を木ベースのモデルと比較し、45のデータセットでベンチマークを実施。結果は、中規模データにおいて木ベースモデルが依然として優れた性能を示すことを示す。木ベースモデルとニューラルネットワークのバイアスの違いを実証的に調査し、表形式データ特化のNN開発に向けた課題を提示。標準的ベンチマーク用の生データを提供し、各学習器のハイパーパラメータ探索に20,000時間の計算資源を投入した。 Comment

tree basedなモデルがテーブルデータに対してニューラルモデルよりも優れた性能を発揮することを確認し、なぜこのようなことが起きるかいくつかの理由を説明した論文。



image



NNよりもtree basedなモデルがうまくいく理由として、モデルの帰納的バイアスがテーブルデータに適していることを調査している。考察としては



1. NNはスムーズなターゲットを学習する能力が高いが、表形式のような不規則なデータを学習するのに適していない

- Random Forestでは、x軸においてirregularなパターンも学習できているが、NNはできていない。

image



2. uninformativeなfeaatureがMLP-likeなNNに悪影響を与える

- Tabular dataは一般にuninformativeな情報を多く含んでおり、実際MLPにuninformativeなfeatureを組み込んだ場合tree-basedな手法とのgapが増加した

image



3. データはrotationに対して不変ではないため、学習手順もそうあるべき(この辺がよくわからなかった)

- ResNetはRotationを加えても性能が変わらなかった(rotation invariantな構造を持っている)

image



openreview: https://openreview.net/forum?id=Fp7__phQszn




Paper/Blog Link My Issue
#Article #ComputerVision #FoundationModel Issue Date: 2023-07-12 Comment

10Mを超える3D objectのデータセットを公開し、3D Modelの基盤モデルとしてZero123-XLを訓練。
元ツイートのGifがわかりやすい。

Loading…


たとえばinputされたイメージに対して、自由にカメラの視点を設定し、その視点からの物体の画像を出力できる。