AutoEncoder
[Paper Note] The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding, Weichen Fan+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #Pocket #RepresentationLearning #read-later #2D (Image) #Spectrum Issue Date: 2025-12-24 GPT Summary- 異なるモダリティの深い表現は相互に関連しており、セマンティックエンコーダは低周波成分を、ピクセルエンコーダは高周波情報を捉えることが明らかになった。この発見を基に、Unified Autoencoding(UAE)モデルを提案し、セマンティック構造とピクセルの詳細を調和させる。実験により、UAEが両者を効果的に統合し、最先端の性能を達成したことが確認された。 Comment
元ポスト:
所見:
ポイント解説:
[Paper Note] VLIC: Vision-Language Models As Perceptual Judges for Human-Aligned Image Compression, Kyle Sargent+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #Pocket #Alignment #DiffusionModel #LLM-as-a-Judge #DPO #PostTraining #2D (Image) #One-Line Notes Issue Date: 2025-12-21 GPT Summary- 人間の好みに基づく画像圧縮のために、視覚-言語モデル(VLM)を活用した新しいシステムVLICを提案。VLICは、バイナリVLM判断を用いた拡散ベースの画像圧縮システムで、従来の知覚損失ネットワークを蒸留するのではなく、既存技術を活用。これにより、データセットに応じた競争力のある性能を実現。VLMベースの報酬設計とトレーニング手順についても分析を行い、重要な洞察を提供。 Comment
pj page: https://kylesargent.github.io/vlic
元ポスト:
ざっくり言うと、同じ潜在表現に対して異なる2つのノイズシードに対して画像を生成し、VLM-as-a-Judgeを用いて人間の知覚的な好みに近いスコアを得ることで、preferenceペアを合成。この情報に基づいてDiffusion DPOと呼ばれるDPOのdiffusionモデル版を用いてDiffusion autoencoderを学習することで、より人間の知覚的な判断に近い画像圧縮・復元過程を学習する、というような話っぽい。
実際のサンプルを見ると、明らかにテキストの崩れがなくなっているのがわかる。
[Paper Note] One Layer Is Enough: Adapting Pretrained Visual Encoders for Image Generation, Yuan Gao+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Pocket #DiffusionModel #SmallModel #Encoder #2D (Image) Issue Date: 2025-12-15 GPT Summary- 視覚生成モデルにおける潜在空間の不一致を解消するため、FAE(Feature Auto-Encoder)を提案。FAEは、再構成と生成の両方に必要な情報を保持しつつ、1つのアテンション層で実現。2つの深層デコーダを組み合わせ、さまざまな自己教師ありエンコーダに対応。拡散モデルや正規化フローと接続可能で、ImageNetでのベンチマークにおいて優れた性能を示す。 Comment
元ポスト:
[Paper Note] Continuous Autoregressive Language Models, Chenze Shao+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Pretraining #Pocket #NLP #LanguageModel #Architecture #KeyPoint Notes Issue Date: 2025-11-03 GPT Summary- 大規模言語モデル(LLMs)の効率を向上させるため、連続自己回帰言語モデル(CALM)を提案。CALMは、次トークン予測から次ベクトル予測へのシフトを行い、Kトークンを連続ベクトルに圧縮することで生成ステップをK倍削減。新たなフレームワークを開発し、性能と計算コストのトレードオフを改善。CALMは、効率的な言語モデルへの道筋を示す。 Comment
pj page: https://shaochenze.github.io/blog/2025/CALM/
元ポスト:
VAEを学習し(deterministicなauto encoderだと摂動に弱くロバストにならないためノイズを加える)、Kトークンをlatent vector zに圧縮、auto regressiveなモデルでzを生成できるように学習する。専用のヘッド(generative head)を用意し、transformerの隠れ状態からzを条件付きで生成する。zが生成できればVAEでdecodeすればKトークンが生成される。loss functionは下記のエネルギースコアで、第一項で生成されるトークンの多様性を担保しつつ(モード崩壊を防ぎつつ)、第二項でground truth yに近い生成ができるようにする、といった感じらしい。評価はautoregressiveにzを生成する設定なのでperplexityを計算できない。このため、BrierLMという指標によって評価している。BrierLMがどのようなものかは理解できていない。必要になったら読む。
future workにあるようにスケーリング特性がまだ明らかになっていないのでなんとも言えないという感想。
ポイント解説:
[Paper Note] Collaborative Denoising Auto-Encoders for Top-N Recommender Systems, Wu+, WSDM'16
Paper/Blog Link My Issue
#RecommenderSystems #NeuralNetwork #CollaborativeFiltering #WSDM #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2018-01-02 Comment
Denoising Auto-Encoders を用いたtop-N推薦手法、Collaborative Denoising Auto-Encoder (CDAE)を提案。
モデルベースなCollaborative Filtering手法に相当する。corruptedなinputを復元するようなDenoising Auto Encoderのみで推薦を行うような手法は、この研究が初めてだと主張。
学習する際は、userのitemsetのsubsetをモデルに与え(noiseがあることに相当)、全体のitem setを復元できるように、学習する(すなわちDenoising Auto-Encoder)。
推薦する際は、ユーザのその時点でのpreference setをinputし、new itemを推薦する。
- [Paper Note] Collaborative Deep Learning for Recommender Systems, Hao Wang+, KDD'15
もStacked Denoising Auto EncoderとCollaborative Topic Regression [Paper Note] Collaborative topic modeling for recommending scientific articles, Wang+, KDD'11
を利用しているが、[Paper Note] Collaborative Deep Learning for Recommender Systems, Hao Wang+, KDD'15
ではarticle recommendationというspecificな問題を解いているのに対して、提案手法はgeneralなtop-N推薦に利用できることを主張。