ConvolutionalModels
[Paper Note] Dynamic Short Convolutions Improve Transformers, Oliver Sieberling+, arXiv'26, 2026.06
Paper/Blog Link My Issue
#Transformer #Architecture #Author Thread-Post Issue Date: 2026-06-09 GPT Summary- ダイナミック・ショート畳み込みを導入し、Transformersの表現力を高めることを提案。入力依存のフィルターを使用することで、静的ショート畳み込みよりも難解なタスクにおいて性能が向上。150Mから20億パラメータの実験で、従来のTransformersを常に上回り、計算効率も改善。スケーラブルでハードウェア効率が高いこの手法は、言語モデルの進化に寄与する可能性を示す。 Comment
convolutionを使ったモデルが増えてきた
所見:
関連:
- [Paper Note] Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers, Zeyuan Allen-Zhu+, ICML'24 Tutorial
[Paper Note] What Matters in Practical Learned Image Compression, Kedar Tatwawadi+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #Encoder-Decoder #2D (Image) #Compression Issue Date: 2026-06-01 GPT Summary- 実用的な学習済み画像コーデックを目指し、知覚品質と実行時のバランスを追求。新技術を含む主要なモデリング選択を検討し、性能を最大化。評価結果に基づき、既存コーデックに比べてビットレートを2.3〜3倍削減、同時に高速なエンコードとデコードを実現。 Comment
pj page: https://apple.github.io/ml-pico/
解説:
[Paper Note] Multi-Mixer Models: Flexible Sequence Modeling with Shared Representations, Kevin Y. Li+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Transformer #Attention #Architecture #One-Line Notes Issue Date: 2026-05-31 GPT Summary- Oryxというハイブリッドモデルを提案し、系列全体を通じて異なるトークン混合手法を柔軟に切り替えるアプローチを探る。二次アテンションと線形リカレンスを組み合わせ、90%のパラメータを共有することで、効率的な性能を実現。最長1.4Bパラメータのモデルで、従来のモデルを上回る結果を示し、内部表現の共有が有望な方向性であることを示唆。 Comment
元ポスト:
softmax attentionとgated delta net (linear attention)の利用をスイッチングによって動的に切り替え、双方でKVを共有し畳み込みをかけてinducive biasを導入した上で活用する。outputはRMSNorm側でgatingする。softmax attentionとlinear attentionの良いところを良いところ取りしようというアーキテクチャに見える。
[Paper Note] DiaMoE-TTS: A Unified IPA-Based Dialect TTS Framework with Mixture-of-Experts and Parameter-Efficient Zero-Shot Adaptation, Ziqi Chen+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#Transformer #SpeechProcessing #MoE(Mixture-of-Experts) #FlowMatching #TTS #LowResource Issue Date: 2025-10-18 GPT Summary- DiaMoE-TTSは、方言の音声合成のためのIPAベースのフレームワークを提案し、音声表現の標準化と曖昧さの解決を図る。F5-TTSアーキテクチャを基に、方言に対応したMixture-of-Expertsを導入し、効率的なパラメータ適応を実現。スケーラブルでオープンデータ駆動のアプローチにより、数時間のデータで未見の方言や専門的なドメインに対して自然で表現力豊かな音声生成を達成。 Comment
元ポスト:
