ConvolutionalModelsに関する論文・技術記事メモの一覧

ConvolutionalModels

[Paper Note] Dynamic Short Convolutions Improve Transformers, Oliver Sieberling+, arXiv'26, 2026.06

Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Attention #Architecture #Author Thread-Post Issue Date: 2026-06-05 GPT Summary- 動的ショート畳み込みをトランスフォーマーに導入し、静的畳み込みの局所性バイアスを維持しつつ表現力を向上。実験により、動的畳み込みが高難度の連想想起タスクでの性能を向上させ、標準トランスフォーマーを一貫して上回ることを示した。計算量に対する優位性も確認され、効率的なトレーニングを実現するカスタムTritonカーネルを提供。動的ショート畳み込みはトランスフォーマー技術の進展に寄与することを示唆している。 Comment

元ポスト:

Loading…

所見:

Loading…

所見:

Loading…

[Paper Note] What Matters in Practical Learned Image Compression, Kedar Tatwawadi+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #Encoder-Decoder #2D (Image) #Compression Issue Date: 2026-06-01 GPT Summary- 実用的な学習済み画像コーデックを目指し、知覚品質と実行時のバランスを追求。新技術を含む主要なモデリング選択を検討し、性能を最大化。評価結果に基づき、既存コーデックに比べてビットレートを2.3〜3倍削減、同時に高速なエンコードとデコードを実現。 Comment

pj page: https://apple.github.io/ml-pico/

解説:

Loading…

[Paper Note] Multi-Mixer Models: Flexible Sequence Modeling with Shared Representations, Kevin Y. Li+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Transformer #Attention #Architecture #One-Line Notes Issue Date: 2026-05-31 GPT Summary- Oryxというハイブリッドモデルを提案し、系列全体を通じて異なるトークン混合手法を柔軟に切り替えるアプローチを探る。二次アテンションと線形リカレンスを組み合わせ、90％のパラメータを共有することで、効率的な性能を実現。最長1.4Bパラメータのモデルで、従来のモデルを上回る結果を示し、内部表現の共有が有望な方向性であることを示唆。 Comment

元ポスト:

Loading…

softmax attentionとgated delta net (linear attention)の利用をスイッチングによって動的に切り替え、双方でKVを共有し畳み込みをかけてinducive biasを導入した上で活用する。outputはRMSNorm側でgatingする。softmax attentionとlinear attentionの良いところを良いところ取りしようというアーキテクチャに見える。

[Paper Note] DiaMoE-TTS: A Unified IPA-Based Dialect TTS Framework with Mixture-of-Experts and Parameter-Efficient Zero-Shot Adaptation, Ziqi Chen+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#Transformer #SpeechProcessing #MoE(Mixture-of-Experts) #FlowMatching #TTS #LowResource Issue Date: 2025-10-18 GPT Summary- DiaMoE-TTSは、方言の音声合成のためのIPAベースのフレームワークを提案し、音声表現の標準化と曖昧さの解決を図る。F5-TTSアーキテクチャを基に、方言に対応したMixture-of-Expertsを導入し、効率的なパラメータ適応を実現。スケーラブルでオープンデータ駆動のアプローチにより、数時間のデータで未見の方言や専門的なドメインに対して自然で表現力豊かな音声生成を達成。 Comment

元ポスト:

Loading…