MultitaskLearningに関する論文・技術記事メモの一覧

MultitaskLearning

[Paper Note] Joint Modeling in Recommendations: A Survey, Xiangyu Zhao+, arXiv'25, 2025.02

Paper/Blog Link My Issue
#Multi #RecommenderSystems #NeuralNetwork #Survey #MultiModal Issue Date: 2025-03-03 GPT Summary- 深層リコメンダーシステム（DRS）は、個々の嗜好に基づいてオンラインコンテンツをカスタマイズするが、従来の手法は単一のタスクやデータに依存し、ユーザーの多様な嗜好を反映できない。このため、複数のタスクやシナリオ、モダリティを統合する共同モデリング手法の必要性が増している。本論文では、マルチタスク、マルチシナリオ、マルチモーダル、マルチビヘイビアモデリングを通じて共同モデリングを総括し、最新の進展と研究動向を特定・要約し、将来の探求の道を示す。 Comment

元ポスト:

Loading…

Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks, Bin Xiao+, N_A, arXiv'23

Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal #FoundationModel #SpatialUnderstanding #One-Line Notes Issue Date: 2023-11-13 GPT Summary- Florence-2は、ビジョン基盤モデルであり、さまざまなビジョンタスクに対応するための統一されたプロンプトベースの表現を持っています。このモデルは、テキストプロンプトを受け取り、キャプショニング、オブジェクト検出、グラウンディング、セグメンテーションなどのタスクを実行し、テキスト形式で結果を生成します。また、FLD-5Bという大規模な注釈付きデータセットも開発されました。Florence-2は、多目的かつ包括的なビジョンタスクを実行するためにシーケンスツーシーケンス構造を採用しており、前例のないゼロショットおよびファインチューニングの能力を持つ強力なモデルです。 Comment

Vison Foundation Model。Spatialな階層構造や、Semanticを捉えられるように訓練。Image/Prompt Encoderでエンコードされ、outputはtext + location informationとなる。

Crosslingual Generalization through Multitask Finetuning, Niklas Muennighoff+, N_A, ACL'23

Paper/Blog Link My Issue
#LanguageModel #Zero/Few/ManyShotPrompting #Supervised-FineTuning (SFT) #CrossLingual #ACL #PostTraining #Generalization #One-Line Notes Issue Date: 2023-08-16 GPT Summary- マルチタスクプロンプトフィネチューニング（MTF）は、大規模な言語モデルが新しいタスクに汎化するのに役立つことが示されています。この研究では、マルチリンガルBLOOMとmT5モデルを使用してMTFを実施し、英語のプロンプトを使用して英語および非英語のタスクにフィネチューニングすることで、タスクの汎化が可能であることを示しました。さらに、機械翻訳されたプロンプトを使用してマルチリンガルなタスクにフィネチューニングすることも調査し、モデルのゼロショットの汎化能力を示しました。また、46言語の教師ありデータセットのコンポジットであるxP3も紹介されています。 Comment

英語タスクを英語でpromptingしてLLMをFinetuningすると、他の言語（ただし、事前学習で利用したコーパスに出現する言語に限る）で汎化し性能が向上することを示した模様。
![Image](https://github.com/user-attachments/assets/44e9cf6e-e80f-4092-af46-ad74c30fe59c)

Few-Shot Data-to-Text Generation via Unified Representation and Multi-Source Learning, ACL'23

Paper/Blog Link My Issue
#NaturalLanguageGeneration #NLP #DataToTextGeneration #Zero/FewShotLearning #ACL Issue Date: 2023-07-18 GPT Summary- この論文では、構造化データからテキストを生成する新しいアプローチを提案しています。提案手法は、さまざまな形式のデータを処理できる統一された表現を提供し、マルチタスクトレーニングやゼロショット学習などのシナリオでのパフォーマンスを向上させることを目指しています。実験結果は、提案手法が他の方法と比較して優れた性能を示していることを示しています。これは、データからテキスト生成フレームワークにおける重要な進歩です。

[Paper Note] Perceiver IO: A General Architecture for Structured Inputs & Outputs, Andrew Jaegle+, ICLR'22, 2021.07

Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #MachineLearning #NLP #MultiModal #SpeechProcessing #ICLR Issue Date: 2025-07-10 GPT Summary- 汎用アーキテクチャPerceiver IOを提案し、任意のデータ設定に対応し、入力と出力のサイズに対して線形にスケール可能。柔軟なクエリメカニズムを追加し、タスク特有の設計を不要に。自然言語、視覚理解、マルチタスクで強力な結果を示し、GLUEベンチマークでBERTを上回る性能を達成。 Comment

当時相当話題となったさまざまなモーダルを統一された枠組みで扱えるPerceiver IO論文

openreview: https://openreview.net/forum?id=fILj7WpI-g

[Paper Note] UnifiedSKG: Unifying and Multi-Tasking Structured Knowledge Grounding with Text-to-Text Language Models, Tianbao Xie+, EMNLP'22, 2022.01

Paper/Blog Link My Issue
#NeuralNetwork #NLP #LanguageModel #PEFT(Adaptor/LoRA) #EMNLP #Encoder-Decoder #Grounding Issue Date: 2022-12-05 GPT Summary- UnifiedSKGフレームワークを提案し、21の構造化知識のグラウンディング（SKG）タスクをテキスト対テキスト形式に統合。これにより、体系的なSKG研究を促進し、異なるサイズのT5で最先端の性能を達成。マルチタスクチューニングが性能向上に寄与し、SKGのゼロショットおよび少数ショット学習における課題を示した。UnifiedSKGは他のタスクへの拡張も可能で、オープンソースとして公開されている。

[Paper Note] An Overview of Multi-Task Learning in Deep Neural Networks, Sebastian Ruder, arXiv'17, 2017.07

Paper/Blog Link My Issue
#NeuralNetwork #Tutorial #MachineLearning Issue Date: 2018-02-05 GPT Summary- マルチタスク学習（MTL）の深層ニューラルネットワークにおける概要を提供し、一般的な手法や文献を紹介。MTLの機能を明らかにし、補助タスク選択のガイドラインを示すことで、実務者のMTL適用を支援することを目指す。

[Paper Note] Multi-Task Video Captioning with Video and Entailment Generation, Ramakanth Pasunuru+, ACL'17, 2017.04

Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #NaturalLanguageGeneration #NLP #ACL #Encoder-Decoder #3D (Video) #One-Line Notes #VideoCaptioning Issue Date: 2017-12-31 GPT Summary- ビデオキャプショニングの改善のため、教師なしビデオ予測タスクと論理的言語含意生成タスクを共有し、リッチなビデオエンコーダ表現を学習。パラメータを共有するマルチタスク学習モデルを提案し、標準データセットで大幅な改善を達成。 Comment

解説スライド： https://www.slideshare.net/HangyoMasatsugu/hangyo-acl-paperreading2017multitask-video-captioning-with-video-and-entailment-generation/1

multitask learningで動画（かなり短め）のキャプション生成を行なった話

[Paper Note] Representation Learning Using Multi-Task Deep Neural Networks for Semantic Classification and Information Retrieval, Liu+, NAACL-HLT'15, 2015.05

Paper/Blog Link My Issue
#NeuralNetwork #InformationRetrieval #Search #QueryClassification #WebSearch #RepresentationLearning #NAACL #Surface-level Notes Issue Date: 2018-02-05 Comment

クエリ分類と検索をNeural Netを用いてmulti-task learningする研究

分類(multi-class classification)とランキング(pairwise learning-to-rank)という異なる操作が必要なタスクを、multi task learningの枠組みで組み合わせた（初めての？）研究。

この研究では分類タスクとしてクエリ分類、ランキングタスクとしてWeb Searchを扱っている。

モデルの全体像は下図の通り。

shared layersの部分で、クエリとドキュメントを一度共通の空間に落とし、そのrepresentationを用いて、l3においてtask-specificな空間に写像し各タスクを解いている。

分類タスクを解く際には、outputはsigmoidを用いる（すなわち、output layerのユニット数はラベル数分存在する）。

Web Searchを解く際には、クエリとドキュメントをそれぞれtask specificな空間に別々に写像し、それらのcosine similarityをとった結果にsoftmaxをかけることで、ドキュメントのrelevance scoreを計算している。

学習時のアルゴリズムは上の通り。各タスクをランダムにpickし、各タスクの目的関数が最適化されるように思いをSGDで更新する、といったことを繰り返す。

なお、alternativeとして、下図のようなネットワーク構造を考えることができるが（クエリのrepresentationのみがシェアされている）、このモデルの場合はweb searchがあまりうまくいかなかった模様。

理由としては、unbalancedなupdates（クエリパラメータのupdateがdocumentよりも多くアップデートされること）が原因ではないかと言及しており、multi-task modelにおいては、パラメータをどれだけシェアするかはネットワークをデザインする上で重要な選択であると述べている。

評価で用いるデータの統計量は下記の通り。

1年分の検索ログから抽出。クエリ分類（各クラスごとにbinary）、および文書のrelevance score（5-scale）は人手で付与されている。

クエリ分類はROC曲線のAUCを用い、Web SearchではNDCG (Normalized Discounted Cumulative Gain) を用いた。

multi task learningをした場合に、性能が向上している。

また、ネットワークが学習したsemantic representationとSVMを用いて、domain adaptationの実験（各クエリ分類のタスクは独立しているので、一つのクエリ分類のデータを選択しsemantic representationをtrainし、学習したrepresentationを別のクエリ分類タスクに適用する）も行なっており、訓練事例数が少ない場合に有効に働くことを確認（Letter3gramとWord3gramはnot trained/adapted）。

また、SemanticRepresentationへ写像する行列W1のパラメータの初期化の仕方と、サンプル数の変化による性能の違いについても実験。DNN1はW1をランダムに初期化、DNN2は別タスク（別のクエリ分類タスク）で学習したW1でfixする手法。

訓練事例が数百万程度ある場合は、DNN1がもっとも性能がよく、数千の訓練事例数の場合はsemantic representationを用いたSVMがもっともよく、midium-rangeの訓練事例数の場合はDNN2がもっとも性能がよかったため、データのサイズに応じて手法を使い分けると良い。

データセットにおいて、クエリの長さや文書の長さが記述されていないのがきになる。

[Paper Note] A unified architecture for natural language processing: Deep neural networks with multitask learning, Collobert+, ICML'08

Paper/Blog Link My Issue
#NeuralNetwork #NLP #ICML #Selected Papers/Blogs #One-Line Notes Issue Date: 2018-02-05 Comment

Deep Neural Netを用いてmultitask learningを行いNLPタスク（POS tagging, Semantic Role Labeling, Chunking etc.）を解いた論文。

被引用数2000を超える。

multitask learningの学習プロセスなどが引用されながら他論文で言及されていたりする。