TransferLearning
#Analysis
#Pocket
#NLP
#LanguageModel
#ReinforcementLearning
#DPO
#GRPO
#VerifiableRewards
#Off-Policy
#On-Policy
#Non-VerifiableRewards
Issue Date: 2025-06-30 [Paper Note] Bridging Offline and Online Reinforcement Learning for LLMs, Jack Lanchantin+, arXiv'25 GPT Summary- 大規模言語モデルのファインチューニングにおける強化学習手法の効果を、オフラインからオンラインへの移行において調査。数学タスクと指示に従うタスクのベンチマーク評価を行い、オンラインおよびセミオンラインの最適化手法がオフライン手法を上回る結果を示す。トレーニングダイナミクスとハイパーパラメータ選択について分析し、検証可能な報酬と検証不可能な報酬を共同で扱うことでパフォーマンス向上を確認。 Comment
#RecommenderSystems #Pocket #Transformer
Issue Date: 2024-09-25 beeFormer: Bridging the Gap Between Semantic and Interaction Similarity in Recommender Systems, Vojtěch Vančura+, N_A, RecSys'24 GPT Summary- レコメンダーシステムにおいて、コールドスタートやゼロショットシナリオでの予測改善のために、インタラクションデータを活用した文のトランスフォーマーモデル「beeFormer」を提案。beeFormerは、意味的類似性の予測において従来の手法を上回り、異なるドメインのデータセット間で知識を転送可能であることを示した。これにより、ドメインに依存しないテキスト表現のマイニングが可能になる。 Comment
#EfficiencyImprovement #NLP #Ensemble
Issue Date: 2023-07-14 Parameter-efficient Weight Ensembling Facilitates Task-level Knowledge Transfer, ACL'23 GPT Summary- 最近の研究では、大規模な事前学習済み言語モデルを特定のタスクに効果的に適応させることができることが示されています。本研究では、軽量なパラメータセットを使用してタスク間で知識を転送する方法を探求し、その有効性を検証しました。実験結果は、提案手法がベースラインに比べて5%〜8%の改善を示し、タスクレベルの知識転送を大幅に促進できることを示しています。
Issue Date: 2025-06-30 [Paper Note] Bridging Offline and Online Reinforcement Learning for LLMs, Jack Lanchantin+, arXiv'25 GPT Summary- 大規模言語モデルのファインチューニングにおける強化学習手法の効果を、オフラインからオンラインへの移行において調査。数学タスクと指示に従うタスクのベンチマーク評価を行い、オンラインおよびセミオンラインの最適化手法がオフライン手法を上回る結果を示す。トレーニングダイナミクスとハイパーパラメータ選択について分析し、検証可能な報酬と検証不可能な報酬を共同で扱うことでパフォーマンス向上を確認。 Comment
元ポスト:
#RecommenderSystems #Pocket #Transformer
Issue Date: 2024-09-25 beeFormer: Bridging the Gap Between Semantic and Interaction Similarity in Recommender Systems, Vojtěch Vančura+, N_A, RecSys'24 GPT Summary- レコメンダーシステムにおいて、コールドスタートやゼロショットシナリオでの予測改善のために、インタラクションデータを活用した文のトランスフォーマーモデル「beeFormer」を提案。beeFormerは、意味的類似性の予測において従来の手法を上回り、異なるドメインのデータセット間で知識を転送可能であることを示した。これにより、ドメインに依存しないテキスト表現のマイニングが可能になる。 Comment
NLPでは言語という共通の体系があるから事前学習とかが成立するけど、RecSysのようなユーザとシステムのinteraction dataを用いたシステムでは(大抵の場合はデータセットごとにユニークなユーザIDとアイテムIDのログでデータが構成されるので)なかなかそういうことは難しいよね、と思っていた。が、もしRecSysのタスク設定で、データセット間の転移学習を実現できるのだとしたらどのように実現してきるのだろうか?興味深い。後で読む。
#EfficiencyImprovement #NLP #Ensemble
Issue Date: 2023-07-14 Parameter-efficient Weight Ensembling Facilitates Task-level Knowledge Transfer, ACL'23 GPT Summary- 最近の研究では、大規模な事前学習済み言語モデルを特定のタスクに効果的に適応させることができることが示されています。本研究では、軽量なパラメータセットを使用してタスク間で知識を転送する方法を探求し、その有効性を検証しました。実験結果は、提案手法がベースラインに比べて5%〜8%の改善を示し、タスクレベルの知識転送を大幅に促進できることを示しています。
#MachineTranslation
#Pocket
#NLP
#LanguageModel
#Annotation
#MultiLingual
#ACL
Issue Date: 2023-05-04
Frustratingly Easy Label Projection for Cross-lingual Transfer, Yang Chen+, N_A, ACL'23
GPT Summary- - 多言語のトレーニングデータの翻訳は、クロスリンガル転移の改善に役立つ- スパンレベル注釈が必要なタスクでは、注釈付きスパンを翻訳されたテキストにマッピングするために追加のラベルプロジェクションステップが必要- マーク-翻訳法を利用するアプローチが従来の注釈プロジェクションと比較してどのようになるかについての実証的な分析を行った- EasyProjectと呼ばれるマーク-翻訳法の最適化されたバージョンが多言語に簡単に適用でき、より複雑な単語アラインメントベースの方法を上回ることを示した- すべてのコードとデータが公開される
#NeuralNetwork
#Pretraining
#Pocket
#NLP
#PostTraining
#Selected Papers/Blogs
Issue Date: 2025-05-12
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, Colin Raffel+, JMLR'20
GPT Summary- 転移学習はNLPにおいて強力な技術であり、本論文ではテキストをテキストに変換する統一フレームワークを提案。事前学習の目的やアーキテクチャを比較し、最先端の結果を達成。データセットやモデル、コードを公開し、今後の研究を促進する。
Comment
T5もメモっていなかったので今更ながら追加。全てのNLPタスクをテキスト系列からテキスト系列へ変換するタスクとみなし、Encoder-DecoderのTransformerを大規模コーパスを用いて事前学習をし、downstreamタスクにfinetuningを通じて転移する。