TransferLearning

#Analysis#Pocket#NLP#LanguageModel#ReinforcementLearning#DPO#GRPO#VerifiableRewards#Off-Policy#On-Policy#Non-VerifiableRewards
Issue Date: 2025-06-30 Bridging Offline and Online Reinforcement Learning for LLMs, Jack Lanchantin+, arXiv25 Comment元ポスト:https://x.com/jaseweston/status/1939673136842313960?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #RecommenderSystems#Pocket#Transformer
Issue Date: 2024-09-25 beeFormer: Bridging the Gap Between Semantic and Interaction Similarity in Recommender Systems, Vojtěch Vančura+, N_A, RecSys24 CommentNLPでは言語という共通の体系があるから事前学習とかが成立するけど、RecSysのようなユーザとシステムのinteraction dataを用いたシステムでは(大抵の場合はデータセットごとにユニークなユーザIDとアイテムIDのログでデータが構成されるので)なかなかそういうことは難しいよね、と思ってい ... #EfficiencyImprovement#NLP#Ensemble
Issue Date: 2023-07-14 Parameter-efficient Weight Ensembling Facilitates Task-level Knowledge Transfer, ACL23 Summary最近の研究では、大規模な事前学習済み言語モデルを特定のタスクに効果的に適応させることができることが示されています。本研究では、軽量なパラメータセットを使用してタスク間で知識を転送する方法を探求し、その有効性を検証しました。実験結果は、提案手法がベースラインに比べて5%〜8%の改善を示し、タスクレベルの知識転送を大幅に促進できることを示しています。

#MachineTranslation#Pocket#NLP#LanguageModel#Annotation#MultiLingual#ACL
Issue Date: 2023-05-04 Frustratingly Easy Label Projection for Cross-lingual Transfer, Yang Chen+, N_A, ACL23 Summary多言語のトレーニングデータの翻訳は、クロスリンガル転移の改善に役立つスパンレベル注釈が必要なタスクでは、注釈付きスパンを翻訳されたテキストにマッピングするために追加のラベルプロジェクションステップが必要マーク-翻訳法を利用するアプローチが従来の注釈プロジェクションと比較してどのようになるかについての実証的な分析を行ったEasyProjectと呼ばれるマーク-翻訳法の最適化されたバージョンが多言語に簡単に適用でき、より複雑な単語アラインメントベースの方法を上回ることを示したすべてのコードとデータが公開される #NeuralNetwork#Pretraining#Pocket#NLP#PostTraining#Admin'sPick
Issue Date: 2025-05-12 Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, Colin Raffel+, JMLR20 CommentT5もメモっていなかったので今更ながら追加。全てのNLPタスクをテキスト系列からテキスト系列へ変換するタスクとみなし、Encoder-DecoderのTransformerを大規模コーパスを用いて事前学習をし、downstreamタスクにfinetuningを通じて転移する。 ...