pretrained-LMに関する論文・技術記事メモの一覧

pretrained-LM

#ComputerVision #Analysis #Pocket #Scaling Laws #TMLR
Issue Date: 2025-06-26 An Empirical Study of Pre-trained Model Selection for Out-of-Distribution Generalization and Calibration, Hiroki Naganuma+, TMLR25 CommentOpenReview:https://openreview.net/forum?id=tYjoHjShxF元ポスト:https://x.com/_hiroki11x/status/1938052113466323134?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Embeddings #Pocket #NLP #LanguageModel #Japanese
Issue Date: 2025-06-25 llm-jp-modernbert: A ModernBERT Model Trained on a Large-Scale Japanese Corpus with Long Context Length, Issa Sugiura+, arXiv25 Comment参考:#1761 ... #NLP #Out-of-DistributionDetection
Issue Date: 2023-07-18 Is Fine-tuning Needed? Pre-trained Language Models Are Near Perfect for Out-of-Domain Detection, ACL23 Summary本研究では、ファインチューニングなしで事前学習された言語モデルを使用してOOD検出を行う効果を調査しました。さまざまなタイプの分布シフトにおいて、ファインチューニングされたモデルを大幅に上回るほぼ完璧なOOD検出性能を示しました。

#RecommenderSystems #NLP #Contents-based #Transformer #ContrastiveLearning
Issue Date: 2023-07-18 UniTRec: A Unified Text-to-Text Transformer and Joint Contrastive Learning Framework for Text-based Recommendation, ACL23 Summary本研究では、事前学習済み言語モデル（PLM）を使用して、テキストベースの推薦の性能を向上させるための新しいフレームワークであるUniTRecを提案します。UniTRecは、ユーザーの履歴の文脈をより良くモデル化するために統一されたローカル-グローバルアテンションTransformerエンコーダを使用し、候補のテキストアイテムの言語の複雑さを推定するためにTransformerデコーダを活用します。幅広い評価により、UniTRecがテキストベースの推薦タスクで最先端のパフォーマンスを発揮することが示されました。 #DocumentSummarization #NLP #Abstractive #InstructionTuning
Issue Date: 2023-07-13 Z-Code++: A Pre-trained Language Model Optimized for Abstractive Summarization, ACL23 Summaryこの論文では、新しい事前学習言語モデルであるZ-Code++を提案し、抽象的なテキスト要約に最適化されています。Z-Code++は、2つのフェーズの事前学習とディセントラル化アテンション層、およびエンコーダー内のフュージョンを使用しています。このモデルは、低リソースの要約タスクで最先端の性能を発揮し、パラメータ効率的であり、他の競合モデルを大幅に上回ります。 #NeuralNetwork #NaturalLanguageGeneration #NLP #LanguageModel #DataToTextGeneration #Zero/FewShotLearning
Issue Date: 2022-12-01 Few-Shot NLG with Pre-Trained Language Model, Chen+, University of California, ACL20 Comment# 概要 Neural basedなend-to-endなNLGアプローチはdata-hungryなので、Few Shotな設定で高い性能ができる手法を提案（Few shot NLG） Table-to-Textタスク（WikiBIOデータ, 追加で収集したBook, SongドメインのWiki ... #DocumentSummarization #NeuralNetwork #MachineTranslation #NLP #Transformer
Issue Date: 2022-12-01 Leveraging Pre-trained Checkpoints for Sequence Generation Tasks, Rothe+, Google Research, TACL20 Comment# 概要 BERT-to-BERT論文。これまでpre-trainedなチェックポイントを利用する研究は主にNLUで行われてきており、Seq2Seqでは行われてきていなかったので、やりました、という話。 publicly availableなBERTのcheckpointを利用し、BERTをen ... #NeuralNetwork #NaturalLanguageGeneration #NLP #DataToTextGeneration
Issue Date: 2022-12-01 Template Guided Text Generation for Task-Oriented Dialogue, Kale+, Google, EMNLP20 Comment# 概要 Dialogue Actをそのままlinearlizeして言語モデルに入力するのではなく、テンプレートをベースにしたシンプルなsentenceにして言語モデルに与えると、zero-shot, few-shotなsettingで性能が向上するという話（T5ベース）。 ![image]low ... #Article #Embeddings #NLP #LanguageModel #Japanese
Issue Date: 2025-02-12 modernbert-ja-130m, SB Intuitions, 2025.02 CommentThis repository provides Japanese ModernBERT trained by SB Intuitions.ModernBERT is a new variant of the BERT model that combines local and global att ... #Article #EfficiencyImprovement #NLP #Library #Transformer
Issue Date: 2024-12-20 ModernBERT, AnswerDotAI, 2024.12 CommentEncoder-only transformer models such as BERT offer a great performance-size tradeoff for retrieval and classification tasks with respect to larger dec ...