EACLに関する論文・技術記事メモの一覧

EACL

NeuroPrompts: An Adaptive Framework to Optimize Prompts for Text-to-Image Generation, Shachar Rosenman+, N_A, EACL'24 Sustem Demonstration Track

Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #AutomaticPromptEngineering #System Demonstration Issue Date: 2023-11-23 GPT Summary- 本研究では、テキストから画像への生成モデルの品質を向上させるための適応型フレームワークNeuroPromptsを提案します。このフレームワークは、事前学習された言語モデルを使用して制約付きテキストデコーディングを行い、人間のプロンプトエンジニアが生成するものに類似したプロンプトを生成します。これにより、高品質なテキストから画像への生成が可能となり、ユーザーはスタイルの特徴を制御できます。また、大規模な人間エンジニアリングされたプロンプトのデータセットを使用した実験により、当アプローチが自動的に品質の高いプロンプトを生成し、優れた画像品質を実現することを示しました。

[Paper Note] MLCopilot: Unleashing the Power of Large Language Models in Solving Machine Learning Tasks, Lei Zhang+, EACL'24, 2023.04

Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #AutoML Issue Date: 2023-08-10 GPT Summary- LLMを用いて新規のMLタスク解決を自動化するフレームワークを提案。これにより、人間の知識と経験を活かし、タスク理解と推論を強化。LLMは既存経験から学び、新たなタスクに対して効果的な解決策を生成し、高い競争力を持つことを示す。コードはGitHubで公開。

[Paper Note] LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions, Minghao Wu+, EACL'24, 2023.04

Paper/Blog Link My Issue
#NLP #Dataset #InstructionTuning #DataDistillation #One-Line Notes Issue Date: 2023-04-26 GPT Summary- LLMから小型モデルへの知識蒸留を探求。256万以上の多様な指示セットを用意し、gpt-3.5-turboで応答を生成。エンコーダ-デコーダとデコーダ専用のラミニLMを調整し、15のNLPベンチマークで性能評価。提案モデルは競合と同等の性能を発揮し、サイズが大幅に小さいことを確認。 Comment

既存のInstruction DatasetのInstructionをseedとして、gpt-3.5-turboで新たなInstructionとresponseを生成したデータセット

[Paper Note] MTEB: Massive Text Embedding Benchmark, Niklas Muennighoff+, EACL'23, 2022.10

Paper/Blog Link My Issue
#Embeddings #NLP #Dataset #Evaluation Issue Date: 2022-10-31 GPT Summary- テキスト埋め込み評価が単一タスクの小規模データセットに偏っているため、他タスクへの適用可否が不明な中、Massive Text Embedding Benchmark（MTEB）を導入。MTEBは8つの埋め込みタスクを網羅し、58データセットと112言語を含むを通じて、33モデルをベンチマーク。特定手法が全タスクで優位性を持たないことを示し、分野が普遍的手法に収束していないことを明らかに。オープンソースコードと公開リーダーボードは、https://github.com/embeddings-benchmark/mteb で利用可能。

[Paper Note] Long Document Summarization with Top-down and Bottom-up Inference, Bo Pang+, EACL'23, 2022.03

Paper/Blog Link My Issue
#DocumentSummarization #NeuralNetwork #NLP #Abstractive #KeyPoint Notes Issue Date: 2022-09-02 GPT Summary- テキスト要約のための新しい推論フレームワークを提案。階層的な潜在構造を仮定し、ボトムアップとトップダウンの両方でトークンの表現を更新。短い文書に対して競争力のあるパフォーマンスを持ち、長文書要約でも最先端の結果を達成。少ないパラメータで競争力のある性能を示し、フレームワークの一般的な適用性を証明。 Comment

日本語解説: https://zenn.dev/ty_nlp/articles/9f5e5dd3084dbd

以下、上記日本語解説記事を読んで理解した内容をまとめます。ありがとうございます。

# 概要

基本的にTransformerベースのモデル（e.g. BERTSum, BART, PEGASUS, GPT-2, T5）ではself-attentionの計算量が入力トークン数Nに対してO(N^2)でかかり、入力の二乗のオーダーで計算量が増えてしまう。

これを解消するためにself-attentionを計算する範囲をウィンドウサイズで制限するLongformerや、BigBardなどが提案されてきたが、どちらのモデルも離れたトークン間のattentionの情報が欠落するため、長距離のトークン間の関係性を捉えにくくなってしまう問題があった。

そこで、top-down transformerではセグメント（セグメントはテキストでいうところの文）という概念を提唱し、tokenからsegmentのrepresentationを生成しその後self-attentionでsegment間の関係性を考慮してsegmentのrepresentationを生成するbottom-up inference、各tokenとsegmentの関係性を考慮しし各tokenのrepresentationを学習するtop-down inferenceの2つの構造を利用した。bottom-up inferenceにおいてsegmentのrepresentationを計算する際にpoolingを実施するが、adapoolingと呼ばれる重要なトークンに重み付けをし、その重みを加味した加重平均によりプーリングを実施する。これにより、得られた各トークンの表現は、各セグメントとの関連度の情報を含み（セグメントの表現は各セグメント間のattentnionに基づいて計算されているため; bottom-up inference）、かつ各トークンと各セグメント間との関連度も考慮して計算されているため（top-down inference）、結果的に離れたトークン間の関連度を考慮したrepresentationが学習される（下図）。

（図は上記記事からお借りいたしました）

各attentionの計算量は表のようになり、M, wはNよりも遥かに小さいため、O(N^2)よりも遥かに小さい計算量で計算できる。

（こちらも上記記事からお借りいたしました）

# 実験（日本語解説より）

## データセット

## 結果

### PubMedとarXiv

### CNN-DailyMail

### TVMegasSiteとForeverDreaming

### BookSum-Chapter-Level

### BookSum-Book-Level

## 所感

CNN-DailyMailのようなinput wordsが900程度のデータではcomparableな結果となっているが、input wordsが長い場合は先行研究をoutperformしている。BookSum-Chapter Levelにおいて、Longformer, BigBirdの性能が悪く、BART, T5, Pegasusの性能が良いのが謎い。

てかinput wordsが3000~7000程度のデータに対して、どうやってBARTやらT5やらを実装できるんだろう。大抵512 tokenくらいが限界だと思っていたのだが、どうやったんだ・・・。

>The maximum document lengths for PubMed, arXiv, CNN-DM,

TVMegaSite, ForeverDreaming, BookSum are 8192, 16384, 1024, 12288, 12288, 12288, respectively

これは、たとえばBookSumの場合は仮にinputの長さが11万とかあったとしても、12288でtruncateしたということだろうか。まあなんにせよ、頑張ればこのくらいの系列長のモデルを学習できるということか（メモリに乗るのか・・・？どんな化け物マシンを使っているのか）。

>We first train a top-down transformer on the chapter-level data and then fine-tune it on the book-level

data. The inputs to the book-level model are (1) the concatenated chapter reference summaries in

training or (2) the concatenated chapter summaries generated by the chapter-level model in testing.

The chapter-to-book curriculum training is to mitigate the scarcity of book-level data. The recursive

summarization of chapters and then books can be considered abstractive content selection applied

to book data, and is used to address the extremely long length of books.

BookLevel Summarizationでは、データ数が300件程度しかなく、かつinput wordsがでかすぎる。これに対処するために、まずtop-down transformerをchapter-level_ dataで訓練して、その後book-level dataでfine-tuning。book-level dataでfine-tuningする際には、chapterごとのreference summaryをconcatしたものを正解とし、chapter-level modelが生成したchapterごとのsummaryをconcatしたものをモデルが生成した要約として扱った、という感じだろうか。まずchapter levelで学習しその後book levelで学習するcurriculum learningっぽいやり方がbook-level dataの不足を緩和してくれる。bookの要約を得るためにchapterを再帰的に要約するようなアプローチは、book dataに対するcontent selectionとしてみなすことができ、おそろしいほど長い入力の対処にもなっている、という感じだろうか。

[Paper Note] Learning to Generate Product Reviews from Attributes, Dong+, EACL'17

Paper/Blog Link My Issue
#NeuralNetwork #NLP #ReviewGeneration #Initial Impression Notes Issue Date: 2019-03-08 Comment

（たぶん）最初のreview generation論文

[Paper Note] Cutting-off redundant repeating generations for neural abstractive summarization, Suzuki+, EACL'17

Paper/Blog Link My Issue
#DocumentSummarization #NeuralNetwork #Supervised #NLP #Abstractive Issue Date: 2017-12-31

[Paper Note] DualSum: a Topic-Model based approach for update summarization, Delort et al., EACL’12

Paper/Blog Link My Issue
#Article #DocumentSummarization #NLP #Update #KeyPoint Notes Issue Date: 2017-12-28 Comment

・大半のupdate summarizationの手法はdocument set Aがgivenのとき，document set Bのupdate summarizationをつくる際には，redundancy removalの問題として扱っている．

・この手法は，1つのsentenceの中にredundantな情報とnovelな情報が混在しているときに，そのsentenceをredundantなsentenceだと判別してしまう問題点がある．加えて，novel informationを含んでいると判別はするけれども，明示的にnovel informationがなんなのかということをモデル化していない．

・Bayesian Modelを使うことによって，他の手法では抜け落ちている確率的な取り扱いが可能にし, unsupervisedでできるようにする．