Abstractive

#DocumentSummarization #NaturalLanguageGeneration #NLP #Factuality
Issue Date: 2023-07-18 Improving Factuality of Abstractive Summarization without Sacrificing Summary Quality, ACL'23 Summary事実性を意識した要約の品質向上に関する研究はあるが、品質を犠牲にすることなく事実性を向上させる手法がほとんどない。本研究では「Effective Factual Summarization」という技術を提案し、事実性と類似性の指標の両方で大幅な改善を示すことを示した。トレーニング中に競合を防ぐために2つの指標を組み合わせるランキング戦略を提案し、XSUMのFactCCでは最大6ポイント、CNN/DMでは11ポイントの改善が見られた。また、類似性や要約の抽象性には負の影響を与えない。 #DocumentSummarization #NaturalLanguageGeneration #NLP #Extractive
Issue Date: 2023-07-18 Abstractive Summarizers are Excellent Extractive Summarizers, ACL'23 Summary本研究では、抽出型要約と要約型要約の相乗効果を探求し、シーケンス・トゥ・シーケンス・アーキテクチャを使用した3つの新しい推論アルゴリズムを提案しています。これにより、要約型システムが抽出型システムを超えることができることを示しました。また、要約型システムは抽出型のオラクル要約にさらされることなく、両方の要約を単一のモデルで生成できることも示しました。これは、抽出型ラベルの必要性に疑問を投げかけるものであり、ハイブリッドモデルの有望な研究方向を示しています。 #DocumentSummarization #Survey #NLP #Conversation
Issue Date: 2023-07-15 [TACL] Abstractive Meeting Summarization: A Survey, TACL'23 Summary会議の要約化において、深層学習の進歩により抽象的要約が改善された。本論文では、抽象的な会議の要約化の課題と、使用されているデータセット、モデル、評価指標について概説する。

#DocumentSummarization #NLP #pretrained-LM #InstructionTuning Issue Date: 2023-07-13 Z-Code++: A Pre-trained Language Model Optimized for Abstractive Summarization, ACL'23 Summaryこの論文では、新しい事前学習言語モデルであるZ-Code++を提案し、抽象的なテキスト要約に最適化されています。Z-Code++は、2つのフェーズの事前学習とディセントラル化アテンション層、およびエンコーダー内のフュージョンを使用しています。このモデルは、低リソースの要約タスクで最先端の性能を発揮し、パラメータ効率的であり、他の競合モデルを大幅に上回ります。 #DocumentSummarization #NeuralNetwork #NLP #EACL Issue Date: 2022-09-02 Long Document Summarization with Top-down and Bottom-up Inference, Pang+, Salesforce Research, EACL'23 Comment日本語解説: https://zenn.dev/ty_nlp/articles/9f5e5dd3084dbd



以下、上記日本語解説記事を読んで理解した内容をまとめます。ありがとうございます。



概要

基本的にTransformerベースのモデル(e.g. BERTSum, BART, PEGASUS, GPT-2, T5)ではself-attentionの計算量が入力トークン数Nに対してO(N^2)でかかり、入力の二乗のオーダーで計算量が増えてしまう。

これを解消するためにself-attentionを計算する範囲をウィンドウサイズで制限するLongformerや、BigBardなどが提案されてきたが、どちらのモデルも離れたトークン間のattentionの情報が欠落するため、長距離のトークン間の関係性を捉えにくくなってしまう問題があった。



image



そこで、top-down transformerではセグメント(セグメントはテキストでいうところの文)という概念を提唱し、tokenからsegmentのrepresentationを生成しその後self-attentionでsegment間の関係性を考慮してsegmentのrepresentationを生成するbottom-up inference、各tokenとsegmentの関係性を考慮しし各tokenのrepresentationを学習するtop-down inferenceの2つの構造を利用した。bottom-up inferenceにおいてsegmentのrepresentationを計算する際にpoolingを実施するが、adapoolingと呼ばれる重要なトークンに重み付けをし、その重みを加味した加重平均によりプーリングを実施する。これにより、得られた各トークンの表現は、各セグメントとの関連度の情報を含み(セグメントの表現は各セグメント間のattentnionに基づいて計算されているため; bottom-up inference)、かつ各トークンと各セグメント間との関連度も考慮して計算されているため(top-down inference)、結果的に離れたトークン間の関連度を考慮したrepresentationが学習される(下図)。



image

(図は上記記事からお借りいたしました)



各attentionの計算量は表のようになり、M, wはNよりも遥かに小さいため、O(N^2)よりも遥かに小さい計算量で計算できる。

image

(こちらも上記記事からお借りいたしました)



実験(日本語解説より)

データセット

image



結果

PubMedとarXiv

image



CNN-DailyMail

image



TVMegasSiteとForeverDreaming

image



BookSum-Chapter-Level

image



BookSum-Book-Level

image



所感

CNN-DailyMailのようなinput wordsが900程度のデータではcomparableな結果となっているが、input wordsが長い場合は先行研究をoutperformしている。BookSum-Chapter Levelにおいて、Longformer, BigBirdの性能が悪く、BART, T5, Pegasusの性能が良いのが謎い。

てかinput wordsが3000~7000程度のデータに対して、どうやってBARTやらT5やらを実装できるんだろう。大抵512 tokenくらいが限界だと思っていたのだが、どうやったんだ・・・。>The maximum document lengths for PubMed, arXiv, CNN-DM,

TVMegaSite, ForeverDreaming, BookSum are 8192, 16384, 1024, 12288, 12288, 12288, respectively



これは、たとえばBookSumの場合は仮にinputの長さが11万とかあったとしても、12288でtruncateしたということだろうか。まあなんにせよ、頑張ればこのくらいの系列長のモデルを学習できるということか(メモリに乗るのか・・・?どんな化け物マシンを使っているのか)。>We first train a top-down transformer on the chapter-level data and then fine-tune it on the book-level

data. The inputs to the book-level model are (1) the concatenated chapter reference summaries in

training or (2) the concatenated chapter summaries generated by the chapter-level model in testing.

The chapter-to-book curriculum training is to mitigate the scarcity of book-level data. The recursive

summarization of chapters and then books can be considered abstractive content selection applied

to book data, and is used to address the extremely long length of books.



BookLevel Summarizationでは、データ数が300件程度しかなく、かつinput wordsがでかすぎる。これに対処するために、まずtop-down transformerをchapter-level_ dataで訓練して、その後book-level dataでfine-tuning。book-level dataでfine-tuningする際には、chapterごとのreference summaryをconcatしたものを正解とし、chapter-level modelが生成したchapterごとのsummaryをconcatしたものをモデルが生成した要約として扱った、という感じだろうか。まずchapter levelで学習しその後book levelで学習するcurriculum learningっぽいやり方がbook-level dataの不足を緩和してくれる。bookの要約を得るためにchapterを再帰的に要約するようなアプローチは、book dataに対するcontent selectionとしてみなすことができ、おそろしいほど長い入力の対処にもなっている、という感じだろうか。
#DocumentSummarization #Pocket #NLP #Factuality #Faithfulness #ACL Issue Date: 2025-07-14 [Paper Note] On Faithfulness and Factuality in Abstractive Summarization, Joshua Maynez+, ACL'20 Summary抽象的な文書要約における言語モデルの限界を分析し、これらのモデルが入力文書に対して忠実でない内容を生成する傾向が高いことを発見。大規模な人間評価を通じて、生成される幻覚の種類を理解し、すべてのモデルで相当量の幻覚が確認された。事前学習されたモデルはROUGE指標だけでなく、人間評価でも優れた要約を生成することが示された。また、テキストの含意測定が忠実性と良好に相関することが明らかになり、自動評価指標の改善の可能性を示唆。 Comment文書要約の文脈において `hallucination` について説明されている。
・1044

が `hallucination` について言及する際に引用している。
#DocumentSummarization #Supervised #Pocket #NLP #ICLR Issue Date: 2017-12-31 A Deep Reinforced Model for Abstractive Summarization, Paulus+(with Socher), ICLR'18 #Single #DocumentSummarization #NeuralNetwork #Document #Supervised #NLP #ACL #Admin'sPick Issue Date: 2017-12-31 Get To The Point: Summarization with Pointer-Generator Networks, See+, ACL'17 Comment解説スライド:https://www.slideshare.net/akihikowatanabe3110/get-to-the-point-summarization-with-pointergenerator-networks/1単語の生成と単語のコピーの両方を行えるハイブリッドなニューラル文書要約モデルを提案。

同じ単語の繰り返し現象(repetition)をなくすために、Coverage Mechanismも導入した。



136 などと比較するとシンプルなモデル。一般的に、PointerGeneratorと呼ばれる。

OpenNMTなどにも実装されている: https://opennmt.net/OpenNMT-py/_modules/onmt/modules/copy_generator.html(参考)Pointer Generator Networksで要約してみる:

https://qiita.com/knok/items/9a74430b279e522d5b93
#DocumentSummarization #NeuralNetwork #Supervised #Pocket #NLP #EACL Issue Date: 2017-12-31 Cutting-off redundant repeating generations for neural abstractive summarization, Suzuki+, EACL'17 #Single #DocumentSummarization #NeuralNetwork #Document #Supervised #NLP #ACL #Admin'sPick Issue Date: 2017-12-31 Incorporating Copying Mechanism in Sequence-to-Sequence Learning, Gu+, ACL'16 Comment解説スライド:https://www.slideshare.net/akihikowatanabe3110/incorporating-copying-mechanism-in-sequene-to-sequence-learning単語のコピーと生成、両方を行えるネットワークを提案。

location based addressingなどによって、生成された単語がsourceに含まれていた場合などに、copy-mode, generate-modeを切り替えるような仕組みになっている。



65 と同じタイミングで発表
#Single #DocumentSummarization #NeuralNetwork #Document #Supervised #NLP #IJCAI Issue Date: 2017-12-31 Distraction-Based Neural Networks for Modeling Documents, Chen+, IJCAI'16 CommentNeuralなモデルで「文書」の要約を行う研究。



提案手法では、attention-basedなsequence-to-sequenceモデルにdistractionと呼ばれる機構を導入することを提案。



distractionを導入するmotivationは、入力文書中の異なる情報を横断的に参照(一度着目した情報には今後あまり着目しないようなバイアスをかける)したうえで、要約を生成しようというもの。

これにより、生成される要約の冗長性を排除するのが狙い。



以下の3つのアプローチを用いて、distractionを実現



1. [Distraction over input content vectors]

 tステップ目において、decoderのinputとして用いるcontext vectorを

計算する際に、通常の計算に加えて、t-1ステップ目までに使用した

context vectorの情報を活用することで、これまでdecoderのinputとして

利用された情報をあまり重視視しないように、context vectorを生成する。



2. [Distraction over attention weight vectors]

 attentionの重みを計算する際に、過去に高いattentionの重みがついた

encoderのhidden stateについては、あまり重要視しないように

attentionの重みを計算。1と同様に、t-1ステップ目までのattention weightの

historyを保持しておき活用する。



3. [Distration in decoding]

 decodingステップでbeam-searchを行う際のスコア計算に、distraction scoreを導入。distraction

scoreはtステップ目までに用いられたcontext vector、attention

weight、decoderのstateから計算され、これまでと同じような情報に基づいて

単語が生成された場合は、スコアが低くなるようになっている。



CNN、およびLCSTS data (大規模な中国語のheadline generationデータ)で評価した結果、上記3つのdistraction機構を導入した場合に、最も高いROUGEスコアを獲得



特に、原文書が長い場合に、短い場合と比較して、distraction機構を導入すると、

ROUGEスコアの改善幅が大きくなったことが示されている
#DocumentSummarization #NeuralNetwork #Document #Supervised #NLP #IJCAI Issue Date: 2017-12-28 Distraction-Based Neural Networks for Modeling Documents, Chen+, IJCAI'16 CommentNeuralなモデルで「文書」の要約を行う研究。



提案手法では、attention-basedなsequence-to-sequenceモデルにdistractionと呼ばれる機構を導入することを提案。



distractionを導入するmotivationは、入力文書中の異なる情報を横断的に参照(一度着目した情報には今後あまり着目しないようなバイアスをかける)したうえで、要約を生成しようというもの。

これにより、生成される要約の冗長性を排除するのが狙い。



以下の3つのアプローチを用いて、distractionを実現



1. [Distraction over input content vectors]

 tステップ目において、decoderのinputとして用いるcontext vectorを

計算する際に、通常の計算に加えて、t-1ステップ目までに使用した

context vectorの情報を活用することで、これまでdecoderのinputとして

利用された情報をあまり重視視しないように、context vectorを生成する。



2. [Distraction over attention weight vectors]

 attentionの重みを計算する際に、過去に高いattentionの重みがついた

encoderのhidden stateについては、あまり重要視しないように

attentionの重みを計算。1と同様に、t-1ステップ目までのattention weightの

historyを保持しておき活用する。



3. [Distration in decoding]

 decodingステップでbeam-searchを行う際のスコア計算に、distraction scoreを導入。distraction

scoreはtステップ目までに用いられたcontext vector、attention

weight、decoderのstateから計算され、これまでと同じような情報に基づいて

単語が生成された場合は、スコアが低くなるようになっている。



CNN、およびLCSTS data (大規模な中国語のheadline generationデータ)で評価した結果、上記3つのdistraction機構を導入した場合に、最も高いROUGEスコアを獲得



特に、原文書が長い場合に、短い場合と比較して、distraction機構を導入すると、

ROUGEスコアの改善幅が大きくなったことが示されているDistraction機構の有用性は、ACL'17のstanford NLPグループが提案したPointer Generator Networkでも示されている(Coverage Vectorという呼び方をしてた気がする)
#DocumentSummarization #NeuralNetwork #Sentence #Supervised #NLP #EMNLP #Admin'sPick Issue Date: 2017-12-31 A Neural Attention Model for Sentence Summarization, Rush+, EMNLP'15 Comment解説スライド:https://www.slideshare.net/akihikowatanabe3110/a-neural-attention-model-for-sentence-summarization-65612331 #Single #DocumentSummarization #NeuralNetwork #Sentence #Document #NLP #Dataset #EMNLP #Admin'sPick Issue Date: 2017-12-28 LCSTS: A large scale chinese short text summarizatino dataset, Hu+, EMNLP'15 CommentLarge Chinese Short Text Summarization (LCSTS) datasetを作成



データセットを作成する際は、Weibo上の特定のorganizationの投稿の特徴を利用。

Weiboにニュースを投稿する際に、投稿の冒頭にニュースのvery short summaryがまず記載され、その後ニュース本文(短め)が記載される特徴があるので、この対をsource-reference対として収集した。

収集する際には、約100個のルールに基づくフィルタリングやclearning, 抽出等を行なっている。



image



データセットのpropertyとしては、下記のPartI, II, IIIに分かれている。



PartI: 2.4Mのshort text ・summary pair

PartII: PartIからランダムにサンプリングされた10kのpairに対して、5 scaleで要約のrelevanceをratingしたデータ。ただし、各pairにラベルづけをしたevaluatorは1名のみ。

PartIII: 2kのpairに対して(PartI, PartIIとは独立)、3名のevaluatorが5-scaleでrating。evaluatorのratingが一致した1kのpairを抽出したデータ。



image



RNN-GRUを用いたSummarizerも提案している。



image



CopyNetなどはLCSTSを使って評価している。他にも使ってる論文あったはず。ACL'17のPointer Generator Networkでした。
#Single #DocumentSummarization #Document #Supervised #NLP #Extractive #COLING Issue Date: 2018-01-01 Learning to Generate Coherent Sumamry with Discriminative Hidden Semi-Markov Model, Nishikawa+, COLING'14 CommentHidden-semi-markovモデルを用いた単一文書要約手法を提案。



通常のHMMでは一つの隠れ状態に一つのunit(要約の文脈だと文?)が対応するが、hidden-semi-markov(HSMM)モデルでは複数のunitを対応づけることが可能。

隠れ状態に対応するunitを文だと考えると、ある文の複数の亜種を考慮できるようになるため、ナップサック制約を満たしつつ最適な文の亜種を選択するといったことが可能となる。

とかまあ色々難しいことが前半の節に書いてある気がするが、3.3節を見るのがわかりやすいかもしれない。



定式化を見ると、基本的なナップサック問題による要約の定式化に、Coherenceを表すtermと文の変種を考慮するような変数が導入されているだけである。

文のweightや、coherenceのweightは構造学習で学習し、Passive Aggressiveを用いて、loss functionとしてはROUGEを用いている(要はROUGEが高くなるように、outputの要約全体を考慮しながら、weightを学習するということ)。



文の変種としては、各文を文圧縮したものを用意している。

また、動的計画法によるデコーディングのアルゴリズムも提案されている。



構造学習を行う際には大量の教師データが必要となるが、13,000記事分のニュース記事と対応する人手での要約のデータを用いて学習と評価を行なっており、当時これほど大規模なデータで実験した研究はなかった。



ROUGEでの評価の結果、文の変種(文圧縮)を考慮するモデルがベースラインを上回る結果を示したが、LEADとは統計的には有意差なし。しかしながら、人手で生成した要約との完全一致率が提案手法の方が高い。

また、ROUGEの評価だけでなく、linguistic quality(grammaticality, structure/coherenceなど)を人手で評価した結果、ベースラインを有意にoutperform。LEADはgrammaticalityでかなり悪い評価になっていて、これは要約を生成すると部分文が入ってしまうため。

訓練事例数を変化させてROUGEスコアに関するlearning curveを描いた結果、訓練事例の増加に対してROUGEスコアも単調増加しており、まだサチる気配を見せていないので、事例数増加させたらまだ性能よくなりそうという主張もしている。評価に使用した記事が報道記事だったとするならば、quality的にはLeadに勝ってそうな雰囲気を感じるので、結構すごい気はする(単一文書要約で報道記事においてLEADは最強感あったし)。

ただ、要約の評価においてinformativenessを評価していないので、ROUGEスコア的にはLeadとcomparableでも、実際に生成される要約の情報量として果たしてLEADに勝っているのか興味がある。