Supervised
#DocumentSummarization
#Pocket
#NLP
#Abstractive
#ICLR
Issue Date: 2017-12-31 A Deep Reinforced Model for Abstractive Summarization, Paulus+(with Socher), ICLR'18 #DocumentSummarization #NeuralNetwork #Document #Pocket #NLP #ACL
Issue Date: 2018-01-01 Coarse-to-Fine Attention Models for Document Summarization, Ling+ (with Rush), ACL'17 Workshop on New Frontiers in Summarization #Single #DocumentSummarization #NeuralNetwork #Document #NLP #Abstractive #ACL #Admin'sPick
Issue Date: 2017-12-31 Get To The Point: Summarization with Pointer-Generator Networks, See+, ACL'17 Comment解説スライド:https://www.slideshare.net/akihikowatanabe3110/get-to-the-point-summarization-with-pointergenerator-networks/1単語の生成と単語のコピーの両方を行えるハイブリッドなニューラル文書要約モデルを提案。
同じ単語の繰り返し現象(repetition)をなくすために、Coverage Mechanismも導入した。
136 などと比較するとシンプルなモデル。一般的に、PointerGeneratorと呼ばれる。
OpenNMTなどにも実装されている: https://opennmt.net/OpenNMT-py/_modules/onmt/modules/copy_generator.html(参考)Pointer Generator Networksで要約してみる:
https://qiita.com/knok/items/9a74430b279e522d5b93
Issue Date: 2017-12-31 A Deep Reinforced Model for Abstractive Summarization, Paulus+(with Socher), ICLR'18 #DocumentSummarization #NeuralNetwork #Document #Pocket #NLP #ACL
Issue Date: 2018-01-01 Coarse-to-Fine Attention Models for Document Summarization, Ling+ (with Rush), ACL'17 Workshop on New Frontiers in Summarization #Single #DocumentSummarization #NeuralNetwork #Document #NLP #Abstractive #ACL #Admin'sPick
Issue Date: 2017-12-31 Get To The Point: Summarization with Pointer-Generator Networks, See+, ACL'17 Comment解説スライド:https://www.slideshare.net/akihikowatanabe3110/get-to-the-point-summarization-with-pointergenerator-networks/1単語の生成と単語のコピーの両方を行えるハイブリッドなニューラル文書要約モデルを提案。
同じ単語の繰り返し現象(repetition)をなくすために、Coverage Mechanismも導入した。
136 などと比較するとシンプルなモデル。一般的に、PointerGeneratorと呼ばれる。
OpenNMTなどにも実装されている: https://opennmt.net/OpenNMT-py/_modules/onmt/modules/copy_generator.html(参考)Pointer Generator Networksで要約してみる:
https://qiita.com/knok/items/9a74430b279e522d5b93
#DocumentSummarization
#NeuralNetwork
#Pocket
#NLP
#Abstractive
#EACL
Issue Date: 2017-12-31
Cutting-off redundant repeating generations for neural abstractive summarization, Suzuki+, EACL'17
#Multi
#DocumentSummarization
#NeuralNetwork
#Document
#GraphBased
#NLP
#GraphConvolutionalNetwork
#Extractive
#CoNLL
Issue Date: 2017-12-31
Graph-based Neural Multi-Document Summarization, Yasunaga+, CoNLL'17
CommentGraph Convolutional Network (GCN)を使って、MDSやりましたという話。 既存のニューラルなMDSモデル [Cao et al., 2015, 2017] では、sentence間のrelationが考慮できていなかったが、GCN使って考慮した。 また、MDSの学習データはニューラルなモデルを学習するには小さすぎるが(abstractiveにするのは厳しいという話だと思われる?)、sentenceのsalienceを求める問題に帰着させることで、これを克服。
GCNで用いるAdjacent Matrixとして3種類の方法(cosine similarity, G-Flow, PDG)を試し、議論をしている。PDGが提案手法だが、G-Flowによる重みをPersonalization Features(position, leadか否か等のベーシックな素性)から求まるweightで、よりsentenceのsalienceを求める際にリッチな情報を扱えるように補正している。PDGを用いた場合が(ROUGE的な観点で)最も性能がよかった。
モデルの処理の流れとしては、Document Cluster中の各sentenceのhidden stateをGRUベースなRNNでエンコードし、それをGCNのノードの初期値として利用する。GCNでL回のpropagation後(実験では3回)に得られたノードのhidden stateを、salienceスコア計算に用いるsentence embedding、およびcluster embeddingの生成に用いる。 cluster embeddingは、document clusterをglobalな視点から見て、salienceスコアに反映させるために用いられる。 最終的にこれら2つの情報をlinearなlayerにかけてsoftmaxかけて正規化して、salienceスコアとする。
要約を生成する際はgreedyな方法を用いており、salienceスコアの高いsentenceから要約長に達するまで選択していく。このとき、冗長性を排除するため、candidateとなるsentenceと生成中の要約とのcosine similarityが0.5を超えるものは選択しないといった、よくある操作を行なっている。
DUC01, 02のデータをtraining data, DUC03 をvalidation data, DUC04をtest dataとし、ROUGE1,2で評価。 評価の結果、CLASSY04(DUC04のbest system)やLexRank等のよく使われるベースラインをoutperform。 ただ、regression basedなRegSumにはスコアで勝てないという結果に。 RegSumはwordレベルでsalienceスコアをregressionする手法で、リッチな情報を結構使っているので、これらを提案手法に組み合わせるのは有望な方向性だと議論している。
[Cao+, 2015] Ranking with recursive neural networks and its application to multi-document summarization, Cao+, AAAI'15 [Cao+, 2017] Improving multi-document summarization via text classification, Cao+, AAAI'17
[所感]
・ニューラルなモデルは表現力は高そうだけど、学習データがDUC01と02だけだと、データが足りなくて持ち前の表現力が活かせていないのではないかという気がする。
・冗長性の排除をアドホックにやっているので、モデルにうまく組み込めないかなという印象(distraction機構とか使えばいいのかもしれん)
・ROUGEでしか評価してないけど、実際のoutputはどんな感じなのかちょっと見てみたい。(ハイレベルなシステムだとROUGEスコア上がっても人手評価との相関がないっていう研究成果もあるし。)
・GCN、あまり知らなかったかけど数式追ったらなんとなく分かったと思われる。(元論文読めという話だが) #Single #DocumentSummarization #Document #DomainAdaptation #NLP #Extractive #PRICAI Issue Date: 2018-01-01 Learning from Numerous Untailored Summaries, Kikuchi+, PRICAI'16 CommentNew York Times Annotated Corpus(NYTAC)に含まれる大量の正解要約データを利用する方法を提案。
NYTACには650,000程度の人手で生成された参照要約が付与されているが、このデータを要約の訓練データとして活用した事例はまだ存在しないので、やりましたという話。
具体的には、NYTACに存在する人手要約を全てそのまま使うのではなく、Extracitiveなモデルの学習に効果的な事例をフィルタリングして選別する手法を提案
また、domain-adaptationの技術を応用し、NYTACデータを要約を適用したいtargetのテキストに適応する5つの手法を提案
モデルとしては、基本的にknapsack問題に基づいた要約モデル(Extractive)を用い、学習手法としてはPassive Aggressiveアルゴリズムの構造学習版を利用する。
NYTACのデータを活用する手法として、以下の5つの手法を提案している。
```
1. NytOnly: NYTACのデータのみで学習を行い、target側の情報は用いない
2. Mixture: targetとNYTACの事例をマージして一緒に学習する
3. LinInter: TrgtOnly(targetデータのみで学習した場合)のweightとNytOnlyで学習したweightをlinear-interpolationする。interpolation parameterはdev setから決定
4. Featurize: NytOnlyのoutputをtargetでモデルを学習する際の追加の素性として用いる
5. FineTune: NytOnlyで学習したweightを初期値として、target側のデータでweightをfinetuneする
```
また、NYTACに含まれる参照要約には、生成的なものや、メタ視点から記述された要約など、様々なタイプの要約が存在する。今回学習したいモデルはExtractiveな要約モデルなので、このような要約は学習事例としては適切ではないのでフィルタリングしたい。
そこで、原文書からExtractiveな要約を生成した際のOracle ROUGE-2スコアを各参照要約-原文書対ごとに求め、特定の閾値以下の事例は使用しないように、インスタンスの選択を行うようにする。
DUC2002 (単一文書要約タスク)、RSTDTBlong, RSTDTBshort (Rhetrical Structure Theory Discourse Tree Bankに含まれる400件程度の(確か社説のデータに関する)要約)の3種類のデータで評価。
どちらの評価においても、FineTuneを行い、インスタンスの選択を行うようにした場合が提案手法の中ではもっとも性能がよかった。
DUC2002では、LEADやTextRankなどの手法を有意にoutperformしたが、DUC2002のbest systemには勝てなかった。
しかしながら、RSTDTBlongにおける評価では、RSTの情報などを用いるstate-of-the-artなシステムに、RSTの情報などを用いない提案手法がROUGEスコアでoutperformした。
RSTDTBshortにおける評価では、RSTを用いる手法(平尾さんの手法)には及ばなかったが、それ以外ではbestな性能。これは、RSTDTBshortの場合は要約が指示的な要約であるため、今回学習に用いた要約のデータやモデルは報知的な要約のためのものであるため、あまりうまくいかなかったと考察している。 #Single #DocumentSummarization #NeuralNetwork #Document #NLP #Abstractive #ACL #Admin'sPick Issue Date: 2017-12-31 Incorporating Copying Mechanism in Sequence-to-Sequence Learning, Gu+, ACL'16 Comment解説スライド:https://www.slideshare.net/akihikowatanabe3110/incorporating-copying-mechanism-in-sequene-to-sequence-learning単語のコピーと生成、両方を行えるネットワークを提案。
location based addressingなどによって、生成された単語がsourceに含まれていた場合などに、copy-mode, generate-modeを切り替えるような仕組みになっている。
65 と同じタイミングで発表 #Single #DocumentSummarization #NeuralNetwork #Document #NLP #Abstractive #IJCAI Issue Date: 2017-12-31 Distraction-Based Neural Networks for Modeling Documents, Chen+, IJCAI'16 CommentNeuralなモデルで「文書」の要約を行う研究。
提案手法では、attention-basedなsequence-to-sequenceモデルにdistractionと呼ばれる機構を導入することを提案。
distractionを導入するmotivationは、入力文書中の異なる情報を横断的に参照(一度着目した情報には今後あまり着目しないようなバイアスをかける)したうえで、要約を生成しようというもの。
これにより、生成される要約の冗長性を排除するのが狙い。
以下の3つのアプローチを用いて、distractionを実現
1. [Distraction over input content vectors]
tステップ目において、decoderのinputとして用いるcontext vectorを
計算する際に、通常の計算に加えて、t-1ステップ目までに使用した
context vectorの情報を活用することで、これまでdecoderのinputとして
利用された情報をあまり重視視しないように、context vectorを生成する。
2. [Distraction over attention weight vectors]
attentionの重みを計算する際に、過去に高いattentionの重みがついた
encoderのhidden stateについては、あまり重要視しないように
attentionの重みを計算。1と同様に、t-1ステップ目までのattention weightの
historyを保持しておき活用する。
3. [Distration in decoding]
decodingステップでbeam-searchを行う際のスコア計算に、distraction scoreを導入。distraction
scoreはtステップ目までに用いられたcontext vector、attention
weight、decoderのstateから計算され、これまでと同じような情報に基づいて
単語が生成された場合は、スコアが低くなるようになっている。
CNN、およびLCSTS data (大規模な中国語のheadline generationデータ)で評価した結果、上記3つのdistraction機構を導入した場合に、最も高いROUGEスコアを獲得
特に、原文書が長い場合に、短い場合と比較して、distraction機構を導入すると、
ROUGEスコアの改善幅が大きくなったことが示されている #Single #DocumentSummarization #NeuralNetwork #Document #NLP #Extractive #ACL Issue Date: 2017-12-31 Neural Summarization by Extracting Sentences and Words, Cheng+, ACL'16 CommentExtractiveかつNeuralな単一文書要約ならベースラインとして使用した方がよいかも #DocumentSummarization #NeuralNetwork #Document #NLP #Abstractive #IJCAI Issue Date: 2017-12-28 Distraction-Based Neural Networks for Modeling Documents, Chen+, IJCAI'16 CommentNeuralなモデルで「文書」の要約を行う研究。
提案手法では、attention-basedなsequence-to-sequenceモデルにdistractionと呼ばれる機構を導入することを提案。
distractionを導入するmotivationは、入力文書中の異なる情報を横断的に参照(一度着目した情報には今後あまり着目しないようなバイアスをかける)したうえで、要約を生成しようというもの。
これにより、生成される要約の冗長性を排除するのが狙い。
以下の3つのアプローチを用いて、distractionを実現
1. [Distraction over input content vectors]
tステップ目において、decoderのinputとして用いるcontext vectorを
計算する際に、通常の計算に加えて、t-1ステップ目までに使用した
context vectorの情報を活用することで、これまでdecoderのinputとして
利用された情報をあまり重視視しないように、context vectorを生成する。
2. [Distraction over attention weight vectors]
attentionの重みを計算する際に、過去に高いattentionの重みがついた
encoderのhidden stateについては、あまり重要視しないように
attentionの重みを計算。1と同様に、t-1ステップ目までのattention weightの
historyを保持しておき活用する。
3. [Distration in decoding]
decodingステップでbeam-searchを行う際のスコア計算に、distraction scoreを導入。distraction
scoreはtステップ目までに用いられたcontext vector、attention
weight、decoderのstateから計算され、これまでと同じような情報に基づいて
単語が生成された場合は、スコアが低くなるようになっている。
CNN、およびLCSTS data (大規模な中国語のheadline generationデータ)で評価した結果、上記3つのdistraction機構を導入した場合に、最も高いROUGEスコアを獲得
特に、原文書が長い場合に、短い場合と比較して、distraction機構を導入すると、
ROUGEスコアの改善幅が大きくなったことが示されているDistraction機構の有用性は、ACL'17のstanford NLPグループが提案したPointer Generator Networkでも示されている(Coverage Vectorという呼び方をしてた気がする) #DocumentSummarization #NeuralNetwork #Sentence #NLP #Abstractive #EMNLP #Admin'sPick Issue Date: 2017-12-31 A Neural Attention Model for Sentence Summarization, Rush+, EMNLP'15 Comment解説スライド:https://www.slideshare.net/akihikowatanabe3110/a-neural-attention-model-for-sentence-summarization-65612331 #Single #DocumentSummarization #Document #NLP #Abstractive #Extractive #COLING Issue Date: 2018-01-01 Learning to Generate Coherent Sumamry with Discriminative Hidden Semi-Markov Model, Nishikawa+, COLING'14 CommentHidden-semi-markovモデルを用いた単一文書要約手法を提案。
通常のHMMでは一つの隠れ状態に一つのunit(要約の文脈だと文?)が対応するが、hidden-semi-markov(HSMM)モデルでは複数のunitを対応づけることが可能。
隠れ状態に対応するunitを文だと考えると、ある文の複数の亜種を考慮できるようになるため、ナップサック制約を満たしつつ最適な文の亜種を選択するといったことが可能となる。
とかまあ色々難しいことが前半の節に書いてある気がするが、3.3節を見るのがわかりやすいかもしれない。
定式化を見ると、基本的なナップサック問題による要約の定式化に、Coherenceを表すtermと文の変種を考慮するような変数が導入されているだけである。
文のweightや、coherenceのweightは構造学習で学習し、Passive Aggressiveを用いて、loss functionとしてはROUGEを用いている(要はROUGEが高くなるように、outputの要約全体を考慮しながら、weightを学習するということ)。
文の変種としては、各文を文圧縮したものを用意している。
また、動的計画法によるデコーディングのアルゴリズムも提案されている。
構造学習を行う際には大量の教師データが必要となるが、13,000記事分のニュース記事と対応する人手での要約のデータを用いて学習と評価を行なっており、当時これほど大規模なデータで実験した研究はなかった。
ROUGEでの評価の結果、文の変種(文圧縮)を考慮するモデルがベースラインを上回る結果を示したが、LEADとは統計的には有意差なし。しかしながら、人手で生成した要約との完全一致率が提案手法の方が高い。
また、ROUGEの評価だけでなく、linguistic quality(grammaticality, structure/coherenceなど)を人手で評価した結果、ベースラインを有意にoutperform。LEADはgrammaticalityでかなり悪い評価になっていて、これは要約を生成すると部分文が入ってしまうため。
訓練事例数を変化させてROUGEスコアに関するlearning curveを描いた結果、訓練事例の増加に対してROUGEスコアも単調増加しており、まだサチる気配を見せていないので、事例数増加させたらまだ性能よくなりそうという主張もしている。評価に使用した記事が報道記事だったとするならば、quality的にはLeadに勝ってそうな雰囲気を感じるので、結構すごい気はする(単一文書要約で報道記事においてLEADは最強感あったし)。
ただ、要約の評価においてinformativenessを評価していないので、ROUGEスコア的にはLeadとcomparableでも、実際に生成される要約の情報量として果たしてLEADに勝っているのか興味がある。 #Single #DocumentSummarization #Document #NLP #IJCAI Issue Date: 2017-12-31 Document Summarization using Conditional Random Fields, Shen+, IJCAI'07 CommentCRFを用いて単一文書要約の手法を考えましたという話。
気持ちとしては、
```
1. Supervisedなモデルでは、当時は原文書中の各文を独立に2値分類して要約を生成するモデルが多く、sentence間のrelationが考慮できていなかった
2. unsupervisedな手法では、ルールに基づくものなどが多く、汎用的ではなかった
```
といった問題があったので、CRF使ってそれを解決しましたという主張
CRFを使って、要約の問題を系列ラベリング問題に落とすことで、文間の関係性を考慮できるようにし、従来使われてきたルール(素性)をそのままCRFの素性としてぶちこんでしまえば、要約モデル学習できるよねっていうことだろうと思う。
CRFのFeatureとしては、文のpositionや、長さ、文の尤度、thematic wordsなどの基本的なFeatureに加え、LSAやHitsのScoreも利用している。
DUC2001のデータで評価した結果、basicな素性のみを使用した場合、unsupervisedなベースライン(Random, Lead, LSA, HITS)、およびsupervisedなベースライン(NaiveBayes, SVM, Logistic Regression, HMM)をoutperform。
また、LSAやHITSなどのFeatureを追加した場合、basicな素性のみと比べてROUGEスコアが有意に向上し、なおかつ提案手法がbest
結構referされているので、知っておいて損はないかもしれない。 #DocumentSummarization #Document #NLP #Extractive #SIGIR Issue Date: 2017-12-31 A Trainable Document Summarizer, Kupiec+, SIGIR'95 #Article #DocumentSummarization #Document #StructuredLearning #DomainAdaptation #NLP #Extractive Issue Date: 2017-12-31 転移学習による抽出型要約の精度向上, 西川+, 情報処理学会研究報告, 2011 Comment構造学習を利用した文書要約モデル
126 なども利用し転移学習を行なっている。 #Article #DocumentSummarization #NLP Issue Date: 2017-12-31 Text Summarization using a trainable summarizer and latent semantic analysis, Yeh+, Information Processing and Management 2005
GCNで用いるAdjacent Matrixとして3種類の方法(cosine similarity, G-Flow, PDG)を試し、議論をしている。PDGが提案手法だが、G-Flowによる重みをPersonalization Features(position, leadか否か等のベーシックな素性)から求まるweightで、よりsentenceのsalienceを求める際にリッチな情報を扱えるように補正している。PDGを用いた場合が(ROUGE的な観点で)最も性能がよかった。
モデルの処理の流れとしては、Document Cluster中の各sentenceのhidden stateをGRUベースなRNNでエンコードし、それをGCNのノードの初期値として利用する。GCNでL回のpropagation後(実験では3回)に得られたノードのhidden stateを、salienceスコア計算に用いるsentence embedding、およびcluster embeddingの生成に用いる。 cluster embeddingは、document clusterをglobalな視点から見て、salienceスコアに反映させるために用いられる。 最終的にこれら2つの情報をlinearなlayerにかけてsoftmaxかけて正規化して、salienceスコアとする。
要約を生成する際はgreedyな方法を用いており、salienceスコアの高いsentenceから要約長に達するまで選択していく。このとき、冗長性を排除するため、candidateとなるsentenceと生成中の要約とのcosine similarityが0.5を超えるものは選択しないといった、よくある操作を行なっている。
DUC01, 02のデータをtraining data, DUC03 をvalidation data, DUC04をtest dataとし、ROUGE1,2で評価。 評価の結果、CLASSY04(DUC04のbest system)やLexRank等のよく使われるベースラインをoutperform。 ただ、regression basedなRegSumにはスコアで勝てないという結果に。 RegSumはwordレベルでsalienceスコアをregressionする手法で、リッチな情報を結構使っているので、これらを提案手法に組み合わせるのは有望な方向性だと議論している。
[Cao+, 2015] Ranking with recursive neural networks and its application to multi-document summarization, Cao+, AAAI'15 [Cao+, 2017] Improving multi-document summarization via text classification, Cao+, AAAI'17
[所感]
・ニューラルなモデルは表現力は高そうだけど、学習データがDUC01と02だけだと、データが足りなくて持ち前の表現力が活かせていないのではないかという気がする。
・冗長性の排除をアドホックにやっているので、モデルにうまく組み込めないかなという印象(distraction機構とか使えばいいのかもしれん)
・ROUGEでしか評価してないけど、実際のoutputはどんな感じなのかちょっと見てみたい。(ハイレベルなシステムだとROUGEスコア上がっても人手評価との相関がないっていう研究成果もあるし。)
・GCN、あまり知らなかったかけど数式追ったらなんとなく分かったと思われる。(元論文読めという話だが) #Single #DocumentSummarization #Document #DomainAdaptation #NLP #Extractive #PRICAI Issue Date: 2018-01-01 Learning from Numerous Untailored Summaries, Kikuchi+, PRICAI'16 CommentNew York Times Annotated Corpus(NYTAC)に含まれる大量の正解要約データを利用する方法を提案。
NYTACには650,000程度の人手で生成された参照要約が付与されているが、このデータを要約の訓練データとして活用した事例はまだ存在しないので、やりましたという話。
具体的には、NYTACに存在する人手要約を全てそのまま使うのではなく、Extracitiveなモデルの学習に効果的な事例をフィルタリングして選別する手法を提案
また、domain-adaptationの技術を応用し、NYTACデータを要約を適用したいtargetのテキストに適応する5つの手法を提案
モデルとしては、基本的にknapsack問題に基づいた要約モデル(Extractive)を用い、学習手法としてはPassive Aggressiveアルゴリズムの構造学習版を利用する。
NYTACのデータを活用する手法として、以下の5つの手法を提案している。
```
1. NytOnly: NYTACのデータのみで学習を行い、target側の情報は用いない
2. Mixture: targetとNYTACの事例をマージして一緒に学習する
3. LinInter: TrgtOnly(targetデータのみで学習した場合)のweightとNytOnlyで学習したweightをlinear-interpolationする。interpolation parameterはdev setから決定
4. Featurize: NytOnlyのoutputをtargetでモデルを学習する際の追加の素性として用いる
5. FineTune: NytOnlyで学習したweightを初期値として、target側のデータでweightをfinetuneする
```
また、NYTACに含まれる参照要約には、生成的なものや、メタ視点から記述された要約など、様々なタイプの要約が存在する。今回学習したいモデルはExtractiveな要約モデルなので、このような要約は学習事例としては適切ではないのでフィルタリングしたい。
そこで、原文書からExtractiveな要約を生成した際のOracle ROUGE-2スコアを各参照要約-原文書対ごとに求め、特定の閾値以下の事例は使用しないように、インスタンスの選択を行うようにする。
DUC2002 (単一文書要約タスク)、RSTDTBlong, RSTDTBshort (Rhetrical Structure Theory Discourse Tree Bankに含まれる400件程度の(確か社説のデータに関する)要約)の3種類のデータで評価。
どちらの評価においても、FineTuneを行い、インスタンスの選択を行うようにした場合が提案手法の中ではもっとも性能がよかった。
DUC2002では、LEADやTextRankなどの手法を有意にoutperformしたが、DUC2002のbest systemには勝てなかった。
しかしながら、RSTDTBlongにおける評価では、RSTの情報などを用いるstate-of-the-artなシステムに、RSTの情報などを用いない提案手法がROUGEスコアでoutperformした。
RSTDTBshortにおける評価では、RSTを用いる手法(平尾さんの手法)には及ばなかったが、それ以外ではbestな性能。これは、RSTDTBshortの場合は要約が指示的な要約であるため、今回学習に用いた要約のデータやモデルは報知的な要約のためのものであるため、あまりうまくいかなかったと考察している。 #Single #DocumentSummarization #NeuralNetwork #Document #NLP #Abstractive #ACL #Admin'sPick Issue Date: 2017-12-31 Incorporating Copying Mechanism in Sequence-to-Sequence Learning, Gu+, ACL'16 Comment解説スライド:https://www.slideshare.net/akihikowatanabe3110/incorporating-copying-mechanism-in-sequene-to-sequence-learning単語のコピーと生成、両方を行えるネットワークを提案。
location based addressingなどによって、生成された単語がsourceに含まれていた場合などに、copy-mode, generate-modeを切り替えるような仕組みになっている。
65 と同じタイミングで発表 #Single #DocumentSummarization #NeuralNetwork #Document #NLP #Abstractive #IJCAI Issue Date: 2017-12-31 Distraction-Based Neural Networks for Modeling Documents, Chen+, IJCAI'16 CommentNeuralなモデルで「文書」の要約を行う研究。
提案手法では、attention-basedなsequence-to-sequenceモデルにdistractionと呼ばれる機構を導入することを提案。
distractionを導入するmotivationは、入力文書中の異なる情報を横断的に参照(一度着目した情報には今後あまり着目しないようなバイアスをかける)したうえで、要約を生成しようというもの。
これにより、生成される要約の冗長性を排除するのが狙い。
以下の3つのアプローチを用いて、distractionを実現
1. [Distraction over input content vectors]
tステップ目において、decoderのinputとして用いるcontext vectorを
計算する際に、通常の計算に加えて、t-1ステップ目までに使用した
context vectorの情報を活用することで、これまでdecoderのinputとして
利用された情報をあまり重視視しないように、context vectorを生成する。
2. [Distraction over attention weight vectors]
attentionの重みを計算する際に、過去に高いattentionの重みがついた
encoderのhidden stateについては、あまり重要視しないように
attentionの重みを計算。1と同様に、t-1ステップ目までのattention weightの
historyを保持しておき活用する。
3. [Distration in decoding]
decodingステップでbeam-searchを行う際のスコア計算に、distraction scoreを導入。distraction
scoreはtステップ目までに用いられたcontext vector、attention
weight、decoderのstateから計算され、これまでと同じような情報に基づいて
単語が生成された場合は、スコアが低くなるようになっている。
CNN、およびLCSTS data (大規模な中国語のheadline generationデータ)で評価した結果、上記3つのdistraction機構を導入した場合に、最も高いROUGEスコアを獲得
特に、原文書が長い場合に、短い場合と比較して、distraction機構を導入すると、
ROUGEスコアの改善幅が大きくなったことが示されている #Single #DocumentSummarization #NeuralNetwork #Document #NLP #Extractive #ACL Issue Date: 2017-12-31 Neural Summarization by Extracting Sentences and Words, Cheng+, ACL'16 CommentExtractiveかつNeuralな単一文書要約ならベースラインとして使用した方がよいかも #DocumentSummarization #NeuralNetwork #Document #NLP #Abstractive #IJCAI Issue Date: 2017-12-28 Distraction-Based Neural Networks for Modeling Documents, Chen+, IJCAI'16 CommentNeuralなモデルで「文書」の要約を行う研究。
提案手法では、attention-basedなsequence-to-sequenceモデルにdistractionと呼ばれる機構を導入することを提案。
distractionを導入するmotivationは、入力文書中の異なる情報を横断的に参照(一度着目した情報には今後あまり着目しないようなバイアスをかける)したうえで、要約を生成しようというもの。
これにより、生成される要約の冗長性を排除するのが狙い。
以下の3つのアプローチを用いて、distractionを実現
1. [Distraction over input content vectors]
tステップ目において、decoderのinputとして用いるcontext vectorを
計算する際に、通常の計算に加えて、t-1ステップ目までに使用した
context vectorの情報を活用することで、これまでdecoderのinputとして
利用された情報をあまり重視視しないように、context vectorを生成する。
2. [Distraction over attention weight vectors]
attentionの重みを計算する際に、過去に高いattentionの重みがついた
encoderのhidden stateについては、あまり重要視しないように
attentionの重みを計算。1と同様に、t-1ステップ目までのattention weightの
historyを保持しておき活用する。
3. [Distration in decoding]
decodingステップでbeam-searchを行う際のスコア計算に、distraction scoreを導入。distraction
scoreはtステップ目までに用いられたcontext vector、attention
weight、decoderのstateから計算され、これまでと同じような情報に基づいて
単語が生成された場合は、スコアが低くなるようになっている。
CNN、およびLCSTS data (大規模な中国語のheadline generationデータ)で評価した結果、上記3つのdistraction機構を導入した場合に、最も高いROUGEスコアを獲得
特に、原文書が長い場合に、短い場合と比較して、distraction機構を導入すると、
ROUGEスコアの改善幅が大きくなったことが示されているDistraction機構の有用性は、ACL'17のstanford NLPグループが提案したPointer Generator Networkでも示されている(Coverage Vectorという呼び方をしてた気がする) #DocumentSummarization #NeuralNetwork #Sentence #NLP #Abstractive #EMNLP #Admin'sPick Issue Date: 2017-12-31 A Neural Attention Model for Sentence Summarization, Rush+, EMNLP'15 Comment解説スライド:https://www.slideshare.net/akihikowatanabe3110/a-neural-attention-model-for-sentence-summarization-65612331 #Single #DocumentSummarization #Document #NLP #Abstractive #Extractive #COLING Issue Date: 2018-01-01 Learning to Generate Coherent Sumamry with Discriminative Hidden Semi-Markov Model, Nishikawa+, COLING'14 CommentHidden-semi-markovモデルを用いた単一文書要約手法を提案。
通常のHMMでは一つの隠れ状態に一つのunit(要約の文脈だと文?)が対応するが、hidden-semi-markov(HSMM)モデルでは複数のunitを対応づけることが可能。
隠れ状態に対応するunitを文だと考えると、ある文の複数の亜種を考慮できるようになるため、ナップサック制約を満たしつつ最適な文の亜種を選択するといったことが可能となる。
とかまあ色々難しいことが前半の節に書いてある気がするが、3.3節を見るのがわかりやすいかもしれない。
定式化を見ると、基本的なナップサック問題による要約の定式化に、Coherenceを表すtermと文の変種を考慮するような変数が導入されているだけである。
文のweightや、coherenceのweightは構造学習で学習し、Passive Aggressiveを用いて、loss functionとしてはROUGEを用いている(要はROUGEが高くなるように、outputの要約全体を考慮しながら、weightを学習するということ)。
文の変種としては、各文を文圧縮したものを用意している。
また、動的計画法によるデコーディングのアルゴリズムも提案されている。
構造学習を行う際には大量の教師データが必要となるが、13,000記事分のニュース記事と対応する人手での要約のデータを用いて学習と評価を行なっており、当時これほど大規模なデータで実験した研究はなかった。
ROUGEでの評価の結果、文の変種(文圧縮)を考慮するモデルがベースラインを上回る結果を示したが、LEADとは統計的には有意差なし。しかしながら、人手で生成した要約との完全一致率が提案手法の方が高い。
また、ROUGEの評価だけでなく、linguistic quality(grammaticality, structure/coherenceなど)を人手で評価した結果、ベースラインを有意にoutperform。LEADはgrammaticalityでかなり悪い評価になっていて、これは要約を生成すると部分文が入ってしまうため。
訓練事例数を変化させてROUGEスコアに関するlearning curveを描いた結果、訓練事例の増加に対してROUGEスコアも単調増加しており、まだサチる気配を見せていないので、事例数増加させたらまだ性能よくなりそうという主張もしている。評価に使用した記事が報道記事だったとするならば、quality的にはLeadに勝ってそうな雰囲気を感じるので、結構すごい気はする(単一文書要約で報道記事においてLEADは最強感あったし)。
ただ、要約の評価においてinformativenessを評価していないので、ROUGEスコア的にはLeadとcomparableでも、実際に生成される要約の情報量として果たしてLEADに勝っているのか興味がある。 #Single #DocumentSummarization #Document #NLP #IJCAI Issue Date: 2017-12-31 Document Summarization using Conditional Random Fields, Shen+, IJCAI'07 CommentCRFを用いて単一文書要約の手法を考えましたという話。
気持ちとしては、
```
1. Supervisedなモデルでは、当時は原文書中の各文を独立に2値分類して要約を生成するモデルが多く、sentence間のrelationが考慮できていなかった
2. unsupervisedな手法では、ルールに基づくものなどが多く、汎用的ではなかった
```
といった問題があったので、CRF使ってそれを解決しましたという主張
CRFを使って、要約の問題を系列ラベリング問題に落とすことで、文間の関係性を考慮できるようにし、従来使われてきたルール(素性)をそのままCRFの素性としてぶちこんでしまえば、要約モデル学習できるよねっていうことだろうと思う。
CRFのFeatureとしては、文のpositionや、長さ、文の尤度、thematic wordsなどの基本的なFeatureに加え、LSAやHitsのScoreも利用している。
DUC2001のデータで評価した結果、basicな素性のみを使用した場合、unsupervisedなベースライン(Random, Lead, LSA, HITS)、およびsupervisedなベースライン(NaiveBayes, SVM, Logistic Regression, HMM)をoutperform。
また、LSAやHITSなどのFeatureを追加した場合、basicな素性のみと比べてROUGEスコアが有意に向上し、なおかつ提案手法がbest
結構referされているので、知っておいて損はないかもしれない。 #DocumentSummarization #Document #NLP #Extractive #SIGIR Issue Date: 2017-12-31 A Trainable Document Summarizer, Kupiec+, SIGIR'95 #Article #DocumentSummarization #Document #StructuredLearning #DomainAdaptation #NLP #Extractive Issue Date: 2017-12-31 転移学習による抽出型要約の精度向上, 西川+, 情報処理学会研究報告, 2011 Comment構造学習を利用した文書要約モデル
126 なども利用し転移学習を行なっている。 #Article #DocumentSummarization #NLP Issue Date: 2017-12-31 Text Summarization using a trainable summarizer and latent semantic analysis, Yeh+, Information Processing and Management 2005