QueryBiased

#Multi #DocumentSummarization #NLP #Dataset #Extractive #ACL #Admin'sPick
Issue Date: 2017-12-28 Query-Chain Focused Summarization, Baumel+, ACL'14 Comment(管理人が作成した過去の紹介資料)
[Query-Chain Focused Summarization.pdf](https://github.com/AkihikoWatanabe/paper_notes/files/1590916/Query-Chain.Focused.Summarization.pdf)

上記スライドは私が当時作成した論文紹介スライドです。スライド中のスクショは説明のために論文中のものを引用しています。
#Article #DocumentSummarization #NLP #Snippets #CIKM
Issue Date: 2017-12-28 Learning query-biased web page summarization, Wang et al., CIKM’07, 2007 Comment・従来のquery-biasedな要約におけるclassificationアプローチは,training内のdocumentの情報が未知のdocumentのsentenceのclassificationに役立つというものだった.これは,たとえば似たような情報を多く含むscientific articleだったら有用だが,様々な情報を含むweb pageにはあまり適切ではない(これはtraining set内のdocumentの情報とtarget pageの情報を比較するみたいなアプローチに相当する).この研究では,target page内の’sentenceの中で’はスニペットに含めるべき文かどうかという比較ができるという仮定のもと,learning to rankを用いてスニペットを生成する.

・query biased summarizationではrelevanceとfidelityの両者が担保された要約が良いとされている.

relevanceとはクエリと要約の適合性,fidelityとは,要約とtarget documentとの対応の良さである.

・素性は,relevanceに関してはクエリとの関連度,fidelityに関しては,target page内のsentenceに関しては文の位置や,文の書式(太字)などの情報を使う.contextの文ではそういった情報が使えないので,タイトルやanchor textのフレーズを用いてfidelityを担保する(詳しくかいてない).あとはterm occurence,titleとextracted title(先行研究によると,TRECデータの33.5%のタイトルが偽物だったというものがあるのでextracted titleも用いる),anchor textの情報を使う.あまり深く読んでいない.

・全ての素性を組み合わせたほうがintrinsicなevaluationにおいて高い評価値.また,contextとcontent両方組み合わせたほうが良い結果がでた.
#Article #DocumentSummarization #NLP #Snippets
Issue Date: 2017-12-28 A task-oriented study on the influencing effects of query-biased summarization in web searching, White et al., Information Processing and Management, 2003 Comment・search engineにおいてquery-biasedな要約の有用性を示したもの

・task-orientedな評価によって,提案手法がGoogleやAltaVistaのスニペットよりも良いことを示す.

・提案手法は文選択によるquery-biased summarization.スコアリングには,ページのタイトルに含まれる単語がどれだけ含まれているか,文のページ内での出現位置,クエリとの関連度,文の書式(太字)などの情報を使う.

・スニペットが作れないページに対しては,エラーメッセージを返したり,ページ内の最初のnon-textualな要素を返したりする.