Snippets

#Article #DocumentSummarization #NLP #SIGIR
Issue Date: 2017-12-28 Web page summarization using clickthrough data, Sun et al., SIGIR’05, 2005 #Article #DocumentSummarization #NLP #QueryBiased #CIKM
Issue Date: 2017-12-28 Learning query-biased web page summarization, Wang et al., CIKM’07, 2007 Comment・従来のquery-biasedな要約におけるclassificationアプローチは,training内のdocumentの情報が未知のdocumentのsentenceのclassificationに役立つというものだった.これは,たとえば似たような情報を多く含むscientific articleだったら有用だが,様々な情報を含むweb pageにはあまり適切ではない(これはtraining set内のdocumentの情報とtarget pageの情報を比較するみたいなアプローチに相当する).この研究では,target page内の’sentenceの中で’はスニペットに含めるべき文かどうかという比較ができるという仮定のもと,learning to rankを用いてスニペットを生成する.

・query biased summarizationではrelevanceとfidelityの両者が担保された要約が良いとされている.

relevanceとはクエリと要約の適合性,fidelityとは,要約とtarget documentとの対応の良さである.

・素性は,relevanceに関してはクエリとの関連度,fidelityに関しては,target page内のsentenceに関しては文の位置や,文の書式(太字)などの情報を使う.contextの文ではそういった情報が使えないので,タイトルやanchor textのフレーズを用いてfidelityを担保する(詳しくかいてない).あとはterm occurence,titleとextracted title(先行研究によると,TRECデータの33.5%のタイトルが偽物だったというものがあるのでextracted titleも用いる),anchor textの情報を使う.あまり深く読んでいない.

・全ての素性を組み合わせたほうがintrinsicなevaluationにおいて高い評価値.また,contextとcontent両方組み合わせたほうが良い結果がでた.
#Article #DocumentSummarization #NLP
Issue Date: 2017-12-28 Enhanced web document summarization using hyperlinks, Delort et al., HT’03, 2003 Comment・Genericなweb pageの要約をつくる

・要約を作る際に,ページの内容から作るわけではなく,contextを用いて作る.contextとは,target pageにリンクを張っているページにおけるリンクの周辺にある文のこと.

・contextを利用した要約では,partialityとtopicalityに関する問題が生じる.partialityとは,contextに含まれる情報がtarget pageに関する一部の情報しか含んでいない問題.topicalityとは,そもそもcontextに含まれる情報が,target pageのoverviewに関する情報を含んでいない問題

・partialityに関しては,contextに含まれる文を除くことで,contextのoverallな情報が失われない最小のsetを求めることで対応.setを求める際には,context内の2文の単語を比較し,identicalなrepresentationが含まれているかどうかを計算.重複するものは排除することでsetを求める.

・topicalityに関しては,target pageのtextual informationが取得できる場合は,context内の文中の単語がtarget page内に含まれる単語の比率を出すことでtopicality scoreを算出.topicality scoreが高いものを要約とする.一方,target pageのtextual informationが十分でない場合は,context内の文のクラスタリングを行い,各クラスタのcentroidと近い文を抽出.

#Article #DocumentSummarization #NLP #QueryBiased Issue Date: 2017-12-28 A task-oriented study on the influencing effects of query-biased summarization in web searching, White et al., Information Processing and Management, 2003 Comment・search engineにおいてquery-biasedな要約の有用性を示したもの

・task-orientedな評価によって,提案手法がGoogleやAltaVistaのスニペットよりも良いことを示す.

・提案手法は文選択によるquery-biased summarization.スコアリングには,ページのタイトルに含まれる単語がどれだけ含まれているか,文のページ内での出現位置,クエリとの関連度,文の書式(太字)などの情報を使う.

・スニペットが作れないページに対しては,エラーメッセージを返したり,ページ内の最初のnon-textualな要素を返したりする.