Others


Paper/Blog Link My Issue
#DocumentSummarization #NLP #AAAI #KeyPoint Notes Issue Date: 2018-01-01 Comment

ニュース記事の第一段落目がinformativeか否か(重要なfactual informationが記述されているか否か)を分類する研究。
New York Times Annotated Corpusに対して、自動的にinformative, non-informativeなラベルづけを行う手法を提案し、分類モデルをtraining。

評価の結果、Accuracyはだいたい0.8〜0.85くらい。

人が100件中何件をinformativeと判断したかに関してを見ると、リードにもnon-informativeなものが多数存在することがわかる。
また、ドメインによって傾向が異なっており、たとえばスポーツドメインでは、entertaining mannerで記述されるのでfactual informationがあまり記述されない傾向にあったり、Scienceドメインでは、generalなtopicやissue, personal historyなどが記述される傾向にあるので、相対的にinformativeなLeadが少ない。