SIGIR

#RecommenderSystems #NeuralNetwork #NLP #ReviewGeneration
Issue Date: 2019-04-12 Neural rating regression with abstractive tips generation for recommendation, Li+, SIGIR'17 CommentRating Predictionとtips generationを同時に行うことで、両者の性能を向上させた最初の研究。

tipsとは、ユーザの経験や感じたことを、短いテキスト(1文とか)で簡潔に記したもの。image



モデルについてはあまりく詳しく読んでいないが、図を見る感じ、user latent factorとitem latent factorをMF layerとseq2seqで共有し、同時学習させていると思われる。

おそらく、MFとtext generationをjointで行うNNモデルはこの研究が初めて(textの情報をMFの改善に使おうという試みは古くからやられているが、generationまでは多分やってない)で、このモデル化の仕方がその後のスタンダードになっている。
#Tutorial #InformationRetrieval #LearningToRank #Online/Interactive
Issue Date: 2018-01-01 Online Learning to Rank for Information Retrieval, Grotov+, SIGIR'16 #Multi #Single #DocumentSummarization #Document #Unsupervised #GraphBased #NLP #Extractive
Issue Date: 2018-01-01 CTSUM: Extracting More Certain Summaries for News Articles, Wan+, SIGIR'14 Comment要約を生成する際に、情報の”確実性”を考慮したモデルCTSUMを提案しましたという論文(今まではそういう研究はなかった)



```

"However, it seems that Obama will not use the platform to relaunch his stalled drive for Israeli-Palestinian peace"

```

こういう文は、"It seems"とあるように、情報の確実性が低いので要約には入れたくないという気持ち。



FactBankのニュースコーパスから1000 sentenceを抽出し、5-scaleでsentenceの確実性をラベルづけ。

このデータを用いてSVRを学習し、sentenceの確実性をoutputする分類器を構築

affinity-propagationベース(textrank, lexrankのような手法)手法のaffinityの計算(edge間の重みのこと。普通はsentence同士の類似度とかが使われる)を行う際に、情報の確実性のスコアを導入することで確実性を考慮した要約を生成



DUC2007のMDSデータセットで、affinity計算の際に確実性を導入する部分をablationしたモデル(GRSUM)と比較したところ、CTSUMのROUGEスコアが向上した。

また、自動・人手評価により、生成された要約に含まれる情報の確実性を評価したところ、GRSUMをoutperformした解説スライド:https://www.slideshare.net/akihikowatanabe3110/ctsum-extracting-more-certain-summaries-for-news-articlesSIGIRでは珍しい、要約に関する研究

情報の確実性を考慮するという、いままであまりやられていなかった部分にフォーカスしたのはおもしろい

「アイデアはおもしろいし良い研究だが、affinity weightが変化するということは、裏を返せばdamping factorを変更してもそういう操作はできるので、certaintyを考慮したことに意味があったのかが完全に示せていない。」という意見があり、なるほどと思った。

#Tutorial #InformationRetrieval #OnlineEvaluation Issue Date: 2018-01-01 Practical Online Retrieval Evaluation, SIGIR'11, Tutorial #MachineLearning #StructuredLearning #InformationRetrieval Issue Date: 2017-12-31 A support vector method for Optimizing Average Precision, Yue+, SIGIR'07 CommentSVM-MAPの論文



構造化SVMを用いて、MAPを直接最適化する。
#DocumentSummarization #InformationRetrieval #NLP #Search #Admin'sPick Issue Date: 2018-01-17 The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries, Carbonell+, SIGIR'98 CommentMaximal Marginal Relevance (MMR) 論文。

検索エンジンや文書要約において、文書/文のランキングを生成する際に、既に選んだ文書と類似度が低く、かつqueryとrelevantな文書をgreedyに選択していく手法を提案。

ILPによる定式化が提案される以前のMulti Document Summarization (MDS) 研究において、冗長性の排除を行う際には典型的な手法。
#DocumentSummarization #Document #Supervised #NLP #Extractive Issue Date: 2017-12-31 A Trainable Document Summarizer, Kupiec+, SIGIR'95 #Article #DocumentSummarization #NLP #Alignment #Admin'sPick Issue Date: 2018-01-11 The Decomposition of Human-Written Summary Sentences. Hongyan Jing et al. SIGIR’99. Comment参照要約 ・原文書対が与えられた時に、参照要約中の単語と原文書中の単語のアライメントをとるHMMベースな手法を提案。



image



outputはこんな感じ。
#Article #DocumentSummarization #NLP #Alignment Issue Date: 2018-01-11 The automatic construction of large-scale corpora for summarization research. Daniel Marcu. SIGIR’99 Comment<Abstract, Text>のタプルが与えられた時に、<Abstract, Extract, Text>のタプルを自動的に生成。ExtractはAbstractと対応するText中の重要部(節やsentence)。



<Abstract, Extract, Text>に含まれるExtractの情報を使えば、Extractiveな要約器の学習などに活用できる。
#Article #DocumentSummarization #NLP #Snippets Issue Date: 2017-12-28 Web page summarization using clickthrough data, Sun et al., SIGIR’05, 2005 #Article #RecommenderSystems #Document Issue Date: 2017-12-28 SCENE: A Scalable Two-Stage Personalized News Recommendation System, Li et al., SIGIR’11 Comment・ニュース推薦には3つのチャレンジがある。



1. スケーラビリティ より高速なreal-time processing

2. あるニュース記事を読むと、続いて読む記事に影響を与える

3. popularityとrecencyが時間経過に従い変化するので、これらをどう扱うか



これらに対処する手法を提案
#Article #DocumentSummarization #NLP #Update Issue Date: 2017-12-28 TimedTextRank: Adding the Temporal Dimension to Multi-Document Summarization, Xiaojun Wan, SIGIR’07, 2007.07 Comment・evolving topicsを要約するときは,基本的に新しい情報が重要だが,TextRankはそれが考慮できないので拡張したという話.

・dynamic document setのnew informationをより重視するTimedTextRankを提案

・TextRankのvoteの部分に重み付けをする.old sentenceからのvoteよりも,new documentsに含まれるsentenceからのvoteをより重要視

・評価のときは,news pageをクローリングし,incremental single-pass clustering algorithmでホットなトピックを抽出しユーザにみせて評価(ただしこれはPreliminary Evaluation).
#Article #InformationRetrieval #Pocket Issue Date: 2017-12-28 Personalizing Search via Automated Analysis of Interests and Activities, SIGIR, [Teevan+, 2005], 2005.08 Comment・userに関するデータがrichなほうが、Personalizationは改善する。

・queries, visited web pages, emails, calendar items, stored desktop    

 documents、全てのsetを用いた場合が最も良かった

(次点としてqueriesのみを用いたモデルが良かった)
#Article #DocumentSummarization #GraphBased #Comments #NLP #Extractive Issue Date: 2017-12-28 Comments-Oriented Document Summarization: Understanding Documents with Reader’s Feedback, Hu+, SIGIR’08, 2008.07