SIGIR
Issue Date: 2019-04-12 [Paper Note] Neural Rating Regression with Abstractive Tips Generation for Recommendation, Piji Li+, arXiv'17 GPT Summary- Eコマースサイトの新しい「Tips」機能を活用し、ユーザーの経験や感情を表現する短いテキストを生成する深層学習フレームワーク「NRT」を提案。NRTは、ユーザーとアイテムの潜在表現を基に、正確な評価予測と高品質な抽象的ヒントの生成を実現。実験により、NRTは既存手法に対して顕著な改善を示し、ユーザーの体験や感情を効果的に反映することが確認された。 Comment
Rating Predictionとtips generationを同時に行うことで、両者の性能を向上させた最初の研究。
tipsとは、ユーザの経験や感じたことを、短いテキスト(1文とか)で簡潔に記したもの。
モデルについてはあまりく詳しく読んでいないが、図を見る感じ、user latent factorとitem latent factorをMF layerとseq2seqで共有し、同時学習させていると思われる。
おそらく、MFとtext generationをjointで行うNNモデルはこの研究が初めて(textの情報をMFの改善に使おうという試みは古くからやられているが、generationまでは多分やってない)で、このモデル化の仕方がその後のスタンダードになっている。
#Tutorial #InformationRetrieval #LearningToRank #Online/Interactive
Issue Date: 2018-01-01 [Paper Note] Online Learning to Rank for Information Retrieval, Grotov+, SIGIR'16 #Multi #Single #DocumentSummarization #Document #Unsupervised #GraphBased #NLP #Extractive
Issue Date: 2018-01-01 [Paper Note] CTSUM: Extracting More Certain Summaries for News Articles, Wan+, SIGIR'14 Comment
要約を生成する際に、情報の”確実性”を考慮したモデルCTSUMを提案しましたという論文(今まではそういう研究はなかった)
```
"However, it seems that Obama will not use the platform to relaunch his stalled drive for Israeli-Palestinian peace"
```
こういう文は、"It seems"とあるように、情報の確実性が低いので要約には入れたくないという気持ち。
FactBankのニュースコーパスから1000 sentenceを抽出し、5-scaleでsentenceの確実性をラベルづけ。
このデータを用いてSVRを学習し、sentenceの確実性をoutputする分類器を構築
affinity-propagationベース(textrank, lexrankのような手法)手法のaffinityの計算(edge間の重みのこと。普通はsentence同士の類似度とかが使われる)を行う際に、情報の確実性のスコアを導入することで確実性を考慮した要約を生成
DUC2007のMDSデータセットで、affinity計算の際に確実性を導入する部分をablationしたモデル(GRSUM)と比較したところ、CTSUMのROUGEスコアが向上した。
また、自動・人手評価により、生成された要約に含まれる情報の確実性を評価したところ、GRSUMをoutperformした
SIGIRでは珍しい、要約に関する研究
情報の確実性を考慮するという、いままであまりやられていなかった部分にフォーカスしたのはおもしろい
「アイデアはおもしろいし良い研究だが、affinity weightが変化するということは、裏を返せばdamping factorを変更してもそういう操作はできるので、certaintyを考慮したことに意味があったのかが完全に示せていない。」という意見があり、なるほどと思った。
SVM-MAPの論文
構造化SVMを用いて、MAPを直接最適化する。
#InformationRetrieval #Pocket Issue Date: 2017-12-28 [Paper Note] Personalizing Search via Automated Analysis of Interests and Activities, Teevan+, SIGIR'05, 2005.08 Comment
・userに関するデータがrichなほうが、Personalizationは改善する。
・queries, visited web pages, emails, calendar items, stored desktop
documents、全てのsetを用いた場合が最も良かった
(次点としてqueriesのみを用いたモデルが良かった)
#DocumentSummarization #InformationRetrieval #NLP #Search #Selected Papers/Blogs Issue Date: 2018-01-17 [Paper Note] The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries, Carbonell+, SIGIR'98 Comment
Maximal Marginal Relevance (MMR) 論文。
検索エンジンや文書要約において、文書/文のランキングを生成する際に、既に選んだ文書と類似度が低く、かつqueryとrelevantな文書をgreedyに選択していく手法を提案。
ILPによる定式化が提案される以前のMulti Document Summarization (MDS) 研究において、冗長性の排除を行う際には典型的な手法。
#DocumentSummarization #Document #Supervised #NLP #Extractive Issue Date: 2017-12-31 [Paper Note] A Trainable Document Summarizer, Kupiec+, SIGIR'95 #Article #DocumentSummarization #NLP #Alignment #Selected Papers/Blogs Issue Date: 2018-01-11 [Paper Note] The Decomposition of Human-Written Summary Sentences. Hongyan Jing et al. SIGIR’99 Comment
参照要約 - 原文書対が与えられた時に、参照要約中の単語と原文書中の単語のアライメントをとるHMMベースな手法を提案。
outputはこんな感じ。
#Article #DocumentSummarization #NLP #Alignment Issue Date: 2018-01-11 [Paper Note] The automatic construction of large-scale corpora for summarization research. Daniel Marcu. SIGIR’99 Comment
<Abstract, Text>のタプルが与えられた時に、<Abstract, Extract, Text>のタプルを自動的に生成。ExtractはAbstractと対応するText中の重要部(節やsentence)。
<Abstract, Extract, Text>に含まれるExtractの情報を使えば、Extractiveな要約器の学習などに活用できる。
#Article #DocumentSummarization #NLP #Snippets Issue Date: 2017-12-28 [Paper Note] Web page summarization using clickthrough data, Sun et al., SIGIR’05, 2005.08 #Article #RecommenderSystems #Document Issue Date: 2017-12-28 [Paper Note] SCENE: A Scalable Two-Stage Personalized News Recommendation System, Li et al., SIGIR’11 Comment
・ニュース推薦には3つのチャレンジがある。
1. スケーラビリティ より高速なreal-time processing
2. あるニュース記事を読むと、続いて読む記事に影響を与える
3. popularityとrecencyが時間経過に従い変化するので、これらをどう扱うか
これらに対処する手法を提案
#Article #DocumentSummarization #NLP #Update Issue Date: 2017-12-28 [Paper Note] TimedTextRank: Adding the Temporal Dimension to Multi-Document Summarization, Xiaojun Wan, SIGIR’07, 2007.07 Comment
・evolving topicsを要約するときは,基本的に新しい情報が重要だが,TextRankはそれが考慮できないので拡張したという話.
・dynamic document setのnew informationをより重視するTimedTextRankを提案
・TextRankのvoteの部分に重み付けをする.old sentenceからのvoteよりも,new documentsに含まれるsentenceからのvoteをより重要視
・評価のときは,news pageをクローリングし,incremental single-pass clustering algorithmでホットなトピックを抽出しユーザにみせて評価(ただしこれはPreliminary Evaluation).
#Article #DocumentSummarization #GraphBased #Comments #NLP #Extractive Issue Date: 2017-12-28 [Paper Note] Comments-Oriented Document Summarization: Understanding Documents with Reader’s Feedback, Hu+, SIGIR’08, 2008.07 Comment