CollaborativeFiltering
Issue Date: 2025-03-27 RALLRec+: Retrieval Augmented Large Language Model Recommendation with Reasoning, Sichun Luo+, arXiv'25 Summary- RALLRec+は、LLMsを用いてレコメンダーシステムのretrievalとgenerationを強化する手法。retrieval段階では、アイテム説明を生成し、テキスト信号と協調信号を結合。生成段階では、推論LLMsを評価し、知識注入プロンプティングで汎用LLMsと統合。実験により、提案手法の有効性が確認された。 Comment
元ポスト:
Reasoning LLMをRecSysに応用する初めての研究(らしいことがRelated Workに書かれている)
arxivのadminより以下のコメントが追記されている
> arXiv admin note: substantial text overlap with arXiv:2502.06101
コメント中の研究は下記である
- ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation, Jianghao Lin+, WWW'24
#RecommenderSystems #GraphBased #Pocket
Issue Date: 2023-04-26 Graph Collaborative Signals Denoising and Augmentation for Recommendation, Ziwei Fan+, N_A, SIGIR'23 Summary- グラフ協調フィルタリング(GCF)は、推薦システムで人気のある技術ですが、相互作用が豊富なユーザーやアイテムにはノイズがあり、相互作用が不十分なユーザーやアイテムには不十分です。また、ユーザー-ユーザーおよびアイテム-アイテムの相関を無視しているため、有益な隣接ノードの範囲が制限される可能性があります。本研究では、ユーザー-ユーザーおよびアイテム-アイテムの相関を組み込んだ新しいグラフの隣接行列と、適切に設計されたユーザー-アイテムの相互作用行列を提案します。実験では、改善された隣接ノードと低密度を持つ強化されたユーザー-アイテムの相互作用行列が、グラフベースの推薦において重要な利点をもたらすことを示しています。また、ユーザー-ユーザーおよびアイテム-アイテムの相関を含めることで、相互作用が豊富なユーザーや不十分なユーザーに対する推薦が改善されることも示しています。 Comment
グラフ協調フィルタリングを改善
グラフ協調フィルタリング
(下記ツイッターより引用)
user-item間の関係だけでなく、user-user間とitem-item間の情報を組み込むことで精度向上を達成した論文とのこと。
#RecommenderSystems #NeuralNetwork #EfficiencyImprovement #Pocket #EducationalDataMining #KnowledgeTracing #Contents-based #NAACL
Issue Date: 2022-08-01 GRAM: Fast Fine-tuning of Pre-trained Language Models for Content-based Collaborative Filtering, Yoonseok Yang+, NAACL'22 Summary- コンテンツベースの協調フィルタリング(CCF)において、PLMを用いたエンドツーエンドのトレーニングはリソースを消費するため、GRAM(勾配蓄積手法)を提案。Single-step GRAMはアイテムエンコーディングの勾配を集約し、Multi-step GRAMは勾配更新の遅延を増加させてメモリを削減。これにより、Knowledge TracingとNews Recommendationのタスクでトレーニング効率を最大146倍改善。 Comment
RiiiDがNAACL'22に論文通してた
RecSys'19のベストペーパー
日本語解説:
https://qiita.com/smochi/items/98dbd9429c15898c5dc7
重要研究
#RecommenderSystems #NeuralNetwork #Contents-based #NewsRecommendation #WWW Issue Date: 2021-06-01 DKN: Deep Knowledge-Aware Network for News Recommendation, Wang+, WWW'18 Comment
# Overview Sentiment analysis with deeply learned distributed representations of variable length texts, Hong+, Technical Report. Technical report, Stanford University, 2015
</strong>
Factorization Machinesベースドな手法(LibFM, DeepFM)を利用する際は、TF-IDF featureと、averaged entity embeddingによって構成し、それをuser newsとcandidate news同士でconcatしてFeatureとして入力した模様 content情報を一切利用せず、ユーザのimplicit feedbackデータ(news click)のみを利用するDMF(Deep Matrix Factorization)の性能がかなり悪いのもおもしろい。やはりuser-item-implicit feedbackデータのみだけでなく、コンテンツの情報を利用した方が強い。 (おそらく)著者によるtensor-flowでの実装:
https://github.com/hwwang55/DKN
日本語解説 CTR予測でbest-performingなモデルと言われているField Aware Factorization Machines(FFM)では、パラメータ数がフィールド数×特徴数のorderになってしまうため非常に多くなってしまうが、これをよりメモリを効果的に利用できる手法を提案。FFMとは性能がcomparableであるが、パラメータ数をFFMの4%に抑えることができた。 Collaborative Filtering (CF) によるコンテンツ推薦とReview Generationを同時に学習し、 CFではMatrix Factorization (MF) を利用し、Review Generationでは、LSTM-basedなseq2seqを利用する。MFとReview Generationのモデルにおいて、共通のuser latent factorとitem latent factorを利用することで、joint modelとしている。このとき、latent factorは、両タスクを通じて学習される。 Collaborative FilteringをMLPで一般化したNeural Collaborative Filtering、およびMatrix Factorizationはuser, item-embeddingのelement-wise product + linear transofmration + activation で一般化できること(GMF; Generalized Matrix Factorization)を示し、両者を組み合わせたNeural Matrix Factorizationを提案している。 Denoising Auto-Encoders を用いたtop-N推薦手法、Collaborative Denoising Auto-Encoder (CDAE)を提案。 Collaborative Deep Learning for Recommender Systems Wang+, KDD’15
もStacked Denoising Auto EncoderとCollaborative Topic Regression Collaborative topic modeling for recommending scientific articles, Wang+, KDD'11
を利用しているが、Collaborative Deep Learning for Recommender Systems Wang+, KDD’15
ではarticle recommendationというspecificな問題を解いているのに対して、提案手法はgeneralなtop-N推薦に利用できることを主張。 様々あるCFアルゴリズムをどのように選択すべきか、# of users, # of items, rating matrix densityの観点から分析した研究。 tool:
http://apex.sjtu.edu.cn/projects/33
Ratingの情報だけでなく、Auxiliaryな情報も使ってMatrix Factorizationができるツールを作成した。 Factorization Machinesの著者実装。 過去のCollaborative Filteringを利用したStudent Performance Prediction (Collaborative Filtering Applied to Educational Data Mining, Andreas+, KDD Cup'10
など)では、単一の関係性(student-skill, student-task等の関係)のみを利用していたが、この研究では複数の関係性(task-required skill-learnt skill)を利用してCFモデルの性能を向上させ、Bayesian Knowledge TracingやMatrix Factorizationに基づく手法をRMSEの観点でoutperformした。 Probabilistic Matrix Factorization (PMF) Probabilistic Matrix Factorization, Salakhutdinov+, NIPS'08
に、Latent Dirichllet Allocation (LDA) を組み込んだCollaborative Topic Regression (CTR)を提案。 CFとContents-basedな手法が双方向にinterationするような手法 KDD Cup'10のStudent Performance Predictionタスクにおいて3位をとった手法 解説ブログ:
http://echizen-tm.hatenablog.com/entry/2016/09/11/024828
Collaborative Filteringと要約を組み合わせる手法を提案した最初の論文と思われる。 評価 Matrix Factorizationについてよくまとまっている アイテムベースな協調フィルタリングを提案した論文(GroupLens) 検索結果のpersonalizationを初めてuser profileを用いて実現した研究 下記モデルが実装されているすごいリポジトリ。論文もリンクも記載されており、Factorization Machinesを勉強する際に非常に参考になると思う。MITライセンス。各手法はCriteoのCTRPredictionにおいて、AUC0.8くらい出ているらしい。 Facebookが開発したopen sourceのDeepな推薦モデル(MIT Licence)。 実装:
https://github.com/facebookresearch/dlrm
Parallelism以後のセクションはあとで読む Factorization Machinesと、Deep Neural Networkを、Wide&Deepしました、という論文。Wide=Factorization Machines, Deep=DNN。 Factorization Machines, Steffen Rendle, ICDM'10
にも書いたが、下記リンクに概要が記載されている。 DeepFM: A Factorization-Machine based Neural Network for CTR Prediction, Guo+, IJCAI’17
DeepFMの発展版 Factorization Machines, Steffen Rendle, ICDM'10
にも書いたが、下記リンクに概要が記載されている。 userのembeddingに対し、このuserと共起した(購入やクリックされた)itemを近くに、共起していないitemを遠くに埋め込むような学習方法 教員に対して教材を推薦しようという試み(学生ではないようだ)。 Learning Resource Exchangeの文脈で使われることを想定(このシステムではヨーロッパのK-12)。 Implicit Feedbackなデータに特化したMatrix Factorization (MF)、Weighted Matrix Factorization (WMF)を提案。 日本語での解説:
https://cympfh.cc/paper/WRMF
Implicit Implicit
でのAlternating Least Square (ALS)という手法が、この手法の実装に該当する。 Rating Matrixからuserとitemのlatent vectorを学習する際に、Stacked Denoising Auto Encoder(SDAE)によるitemのembeddingを活用する話。 実装されているアルゴリズム:Factorization Machines 参考: 実装されているアルゴリズム:協調フィルタリング、Factorization Machines、 参考: ・従来のCFはaccuracyをあげることを目的に研究されてきたが,ユーザがすでに知っているitemを推薦してしまう問題がある.おまけに(推薦リスト内のアイテムの観点からみた)diversityも低い.このような推薦はdiscoveryがなく,user satisfactionを損ねるので,ユーザがすでに何を知っているかの情報を使ってよりdiscoveryのある推薦をCFでやりましょうという話. 重要論文
Contents-basedな手法でCTRを予測しNews推薦。newsのタイトルに含まれるentityをknowledge graphと紐づけて、情報をよりリッチにして活用する。
CNNでword-embeddingのみならず、entity embedding, contextual entity embedding(entityと関連するentity)をエンコードし、knowledge-awareなnewsのrepresentationを取得し予測する。
※ contextual entityは、entityのknowledge graph上でのneighborhoodに存在するentityのこと(neighborhoodの情報を活用することでdistinguishableでよりリッチな情報を活用できる)
CNNのinputを\[\[word_ embedding\], \[entity embedding\], \[contextual entity embedding\]\](画像のRGB)のように、multi-channelで構成し3次元のフィルタでconvolutionすることで、word, entity, contextual entityを表現する空間は別に保ちながら(同じ空間で表現するのは適切ではない)、wordとentityのalignmentがとれた状態でのrepresentationを獲得する。
# Experiments
BingNewsのサーバログデータを利用して評価。
データは (timestamp, userid, news url, news title, click count (0=no click, 1=click))のレコードによって構成されている。
2016年11月16日〜2017年6月11日の間のデータからランダムサンプリングしtrainingデータセットとした。
また、2017年6月12日〜2017年8月11日までのデータをtestデータセットとした。
word/entity embeddingの次元は100, フィルタのサイズは1,2,3,4とした。loss functionはlog lossを利用し、Adamで学習した。
DeepFM超えを達成。
entity embedding, contextual entity embeddingをablationすると、AUCは2ポイントほど現象するが、それでもDeepFMよりは高い性能を示している。
また、attentionを抜くとAUCは1ポイントほど減少する。
1ユーザのtraining/testセットのサンプル
</p>
によって経験的にRNN, Recursive Neural Network等と比較して、sentenceのrepresentationを獲得する際にCNNが優れていることが示されているため、CNNでrepresentationを獲得することにした模様(footprint 7より)
https://qiita.com/agatan/items/24c6d8e00f2fc861bb04
#RecommenderSystems
#NeuralNetwork
#FactorizationMachines
#CTRPrediction
#WWW
Issue Date: 2020-08-29
Field Weighted Factorization Machines for Click-Through Rate Prediction in Display Advertising, Pan+, WWW'18
Comment
#RecommenderSystems
#NeuralNetwork
#NaturalLanguageGeneration
#NLP
#ReviewGeneration
#IJCNLP
Issue Date: 2019-02-01
Estimating Reactions and Recommending Products with Generative Models of Reviews, Ni+, IJCNLP'17
Comment
両者の性能を向上させる話。
非常に興味深い設定で、このような実験設定でReview Generationを行なった初めての研究。
CFでは、Implicitな設定なので、Rating Predictionではなく、binary classificationを行うことで、推薦を行う。
classificationには、Matrix Factorization (MF) を拡張したモデルを用いる。
具体的には、通常のMFでは、user latent factorとitem latent factorの内積によって、userのitemに対するpreferenceを表現するが、このときに、target userが過去に記載したレビュー・およびtarget itemに関する情報を利用する。レビューのrepresentationのaverageをとったvectorと、MFの結果をlinear layerによって写像し、最終的なclassification scoreとしている。
Review Generationでは、基本的にはseq2seqのinputのEmbeddingに対して、user latent factor, item latent factorをconcatするだけ。hidden stateに直接concatしないのは、latent factorを各ステップで考慮できるため、long, coherentなsequenceを生成できるから、と説明している。
Recommendタスクにおいては、Bayesian Personalized Ranking, Generalized Matrix Factorizationをoutperform。
Review GenerationはPerplexityにより評価している。提案手法がcharacter based lstmをoutperform。
Perplexityによる評価だと言語モデルとしての評価しかできていないので、BLEU, ROUGEなどを利用した評価などもあって良いのでは。
#RecommenderSystems
#NeuralNetwork
#MatrixFactorization
#WWW
#Selected Papers/Blogs
Issue Date: 2018-02-16
Neural Collaborative Filtering, He+, WWW'17
Comment
学習する際は、Implicit Dataの場合は負例をNegative Samplingし、LogLoss(Binary Cross-Entropy Loss)で学習する。
Neural Matrix Factorizationが、ItemKNNやBPRといったベースラインをoutperform
Negative Samplingでサンプリングする負例の数は、3~4程度で良さそう
#RecommenderSystems
#NeuralNetwork
#WSDM
#Selected Papers/Blogs
Issue Date: 2018-01-02
Collaborative Denoising Auto-Encoders for Top-N Recommender Systems, Wu+, WSDM'16
Comment
モデルベースなCollaborative Filtering手法に相当する。corruptedなinputを復元するようなDenoising Auto Encoderのみで推薦を行うような手法は、この研究が初めてだと主張。
学習する際は、userのitemsetのsubsetをモデルに与え(noiseがあることに相当)、全体のitem setを復元できるように、学習する(すなわちDenoising Auto-Encoder)。
推薦する際は、ユーザのその時点でのpreference setをinputし、new itemを推薦する。
#RecommenderSystems
Issue Date: 2021-10-29
A Comparative Study of Collaborative Filtering Algorithms, Lee+, arXiv'12
Comment
1. 特にcomputationに関する制約がない場合は・・・、NMFはsparseなデータセットに対して最も良い性能を発揮する。BPMFはdenseなデータセットに対して最も良い性能を発揮する。そして、regularized SVD, PMFはこれ以外の状況で最も良い性能を示す(PMFはユーザ数が少ない場合によく機能する一方で、Regularized SVDはアイテム数が小さい場合に良く機能する。)。
2. もしtime constraintが5分の場合、Regularized SVD, NLPMF, NPCA, Rankbased CFは検討できない。この場合、NMFがスパースデータに対して最も良い性能を発揮し、BPMFがdenseで大規模なデータ、それ以外ではPMFが最も良い性能を示す。
3. もしtime constraintが1分の場合、PMFとBPMFは2に加えてさらに除外される。多くの場合Slope-oneが最も良い性能を示すが、データがsparseな場合はNMF。
4. リアルタイムな計算が必要な場合、user averageがbest
#RecommenderSystems
#Tools
#MatrixFactorization
Issue Date: 2018-01-11
SVDFeature: a toolkit for feature-based collaborative filtering, Chen+, JMLR'12
Comment
これにより、Rating Matrixの情報だけでなく、自身で設計したfeatureをMFに組み込んでモデルを作ることができる。
#RecommenderSystems
#FactorizationMachines
Issue Date: 2018-01-02
Factorization Machines with libFM, Steffen Rendle, TIST'12
Comment
FMやるならまずはこれ。
#MatrixFactorization
#EducationalDataMining
#StudentPerformancePrediction
Issue Date: 2021-10-29
Multi-Relational Factorization Models for Predicting Student Performance, Nguyen+, KDD Cup'11
Comment
#RecommenderSystems
#MatrixFactorization
#SIGKDD
#Selected Papers/Blogs
Issue Date: 2018-01-11
Collaborative topic modeling for recommending scientific articles, Wang+, KDD'11
Comment
LDAによりitemのlatent vectorを求め、このitem vectorと、user vectorの内積を(平均値として持つ正規表現からのサンプリング)用いてratingを生成する。
#NeuralNetwork
#MatrixFactorization
#EducationalDataMining
#StudentPerformancePrediction
Issue Date: 2021-10-29
Collaborative Filtering Applied to Educational Data Mining, Andreas+, KDD Cup'10
Comment
メモリベースドな協調フィルタリングと、Matirx Factorizationモデルを利用してStudent Performance Predictionを実施。
最終的にこれらのモデルをニューラルネットでensembleしている。
#RecommenderSystems
#MachineLearning
#FactorizationMachines
#ICDM
#Selected Papers/Blogs
Issue Date: 2018-12-22
Factorization Machines, Steffen Rendle, ICDM'10
Comment
DeepFMに関する動向:
https://data.gunosy.io/entry/deep-factorization-machines-2018
非常に完結でわかりやすい説明
FMのFeature VectorのExample
各featureごとにlatent vectorが学習され、featureの組み合わせのweightが内積によって表現される
Matrix Factorizationの一般形のような形式
#PersonalizedDocumentSummarization
#RecommenderSystems
#GraphBased
#PACLIC
Issue Date: 2017-12-28
[Paper Note] Collaborative Summarization: When Collaborative Filtering Meets Document Summarization, Qu+, PACLIC'09, 2009.12
Comment
ソーシャルブックマークのデータから作成される、ユーザ・アイテム・タグのTripartite Graphと、ドキュメントのsentenceで構築されるGraphをのノード間にedgeを張り、co-rankingする手法を提案している。
100個のEnglish wikipedia記事をDLし、文書要約のセットとした。
その上で、5000件のwikipedia記事に対する1084ユーザのタギングデータをdelicious.comから収集し、合計で8396の異なりタグを得た。
10人のdeliciousのアクティブユーザの協力を得て、100記事に対するtop5のsentenceを抽出してもらった。ROUGE1で評価。
#RecommenderSystems
#Survey
#MatrixFactorization
#Selected Papers/Blogs
Issue Date: 2018-01-01
Matrix Factorization Techniques for Recommender Systems, Koren+, Computer'07
Comment
#RecommenderSystems
#ItemBased
#WWW
#Selected Papers/Blogs
Issue Date: 2018-01-01
Item-based collaborative filtering recommendation algorithms, Sarwar+(with Konstan), WWW'01
Comment
#Article
#InformationRetrieval
#RelevanceFeedback
#Search
#WebSearch
#Personalization
Issue Date: 2023-04-28
Adaptive Web Search Based on User Profile Constructed without Any Effort from Users, Sugiyama+, NAIST, WWW’04
Comment
user profileはlong/short term preferenceによって構成される。
- long term: さまざまなソースから取得される
- short term: 当日のセッションの中だけから収集される
① browsing historyの活用
- browsing historyのTFから求め Profile = P_{longterm} + P_{shortterm}とする
② Collaborative Filtering (CF) の活用
- user-item matrixではなく、user-term matrixを利用
- userの未知のterm-weightをCFで予測する
- => missing valueのterm weightが予測できるのでprofileが充実する
実験結果
- 検証結果(googleの検索結果よりも提案手法の方が性能が良い)
- 検索結果のprecision向上にlong/short term preferenceの両方が寄与
- longterm preferenceの貢献の方が大きいが、short termも必要(interpolation weight 0.6 vs. 0.4)
- short termにおいては、その日の全てのbrowsing historyより、現在のセッションのterm weightをより考慮すべき(interpolation weight 0.2 vs. 0.8)
#Article
#RecommenderSystems
#Library
#FactorizationMachines
#Repository
Issue Date: 2021-07-03
pytorch-fm, 2020
Comment
- Logistic Regression
- Factorization Machine
- Field-aware Factorization Machine
- Higher-Order Factorization Machines
- Factorization-Supported Neural Network
- Wide&Deep
- Attentional Factorization Machine
- Neural Factorization Machine
- Neural Collaborative Filtering
- Field-aware Neural Factorization Machine
- Product Neural Network
- Deep Cross Network
- DeepFM
- xDeepFM
- AutoInt (Automatic Feature Interaction Model)
- AFN(AdaptiveFactorizationNetwork Model)
#Article
#RecommenderSystems
#Pocket
#FactorizationMachines
Issue Date: 2021-07-02
Deep Learning Recommendation Model for Personalization and Recommendation Systems, Naumov+, Facebook, arXiv‘19
Summary- 深層学習に基づく推薦モデル(DLRM)を開発し、PyTorchとCaffe2で実装。埋め込みテーブルのモデル並列性を活用し、メモリ制約を軽減しつつ計算をスケールアウト。DLRMの性能を既存モデルと比較し、Big Basin AIプラットフォームでの有用性を示す。
Comment
モデル自体はシンプルで、continuousなfeatureをMLPで線形変換、categoricalなfeatureはembeddingをlook upし、それぞれfeatureのrepresentationを獲得。
その上で、それらをFactorization Machines layer(second-order)にぶちこむ。すなわち、Feature間の2次の交互作用をembedding間のdot productで獲得し、これを1次項のrepresentationとconcatしMLPにぶちこむ。最後にシグモイド噛ませてCTRの予測値とする。
#Article
#RecommenderSystems
#NeuralNetwork
#Pocket
#FactorizationMachines
#CTRPrediction
#IJCAI
Issue Date: 2021-05-25
DeepFM: A Factorization-Machine based Neural Network for CTR Prediction, Guo+, IJCAI’17
Comment
高次のFeatureと低次のFeatureを扱っているだけでなく、FMによってフィールドごとのvector-wiseな交互作用、DNNではbit-wiseな交互作用を利用している。
割と色々なデータでうまくいきそうな手法に見える。
発展版としてxDeepFM xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems, Lian+, KDD‘18
がある。
DeepFMに関する動向:
https://data.gunosy.io/entry/deep-factorization-machines-2018
#Article
#RecommenderSystems
#NeuralNetwork
#Pocket
#FactorizationMachines
#CTRPrediction
#SIGKDD
Issue Date: 2021-05-25
xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems, Lian+, KDD‘18
Comment
DeepFMに関する動向:
https://data.gunosy.io/entry/deep-factorization-machines-2018
DeepFMの発展についても詳細に述べられていて、とても参考になる。
#Article
#RecommenderSystems
#Tutorial
#ContrastiveLearning
#Blog
Issue Date: 2020-07-30
Collaborative Metric Learningまとめ, guglilac, 2020
Comment
#Article
#RecommenderSystems
#AdaptiveLearning
Issue Date: 2018-12-22
Simulated Analysis of MAUT Collaborative Filtering for Learning Object Recommendation, Manouselis+, Social Information Retrieval for Technology-Enhanced Learning & Exchange, 2007
Comment
教員は、learning resourcesに対して、multi-criteriaなratingを付与することができ、それをCFで活用する(CELEBRATE web portalというヨーロッパのポータルを使用したらしい)。
CFはmemory-basedな手法を使用。target userがあるアイテムを、それぞれのattributeの観点からどのようにratingするかをattributeごとに別々に予測。各attributeのスコアを最終的に統合(元の論文ではただのスコアの足し合わせ)して、推薦スコアとする。
以下が調査された:
1. ユーザ間の距離の測り方(ユークリッド距離、cossim、ピアソンの相関係数)
2. neighborsの選び方(定義しておいた最大人数か、相関の重みで選ぶか)
3. neighborのratingをどのように組み合わせるか(平均、重み付き平均、mean formulaからのdeviation)
評価する際は、ratingのデータを training/test 80%/20%に分割。テストセットのアイテムに対して、ユーザがratingした情報をどれだけ正しく予測できるかで検証(511 evaluation in test, 2043 evaluations in training)。
ratingのMAE, coverage, アルゴリズムの実行時間で評価。
CorrerationWeightThresholdが各種アルゴリズムで安定した性能。Maximum Number Userはばらつきがでかい。いい感じの設定がみつかれば、Maximum Number Userの方がMAEの観点からは強い。
top-10のアイテムをselectするようにしたら、60%のcoverageになった。
(アルゴリズムの実行時間は、2000程度のevaluationデータに対して、2.5GHZ CPU, 256MEMで20秒とかかかってる。)
教員による教材のmulti-criteriaのratingは5-scaleで行われた。
どういうcriteriaに対してratingされたかが書かれていない。
#Article
#RecommenderSystems
#MatrixFactorization
#Selected Papers/Blogs
Issue Date: 2018-01-11
Collaborative filtering for implicit feedback datasets, Hu+, International Conference on Data Mining, 2008
Comment
ユーザのExplicitなFeedback(ratingやlike, dislikeなど)がなくても、MFが適用可能。
目的関数は下のようになっている。
通常のMFでは、ダイレクトにrating r_{ui}を予測したりするが、WMFでは r_{ui}をratingではなく、たとえばユーザuがアイテムiを消費した回数などに置き換え、binarizeした数値p_{ui}を目的関数に用いる。
このとき、itemを消費した回数が多いほど、そのユーザはそのitemを好んでいると仮定し、そのような事例については重みが高くなるようにc_{ui}を計算し、目的関数に導入している。
#Article
#RecommenderSystems
#NeuralNetwork
#MatrixFactorization
#SIGKDD
#Selected Papers/Blogs
Issue Date: 2018-01-11
Collaborative Deep Learning for Recommender Systems Wang+, KDD’15
Comment
Collaborative FilteringとContents-based Filteringのハイブリッド手法。
Collaborative FilteringにおいてDeepなモデルを活用する初期の研究。
通常はuser vectorとitem vectorの内積の値が対応するratingを再現できるように目的関数が設計されるが、そこにitem vectorとSDAEによるitemのEmbeddingが近くなるような項(3項目)、SDAEのエラー(4項目)を追加する。
(3項目の意義について、解説ブログより)アイテム i に関する潜在表現 vi は学習データに登場するものについては推定できるけれど,未知のものについては推定できない.そこでSDAEの中間層の結果を「推定したvi」として「真の」 vi にできる限り近づける,というのがこの項の気持ち
cite-ulikeデータによる論文推薦、Netflixデータによる映画推薦で評価した結果、ベースライン(Collective Matrix Factorization Relational learning via collective matrix factorization, Singh+, KDD'08
, SVDFeature SVDFeature: a toolkit for feature-based collaborative filtering, Chen+, JMLR'12
, DeepMusic Deep content-based music recommendation, Oord+, NIPS'13
, Collaborative Topic Regresison Collaborative topic modeling for recommending scientific articles, Wang+, KDD'11
)をoutperform。
(下記は管理人が過去に作成した論文メモスライドのスクショ)
#Article
#RecommenderSystems
#Library
#FactorizationMachines
Issue Date: 2018-01-01
fastFM
Comment
実装:python
使用方法:pythonライブラリとして利用
※ Factorization Machinesに特化したpythonライブラリ
http://www.kamishima.net/archive/recsysdoc.pdf
https://takuti.me/note/recommender-libraries/
#Article
#RecommenderSystems
#Tools
#Library
#FactorizationMachines
Issue Date: 2018-01-01
LibRec
Comment
Restricted Boltzman Machineなど、計70種類のアルゴリズムが実装
実装:Java
使用方法:コマンドライン、Javaライブラリとして利用
※ 実装されているアルゴリズムの豊富さが強み
※ 実装されているアルゴリズムのリスト(
https://www.librec.net/dokuwiki/doku.php?id=AlgorithmList)
http://www.kamishima.net/archive/recsysdoc.pdf
https://takuti.me/note/recommender-libraries/
#Article
#RecommenderSystems
#Novelty
#Selected Papers/Blogs
Issue Date: 2017-12-28
Discovery-oriented Collaborative Filtering for Improving User Satisfaction, Hijikata+, IUI’09
Comment
・特徴としてユーザのitemへのratingに加え,そのitemをユーザが知っていたかどうかexplicit feedbackしてもらう必要がある.
・手法は単純で,User-based,あるいはItem-based CFを用いてpreferenceとあるitemをユーザが知っていそうかどうかの確率を求め,それらを組み合わせる,あるいはrating-matrixにユーザがあるitemを知っていたか否かの数値を組み合わせて新たなmatrixを作り,そのmatrix上でCFするといったもの.
・offline評価の結果,通常のCF,topic diversification手法と比べてprecisionは低いものの,discovery ratioとprecision(novelty)は圧倒的に高い.
・ユーザがitemを知っていたかどうかというbinary ratingはユーザに負荷がかかるし,音楽推薦の場合previewがなければそもそも提供されていないからratingできないなど,必ずしも多く集められるデータではない.そこで,データセットのratingの情報を25%, 50%, 75%に削ってratingの数にbiasをかけた上で実験をしている.その結果,事前にratingをcombineし新たなmatrixを作る手法はratingが少ないとあまりうまくいかなかった.
・さらにonlineでuser satisfaction(3つの目的のもとsatisfactionをratingしてもらう 1. purchase 2. on-demand-listening 3. discovery)を評価した. 結果,purchaseとdiscoveryにおいては,ベースラインを上回った.ただし,これは推薦リスト中の満足したitemの数の問題で,推薦リスト全体がどうだった
かと問われた場合は,ベースラインと同等程度だった.
</div>