CollaborativeFiltering

#RecommenderSystems #Pocket #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #Reasoning
Issue Date: 2025-03-27 RALLRec+: Retrieval Augmented Large Language Model Recommendation with Reasoning, Sichun Luo+, arXiv'25 Summary- RALLRec+は、LLMsを用いてレコメンダーシステムのretrievalとgenerationを強化する手法。retrieval段階では、アイテム説明を生成し、テキスト信号と協調信号を結合。生成段階では、推論LLMsを評価し、知識注入プロンプティングで汎用LLMsと統合。実験により、提案手法の有効性が確認された。 Comment

元ポスト:

<img alt="loading..." src="/assets/images/load-31_128.gif class="tweet-loading" />

Reasoning LLMをRecSysに応用する初めての研究(らしいことがRelated Workに書かれている)

arxivのadminより以下のコメントが追記されている
> arXiv admin note: substantial text overlap with arXiv:2502.06101

コメント中の研究は下記である
- ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation, Jianghao Lin+, WWW'24



#RecommenderSystems #GraphBased #Pocket
Issue Date: 2023-04-26 Graph Collaborative Signals Denoising and Augmentation for Recommendation, Ziwei Fan+, N_A, SIGIR'23 Summary- グラフ協調フィルタリング(GCF)は、推薦システムで人気のある技術ですが、相互作用が豊富なユーザーやアイテムにはノイズがあり、相互作用が不十分なユーザーやアイテムには不十分です。また、ユーザー-ユーザーおよびアイテム-アイテムの相関を無視しているため、有益な隣接ノードの範囲が制限される可能性があります。本研究では、ユーザー-ユーザーおよびアイテム-アイテムの相関を組み込んだ新しいグラフの隣接行列と、適切に設計されたユーザー-アイテムの相互作用行列を提案します。実験では、改善された隣接ノードと低密度を持つ強化されたユーザー-アイテムの相互作用行列が、グラフベースの推薦において重要な利点をもたらすことを示しています。また、ユーザー-ユーザーおよびアイテム-アイテムの相関を含めることで、相互作用が豊富なユーザーや不十分なユーザーに対する推薦が改善されることも示しています。 Comment

グラフ協調フィルタリングを改善

image

グラフ協調フィルタリング

(下記ツイッターより引用)

user-item間の関係だけでなく、user-user間とitem-item間の情報を組み込むことで精度向上を達成した論文とのこと。



<img alt="loading..." src="/assets/images/load-31_128.gif class="tweet-loading" />


#RecommenderSystems #NeuralNetwork #EfficiencyImprovement #Pocket #EducationalDataMining #KnowledgeTracing #Contents-based #NAACL
Issue Date: 2022-08-01 GRAM: Fast Fine-tuning of Pre-trained Language Models for Content-based Collaborative Filtering, Yoonseok Yang+, NAACL'22 Summary- コンテンツベースの協調フィルタリング(CCF)において、PLMを用いたエンドツーエンドのトレーニングはリソースを消費するため、GRAM(勾配蓄積手法)を提案。Single-step GRAMはアイテムエンコーディングの勾配を集約し、Multi-step GRAMは勾配更新の遅延を増加させてメモリを削減。これにより、Knowledge TracingとNews Recommendationのタスクでトレーニング効率を最大146倍改善。 Comment

RiiiDがNAACL'22に論文通してた



#NeuralNetwork #Pocket #Evaluation #RecSys Issue Date: 2025-04-15 Revisiting the Performance of iALS on Item Recommendation Benchmarks, Steffen Rendle+, arXiv'21 Summary- iALSを再検討し、調整を行うことで、レコメンダーシステムにおいて競争力を持つことを示す。特に、4つのベンチマークで他の手法を上回る結果を得て、iALSのスケーラビリティと高品質な予測が再評価されることを期待。 #RecommenderSystems #NeuralNetwork #Pocket #MatrixFactorization #RecSys #read-later #Reproducibility Issue Date: 2025-05-16 Neural Collaborative Filtering vs. Matrix Factorization Revisited, Steffen Rendle+, RecSys'20 Summary- 埋め込みベースのモデルにおける協調フィルタリングの研究では、MLPを用いた学習された類似度が提案されているが、適切なハイパーパラメータ選択によりシンプルなドット積が優れた性能を示すことが確認された。MLPは理論的には任意の関数を近似可能だが、実用的にはドット積の方が効率的でコストも低いため、MLPは慎重に使用すべきであり、ドット積がデフォルトの選択肢として推奨される。 #RecommenderSystems #NeuralNetwork #Evaluation #RecSys Issue Date: 2022-04-11 Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches, Politecnico di Milano, Maurizio+, RecSys'19 Comment

RecSys'19のベストペーパー

日本語解説: https://qiita.com/smochi/items/98dbd9429c15898c5dc7

重要研究



#RecommenderSystems #NeuralNetwork #Contents-based #NewsRecommendation #WWW Issue Date: 2021-06-01 DKN: Deep Knowledge-Aware Network for News Recommendation, Wang+, WWW'18 Comment

# Overview

Contents-basedな手法でCTRを予測しNews推薦。newsのタイトルに含まれるentityをknowledge graphと紐づけて、情報をよりリッチにして活用する。

CNNでword-embeddingのみならず、entity embedding, contextual entity embedding(entityと関連するentity)をエンコードし、knowledge-awareなnewsのrepresentationを取得し予測する。

※ contextual entityは、entityのknowledge graph上でのneighborhoodに存在するentityのこと(neighborhoodの情報を活用することでdistinguishableでよりリッチな情報を活用できる)



CNNのinputを\[\[word_ embedding\], \[entity embedding\], \[contextual entity embedding\]\](画像のRGB)のように、multi-channelで構成し3次元のフィルタでconvolutionすることで、word, entity, contextual entityを表現する空間は別に保ちながら(同じ空間で表現するのは適切ではない)、wordとentityのalignmentがとれた状態でのrepresentationを獲得する。



image



# Experiments

BingNewsのサーバログデータを利用して評価。

データは (timestamp, userid, news url, news title, click count (0=no click, 1=click))のレコードによって構成されている。

2016年11月16日〜2017年6月11日の間のデータからランダムサンプリングしtrainingデータセットとした。

また、2017年6月12日〜2017年8月11日までのデータをtestデータセットとした。



word/entity embeddingの次元は100, フィルタのサイズは1,2,3,4とした。loss functionはlog lossを利用し、Adamで学習した。





image



image





DeepFM超えを達成。

entity embedding, contextual entity embeddingをablationすると、AUCは2ポイントほど現象するが、それでもDeepFMよりは高い性能を示している。

また、attentionを抜くとAUCは1ポイントほど減少する。



1ユーザのtraining/testセットのサンプル

image

</p>

Sentiment analysis with deeply learned distributed representations of variable length texts, Hong+, Technical Report. Technical report, Stanford University, 2015 </strong>
によって経験的にRNN, Recursive Neural Network等と比較して、sentenceのrepresentationを獲得する際にCNNが優れていることが示されているため、CNNでrepresentationを獲得することにした模様(footprint 7より)

Factorization Machinesベースドな手法(LibFM, DeepFM)を利用する際は、TF-IDF featureと、averaged entity embeddingによって構成し、それをuser newsとcandidate news同士でconcatしてFeatureとして入力した模様

content情報を一切利用せず、ユーザのimplicit feedbackデータ(news click)のみを利用するDMF(Deep Matrix Factorization)の性能がかなり悪いのもおもしろい。やはりuser-item-implicit feedbackデータのみだけでなく、コンテンツの情報を利用した方が強い。

(おそらく)著者によるtensor-flowでの実装: https://github.com/hwwang55/DKN

日本語解説

https://qiita.com/agatan/items/24c6d8e00f2fc861bb04

</span>

#RecommenderSystems #NeuralNetwork #FactorizationMachines #CTRPrediction #WWW Issue Date: 2020-08-29 Field Weighted Factorization Machines for Click-Through Rate Prediction in Display Advertising, Pan+, WWW'18 Comment

CTR予測でbest-performingなモデルと言われているField Aware Factorization Machines(FFM)では、パラメータ数がフィールド数×特徴数のorderになってしまうため非常に多くなってしまうが、これをよりメモリを効果的に利用できる手法を提案。FFMとは性能がcomparableであるが、パラメータ数をFFMの4%に抑えることができた。



#RecommenderSystems #NeuralNetwork #NaturalLanguageGeneration #NLP #ReviewGeneration #IJCNLP Issue Date: 2019-02-01 Estimating Reactions and Recommending Products with Generative Models of Reviews, Ni+, IJCNLP'17 Comment

Collaborative Filtering (CF) によるコンテンツ推薦とReview Generationを同時に学習し、

両者の性能を向上させる話。

非常に興味深い設定で、このような実験設定でReview Generationを行なった初めての研究。

CFではMatrix Factorization (MF) を利用し、Review Generationでは、LSTM-basedなseq2seqを利用する。MFとReview Generationのモデルにおいて、共通のuser latent factorとitem latent factorを利用することで、joint modelとしている。このとき、latent factorは、両タスクを通じて学習される。



CFでは、Implicitな設定なので、Rating Predictionではなく、binary classificationを行うことで、推薦を行う。

classificationには、Matrix Factorization (MF) を拡張したモデルを用いる。

具体的には、通常のMFでは、user latent factorとitem latent factorの内積によって、userのitemに対するpreferenceを表現するが、このときに、target userが過去に記載したレビュー・およびtarget itemに関する情報を利用する。レビューのrepresentationのaverageをとったvectorと、MFの結果をlinear layerによって写像し、最終的なclassification scoreとしている。



Review Generationでは、基本的にはseq2seqのinputのEmbeddingに対して、user latent factor, item latent factorをconcatするだけ。hidden stateに直接concatしないのは、latent factorを各ステップで考慮できるため、long, coherentなsequenceを生成できるから、と説明している。



image

image



Recommendタスクにおいては、Bayesian Personalized Ranking, Generalized Matrix Factorizationをoutperform。

image



Review GenerationはPerplexityにより評価している。提案手法がcharacter based lstmをoutperform。

Perplexityによる評価だと言語モデルとしての評価しかできていないので、BLEU, ROUGEなどを利用した評価などもあって良いのでは。



#RecommenderSystems #NeuralNetwork #MatrixFactorization #WWW #Selected Papers/Blogs Issue Date: 2018-02-16 Neural Collaborative Filtering, He+, WWW'17 Comment

Collaborative FilteringをMLPで一般化したNeural Collaborative Filtering、およびMatrix Factorizationはuser, item-embeddingのelement-wise product + linear transofmration + activation で一般化できること(GMF; Generalized Matrix Factorization)を示し、両者を組み合わせたNeural Matrix Factorizationを提案している。



image



学習する際は、Implicit Dataの場合は負例をNegative Samplingし、LogLoss(Binary Cross-Entropy Loss)で学習する。



image

Neural Matrix Factorizationが、ItemKNNやBPRといったベースラインをoutperform



Negative Samplingでサンプリングする負例の数は、3~4程度で良さそう

image



#RecommenderSystems #NeuralNetwork #WSDM #Selected Papers/Blogs Issue Date: 2018-01-02 Collaborative Denoising Auto-Encoders for Top-N Recommender Systems, Wu+, WSDM'16 Comment

Denoising Auto-Encoders を用いたtop-N推薦手法、Collaborative Denoising Auto-Encoder (CDAE)を提案。

モデルベースなCollaborative Filtering手法に相当する。corruptedなinputを復元するようなDenoising Auto Encoderのみで推薦を行うような手法は、この研究が初めてだと主張。



学習する際は、userのitemsetのsubsetをモデルに与え(noiseがあることに相当)、全体のitem setを復元できるように、学習する(すなわちDenoising Auto-Encoder)。

推薦する際は、ユーザのその時点でのpreference setをinputし、new itemを推薦する。



Collaborative Deep Learning for Recommender Systems Wang+, KDD’15 もStacked Denoising Auto EncoderとCollaborative Topic Regression Collaborative topic modeling for recommending scientific articles, Wang+, KDD'11 を利用しているが、Collaborative Deep Learning for Recommender Systems Wang+, KDD’15 ではarticle recommendationというspecificな問題を解いているのに対して、提案手法はgeneralなtop-N推薦に利用できることを主張。



#RecommenderSystems Issue Date: 2021-10-29 A Comparative Study of Collaborative Filtering Algorithms, Lee+, arXiv'12 Comment

様々あるCFアルゴリズムをどのように選択すべきか、# of users, # of items, rating matrix densityの観点から分析した研究。



1. 特にcomputationに関する制約がない場合は・・・、NMFはsparseなデータセットに対して最も良い性能を発揮する。BPMFはdenseなデータセットに対して最も良い性能を発揮する。そして、regularized SVD, PMFはこれ以外の状況で最も良い性能を示す(PMFはユーザ数が少ない場合によく機能する一方で、Regularized SVDはアイテム数が小さい場合に良く機能する。)。



2. もしtime constraintが5分の場合、Regularized SVD, NLPMF, NPCA, Rankbased CFは検討できない。この場合、NMFがスパースデータに対して最も良い性能を発揮し、BPMFがdenseで大規模なデータ、それ以外ではPMFが最も良い性能を示す。



3. もしtime constraintが1分の場合、PMFとBPMFは2に加えてさらに除外される。多くの場合Slope-oneが最も良い性能を示すが、データがsparseな場合はNMF。



4. リアルタイムな計算が必要な場合、user averageがbest



#RecommenderSystems #Tools #MatrixFactorization Issue Date: 2018-01-11 SVDFeature: a toolkit for feature-based collaborative filtering, Chen+, JMLR'12 Comment

tool: http://apex.sjtu.edu.cn/projects/33

Ratingの情報だけでなく、Auxiliaryな情報も使ってMatrix Factorizationができるツールを作成した。

これにより、Rating Matrixの情報だけでなく、自身で設計したfeatureをMFに組み込んでモデルを作ることができる。



image



image



#RecommenderSystems #FactorizationMachines Issue Date: 2018-01-02 Factorization Machines with libFM, Steffen Rendle, TIST'12 Comment

Factorization Machinesの著者実装。

FMやるならまずはこれ。



#MatrixFactorization #EducationalDataMining #StudentPerformancePrediction Issue Date: 2021-10-29 Multi-Relational Factorization Models for Predicting Student Performance, Nguyen+, KDD Cup'11 Comment

過去のCollaborative Filteringを利用したStudent Performance Prediction (Collaborative Filtering Applied to Educational Data Mining, Andreas+, KDD Cup'10 など)では、単一の関係性(student-skill, student-task等の関係)のみを利用していたが、この研究では複数の関係性(task-required skill-learnt skill)を利用してCFモデルの性能を向上させ、Bayesian Knowledge TracingやMatrix Factorizationに基づく手法をRMSEの観点でoutperformした。





#RecommenderSystems #MatrixFactorization #SIGKDD #Selected Papers/Blogs Issue Date: 2018-01-11 Collaborative topic modeling for recommending scientific articles, Wang+, KDD'11 Comment

Probabilistic Matrix Factorization (PMF) Probabilistic Matrix Factorization, Salakhutdinov+, NIPS'08 に、Latent Dirichllet Allocation (LDA) を組み込んだCollaborative Topic Regression (CTR)を提案。

LDAによりitemのlatent vectorを求め、このitem vectorと、user vectorの内積を(平均値として持つ正規表現からのサンプリング)用いてratingを生成する。



image



image

image

CFとContents-basedな手法が双方向にinterationするような手法

解説ブログ: http://d.hatena.ne.jp/repose/20150531/1433004688



#NeuralNetwork #MatrixFactorization #EducationalDataMining #StudentPerformancePrediction Issue Date: 2021-10-29 Collaborative Filtering Applied to Educational Data Mining, Andreas+, KDD Cup'10 Comment

KDD Cup'10のStudent Performance Predictionタスクにおいて3位をとった手法

メモリベースドな協調フィルタリングと、Matirx Factorizationモデルを利用してStudent Performance Predictionを実施。

最終的にこれらのモデルをニューラルネットでensembleしている。



#RecommenderSystems #MachineLearning #FactorizationMachines #ICDM #Selected Papers/Blogs Issue Date: 2018-12-22 Factorization Machines, Steffen Rendle, ICDM'10 Comment

解説ブログ: http://echizen-tm.hatenablog.com/entry/2016/09/11/024828

DeepFMに関する動向: https://data.gunosy.io/entry/deep-factorization-machines-2018

image



非常に完結でわかりやすい説明

image



FMのFeature VectorのExample

各featureごとにlatent vectorが学習され、featureの組み合わせのweightが内積によって表現される



image



Matrix Factorizationの一般形のような形式



#PersonalizedDocumentSummarization #RecommenderSystems #GraphBased #PACLIC Issue Date: 2017-12-28 [Paper Note] Collaborative Summarization: When Collaborative Filtering Meets Document Summarization, Qu+, PACLIC'09, 2009.12 Comment

Collaborative Filteringと要約を組み合わせる手法を提案した最初の論文と思われる。



ソーシャルブックマークのデータから作成される、ユーザ・アイテム・タグのTripartite Graphと、ドキュメントのsentenceで構築されるGraphをのノード間にedgeを張り、co-rankingする手法を提案している。



image

評価
100個のEnglish wikipedia記事をDLし、文書要約のセットとした。
その上で、5000件のwikipedia記事に対する1084ユーザのタギングデータをdelicious.comから収集し、合計で8396の異なりタグを得た。
10人のdeliciousのアクティブユーザの協力を得て、100記事に対するtop5のsentenceを抽出してもらった。ROUGE1で評価。



#RecommenderSystems #Survey #MatrixFactorization #Selected Papers/Blogs Issue Date: 2018-01-01 Matrix Factorization Techniques for Recommender Systems, Koren+, Computer'07 Comment

Matrix Factorizationについてよくまとまっている



#RecommenderSystems #ItemBased #WWW #Selected Papers/Blogs Issue Date: 2018-01-01 Item-based collaborative filtering recommendation algorithms, Sarwar+(with Konstan), WWW'01 Comment

アイテムベースな協調フィルタリングを提案した論文(GroupLens)



#Article #InformationRetrieval #RelevanceFeedback #Search #WebSearch #Personalization Issue Date: 2023-04-28 Adaptive Web Search Based on User Profile Constructed without Any Effort from Users, Sugiyama+, NAIST, WWW’04 Comment

検索結果のpersonalizationを初めてuser profileを用いて実現した研究

user profileはlong/short term preferenceによって構成される。

- long term: さまざまなソースから取得される

- short term: 当日のセッションの中だけから収集される



① browsing historyの活用

- browsing historyのTFから求め Profile = P_{longterm} + P_{shortterm}とする



② Collaborative Filtering (CF) の活用

- user-item matrixではなく、user-term matrixを利用

- userの未知のterm-weightをCFで予測する

- => missing valueのterm weightが予測できるのでprofileが充実する



実験結果

- 検証結果(googleの検索結果よりも提案手法の方が性能が良い)

- 検索結果のprecision向上にlong/short term preferenceの両方が寄与

- longterm preferenceの貢献の方が大きいが、short termも必要(interpolation weight 0.6 vs. 0.4)

- short termにおいては、その日の全てのbrowsing historyより、現在のセッションのterm weightをより考慮すべき(interpolation weight 0.2 vs. 0.8)



#Article #RecommenderSystems #Library #FactorizationMachines #Repository Issue Date: 2021-07-03 pytorch-fm, 2020 Comment

下記モデルが実装されているすごいリポジトリ。論文もリンクも記載されており、Factorization Machinesを勉強する際に非常に参考になると思う。MITライセンス。各手法はCriteoのCTRPredictionにおいて、AUC0.8くらい出ているらしい。



- Logistic Regression

- Factorization Machine

- Field-aware Factorization Machine

- Higher-Order Factorization Machines

- Factorization-Supported Neural Network

- Wide&Deep

- Attentional Factorization Machine

- Neural Factorization Machine

- Neural Collaborative Filtering

- Field-aware Neural Factorization Machine

- Product Neural Network

- Deep Cross Network

- DeepFM

- xDeepFM

- AutoInt (Automatic Feature Interaction Model)

- AFN(AdaptiveFactorizationNetwork Model)



#Article #RecommenderSystems #Pocket #FactorizationMachines Issue Date: 2021-07-02 Deep Learning Recommendation Model for Personalization and Recommendation Systems, Naumov+, Facebook, arXiv‘19 Summary- 深層学習に基づく推薦モデル(DLRM)を開発し、PyTorchとCaffe2で実装。埋め込みテーブルのモデル並列性を活用し、メモリ制約を軽減しつつ計算をスケールアウト。DLRMの性能を既存モデルと比較し、Big Basin AIプラットフォームでの有用性を示す。 Comment

Facebookが開発したopen sourceのDeepな推薦モデル(MIT Licence)。

モデル自体はシンプルで、continuousなfeatureをMLPで線形変換、categoricalなfeatureはembeddingをlook upし、それぞれfeatureのrepresentationを獲得。
その上で、それらをFactorization Machines layer(second-order)にぶちこむ。すなわち、Feature間の2次の交互作用をembedding間のdot productで獲得し、これを1次項のrepresentationとconcatしMLPにぶちこむ。最後にシグモイド噛ませてCTRの予測値とする。

image

実装: https://github.com/facebookresearch/dlrm

Parallelism以後のセクションはあとで読む



#Article #RecommenderSystems #NeuralNetwork #Pocket #FactorizationMachines #CTRPrediction #IJCAI Issue Date: 2021-05-25 DeepFM: A Factorization-Machine based Neural Network for CTR Prediction, Guo+, IJCAI’17 Comment

Factorization Machinesと、Deep Neural Networkを、Wide&Deepしました、という論文。Wide=Factorization Machines, Deep=DNN。

高次のFeatureと低次のFeatureを扱っているだけでなく、FMによってフィールドごとのvector-wiseな交互作用、DNNではbit-wiseな交互作用を利用している。
割と色々なデータでうまくいきそうな手法に見える。

発展版としてxDeepFM xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems, Lian+, KDD‘18 がある。

Factorization Machines, Steffen Rendle, ICDM'10 にも書いたが、下記リンクに概要が記載されている。

DeepFMに関する動向: https://data.gunosy.io/entry/deep-factorization-machines-2018

実装: https://github.com/rixwew/pytorch-fm



#Article #RecommenderSystems #NeuralNetwork #Pocket #FactorizationMachines #CTRPrediction #SIGKDD Issue Date: 2021-05-25 xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems, Lian+, KDD‘18 Comment

DeepFM: A Factorization-Machine based Neural Network for CTR Prediction, Guo+, IJCAI’17 DeepFMの発展版

Factorization Machines, Steffen Rendle, ICDM'10 にも書いたが、下記リンクに概要が記載されている。

DeepFMに関する動向: https://data.gunosy.io/entry/deep-factorization-machines-2018



DeepFMの発展についても詳細に述べられていて、とても参考になる。



#Article #RecommenderSystems #Tutorial #ContrastiveLearning #Blog Issue Date: 2020-07-30 Collaborative Metric Learningまとめ, guglilac, 2020 Comment

userのembeddingに対し、このuserと共起した(購入やクリックされた)itemを近くに、共起していないitemを遠くに埋め込むような学習方法



#Article #RecommenderSystems #AdaptiveLearning Issue Date: 2018-12-22 Simulated Analysis of MAUT Collaborative Filtering for Learning Object Recommendation, Manouselis+, Social Information Retrieval for Technology-Enhanced Learning & Exchange, 2007 Comment

教員に対して教材を推薦しようという試み(学生ではないようだ)。
教員は、learning resourcesに対して、multi-criteriaなratingを付与することができ、それをCFで活用する(CELEBRATE web portalというヨーロッパのポータルを使用したらしい)。
CFはmemory-basedな手法を使用。target userがあるアイテムを、それぞれのattributeの観点からどのようにratingするかをattributeごとに別々に予測。各attributeのスコアを最終的に統合(元の論文ではただのスコアの足し合わせ)して、推薦スコアとする。

以下が調査された:
1. ユーザ間の距離の測り方(ユークリッド距離、cossim、ピアソンの相関係数)
2. neighborsの選び方(定義しておいた最大人数か、相関の重みで選ぶか)
3. neighborのratingをどのように組み合わせるか(平均、重み付き平均、mean formulaからのdeviation)

評価する際は、ratingのデータを training/test 80%/20%に分割。テストセットのアイテムに対して、ユーザがratingした情報をどれだけ正しく予測できるかで検証(511 evaluation in test, 2043 evaluations in training)。

ratingのMAE, coverage, アルゴリズムの実行時間で評価。

CorrerationWeightThresholdが各種アルゴリズムで安定した性能。Maximum Number Userはばらつきがでかい。いい感じの設定がみつかれば、Maximum Number Userの方がMAEの観点からは強い。
top-10のアイテムをselectするようにしたら、60%のcoverageになった。
(アルゴリズムの実行時間は、2000程度のevaluationデータに対して、2.5GHZ CPU, 256MEMで20秒とかかかってる。)

Learning Resource Exchangeの文脈で使われることを想定(このシステムではヨーロッパのK-12)。

教員による教材のmulti-criteriaのratingは5-scaleで行われた。
どういうcriteriaに対してratingされたかが書かれていない。



#Article #RecommenderSystems #MatrixFactorization #Selected Papers/Blogs Issue Date: 2018-01-11 Collaborative filtering for implicit feedback datasets, Hu+, International Conference on Data Mining, 2008 Comment

Implicit Feedbackなデータに特化したMatrix Factorization (MF)、Weighted Matrix Factorization (WMF)を提案。

ユーザのExplicitなFeedback(ratingやlike, dislikeなど)がなくても、MFが適用可能。



目的関数は下のようになっている。

通常のMFでは、ダイレクトにrating r_{ui}を予測したりするが、WMFでは r_{ui}をratingではなく、たとえばユーザuがアイテムiを消費した回数などに置き換え、binarizeした数値p_{ui}を目的関数に用いる。

このとき、itemを消費した回数が多いほど、そのユーザはそのitemを好んでいると仮定し、そのような事例については重みが高くなるようにc_{ui}を計算し、目的関数に導入している。



image

image

image

日本語での解説: https://cympfh.cc/paper/WRMF

Implicit Implicit でのAlternating Least Square (ALS)という手法が、この手法の実装に該当する。



#Article #RecommenderSystems #NeuralNetwork #MatrixFactorization #SIGKDD #Selected Papers/Blogs Issue Date: 2018-01-11 Collaborative Deep Learning for Recommender Systems Wang+, KDD’15 Comment

Rating Matrixからuserとitemのlatent vectorを学習する際に、Stacked Denoising Auto Encoder(SDAE)によるitemのembeddingを活用する話。

Collaborative FilteringとContents-based Filteringのハイブリッド手法。

Collaborative FilteringにおいてDeepなモデルを活用する初期の研究。



通常はuser vectorとitem vectorの内積の値が対応するratingを再現できるように目的関数が設計されるが、そこにitem vectorとSDAEによるitemのEmbeddingが近くなるような項(3項目)、SDAEのエラー(4項目)を追加する。



(3項目の意義について、解説ブログより)アイテム i に関する潜在表現 vi は学習データに登場するものについては推定できるけれど,未知のものについては推定できない.そこでSDAEの中間層の結果を「推定したvi」として「真の」 vi にできる限り近づける,というのがこの項の気持ち



cite-ulikeデータによる論文推薦、Netflixデータによる映画推薦で評価した結果、ベースライン(Collective Matrix Factorization Relational learning via collective matrix factorization, Singh+, KDD'08 , SVDFeature SVDFeature: a toolkit for feature-based collaborative filtering, Chen+, JMLR'12 , DeepMusic Deep content-based music recommendation, Oord+, NIPS'13 , Collaborative Topic Regresison Collaborative topic modeling for recommending scientific articles, Wang+, KDD'11 )をoutperform。


(下記は管理人が過去に作成した論文メモスライドのスクショ)

image



image



image



image



image

解説ブログ: http://d.hatena.ne.jp/repose/20150531/1433004688



#Article #RecommenderSystems #Library #FactorizationMachines Issue Date: 2018-01-01 fastFM Comment

実装されているアルゴリズム:Factorization Machines

実装:python

使用方法:pythonライブラリとして利用

※ Factorization Machinesに特化したpythonライブラリ

参考:

http://www.kamishima.net/archive/recsysdoc.pdf

https://takuti.me/note/recommender-libraries/



#Article #RecommenderSystems #Tools #Library #FactorizationMachines Issue Date: 2018-01-01 LibRec Comment

実装されているアルゴリズム:協調フィルタリング、Factorization Machines、

              Restricted Boltzman Machineなど、計70種類のアルゴリズムが実装

実装:Java

使用方法:コマンドライン、Javaライブラリとして利用

※ 実装されているアルゴリズムの豊富さが強み

※ 実装されているアルゴリズムのリスト( https://www.librec.net/dokuwiki/doku.php?id=AlgorithmList)

参考:

http://www.kamishima.net/archive/recsysdoc.pdf

https://takuti.me/note/recommender-libraries/



#Article #RecommenderSystems #Novelty #Selected Papers/Blogs Issue Date: 2017-12-28 Discovery-oriented Collaborative Filtering for Improving User Satisfaction, Hijikata+, IUI’09 Comment

・従来のCFはaccuracyをあげることを目的に研究されてきたが,ユーザがすでに知っているitemを推薦してしまう問題がある.おまけに(推薦リスト内のアイテムの観点からみた)diversityも低い.このような推薦はdiscoveryがなく,user satisfactionを損ねるので,ユーザがすでに何を知っているかの情報を使ってよりdiscoveryのある推薦をCFでやりましょうという話.

・特徴としてユーザのitemへのratingに加え,そのitemをユーザが知っていたかどうかexplicit feedbackしてもらう必要がある.

・手法は単純で,User-based,あるいはItem-based CFを用いてpreferenceとあるitemをユーザが知っていそうかどうかの確率を求め,それらを組み合わせる,あるいはrating-matrixにユーザがあるitemを知っていたか否かの数値を組み合わせて新たなmatrixを作り,そのmatrix上でCFするといったもの.

・offline評価の結果,通常のCF,topic diversification手法と比べてprecisionは低いものの,discovery ratioとprecision(novelty)は圧倒的に高い.

・ユーザがitemを知っていたかどうかというbinary ratingはユーザに負荷がかかるし,音楽推薦の場合previewがなければそもそも提供されていないからratingできないなど,必ずしも多く集められるデータではない.そこで,データセットのratingの情報を25%, 50%, 75%に削ってratingの数にbiasをかけた上で実験をしている.その結果,事前にratingをcombineし新たなmatrixを作る手法はratingが少ないとあまりうまくいかなかった.

・さらにonlineでuser satisfaction(3つの目的のもとsatisfactionをratingしてもらう 1. purchase 2. on-demand-listening 3. discovery)を評価した. 結果,purchaseとdiscoveryにおいては,ベースラインを上回った.ただし,これは推薦リスト中の満足したitemの数の問題で,推薦リスト全体がどうだった

 かと問われた場合は,ベースラインと同等程度だった.

重要論文



</div>