VBPR 논문 제목은 VBPR: Visual Bayesian Personalized Ranking from Implicit Feedback다. (링크)
저자들은 Ruining He, Julian McAuley다.
Visual recommendation 방법으로, 이미지와 유저와 아이템의 상호관계를 모두 활용한 멀티모달 추천 시스템이다.
Abstract
최신 추천 시스템은 people and items를 모델링할 때 상품의 properties 속성과 사용자의 preference 선호도를 나타내는 근본적인 차원을 발견하거나 분석한다. 중요한 것은 이러한 차원들이 사용자 피드백, 특히 purchase histories 구매 내역, browsing logs 검색 기록 등의 implicit form 암묵적인 형태를 기반으로 발견된다. 또한, 일부 추천 시스템은 item attributes 제품 속성, temporal information 시간 정보, review text 리뷰 텍스트와 같은 side information 부가 정보를 활용한다. 그러나 기존의 개인 맞춤형 추천 및 ranking methods 순위 결정 방식에서 일반적으로 간과되는 중요한 특징 중 하나는 고려 대상 상품의 visual apprearance 시각적인 외관이다. 본 논문에서는 visual signals 시각적 신호를 사람들의 의견 예측 변수에 통합하는 확장 가능한 factorized 모델을 제안하며, 이를 다양한 실제 데이터 세트에 적용한다. (사전 훈련된) 딥 러닝 네트워크를 사용하여 제품 이미지에서 추출한 시각적 특징을 활용하고, 여기에 사람들의 피드백 변화를 가장 잘 설명하는 시각적 차원을 발견하는 추가 계층을 학습한다. 이를 통해 개인화된 순위 지정 방법이 훨씬 더 정확해질 뿐만 아니라 cold-start 콜드 스타트 문제를 완화하고 사람들의 의견에 영향을 미치는 시각적 차원을 질적으로 분석하는 데 도움을 준다.
VBPR: Visual Bayesian Personalized Ranking
VBPR의 전체적인 과정을 아래와 같다. AlexNet을 사용해서 visual features를 추출하고 이를 visual factors로 변환한다. 그 다음 기존의 item latent factors, user factors, biases와 함께 user-item relation 사용자-상품 선호를 예측한다.
아래 Figure 1에는 concat처럼 보이지만 concat을 하는건 아니다.
아래 Table 1에서는 수식을 전개하기 전에 여러가지를 먼저 정의한다.
$\alpha$는 global offset 혹은 global bias
$\beta_u, \beta_i$는 각각 user $u$'s bias, itme $i$'s bias
$\beta'$는 visual bias vector다.
$E$는 D x F 차원의 embedding matrix다.
$\gamma_u, \gamma_i$는 각각 latent factors of user $u$, itme $i$ 그리고 K x 1 차원이다.
$\theta_u, \theta_i$는 각각 visual factors of user $u$, itme $i$ 그리고 D x 1 차원이다.
$f_i$는 Deep CNN visual features of item $i$, 그리고 F x 1 차원이다.
기존의 bias를 포함한 matrix factorization에 기반한 선호도 예측 함수는 아래와 같다.
$\hat{x}_{u, i} = \alpha \beta_u, \beta_i + \gamma_u^\top \gamma_i$ ... (1)
여기에 시각적 내용을 추가하면 식 (1)을 다음의 (2)로 확장할 수 있다.
$\hat{x}_{u, i} = \alpha \beta_u, \beta_i + \gamma_u^\top \gamma_i + \theta_u^\top \theta_i$ ... (2)
이때, visual factor of item $i$는 CNN으로 부터 도출된 visual feature $f_i$와 이를 $D x 1$으로 projection할 embedding matrix $E$을 사용한다. 따라서, $\theta_i = E f_i$다.
그리고 given item $i$에 대한 사용자의 visual appearance에 대한 전반적인 선호도를 뜻하는 visual bias $\beta'$를 추가한다. $\beta^{' \top} f_i$가 추가 된다.
Visual factors에 대해서 다시 정리하면 (2)는 아래의 (3)처럼 표기가 가능하다.
$\hat{x}_{u, i} = \alpha \beta_u, \beta_i + \gamma_u^\top \gamma_i + \theta_u^\top (E f_i) + \beta^{' \top} f_i$ ... (2)
Loss function과 Model Learning을 BPR과 동일하다.
Experiments
Amazon의 Women's and Men's Clothing과 Cell Phones & Accessories, 그리고 Tradesy.com라는 중고 의류 거래 사이트의 데이터를 사용한다. Items를 5개 이하로 사용한 유저들은 필터링했다. 아이템의 수, 유저의 수, 피드백의 수는 아래 Table 2에 나와있다. 그리고 사전 학습된 CNN은 ILSVRC2010 ImageNet에 학습된 AlexNet을 사용한다.
Evaluation Methodology
AUC를 사용한다.
Cold Start는 5개 이하의 positive feedback을 가진 아이템을 모은 데이터를 의미한다.
VBPR이 상호작용에 대한 정보가 풍부한 아이템들 뿐만 아니라 Cold Start 아이템들에 대해서도 추천을 원활하게 함을 알 수 있다.
'Recommender Systems' 카테고리의 다른 글
Session-based & Sequential Recommender Systems (0) | 2025.06.20 |
---|---|
Socio Based Recommender Systems (0) | 2025.06.20 |
Graph Based Recommender Systems (0) | 2025.06.20 |
Matrix Factorization Based Recommender Systems (1) | 2025.06.20 |
추천 시스템 라이브러리와 데이터 리서치 (3) | 2025.06.19 |