商品推荐:协同过滤

过去很长时间以及现今,电商都在蓬勃发展,支持电商越做越大的一个很重要的因素就是“商品推荐”。当我们打开天猫,我们发现不同的用户,一般而言,首页是不一样的,原因就是,它为不同的用户推荐了不同的商品。我们为什么要用某一个购物网站或者APP,我觉得很大程度上取决于其推荐的准确与否。本篇博客我将向大家介绍协同过滤在商品推荐上的应用。

关于推荐系统

根据推荐引擎的数据源不同,一般而言,推荐系统可以分为如下三类:

  • 基于人口统计学的推荐机制(Demographic-based Recommendation):根据系统用户的基本信息发现用户的相关程度。

  • 基于内容的推荐机制(Content-based Recommendation):根据推荐物品或内容的元数据,发现物品或者内容的相关性。

  • 协同过滤的推荐机制(Collaborative Filtering-based Recommendation):根据用户对物品或者信息的偏好,发现物品或者内容本身的相关性,或者是发现用户的相关性。

根据推荐模型的建立方式不同,推荐系统可以分为这样三类:

  • 基于物品和用户本身。这种推荐引擎将每个用户和每个物品都当作独立的实体,预测每个用户对于每个物品的喜好程度,这些信息往往是用一个二维矩阵描述的。由于用户感兴趣的物品远远小于总物品的数目,这样的模型导致大量的数据空置,即我们得到的二维矩阵往往是一个很大的稀疏矩阵。同时为了减小计算量,我们可以对物品和用户进行聚类, 然后记录和计算一类用户对一类物品的喜好程度,但这样的模型又会在推荐的准确性上有损失。
  • 基于关联规则的推荐(Rule-based Recommendation)。关联规则的挖掘已经是数据挖掘中的一个经典的问题,主要是挖掘一些数据的依赖关系,典型的场景就是“购物篮问题”,通过关联规则的挖掘,我们可以找到哪些物品经常被同时购买,或者用户购买了一些物品后通常会购买哪些其他的物品,当我们挖掘出这些关联规则之后,我们可以基于这些规则给用户进行推荐。
  • 基于模型的推荐(Model-based Recommendation)。这是一个典型的机器学习的问题,可以将已有的用户喜好信息作为训练样本,训练出一个预测用户喜好的模型,这样以后用户在进入系统,可以基于此模型计算推荐。这种方法的问题在于如何将用户实时或者近期的喜好信息反馈给训练好的模型,从而提高推荐的准确度。

协同过滤

关于协同过滤的一个最经典的例子就是看电影,有时候不知道哪一部电影是我们喜欢的或者评分比较高的,那么通常的做法就是问问周围的朋友,看看最近有什么好的电影推荐。在问的时候,都习惯于问跟自己口味差不多的朋友,这就是协同过滤的核心思想。

步骤

要实现协同过滤,一般需要这样三步:

  • 收集用户偏好
  • 找到相似物或人
  • 计算并推荐

收集用户偏好

从用户的行为和偏好中发现规律,并基于此进行推荐,所以如何收集用户的偏好信息成为系统推荐效果最基础的决定因素。用户有很多种方式向系统提供自己的偏好信息,比如:评分,投票,转发,保存书签,购买,点击流,页面停留时间等等。

当然,得到原始数据之后,我们总是需要进行降噪、归一化等,在此不再赘述。

找到相似物或人

既然是找相似,我们就需要设定一个计算相似度的指标,一般而言,余弦相似度与皮尔逊相关系数是很好的选择。

余弦相似度

皮尔逊相关系数

皮尔逊相关也称为积差相关(或积矩相关)是英国统计学家皮尔逊于20世纪提出的一种计算直线相关的方法。

假设有两个变量X、Y,那么两变量间的皮尔逊相关系数可通过以下公式计算:

计算并推荐

  • 基于用户的协同过滤推荐

基于用户的协同过滤推荐的基本原理是,根据所有用户对物品或者信息的偏好,发现与当前用户口味和偏好相似的“邻居”用户群,在一般的应用中是采用计算“K- 邻居”的算法;然后,基于这 K 个邻居的历史偏好信息,为当前用户进行推荐。

上图示意出基于用户的协同过滤推荐机制的基本原理,假设用户 A 喜欢物品 A,物品 C,用户 B 喜欢物品 B,用户 C 喜欢物品 A ,物品 C 和物品 D;从这些用户的历史喜好信息中,我们可以发现用户 A 和用户 C 的口味和偏好是比较类似的,同时用户 C 还喜欢物品 D,那么我们可以推断用户 A 可能也喜欢物品 D,因此可以将物品 D 推荐给用户 A。

基于用户的协同过滤推荐机制和基于人口统计学的推荐机制都是计算用户的相似度,并基于“邻居”用户群计算推荐,但它们所不同的是如何计算用户的相似度,基于人口统计学的机制只考虑用户本身的特征,而基于用户的协同过滤机制可是在用户的历史偏好的数据上计算用户的相似度,它的基本假设是,喜欢类似物品的用户可能有相同或者相似的口味和偏好。

  • 基于项目的协同过滤推荐

基于项目的协同过滤推荐的基本原理也是类似的,只是说它使用所有用户对物品或者信息的偏好,发现物品和物品之间的相似度,然后根据用户的历史偏好信息,将类似的物品推荐给用户。

假设用户 A 喜欢物品 A 和物品 C,用户 B 喜欢物品 A,物品 B 和物品 C,用户 C 喜欢物品 A,从这些用户的历史喜好可以分析出物品 A 和物品 C 时比较类似的,喜欢物品 A 的人都喜欢物品 C,基于这个数据可以推断用户 C 很有可能也喜欢物品 C,所以系统会将物品 C 推荐给用户 C。

与上面讲的类似,基于项目的协同过滤推荐和基于内容的推荐其实都是基于物品相似度预测推荐,只是相似度计算的方法不一样,前者是从用户历史的偏好推断,而后者是基于物品本身的属性特征信息。

  • 基于模型的协同过滤推荐

基于模型的协同过滤推荐就是基于样本的用户喜好信息,训练一个推荐模型,然后根据实时的用户喜好的信息进行预测,计算推荐。

基于协同过滤的推荐机制是现今应用最为广泛的推荐机制,它有以下几个显著的优点:

它不需要对物品或者用户进行严格的建模,而且不要求物品的描述是机器可理解的,所以这种方法也是领域无关的。 这种方法计算出来的推荐是开放的,可以共用他人的经验,很好的支持用户发现潜在的兴趣偏好 而它也存在以下几个问题:

方法的核心是基于历史数据,所以对新物品和新用户都有“冷启动”的问题。 推荐的效果依赖于用户历史偏好数据的多少和准确性。 在大部分的实现中,用户历史偏好是用稀疏矩阵进行存储的,而稀疏矩阵上的计算有些明显的问题,包括可能少部分人的错误偏好会对推荐的准确度有很大的影响等等。 对于一些特殊品味的用户不能给予很好的推荐。 由于以历史数据为基础,抓取和建模用户的偏好后,很难修改或者根据用户的使用演变,从而导致这个方法不够灵活。

代码实现

基于用户的CF:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
import java.util.HashMap;
import java.util.HashSet;
import java.util.Iterator;
import java.util.Map;
import java.util.Map.Entry;
import java.util.Scanner;
import java.util.Set;
/**
* 基于用户的协同过滤推荐算法实现
A a b d
B a c
C b e
D c d e
* @author Administrator
*
*/
public class UserCF {
public static void main(String[] args) {
/**
* 输入用户-->物品条目 一个用户对应多个物品
* 用户ID 物品ID集合
* A a b d
* B a c
* C b e
* D c d e
*/
Scanner scanner = new Scanner(System.in);
System.out.println("Input the total users number:");
//输入用户总量
int N = scanner.nextint();
int[][] sparseMatrix = new int[N][N];
//建立用户稀疏矩阵,用于用户相似度计算【相似度矩阵】
Map<String, Integer> userItemLength = new HashMap<>();
//存储每一个用户对应的不同物品总数 eg: A 3
Map<String, Set<String>> itemUserCollection = new HashMap<>();
//建立物品到用户的倒排表 eg: a A B
Set<String> items = new HashSet<>();
//辅助存储物品集合
Map<String, Integer> userID = new HashMap<>();
//辅助存储每一个用户的用户ID映射
Map<Integer, String> idUser = new HashMap<>();
//辅助存储每一个ID对应的用户映射
System.out.println("Input user--items maping infermation:<eg:A a b d>");
scanner.nextLine();
for (int i = 0; i < N ; i++){
//依次处理N个用户 输入数据 以空格间隔
String[] user_item = scanner.nextLine().split(" ");
int length = user_item.length;
userItemLength.put(user_item[0], length-1);
//eg: A 3
userID.put(user_item[0], i);
//用户ID与稀疏矩阵建立对应关系
idUser.put(i, user_item[0]);
//建立物品--用户倒排表
for (int j = 1; j < length; j ++){
if(items.contains(user_item[j])){
//如果已经包含对应的物品--用户映射,直接添加对应的用户
itemUserCollection.get(user_item[j]).add(user_item[0]);
} else{
//否则创建对应物品--用户集合映射
items.add(user_item[j]);
itemUserCollection.put(user_item[j], new HashSet<String>());
//创建物品--用户倒排关系
itemUserCollection.get(user_item[j]).add(user_item[0]);
}
}
}
System.out.println(itemUserCollection.toString());
//计算相似度矩阵【稀疏】
Set<Entry<String, Set<String>>> entrySet = itemUserCollection.entrySet();
Iterator<Entry<String, Set<String>>> iterator = entrySet.iterator();
while(iterator.hasNext()){
Set<String> commonUsers = iterator.next().getValue();
for (String user_u : commonUsers) {
for (String user_v : commonUsers) {
if(user_u.equals(user_v)){
continue;
}
sparseMatrix[userID.get(user_u)][userID.get(user_v)] += 1;
//计算用户u与用户v都有正反馈的物品总数
}
}
}
System.out.println(userItemLength.toString());
System.out.println("Input the user for recommendation:<eg:A>");
String recommendUser = scanner.nextLine();
System.out.println(userID.get(recommendUser));
//计算用户之间的相似度【余弦相似性】
int recommendUserId = userID.get(recommendUser);
for (int j = 0;j < sparseMatrix.length; j++) {
if(j != recommendUserId){
System.out.println(idUser.get(recommendUserId)+"--"+idUser.get(j)+"相似度:"+sparseMatrix[recommendUserId][j]/Math.sqrt(userItemLength.get(idUser.get(recommendUserId))*userItemLength.get(idUser.get(j))));
}
}
//计算指定用户recommendUser的物品推荐度
for (String item: items){
//遍历每一件物品
Set<String> users = itemUserCollection.get(item);
//得到购买当前物品的所有用户集合
if(!users.contains(recommendUser)){
//如果被推荐用户没有购买当前物品,则进行推荐度计算
double itemRecommendDegree = 0.0;
for (String user: users){
itemRecommendDegree += sparseMatrix[userID.get(recommendUser)][userID.get(user)]/Math.sqrt(userItemLength.get(recommendUser)*userItemLength.get(user));
//推荐度计算
}
System.out.println("The item "+item+" for "+recommendUser +"'s recommended degree:"+itemRecommendDegree);
}
}
scanner.close();
}
}

基于项目的CF:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
import random
import sys
import math
import os
from operator import itemgetter
random.seed(0)

class ItemBasedCF(object):
def __init__(self):
self.trainset = {}
self.testset = {}

self.n_sim_movie = 20
self.n_rec_movie = 10

self.movie_sim_mat = {}
self.movie_popular = {}
self.movie_count = 0

print('Similar movie number = %d' % self.n_sim_movie, file = sys.stderr)
print('Recommendend movie number = %d' % self.n_rec_movie,file = sys.stderr)

@staticmethod
def loadfile(filename):
fp = open(filename, 'r')
for i, line in enumerate(fp):
yield line.strip('\r\n')
if i % 100000 == 0:
print ('load %s(%s)' %(filename,i), file = sys.stderr)
fp.close()
print('load %s succ' %filename, file = sys.stderr)

def generate_dataset(self, filename, pivot = 0.7):
trainset_len = 0
testset_len = 0
for line in self.loadfile(filename):
user, movie, rating , _= line.split('::')
if random.random() < pivot:
self.trainset.setdefault(user,{})
self.trainset[user][movie] = int(rating)
trainset_len += 1
else:
self.testset.setdefault(user,{})
self.testset[user][movie] = int(rating)
testset_len += 1

print('split succ , trainset is %d , testset is %d' %(trainset_len,testset_len) , file = sys.stderr)

def calc_movie_sim(self):
for user, movies in self.trainset.items():
for movie in movies:
if movie not in self.movie_popular:
self.movie_popular[movie] = 0
self.movie_popular[movie] += 1
print('count movies number and pipularity succ',file = sys.stderr)

self.movie_count = len(self.movie_popular)
print('total movie number = %d' %self.movie_count, file = sys.stderr)

itemsim_mat = self.movie_sim_mat
print('building co-rated users matrix', file = sys.stderr)
for user, movies in self.trainset.items():
for m1 in movies:
for m2 in movies:
if m1 == m2:
continue
itemsim_mat.setdefault(m1,{})
itemsim_mat[m1].setdefault(m2,0)
itemsim_mat[m1][m2] += 1

print('build co-rated users matrix succ', file = sys.stderr)
print('calculating movie similarity matrix', file = sys.stderr)

simfactor_count = 0
PRINT_STEP = 2000000

for m1, related_movies in itemsim_mat.items():
for m2, count in related_movies.items():
itemsim_mat[m1][m2] = count / math.sqrt(self.movie_popular[m1] * self.movie_popular[m2])
simfactor_count += 1
if simfactor_count % PRINT_STEP == 0:
print('calcu movie similarity factor(%d)' %simfactor_count, file = sys.stderr)
print('calcu similiarity succ', file = sys.stderr)

def recommend(self,user):
K = self.n_sim_movie
N = self.n_rec_movie
rank = {}
watched_movies = self.trainset[user]

for movie, rating in watched_movies.items():
for related_movie, similarity_factor in sorted(self.movie_sim_mat[movie].items(), key=itemgetter(1),
reverse=True)[0:K]:
if related_movie in watched_movies:
continue
rank.setdefault(related_movie, 0)
rank[related_movie] += similarity_factor * rating
return sorted(rank.items(), key=itemgetter(1), reverse=True)[0:N]


def evaluate(self):
print('evaluation start', file = sys.stderr)

N = self.n_rec_movie

hit = 0
rec_count = 0
test_count = 0
all_rec_movies = set()
popular_sum = 0

for i, user in enumerate(self.trainset):
if i % 500 == 0:
print('recommend for %d users ' %i , file = sys.stderr)
test_movies = self.testset.get(user,{})
rec_movies = self.recommend(user)

for movie, _ in rec_movies:
if movie in test_movies:
hit += 1
all_rec_movies.add(movie)
popular_sum += math.log(1 + self.movie_popular[movie])

rec_count += N
test_count += len(test_movies)

precision = hit / (1.0 * rec_count)
recall = hit / (1.0 * test_count)
coverage = len(all_rec_movies) / (1.0 * self.movie_count)
popularity = popular_sum / (1.0 * rec_count)

print('precision is %.4f\t recall is %.4f \t coverage is %.4f \t popularity is %.4f'
%(precision,recall,coverage,popularity), file = sys.stderr)

if __name__ == '__main__':
ratingfile = os.path.join('ml-1m', 'ratings.dat')
itemcf = ItemBasedCF()
itemcf.generate_dataset(ratingfile)
itemcf.calc_movie_sim()
itemcf.evaluate()



本文链接: http://home.meng.uno/articles/6f93935a/ 欢迎转载!

© 2018.02.08 - 2020.10.14 Mengmeng Kuang  保留所有权利!

UV : | PV :

:D 获取中...

Creative Commons License