您好、欢迎来到现金彩票网!
当前位置:PC蛋蛋 > 约束矩阵 >

【网安学术】基于聚类的非负矩阵分解推荐算法研究

发布时间:2019-06-10 13:17 来源:未知 编辑:admin

  随着电子商务的飞速发展,推荐算法成为推荐领域的研究热点之一,而冷启动问题与数据稀疏成为推荐算法面临的主要问题。有研究工作指出,利用矩阵分解来缓解评分数据的稀疏性,但仍存在数据量大且推荐精度不高的问题。因此,提出一种基于用户聚类的非负矩阵分解的推荐算法。在原有的非负矩阵分解模型上,它结合用户的评分数据,基于聚类思想对用户进行聚类,充分挖掘用户间的相关关系。所提算法在Movielens数据集上进行实验,结果表明,在数据稀疏的情况下,该算法在均方根误差(RMSE)评价指标上优于传统非负矩阵分解算法,且预测误差减少了4.5%,改善了推荐效果。

  随着互联网的爆发式发展,互联网给人们带来了海量信息,网络信息的获取变得非常便利。特别是近些年随着电子商务的蓬勃发展,个性化推荐技术越来越受到人们的关注,推荐系统变得不可或缺。因为他们为用户提供了个性化信息、产品或者服务,以缓解信息过载[1]的问题来满足他们的个性化需求。推荐系统作为一种重要的信息过滤工具,主要通过分析用户的各种历史行为(比如,用户的购买行为、收藏行为、关注行为或页面停留时间等其他类似行为),对用户的个人偏好进行个性化建模,并向其推荐所需要的产品或者服务。为了保持用户的忠诚度并促进销售收入,越来越多的应用网站配备了推荐系统[1]。比如,亚马逊和阿里巴巴的商品推荐,Last.fm的音乐推荐,Netflix的电影推荐,LinkedIn的朋友推荐[2]。协同过滤(CF)[3]是推荐系统中应用最广泛的技术之一,并在电子商务方面取得了巨大成功。尽管如此,协同过滤还是存在数据稀疏、冷启动以及可扩展性的问题[1]。近年来,矩阵分解技术[4]因其良好的可扩展性、出色的预测准确性和较好地解决了数据稀疏的问题而备受关注。实验结果表明,在个性化推荐中使用矩阵分解模型,要明显优于传统的基于邻域的协同推荐算法[5],如userCF、itemCF等。这使得矩阵分解成为目前个性化推荐研究领域的主流模型。

  针对评分数据的稀疏性问题,学者们从不同方向进行了研究。比如,Barotto等人提出的将用户-项目评分作为算法输入,利用聚类算法进行群组划分的组推荐算法[6],但算法准确度不高;Ma等人提出了基于社交网络的推荐算法RSTE[7]。RSTE模型在对目标用户进行评分预测时,不仅利用用户的偏好信息,还综合考虑了用户所信任好友的偏好,但是所需数据量太大,且未考虑用户间偏好信息的传播。Greiner等人提出了一个机遇贝叶斯信念网络的协同过滤算法,通过扩展逻辑斯蒂回归模型来优化贝叶斯网络[8]。本文从用户类别的角度构建用户偏好相似度,充分挖掘用户与用户的关联和用户对项目的兴趣,形成目标用户的项目子矩阵,再利用非负矩阵分解得到未评分项目的预测评分,最后综合所有的子矩阵得到整个未评分项目的预测评分,然后根据预测评分的排序得到最终的推荐结果。

  目前,推荐算法的研究有很多。推荐算法中,主要方向包括协同过滤推荐、基于内容的推荐[9]和基于社交网络信息的推荐[10]等。它们用到了聚类技术、矩阵分解、关联规则[11]以及深度学习技术[12]等。

  相关相似性(Correlation-based Similarity)又被称为pearson相似度[13],是一种比欧几里得距离更加复杂的可以判断人们兴趣相似度的一种方法。假设用户X 与用户Y 有共同的评分项目集合P ,则用户X 与用户Y 的相似度sim(X,Y) 为:

  在考虑相关相似性时,有一个前提是用户X 与用户Y 有公共的评分项目集合P 。也就是说,只考虑了两个项目的交集。这样会出现两个公共项目集合较少的情况下,它们算出的相似度却很高的情况。当,,时,上述符号集每一个包含2个值,,,,,。上述的集合中项目的名称,为各自项目的评分值。令,,两者的交集分别表示他们共同的评分项目;,,n与t分别为并集的项目数目,。

  计算中用户没有看过的电影评分取0,此时说明用户T 与用户L 是相似用户,但实际上i<j 时,用户M 与用户T 的交集更多,更为相似。这些情况下会产生极大的误差,所以应该先考虑的用户的可靠性,再考虑用户的相似性[14]。

  为此,在此引入一个权重系数,并通过这个推荐系数来衡量用户的可靠性。定义此系数如下:

  表示一个调节值。在实际运算中调节,可以直观看出权重的大小。式(3)中可以看出,用户T 与用户M 的交集评分项目越多,前面的权重系数就会越大。假设Ct 为50,Ct,m 为30,Ct,j 为2,取 为10,可以看出Nt,m 为6,Nt,j 为0.4。显然,用户M 比用户L 更为可靠,依靠权重可以大大减少计算量,且可以大大增加所需运算的矩阵的稠密程度,使得信息量愈发密集,最后得到的预测结果也更加准确。

  矩阵分解最早由2007年提出,并首先在2007年的Netflix大赛上取得应用,成绩斐然。矩阵分解的主要目的是把原来高维度的用户-项目特征矩阵分解成两个低秩矩阵的点乘积的形式,其主要是利用用户对项目的评分学习用户矩阵P 和项目矩阵Q :

  通过矩阵分解,一方面削减描述问题的矩阵的维数,另一方面可以对大量数据进行压缩与概况。非负矩阵分解[15]与传统矩阵分解有很大不同。它的主要优点是评分矩阵不会出现负数情况,且矩阵 中的元素有明确的物理意义。一般情况下,矩阵分解在对评分矩阵进行分解时,得到的矩阵会出现负值。虽然从数学角度上来看,分解结果中有负数存在是可能且正确的,但是负值元素在实际问题中往往没有意义,如在图像数据中不可能存在负数的像素点。NMF算法的核心思想可以表示为:

  矩阵A是评分矩阵,有n 个用户m 个项目,表示为“用户-项目”评分矩阵,每一行的数据表示每一个用户对不同项目的评分,例如“1~5”;Umxk 与Vkxn 是两个非负矩阵。本文中,非负矩阵Umxk 中的 个列向量表示空间的一组基,每个基向量表示一种用户兴趣组的评分模式;非负矩阵Vkxn 为权重矩阵,其列向量lj 中的k 个值表示用户在k 种用户组的权重。NMF算法提供了基于简单迭代的求解U 和V 的方法,求解方法具有收敛速度快、左右非负矩阵的存储空间小的特点,从而将高维的数据矩阵降维处理,主要适合处理大规模数据[16]。

  为了能够定量比较矩阵与矩阵的近似程度,有些学者提出了两种损失函数的定义方式——平方距离和KL散度,然后在约束条件下进行求解。传统采用梯度下降和加性迭代规则,但是现在大多数采用乘性迭代规则,它更符合非负数据的特点。非负矩阵分解实际上是一个NP问题,可以转化为优化问题的使用迭代方法的求解矩阵W 和H 。矩阵V=WxH 。这里定义优化问题的目标函数为Kullback-Leibler离散度[17],即:

  给定需要推荐的数据源,通过聚类的相似度计算和在相似度计算中加入权值计算,在一定程度上解决矩阵分解中的数据稀疏性问题,得到稠密的矩阵分解。最后,通过稠密矩阵的非负矩阵分解得到更加精确的推荐系数。

  (2)利用1.1节的用户偏好相似度和权重计算,得到用户之间的相似度关系;

  (4)根据聚类得到的稠密矩阵进行非负矩阵分解,得到目标用户的预测评分矩阵,然后根据预测评分按照从大到小的排序得到目标用户的推荐列表TOP-N。

  Movielens电影评分数据集是目前个性化推荐系统研究者最常用的数据集。该数据由Movielens站点提供,用户登录网址并且对看过的电影进行打分,评分由1~5表示喜爱程度的高低。本文选用数据集Movielens-100k数据集[18]。该数据集包括943个用户对共1 682部电影的100 000个评分,每个用户至少评分过20部电影,数据集的稀疏度达到了93.7%。

  当推荐结果出现实数值时,通常用于评估的指标有均方根误差(RMSE)、均方误差(MSE)和平均绝对值误差(MAE)。这3个指标都是计算真实值与预测值之间的误差。评价指标越小,代表预测的越准确。

  均方根误差先对用户实际评分和预测评分之间的差值进行平方,然后进行求和,因此即使评分的误差不大,但对RMSE的值影响大。所以,该标准对预测评分的准确性更加严格。本文实验使用均方根误差来作为实验的评价标准。

  本节设计了2组实验,分别用来测试推荐算法的性能。表1是在迭代次数为10时,2种算法的差异。从表1可以看出,在迭代次数为10、隐含特征因子数为10的条件下,改进后的NMF算法在原来的基础上,推荐性能提高了4.5%。此外,可以看出,随着隐含特征因子数的增加,2种推荐算法的RMSE都有不同程度的递减,意味着得到了更好的推荐性能。当隐含特征因子数到达100左右时,算法预测性能达到最佳。隐含特征因子数从10到100的过程中,RMSE的波动范围较大,因此NMF算法对隐含特征因子数相对敏感。

  本文提出了融合用户权值的相似度与非负矩阵分解的模型。该模型通过对原有评分矩阵的聚合,使原来稀疏度高的大矩阵转化为了稠密的子矩阵,并在聚合子矩阵的过程中提出了权重系数,减小了误差,优化了最后的推荐性能。改进后的NMF在RMSE值上减少了4.5%,进一步提高了推荐性能。

  本文主要是研究非负矩阵分解,利用了评分数据,但数据形式单一。往后的工作可以在矩阵分解中融入更多的额外信息,如考虑用户兴趣迁移、时间因素、用户的属性信息、社交关系等。改进后的NMF算法可以应用到需要处理大规模数据集的问题中。

  [13]李荣,李明齐,郭文强.基于改进相似度的协同过滤算法研究[J]计算机科学,2016(12):204-208.

  [16]刘华峰,景丽萍,于剑.融合社交信息的矩阵分解推荐方法研究综述[J].软件学报,2018(02):340-362.

  [17]王科俊,左春婷.非负矩阵分解特征提取技术的研究进展[J].计算机应用研究,2014(04):970-975.

  龙华,昆明理工大学 信息工程与自动化学院教授,博士,主要研究方向为无线通信;

  邵玉斌,昆明理工大学 信息工程与自动化学院副教授,硕士,主要研究方向为信息与通信工程;

  杜庆治,昆明理工大学 信息工程与自动化学院高级实验员,硕士,主要研究方向为信息与通信工程。

  本微信公众号刊载的原创文章,欢迎个人转发。未经授权,其他媒体、微信公众号和网站不得转载。

  ···························································返回搜狐,查看更多

http://beckymotew.com/yueshujuzhen/58.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有