您的当前位置:首页正文

基于用户兴趣度的协同过滤算法

来源:华佗健康网
ISSN 1009-3044 E—mail:eduf@CCCC.net.en http://www.dnzs.net.cn Tel:+86—551-5690963 5690964 Computer Knowledge and Technology电脑知识与技术 Vo1.8,No.19,July 2012. 基于用户兴趣度的协同过滤算法 汪伦 ,金朵 ,刘明月 (1.华中师范大学计算机科学系,湖北武汉430079;2.华中师范大学信息技术系,湖北武汉430079) 摘要:随着互联网信息的急剧膨胀,个性化推荐技术应运而生,其中基于协同过滤的推荐技术被广泛使用,但其未解决数据稀疏问 题,未提供准确的推荐服务。该文结合用户兴趣度思想,提出了基于用户兴趣度的协同过滤算法。通过实验分析,证明该算法能够 提供准确的推荐服务。 关键词:个性化推荐;协同过滤;用户兴趣度 中图分类号:TP301 文献标识码:A 文章编号:1009—3044(2012)19-4709-03 Collaborative Filtering Algorithm Based on User Interest WANG Lun ,JIN Duo ,LIU Ming—yue (1.Depa ̄ment of Computer Science,Huazhong Normal University,Wuhan 430079,China;2.Department of Information Technology, Huazhong Normal University,Wuhan 430079,China) Abstract:With the rapid expansion of information resources,personalized recommendation technology plays an irreplaceable role and col— laborative filtering technique is widely used.Collaborative filtering technology does not solve the sparse data,and it can not provide eficient fand accurate referral service.In this paper,combined with the idea of user interest,it proposes a collaborative filtering algorithm based on us- er interest.Through the analysis of experiment,it proves that the algorithm can provide a more accurate personalized recommendations. Key words:personalized recommendation;collaborative filtering;user interest 1概述 信息技术的井喷式发展使我国的历史学研究进入了信息化的轨道,历史资源数量巨大。以辛亥革命为例,辛亥革命是中国近 代史上具有划时代意义的大事件,并且关于辛亥革命的资料文献众多,研究者搜寻所需信息的成本越来越高。传统搜索引擎缓解 了信息检索的压力,但传统的搜索引擎将研究者视为一个群体,未考虑个性化差异,难以满足研究者的个性化需求。因此,需将个 性化推荐技术应用于历史领域中。个性化推荐技术根据已有的用户数据,对目标用户进行信息推荐,帮助用户快捷的检索到自己 所需要的信息。 2基于用户兴趣度的协同过滤算法 协同过滤技术是要确定目标用户的最近邻居,确定用户最近邻居是利用用户间的相似性,用户兴趣度是衡量用户相似性最重 要的指标。当确定了用户对某类资源的兴趣度时,可以将邻居用户中兴趣度高的资源进行聚类,从而进行资源推荐。 2.1用户兴趣度 根据用户对网页的浏览行为,可以判断用户对网页的兴趣度,故可利用用户浏览行为计算用户兴趣度 。在历史领域中,服务 器端所记录用户在网页上的行为包括以下几种: 11用户下载网页提供的资源。 2)用户长时间的浏览网页。 31用户频繁的访问网页。 基于以上情况本文提出一种基于访问次数、浏览时间以及下载情况的兴趣度归一算法。设用户浏览网页 的次数为Fre. quent( ),第k次浏览页面 的时间为Time( ,k),第j次浏览页面时下载网页中的内容Download( J),若页面提供资源下载,则 用户对网页 的兴趣度为Down_Interest( ),若页面不提供资源下载,则用户对页面 的兴趣度为Time—Interest( ),则在平衡提 供下载资源的页面与未提供下载资源的页面后,设用户对任意页面x的兴趣度Interest(X)。 假设在不考虑下载的情况下,用户从本次查询页面列表中共点击L个页面,构成本次用户点击页面集T,则T中所有页面的总浏 览时间可看成一个数列,计算此数列的平均值u和标准方差6,然后用高斯归一化公式处理 ,页面兴趣度计算如下: m ) Timelntere58 tOI/i)= _Time(W ̄, 一u+38 — 一 f1 收稿日期:2012-06—05 作者简介:汪伦(1990-),华中师范大学计算机学院2009级本科生;金朵(1992一),华中师范大学计算机学院2009 J ̄本科生。 本栏目责任编辑:唐一东 *人工簧能及识剐技术…4709 Compu ̄r Knowledge and Technology电脑知识与技术 第8卷第19期(2012年7月) 若考虑下载情况,用户从本次查询页面列表中共点击L个页面,在本次查询列表中共从N个页面中下载资源,构成本次用户下 载资源集M,则M中所有页面的下载情况可以构成一个数列,若在页面中下载资源,则页面的下载情况为1,否则为0,由此计算数列 的平均值m和标准方差n,然后用高斯归一化公式处理,页面兴趣度计算如下: ) Download(Wi 一t,+38 Do n_r’1 In s )= — 厂 (3) 故用户对任意页面x的综合兴趣度Interest(X)计算如下: /n把re f :一Time_Interest(x)+Download_Interest(x) Z 2.2相似度计算 向量空间中的相似性sim(D。,D:)用于度量两个文档D。,D 当文档被表示为文档空间的向量,就可以利用向量之间的距离公司来 表示文档之间的相似度。文档的分类过程可以转化为计算文档向量之间的距离。相似度大的文档,相对应的向量之间的距离近; 反之,相似度校的文档,相对应的向量之间的距离就远 。目前广泛采用的是三种计算相似性的方法:余弦相似性、Pearson相关相似 性和修正的余弦相似性 。 本文采用的相似性计算方法为余弦距离计算公式: (4) 其中w 代表词频向量。 本文结合余弦距离计算公式和用户兴趣度作为相似性度量方法,将用户代替文档的角色,资源代替词的角色,用户对资源的兴 趣度代替词频向量的角色,得出目标用户User和用户i的用户兴趣度的余弦相似性sim_Interest(User,User,)度量计算公式: lnterest(User,User )=— =k==l======—— ======== sim_韭 (Interest(Rk)x Interest(R )) (5) 』∑ 把rest(R ) ×』∑ 把res£ ) k=1 ^=1 其中Interest(R )代表目标用户对资源k的兴趣度,Interest(R ,k)代表用户i对资源k的兴趣度。 图1 4710 人工■麓及识剐技术 栏目责任编辑:唐一东 第8卷第19期(2012年7月) ComputerKnowledge and Technology电脑知识与技术 2.3基于用户兴趣度的协同过滤资源聚类算法 结合以上分析,本文给出基于用户兴趣度的协同过滤算法。 算法:基于用户兴趣度的协同过滤算法。 算法功能:确定推荐资源。 输入:用户行为集。 .O.O 0 O O O 输出:推荐资源集。 本算法复杂度为O(N*M),其中:N表示最近邻居用户,M表示分析得到的资源数。 3模拟实验的结果和评价 实验方法和评价标准: 记录用户对文献等资源的检索及下载情况,分类记录系统推荐资源数、用户检索资源数和用户接受推荐资源数。追踪用户15 天使用情况。 本文采用推荐准确率和推荐覆盖率来衡量推荐系统的性能。 推荐准确率如公式(6)所示: Precision=—visit JVum 100% re1、Ufn (6) 其中visitNum表示访问推荐资源数,reNum表示推荐资源总数。 推荐覆盖率如公式(7)所示: Coyer= 盟 100% (7) 其中allNum表示用户总访问资源个数,accNum表示采纳推荐资源的次数。 实验过程中,用户在第1—5天关注一个主题A,6-8天关注主题B,第9一l2天关注主题,13—15天关注主题B。实验结果如图2所 不。 100 8O 本文推荐算法与传统推荐算法推荐覆盖率比较 60 40 2O O l 2 3 4 5 6 7 8 9 10 1l l2 l3 l4 l5 l 2 3 4 5 6 7 8 9 10 1l l2 13 l4 l5 一基于用户兴趣度的协同过滤盗源聚类算法 一传统的协阿过滤算法 一基于用户兴趣度的协同过滤资源聚类算法 +传统的协同过滤算法 图2实验结果 比较推荐准率,在检索前期,采用本文算法的推荐准确率低于传统协同过滤算法。当搜索引擎获取一定量目标用户的信息之 后,采用本文算法的推荐准确率高于传统协同过滤算法。 比较推荐覆盖率,在检索初期,本文算法的推荐覆盖率相对于传统协同过滤算法较低。随着时间的推移,本文算法的推荐覆盖 率逐渐提高,最终高于传统协同过滤算法的推荐覆盖率。 整个实验过程中,整体上,用户在检索过程前期本文算法的总体性能较低,但随着对目标用户信息的逐步获取,本文提出的基 于用户兴趣度的协同过滤算法性能逐渐提高,并稳定在某一程度上。本算法所用的平均准确率高于于传统的协同过滤算法。 综上所述,在一个较长的时间范围内,本算法相对于传统的协同过滤算法拥有较高的推荐准确率。 4结束语 针对在历史资源网中基于协同过滤的个性化推荐技术中存在的不足,提出了基于用户兴趣度的协同过滤算法,结合用户兴趣 度,提供了较为准确的个性化推荐服务。在实际应用中,用户隐性兴趣类型可能较多,本文尚未全面考虑。尽管如此,通过实验分 析,该算法能够为用户提供较为准确的个性化推荐服务。 参考文献: [1]陈东林,聂规划.基于商品属性隐性评分的协同过滤算法研究[J].计算机应用,2006,26(4):966—968. 【2】袁薇艘索引擎系统中个性化机制的研究[J1.微电子学与计算机,2006,23(2):68—72. [3]于飞.基于搜索引擎的个性化推荐研究[D].哈尔滨:哈尔滨理工大学计算机科学与技术学院,201 1:13—16. 【4]余力,刘鲁.电子商务个性化推荐研究『J].计算机集成制造系统,2004,10(10):1306—1312. 本栏目责任编辑:唐一东 *人工■麓及识别技术…471 1 

因篇幅问题不能全部显示,请点此查看更多更全内容