免费论文查重: 大雅 万方 维普 turnitin paperpass

论用户基于微博用户评和用户转发数据挖掘站

最后更新时间:2024-04-05 作者:用户投稿原创标记本站原创 点赞:5758 浏览:16283
论文导读:统计,将其转换成向量v(wm)=v(c(wm,wn1),c(wm,wn2)??)其中c(wn,wm1)表示所有包含wm的f中wn1出现的次数。记c(f)为包含wn的词组f的个数。第8卷第27期(2012年9月)B)根据v(wm)将wm聚类成k个层面。由于每个用户的评论wm有很多,许多wm都是指的同一个层面。如对刘翔,林丹等指的都是同一个层面。为了避免过多的相似的
摘要:随着微博的日趋流行,微博网站已成为海量信息的发布体,对微博的研究也需要从单一的用户关系分析向微博用户及其转发内容的挖掘进行转变,该文提出了一种新的方法挖掘微博用户评论和所转发微博的文字信息,将被用户关注的层面发掘出来,从而并产生推荐。
关键字:用户评论;用户转发;微博;用户推荐
1009-3044(2012)27-6455-02
Mining Based on the Users’s Content and Microblogging Forwarded
ZHANG Guo-an1, ZHONG Shao-hui2
(1.Sinopec Jianghan Oilfield Information Center, Qianjian 433134, China; 2.Jiangxi Polytechnic College, Pingxiang 33700, Chi? na)
Abstract: With the growing popularity of microblogging, microblogging site has become a massive body of the release of infor? mation, thes study in inmicroblogging need tranorm from analysising a single customer relationship to mining microblogging users’s contentthis paper presents a new methods of mining microblogging users comments and microblogging forwarded text messages,through minging the level of concern of the user the microblog can recommended valuable information for user.
Key words: users’s content; microblogging forwarded ; microblogging; recommended for user
微博是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过网页,WAP以及各种客户端组件登录到个人社区,以140字左右的文字更新信息,并实现即时分享。目前国内外外对微客的研究体现出了多样性。Nadri等探讨了博客用户的使用动机,认为博客是人们分享经验、观点和评价的工具,何黎通过对微博用户的信息和关系数据进行决策树分析、相关性分析和关联规则来挖掘用户特征,并对微博网络进行核心用户发掘。
随着互联网的发展和微博用户数据的急剧增长如何在海量数据中挖掘表征用户兴趣度的特征,向用户进行更有针对性的个性化推荐,对于提升用户体验至关重要。目前一般的关注推荐算法主要有基于项目的推荐和基于内容的推荐两种[3]。目前各大微博运营商主要是采用“热点人物”和好友的“间接关注”的推荐模式,这种方式收到了很好的效果,但是忽略了用户本身的行为和关注的兴趣。作者通过对用户本身的行为(微博的转发和微博的评论)的分析,将被用户关注的层面发掘出来并评分,根据这些层面的分数以及用户过往的评论学习出用户的偏好,根据用户的偏好,最后根据用户的偏好预测其他待评分对象的分数并产生推荐。
在微博中,用户可以对某条微博发表评论,也可以转发某条微博。用户的评论和用户转发的微博得数据包含了很多有价值的信息。比如用户关注的层面,用户的兴趣和爱好等,通过对这些评论数据和转发微博数据的处理可以挖掘并推测出各个关注层面的分数的方法。本文通过对用户评论和用户转发微处理,利用聚类方法找到用户的关注的层面,为用户的推荐做准备。
用户的评论通常都比较简短,只有一两句话,可以对其进行分词和词性标注,并将其中的名词以及与该名词对应形容词提取出来并构成一个词组。
定义词组:一个词组f??=(wm?,?wn)是由名词wm和修饰它的形容词wn共同组成。一般而言,名词代表用户的关注的一个层面和对象的一个特征,如比赛,奥运,照片等。这样我们可以将一条评论看成是词组的集合。对一条评论或一条转发微博的处理如下:
A)对评源于:毕业论文致谢www.7ctime.com
论和转发的微博进行处理,提取出其中的词组f,对每个词组中wn∈f,wm∈f进行统计,将其转换成向量
v(wm)=v(c(wm,wn1),c(wm,wn2)??)
其中c(wn,wm1)表示所有包含wm的f中wn1出现的次数。记c(f)为包含wn的词组f的个数。
第8卷第27期(2012年9月)
B)根据v(wm)将wm聚类成k个层面。由于每个用户的评论wm有很多,许多wm都是指的同一个层面。如对刘翔,林丹等指的都是同一个层面。为了避免过多的相似的层面,因此可以采用相似度分析来合并相似的层面,最后通过采用K-means聚类分析,将其聚类成K个层面{ }
本文的研究目的在与通过分析用户的评论数据和微博的转发数据来分析出用户的兴趣和爱好,为微博得关注推荐提供出更加精准的方法。通过抽样获取微博关注的样本数据的基础上,通过聚类分析挖掘出用的兴趣和爱好。,最后在事实发现的基础上对微博平台的用户关注推荐提出相关建议。
1)数据的获取
国内多数具有影响力的门户网站都开始提供微博服务,如新浪、腾讯、网易、和讯等。其中,新浪微博更加提供了微博应用平台的API。本文采用文献[4]的数据获取方案,通过数据的清洗,分词等步骤最终获得用户的数据。本文随机抽取50个用户的所有评论和转发数据。
2)用户关注层面的发现及聚类分析
本文对数据集中的所有评论进行分词及词性标注,并将其中的所有形容词、名词词组找出来进行统计,然后使用K--means进行聚类( k = 10),各个词组之间的距离使用相关相似性( correlation)进行计算。下面是通过该算法后,对其中某个用户数据分析后获得的层面及其聚类的结果。