免费论文查重: 大雅 万方 维普 turnitin paperpass

论热点话题基于用户角色定位微博热点话题检测办法

最后更新时间:2024-04-05 作者:用户投稿原创标记本站原创 点赞:5256 浏览:12144
论文导读:使漏检率和误检率分别平均降低12.09%和2.37%,有效地提高了话题检测的正确率,验证了该方法的可行性。关键词:微博;话题检测;用户角色;语义相似度;SinglePass聚类0引言微博是一种快速兴起的网络新媒体形式。在海量微博数据中,隐藏着大量热点话题。微博热点话题一般指突发性公共事件、具有新闻特点的信息发布、
摘要:
针对在海量微博数据中提取热点话题效率较低的问题,在对用户角色分类的基础上,提出了一种新的热点话题检测方法。首先,根据用户关注度进行用户角色定位,过滤掉部分用户的噪声数据;其次,采用结合语义相似度的TFIDF函数计算特征权重,降低语义表达形式带来的误差;然后,用改进的SinglePass聚类算法进行话题聚类,提取出微博话题;最后,根据微博转发数、评论数等对话题热度进行评估排序,从而发现热点话题。实验表明,所提出的方法使漏检率和误检率分别平均降低1

2.09%和37%,有效地提高了话题检测的正确率,验证了该方法的可行性。

关键词:
微博;话题检测;用户角色;语义相似度;SinglePass聚类
0引言
微博是一种快速兴起的网络新媒体形式。在海量微博数据中,隐藏着大量热点话题。微博热点话题一般指突发性公共事件、具有新闻特点的信息发布、引起公众共鸣或关于某些焦点的激烈讨论。微博热点话题快速检测,在网络舆情监控、重大事件监测预防方面具有重要的现实意义。
话题(Topic)是一个核心事件或活动以及与之直接相关的事件或活动。由于事件通常由某些原因引起,发生在特定时间、地点,涉及特定对象,并伴随某些必然结果,因此话题就是若干与某事件相关文本的集合。话题检测与跟踪(Topic Detection and Tracking,TDT)[3]的主要任务是将语言形式的数据流分割为不同的新闻报道,监控对新话题的报道,并将涉及某话题的报道组织起来呈现给用户。话题检测(Topic Detection,TD)是TDT的五项研究任务之一[4]。目前TD研究常用的技术有中心向量法[5-6]、K最邻近(KNearest Neighbor, KNN)节点算法[6]、Kmeans[7]、单遍聚类算法[5,8]等。文献[9]采用带时间窗的单遍聚类方法进行话题检测。文献[10-11]研究的核心算法是单遍聚类算法。文献[11]以基于中心向量的单遍检测算法为基础,采用凝聚法实现层次话题检测,并提出了基于时间分批处理的检测策略;文献[12]结合使用KNN和支持向量机(Support Vector Machine, SVM)分类算法进行了话题检测与话题跟踪的研究。
本文将话题检测技术应用于微博平台。在分析微博平台中用户角色的基础上,提出了一种基于用户角色定位的微博热点话题检测方法。首先对用户角色进行划分定位,对焦点用户进行重点关注;然后根据微博文本的特点,采用结合语义相似度的TFIDF(Term FrequencyInverse Document Frequency)频率函数计算权重;再用改进的SinglePass聚类算法进行话题聚类;最后通过对话题进行热度评估排序找出某一时间段内的微博热点话题。
1用户角色定位
微博话题是否热点,不仅与微博内容有关,也和其发布者和话题传播者有关。微博用户间的关系可表示为图1所示的有向图。由于每个微博用户都有一定数量的粉丝,这些关注者会依据自己的兴趣在一段时间内转发、评论或补充相关微博,从而扩大对同一事件的关注,使该事件成为热点话题。文献[13]的研究表明,微博平台上90%的微博来自于10%的核心用户。可见,用户的关注度在一定程度上决定了其微博或转发的微博成为热点话题的潜力。
本文根据对平台上所有用户关注度的统计得出平均关注因数Uerage,通过单个用户的Uvalue与Uerage的对比,将用户划分为以下四种角色:
1)焦点用户(Uhot)。关注因数远大于Uerage。多是公共机构、公众人物或关注度较高的普通用户,具有较多粉丝,是大部分热点话题的发布者。
2)活跃用户(Uactive)。关注因数略高于或等于Uerage。多是微博平台的资深用户,有较多粉丝,是少部分热点话题的发布者,对传播信息起到较大的作用。
3)一般用户(Unormal)。等于或略低于Uerage。这类用户有一定的粉丝数,其微博行为主要用于社交活动,参与评论或转发的热情较低。
4)休眠用户(Usleep)。用户关注度通常接近于0。主要是注册但并不经常使用的用户,粉丝数很少或接近0,偶尔登录但只浏览自己关注的信息,很少参与评论或转发。
针对上述角色定位规则,本文采用了用户角论文导读:
色划分算法UserRole,对微博信息进行粗度过滤。算法操作如下:
2基于用户角色定位的话题检测
话题检测包括信息采集、文本预处理、分词和词频统计、文本向量化和话题聚类等摘自:毕业论文题目www.7ctime.com
步骤,最后对检测到的话题进行话题热度评估排序。具体流程如图2所示。

2.1文本预处理

文本预处理的目标是过滤噪声数据,提取微博正文用户的属性信息(包括用户ID、发布时间、粉丝数等)。本文在预处理阶段运用了用户角色划分规则,对微博信息进行了粗度过滤。预处理过程分为以下3步:
1)提取微博标记正文及用户属性信息,过滤噪声数据。
2)采用UserRole算法计算用户关注度,进行用户角色划分,并过滤相关数据。本文以新浪微博平台为研究对象。针对新浪微博平台特征,制定了如下信息过滤规则:①忽略休眠用户的信息。休眠用户发布的有效信息很少,被传播的可能性趋于零,可能对话题聚类产生干扰。②忽略“#话题名#”形式的信息。该格式大多是微博平台上人为因素产生的相关话题,对词频统计会产生强烈影响。③忽略定向分组发布的信息。在新浪微博V5版本中提供了对指定分组定向发布的功能,这些定向发布的信息多为朋友圈中的谈话、私密话题等,而且定向微博只可评论、不能转发,对于潜在性突发新闻话题的发现贡献较小,可以忽略。
3)对预处理后的文本进行分词和去停用词。本文采用中国科学院开发的汉语词法分析系统(Institute of Computing Technology, Chinese Lexical Analysis System, ICTCLAS)分词工具。对大量文本在向量化时产生的高维稀疏矩阵,本文去除了对文本主题表达贡献较小的低效词,如“为了”、“这个”、“一些”、“然而”等,保留包含关键信息的名词、动词、形容词、副词作为特征项。对停用词的去除,通过设置停用词表来实现。

2.2文本向量化

向量空间模型(Vector Space Model, V)是最简便有效也是最常用的文本表示模型[14],其基本思想是把将文本看成一组特征项,即令Di=(ti1,ti2,…,tij),对每个特征项tij,根据其在文档中的重要程度计算权重wij。本文采用向量空间模型表示文本。由于经过滤低效词后所剩信息量只有原信息量的55%至80%[3],为保证后续计算的精度,本文把预处理后的所有词作为特征项,重复词项只计算一次。针对微博文本具有草根、随意的特性,一个语义可能有多种表达方式,本文参照文献[15]提出的结合语义相似度的归一化TFIDF函数,如式(3)。词语语义相似度的计算采用文献[16]中提出的方法,如式(4):
其中:wij为特征项权重;tij为第i个文本中第j个特征项; fij为tij在文本Di中出现的次数;lg(N/mij+0.01)为IDF逆词频,N为文本总数;mij为包含特征项tij的文本数和包含与特征项相似度大于ε(ε为预设值,通常取0.8~1)的文本数量的平均值的和;M为文本Di中的特征项总数;nij为包含特征项tij的文本数;c为与特征项tij语义相似的词语数量;pj为出现于其他文本中与tij语义相似特征项的文本数。

2.3话题聚类

在微博话题提取上,本文采用基于文本相似度对处理后的文本进行聚类的方法。通过聚类形成特征项凝聚度较高的话题类簇。常用文本聚类算法有Kmeans、模糊K均值和SinglePass等。SinglePass聚类算法是TDT评测中使用最多的算法[3],其计算简单,运算速度快。
本文采用了一种改进的SinglePass增量聚类算法[17]。在2.2节建立的V模型下,通过计算文本向量的相似度来实现增量动态聚类。算法流程如图3所示。该算法顺序地接收文本,依次将每个文本向量与已知所有话题进行相似度比较。如果相似度大于阈值δ(通常为0.6论文导读:ltilingualtopicdetectionandtracking:succesulresearchenabledbycorporaandevaluation.(20121018).http://.cn/soft/ACRD4CHS.EXE">PDF浏览器用户请先下载安装摘自:毕业论文翻译www.7ctime.com摘自
~0.9)[18],则将文本归入该话题,如果与所有已知话题相似度均小于阈值δ,则将文本列为一个新的话题种子,并创建新的话题。阈值设置不同,得到的话题粒度也不同。
经过预处理后的特征词数目较少,因此本文采用余弦法计算微博文本向量的相似度,如式(5)所示:
3话题热度评估
聚类后得到一组话题簇,但每个簇内话题数量仍然较多。为更准确地获取一定时间段内的热点话题,还需对检测结果进行话题热度评估和排序。由于每个话题都是从微博文本中提取的,所以文本的热度直接决定话题热度。而微博文本可能是用户发布或加上自己的评论后转发,因此用户的粉丝数、此条微博的转发数和评论数也是微博文本热度的影响因素。考虑以上因素对微博文本实际热度的贡献率,本文采用以下博文热度的计算公式[3]:
4实验结果及分析

4.1实验数据

本文通过新浪微博API爬取了2164个用户自2012年12月10日到12日共3天的所有微博数据及用户属性信息,选取长度为4字符以上的微博文本共22160条。采用哈尔滨工业大学信息检索研究中心发布的中文停用词表(包含1208个停用词)和中国科学院分词工具包ICTCLAS进行文本预处理。

4.2实验的评价指标

参照TDT会议对TDT话题检测任务的评测规范,本文的实验采用漏检率、错检率和误测开销值作为评价指标。
5结语
本文提出了一种根据用户关注度对用户角色进行划分、对焦点用户和活跃用户重点关注的方法,用于微博热点话题提取时对微博语料的噪声数据进行粗度过滤。同时,针对微博短文本信息的特性,采用结合语义相似度的权重计算方法提取文本特征。最后,在利用改进的SinglePass聚类算法得到话题检测结果的基础上,根据微博转发数和评论数等对微博话题的热度进行了评估和排序,从而实现了微博热点话题的提取。从实验结果看,本文的方法在漏检率、误检率以及误测开销值方面比BaseLine取得了更好的效果,说明了本文方法的有效性。
在下一步的工作中,将对话题检测技术中所涉及算法进行进一步研究,主要包括将SinglePass聚类算法与其他聚类算法相结合以使文本聚类更加快速有效。另外,如何更准确地对话题热度进行评估,也是未来研究的目标。
参考文献:
薛峰,周亚东,高峰,等.一种突发性热点话题在线发现与跟踪方法[J].西安交通大学学报,2011,45(12):64-69.
骆卫华,刘群,程学旗.话题检测与跟踪技术的发展与研究[C]// 语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集.北京:清华大学出版社,2003:560-566.
[3]
孙胜平.中文微博客热点话题检测与跟踪技术研究[D].北京:北京交通大学,2011.
[4]
WAYNE C. Multilingual topic detection and tracking: succesul research enabled by corpora and evaluation [EB/OL]. (20121018)[20130425]. http://.cn/soft/ACRD4CHS.EXE">PDF浏览器用户请先下载安装摘自:毕业论文翻译www.7ctime.com
摘自:毕业论文任务书www.7ctime.com