免费论文查重: 大雅 万方 维普 turnitin paperpass

对于图书馆服务质量评价中微博数据应用

最后更新时间:2024-01-25 作者:用户投稿原创标记本站原创 点赞:11537 浏览:46067
论文导读:心的优化策略,在每轮迭代中,一旦将某文本归入某个类中心所在的类,即根据该文本向量修改类中心,以使聚类结果的类内平均相似度尽量大。并以夹角余弦度量文本相似度作为分组依据:图书馆服务质量评价中微博数据的应用由专注毕业论文与职称论文的www.7ctime.com提供,转载请保留.图书馆服务质量评价中微博数据的应用由优秀论
摘 要 论文探讨利用R语言工具对图书馆新浪微博数据进行子主题聚类和挖掘,指出:在文本分词、构建词频——文档矩阵的基础上,使用Pamk算法和Kmeans算法进行微博聚类,获取图书馆服务质量评价与倡议信息,挖掘图书馆核心微博用户,便于图书馆利用微博数据评估服务效果,改善服务质量。
关键词 微博 图书馆服务质量评价 文本聚类 核心用户
分类号 G250.7
Research on the Application of the Microblog Data in the Library's Service Quality Evaluation
Wen Jiong
Abstract This paper investigates the sub topic mining and clustering of the library’s Sina microblog data by using R language tool. It points out that based on the text segmentation and term—document matrix, clustering library’s Sina microblog data by using Pamk algorithm and Kmeans algorithm to gain library’s service quality evaluations and advices and to unearth Sina microblog’s core?users of the library, can be easy for us to evaluate the library’s service effect and improve its service quality.
Keywords Microblog. Library’s service quality evaluation. Text clustering. Core users.
微博(Microblogging)是目前图书馆服务广为采用的SNS形式之一,集信息传播、获取、分享和互动为一体,用户可随时随地通过手机、即时通讯、Web等方式更新博文、组建个人社区,关注目标对象,获取外界信息[1]。用户越来越多地开始选择微博作为评价图书馆服务、提出服务意见的工具和平台。
以“微博”及“图书馆”为关键词,通过逻辑“与”运算符连接,在《中国期刊全文数据库》中进行统计发现,虽然目前国内图书馆学界对“微博”主题挖掘研究的文献不少,但多以图书馆服务质量评价中微博数据的应用相关范文由写论文的好帮手www.7ctime.com提供,转载请保留.语义分析,抽取的主题较为宽泛,而以特定主题为导向,进行“微博”主题下的子话题挖掘和聚类的研究甚少。本文将在上述研究的基础上,以“图书馆”为主题,探讨利用R语言工具对图书馆新浪微博数据进行子主题聚类和挖掘,获取图书馆服务质量评价与倡议信息,挖掘图书馆核心微博用户,便于图书馆利用微博数据评估服务效果,改善服务质量。
1 设计思路和方案
R是一种免费、开源的面向对象的可编程语言,通俗易懂,拓展性强,拥有大量强大的数据统计分析功能包和科学数据可视化工具。基于以上特点,本文拟用R工具进行图书馆微博数据的挖掘研究。
图书馆微博数据以文本方式呈现,是高度非结构化数据,在文本预处理基础上,利用Pamk和Kmeans多层算法相结合的方式对微博文本聚类,实现图书馆主题下的子主题划分,甄选图书馆服务质量评价方面的有用数据,并根据微博文本获取相应用户ID,挖掘图书馆微博的核心用户群体,这是本文研究的重点。

1.1 微博文本预处理

微博文本预处理是抽取代表文本特征的元数据并进行量化,以一定特征项加以表示,将基于自然语言的非结构化文本信息表示为数学矩阵形式,实现非结构化数据向结构化数据转变的过程。主要包括中文分词、词频统计、去停用词和文本向量化等操作。本文利用Ansj分词工具,对微博文本分词,并统计词频和分析微博内容[2]。在此基础上,构建语料库,清理微博文本,利用向量空间模型(V)进行文档建模,生成词频—文档矩阵,行对应关键词t,列对应文本向量d,将每个文档视为空间向量,向量值反映词t与文本d的关联度[3]。

1.2 微博文本聚类

文本聚类将相似度较大的文档聚为一类,并将相似度较小的文档加以区分,能将图书馆微博文本划分为各种子主题,有效挖掘图书馆服务质量评价方面的有用数据。图书馆微博文本集合庞大且内容多样,需划分的簇数目无法预知,本文利用Pamk算法结合Kmeans算法的多层次聚类策略来实现微博文本聚类。
(1)对微博文本多次抽样,调用Pamk算法寻找各样本k值,并根据optimum eragesilhouette width或Calinski-Harabasz index两大聚类验证指标验证对应k值的聚类效果,找到各样本最佳k值,得到整个数据集k值范围。Optimum erage silhouette width是选取最大的聚类轮廓值sk作为最佳聚类轮廓值,与之对应k值为最佳聚类数目且聚类结果为最佳聚类。sk定义为:sk=■■,该值越接近1表明聚类效果越好。Calinski-Harabasz index则结合簇内凝聚度和簇间分离度验证聚类效果优劣并判断最优簇个数。CH定义为:CH=■,该值越大表明聚类效果越好,其对应k值为最优簇个数[4]。
(2)将所有k值以参数形式回传给Kmeans算法进行迭代和重新定位,根据簇内平均值进行相似性计算,将微博文本划分为k个聚类。算法采用渐变中心的优化策略,在每轮迭代中,一旦将某文本归入某个类中心所在的类,即根据该文本向量修改类中心,以使聚类结果的类内平均相似度尽量大。并以夹角余弦度量文本相似度作为分组依据:图书馆服务质量评价中微博数据的应用由专注毕业论文与职称论文的www.7ctime.com提供,转载请保留.图书馆服务质量评价中微博数据的应用由优秀论文网站{#GetFullDomain}提供,助您写好论文. 全文地址:www.7ctime.com/wxlxlw/lw36781.html上一论文:试议新形势下传统图书的营销对策