免费论文查重: 大雅 万方 维普 turnitin paperpass

浅析高校图书馆流通数据挖掘新思路

最后更新时间:2024-02-07 作者:用户投稿原创标记本站原创 点赞:11315 浏览:46027
论文导读:
〔摘要〕图书馆流通数据是图书馆业务流程优化的重要依据之一,对其分析策略层出不穷,但用于指导图书馆实践活动的甚少。本文通过参考与借鉴情报学基本定律与分析策略,重新定义并建立基于图书借阅频次的评价指标,即图书半衰期、图书集合普赖斯指数、图书滞架指数、图书h指数,以及基于读者借阅次数与行为的分析策略,即读者h指数等指标和图书耦合/共现网络模型,从而提高对高校图书馆流通数据的分析能力和组织能力,希冀为优化采购和布局配置,向读者提供积极、主动、个性化信息服务提供新的思路。
〔关键词〕OPAC数据;流通数据;高校图书馆;评价指标
DOI:10.3969/j.issn.1008-082

1.2013.10.033

〔〕A〔文章编号〕1008-0821(2013)10-0143-06
图书馆借阅信息是伴随着图书馆门户公开化而诞生的副产品,但其在馆藏采购、馆藏管理、读者需求分析等方面具有不可忽视的作用。随着图书馆资源和管理数字化进程加快,每日都会从图书馆管理系统中产生庞杂的表单信息,如何让信息从无序到有序,便于从中了解读者借阅兴趣与倾向、馆藏图书的利用率,有必要对流通数据进行深度剖析。但是对于借阅数据的深度挖掘停留在研究层面的较多,付诸指导图书馆实践的较少,为了避开陷入数据丰富但信息贫乏的尴尬局面,图书馆有必要增强对流通数据的分析能力和组织能力,并以此为客观依据,向读者提供积极、主动、个性化信息服务,这也与泛在图书馆所要求打破被动服务壁垒,提高以读者驱动为导向的主动服务意识的宗旨相一致[1-2]。
1图书馆借阅数据利用目前状况
目前国内外学者对于图书馆流通数据的分析主要从以下4个方面开展:

1.1利用统计学概念分析借阅数据

制定若干统计指标对图书馆流通数据进行频次分析是最常见也是最简便的策略,且统计结果具有一定参考价值。如对图书馆流通数据中的宏观人次、书次指标进行统计,可以了解馆藏利用和读者用书的总体状况;对个人借书、单本图书借阅指标进行统计,能够揭示不同读者借阅特点和各类图书的利用率;对高校范围内(非)出版物的引文进行统计,可以直观得出本馆馆藏对校内读者的满足率[3-5]。

1.2采用数据挖掘技术进行读者需求分析

大多数图书馆管理系统都是事务处理型[6],主要应用于日常业务操作,而数据仓库是分析处理型,能够从无序数据流中挖掘出读者和图书馆员感兴趣的信息:如建立一种基于模式识别中Mercer核聚类算法的自动分类和统计分析法,按照中图法22个大类对馆藏图书类型和借阅记录进行量化编码,实现读者群分类以及对读者借阅文献类型、流量进行实时监测和统计[7];或建立事务数据库,基于Apriori算法[8-9]、改善算法FP-Growth[10]、邻接矩阵[11]等挖掘图书借阅数据的关联规则,进而构建各学科书籍之间的关联度以及读者对图书信息资源的借阅模式[12-14]。

1.3利用聚类法对读者和图书进行细分

有学者利用Clementine两步聚类模型对高校读者进行聚类分析,将其分为积极型、一般型和消极型3类[15],或利用系统聚类算法建立图书馆读者细分模型[16-17],并针对不同类型的读者开展个性化服务,如制定不同借阅规则、赋予不同借阅权限;或利用K-means算法分别对图书和读者进行了聚类,从中分析图书的借阅规律、读者借阅图书的某种倾高校图书馆流通数据挖掘的新思路由优秀论文网站www.7ctime.com提供,助您写好论文.向及读者是否活跃,从而制定出相应的决策,以便有针对性地丰富馆藏资源和优化馆藏布局,并为图书馆开展个性化服务提供参考[18-19]。

1.4借鉴情报学评价指标分析流通数据

由美国学者Hirsh J提出的h指数最初用于评价科学家个人的学术成就[20],随后经过多位学者在实证研究和理论分析基础上进行扩展和延伸,h指数被成功应用到学术期刊评价、学术机构评价和专利质量评估等方面[21-22],而h指数的思想与策略在图书管理中也值得借鉴。国内有学者利用评价指标h指数分析图书借阅数据,统计分析读者群h指数与图书集合h指数,揭示不同读者群的借阅活跃度、不同图书集合的核心读者以及不同读者群的核心图书,客观反应图书利用状况和读者借阅情况,体现图书集合和读者群的个性化特点[23];由于h指数具有测算时间区域的敏感性,还可用于监测图书集合随时间变化其借阅指标的波动情况[24]。
以上用于流通数据分析的策略各有利弊:基于统计学的频次排序法虽然能够揭示最热门图书和读者信息,但图书副本数、新旧程度、排架位置、读者借阅权限等因素都会干扰统计结果,且无法在图书集合或读者群之间进行客观比较;利用数据挖掘技术、聚类算法和关联分析挖掘读者借阅模式、不同学科图书间关联以及细分读者类型等,对于图书馆员的技术背景、操作规范上有较高要求,结果受人为参数设定影响较大,且不够直观;而借鉴h指数对图书借阅数据进行分析,将图书集合和读者群视为评价对象,客观比较图书集合和读者群之间差异,且对特定时间段的波动较为敏感,但其在馆藏老化进度、剔旧选择、排架优化等管理方面难以提供建设性意见,所以希望找出操作简便、通用性强,同时具有直观性与客观性的分析策略。
2情报学基本定律横向移植的可行性分析
笔者认为,图书与期刊文献作为信息和知识的载体,在利用与传播的过程中具有相似的特征:随着新知识的涌现,期刊文献与图书普遍存在老化现象,文献的老化可以根据利用率和被引频次来测算,图书的老化则可以通过借阅频次和趋势来反映,此外,同被引聚类分析是把若干文献看作是具有相同属性的集合,中图分类法也是将主题相似的图书归为一类;读者与文献同样也具有相似特征,读者每次借阅的图书可以反映出借阅倾向,则图书可看作是读者借阅行为的基本元素,而文章所提供的关键词能够体现文章主体思想,则关键词可看作是文章的基本知识单元[25],关键词具有词耦合与词共现现象,那么可以假设图书借阅也有对应的图书耦合与图书共现情况,所以我们认为适用于文献信息的相关定律在图书借阅中也可参照借鉴,甚至可以建论文导读:需求特征,甚至可以制定图书与时间的关联规则,在图书管理系统中进行荐阅与提示。上一页12
立适用于图书的老化定律、学科图书半衰期和图书普赖斯指数、馆藏图书滞架指数、图书集合h指数、读者群h指数、图书借阅耦合/共现模型等分析策略和评价指标,为馆藏图书管理、读者需求分析与服务提供新的解决思路。3基于图书被借的指标研究

3.1图书老化规律研究

图书馆大部分馆藏文献是在逐渐老化的,其利用率极低,这主要是图书馆文献对读者而言缺乏新颖性、针对性和实用性造成的,老化图书不仅占据了图书馆有限的阅览空间,加大了管理成本,而且给读者查找图书带来不便,甚至影响到了图书馆的工作效率与窗口形象,所以及时剔除老化文献、吐故纳新是保持图书馆旺盛生命力的重要环节。图书文献的老化可以利用绝对流通量、平均利用率等指标来测度,但以单本图书为研究对象或把所有图书均一化看待的策略容易造成唯新是从的现象,而根据文献26的研究结果[26],每种馆藏图书从入藏至完全失去使用价值时的平均借阅次数S=K/b,K表示抽样当年高校图书馆流通数据挖掘的新思路由专注毕业论文与职称论文的www.7ctime.com提供,转载请保留.每种图书的利用次数,b为一常数,可见馆藏图书利用率与统计当年每种图书的利用次数正相关,所以频繁采购同类型、相似内容图书是推动图书老化的重要因素之一。笔者认为只有研究不同类型图书的老化趋势与特点,优化采购配置,才能真正提高高校图书馆的文献利用率。

3.2学科图书半衰期

1960年,巴尔顿和开普勒提出了文献情报的半衰期概念[27]:某学科或专业现今仍在利用的全部文献中较新的一半是在多长一段时间内发表的(共时半衰期),与该学科一半文献失效所经历时间相当(历时半衰期)。也可借鉴文献半衰期的概念定义学科图书半衰期:特定统计时间段内,某学科或主题图书集合仍在流通(包括借阅与归还)的全部图书中教新的一半是在多长时间内出版的(共时半衰期);某学科或主题图书集合一半图书失去使用价值,即不再流通所经历的时间(历时半衰期)。并且可以利用作图法(所有测试数据均取自于北京大学医学图书馆Unicorn系统),以某学科图书出版年为横坐标,统计时间段内被借阅累积频次或累积百分比为纵坐标,绘制学科图书共时半衰期图(图1);以图书被借阅年代为横坐标,统计截止时间之前被借阅累积频次或累积百分比为纵坐标,绘制学科图书历时半衰期图(图2),其中累积百分比达到50%的点所对应横坐标,即为半衰期观测点,从图1和图2可以大致估算出R36病理学类图书的半衰期为8年。1图1R36类图书共时半衰期图1
1图2R36类图书历时半衰期图1

3.3图书普赖斯指数

普赖斯指数是度量文献老化速度与程度的指标,在文献计量学研究中,普赖斯将被引文献分成有现时作用的文献和档案性文献,前者是指文献在其出版的5年内被引用,后者则是指出版5年后仍被引用,现时作用的文献在总文献中的比值即为普赖斯指数,可见普赖斯指数越大,该学科文献老化越快。借鉴普赖斯指数的机理,定义学科图书普赖斯指数:某统计时间段内某类被借阅的图书(如R4类图书)中出版不超过X年的图书数量占全部被借阅图书的比例。其中X的确定,应以特定图书馆某统计时间段内所有流通的图书为大样本,统计较新的一半图书的最早出版年代,则当前统计时间与其差值为X。该指标还适用于其他图书集合,如特定出版社的图书、特定作者出版的图书等。

3.4馆藏图书滞架时限

随着馆藏图书老化,图书的利用率和借阅量降低,这不仅占据了有限的借阅空间,而且增加了管理成本和难度,故大部分高校图书馆都会定期进行剔旧工作,但剔旧并不完全等同于剔除陈旧或破损的图书。美国图书馆专家特鲁斯威尔提出了藏书利用的二八法则:在图书馆的全部藏书中大约有20%的图书能够满足近80%读者的需求,而其余80%的图书仅能够满足20%读者的需求。因此,剔除利用率低的图书才是馆藏剔旧的重点,而研究表明,滞架时限是衡量馆藏利用率和剔旧数量的最佳指标[28]。滞架时限指的是单本图书最后流通时间(借阅日期或还书日期)与统计截止日期之间的差值,默认图书借阅时限为30天,并不可续借,滞架时限的统计区间为0~11个月(如表1)。

3.5学科图书h指数

h指数是J.E.Hirsh于2005年提出的一项旨在评价科学家个人绩效的指标,其定义为[20]:将科学家S发表的论文按照被引次数从高到低的顺序排列,相同被引次数的论文具有不同的序列号,当且仅当前h篇论文每篇论文的被引次数至少为h,同时第h+1篇论文的被引次数小于h+1时,则科学家S的h指数值为h。通过上文的可行性分析,我们认为特定类型的图书集合也可以有“h指数”:将某时间段内某主题图书(如中图法R322)按照借阅频次进行排序(多副本图书采用借阅频次/副本数的值作为的相对借阅频次),相同借阅次数的图书具有不同序号(按照出版时间倒序排列),形成图书数量与借阅频次的数据序列,参照h指数原定义,当且仅当前h本图书每本借阅频次至少为h,同时第h+1本书借阅频次小于h+1时,该主题图书的h指数为h。如表2所示,统计时间段内,某类图书至少有4本被至少借阅4次,则该类图书的h指数为4,那么可以确定该类图书中借阅频次大于等于4的为核心图书。此外,时间段可以设定为年度、学期、月份,从而揭示特定时期的借阅需求特征,甚至可以制定图书与时间的关联规则,在图书管理系统中进行荐阅与提示。