免费论文查重: 大雅 万方 维普 turnitin paperpass

研究提取关于关键词提取与使用

最后更新时间:2024-01-19 作者:用户投稿原创标记本站原创 点赞:3997 浏览:11010
论文导读:来自文档,但它与文档的主题内容一般相关而非密切相关,甚至不相关,不能算作关键词。非关键词不是文档主题内容表达不可或缺的词,它与文档主题内容之间的离散度较大,是一般用词或边缘用词,不属关键词。用双词词组关键词是代表一个明确概念的最小单元的名词。关键词可以是单字词,也可以是多字词,如血、血管、高血压等。两
摘要:高职院校学生信息素质的培养包括关键词的提取和使用。关键词的提取技术包括理解文档的核心思想,明确关键词的概念内涵,掌握关键词的基本特征,分辨关键词与其他词之间的上下左右关系等。在此基础上,通过观察思考,熟悉方法和规范应用,坚持关键词标引使用的原则,按照步骤进行聚焦、排序、定量和鉴审操作。
关键词:高职;关键词;提取;使用;信息素质
1672-5727(2012)12-0129-02
一项简单的实验发现:50名学生5分钟内阅读一篇500字不到的短文,每位从中提取5个关键词,结果全班学生答案各不相同。原因如下:一是不懂关键词概念;二是不知关键词提取法;三是不做关键词分析;四是不求关键词质量;五是不会关键词表达。上述情况表明,必须高度重视学生的关键词提取与使用能力的培养,以适应信息社会的交际需要。
关键词提取常见错误
用非关键词尽管提取的词来自文档,但它与文档的主题内容一般相关而非密切相关,甚至不相关,不能算作关键词。非关键词不是文档主题内容表达不可或缺的词,它与文档主题内容之间的离散度较大,是一般用词或边缘用词,不属关键词。
用双词词组关键词是代表一个明确概念的最小单元的名词。关键词可以是单字词,也可以是多字词,如血、血管、高血压等。两个以上概念的词序列称为关键词串,而非关键单词。如“高血压心脏病”、“肺心病心力衰竭”等,它们是关键词串,而非关键单词。宁可将它们分解成两个关键单词,如“高血压”和“心脏病”、“肺心病”和“心力衰竭”,则能够表达主题概念,使得提取关键词更加准确,使用更加方便。
用新鲜词语多半学生认为兴趣词(自己感兴趣的词)或新鲜词(较新出现的词)是关键词。但兴趣词和新鲜词大部分是语义概念尚未成熟、大众认识尚未健全、社会使用尚未稳定的词,不能简单地将它们提取为关键词。如“超女”、“裸官”等。兴趣词和新鲜词可能在成为年度新词几年后逐步成熟、健全、稳定,认可为“关键词”。
用缩略语中文或英文的缩略语一般是指为便利使用,由较长的语词缩短省略而成的语词。如政协(“中国人民政治协商会议”和“地方各级政治协商会议”的缩略语)、彩电(“彩色电视机”的缩略语)、WTO(World Trade Organization世界贸易组织的缩略语)。一般提取名词全称做关键词,而不用缩略语。应将中英文缩略语写成全称,才能作为关键词。
用半禁用或全禁用词无特殊检索意义,不能表征文档所属专业学科概念的词不能独立作关键词使用,这类词称为半禁用词。最常见的有:概念、规律、理论、报告、试验、学习、研究、方法、分析、问题、途径、特点、目的、发展、现象等。无实质意义的词不能作关键词,这类词称为全禁用词,它们有冠词、虚词、介词、连词、代词、副词、形容词、感叹词、某些动词(连系动词、情感动词、助动词)。关键词一般是实意名词和部分特征动词。
关键词的社会价值
关键词是能够反映或代表一篇文档(文章、论文、文件、报告等)主要内容的一组词语或短语。关键词与文档所在的专业学科领域密切相关,多个关键词的组合(关键词表)能够标识一类文档的核心概念,并呈现出特定专业学科的认知范畴和研究发展的关注倾向。关键词具有以下社会价值。
信息资源关键词是信息社会文化科技发展的宝贵资源,是人类文明的思想结晶。关键词的形成、延伸(衍生)和拓展,证明关键词是循环资源,它的演变既记录过去与现在,又预示将来发展。关键词能够帮助人们沟通与交流、生存与发展,因而需要探究与发掘、开发与利用。
分类聚合关键词简短精练,具有限定语义(概念),人们可依据关键词的限定概念将文档进行分类,或根据关键词的特征倾向(向量)将文档进行聚类。分类和聚类的本质相同,但切入的方向不同。由于上位关键词可涵盖下位关键词,下位关键词可归属上位关键词,因而分类是从上向下分,聚类是由下向上归。
知识管理现实世界,信息万变,唯有经过提摘自:毕业论文格式字体www.7ctime.com
炼整理并按照逻辑关系排列组合的结构化信息,才能成为实用知识。关键词能够方便数据管理,如文档分类、知识归类、网页浏览、文献检索、专利查新、信息记录等。
共享使用关键词的共享使用,使得多民族、跨文化之间的信息交流,计算机科学技术领域中的人机对话,现实与虚拟世界的沟通(网购、导游、娱乐),现代职业教育内容的传授等,变得十分方便快捷。由于约定俗成、反复多用和简明扼要的原因,公认的、成熟的、稳定的和新生的关键词不断涌现,它们促进信息社会的形成。
关键词的认识进展
关键词是客观世界存在的反映世界上的事物是客观存在的,凡存在的都是可认知的,凡被认知的事物都需要给予名称,否则无法记录和交流。因此,世界上的名词最多,每天层出不穷。有新的认知就要给予新的名称。尽管世界各地、各民族语言给予的名称不同,但客观事物本身是真实存在的,它包括物质的和精神的、具体的和抽象的、现实的和虚拟的存在。它们都需要有确定概念的名称,关键词能够反映客观世界的存在,因此,关键词就是客观世界存在的一种反映。
关键词是词汇链上的节点客观世界的存在不是孤立分割的,而是互相关联和依存的。关键词和自由词不同,关键词是人类社会关注的焦点,如果将这些焦点放到整个世界的信息链中观察,关键词就是词汇链上的节点。抓住关键词节点,可将整个专业学科领域的一批信息链归纳串联起来,从而方便深入和拓展研究。这样的节点的组合就是关键词表。关键词表是一组密切相关的关键词的有序排列和组合,其中,每个关键词可作为研究的关注焦点,通过它再深化或拓展到其他节点,开展相关性研究。
关键词随认识的深化而不断演变关键词同样有生长、成熟、发展、更新、淘汰的生命周期,依人类认识世界的深化而发展变化。原先的关键词所代表的概念不完全、不准确、不恰当的,经过实践检验可以优化、更新、淘汰,替换成新的关键词。因此,关键词表是每年需要调整、充实、提高的。关键词表的演变过程,就是人类认识世界、与世界和谐相处的互动过程。关键词是人际沟通的有效工具现代社会的信论文导读:
息含量日益庞大,信息交流的形式层出不穷。由于关键词总是代表着人类社会关注的焦点,因此,它可以作为人际沟通的有力工具。经济生产、文化科技和社会管理的各个方面,均需要借助关键词进行有效沟通。跨国之间的文化交流,公共场所的信息化管理,均借助关键词进行人机对话、教育培训、关系转移和过境签证。关键词的提取和使用能力已经成为现代社会国民素质的基本要素之

一、也成为职业院校培养专业学生职业技术能力的一项重要内容。

关键词的提取
学会提取关键词,需要掌握以下技术。
理解核心思想即从阅读理解的文献或讲话中分辨主题思想,明确作者的主旨观点,抓住表述的核心内容。思想的表述不一定是直线的,有时是曲线的,有时是螺旋式的,有时是发散后汇聚的。务必认真阅听完整,抓住关键要点内容,做第一层次即核心思想内容的提取,为关键词的提取奠定基础和限定范围。倘若没有阅读明白或听懂全篇内容,不做核心思想的分辨和提炼,随机抽取几个关键词,就会犯偏离主题的技术错误。
明确关键词地位关键词概念前文已经表述,此处再与主题词作一比较。关键词是由作者、读者或编者提取的能够表达主题内容的核心单词,主题词是由图书情报、语言专家根据特定标准进行规范后,提出的表达主题内容的核心单词。关键词与主题词的区别见表1。明确关键词的学术等级地位是大众性质的,有利于广大作者、读者和编者提取关键词。在公共和学术交流中,流行关键词有其重要而深刻的技术基础。即计算机科学和信息技术的发展使海量文献检索能够在极短(数秒,数十秒)的时间内完成,而且可以精确检索到任何单字、单词、词组和短语,包括关键词和主题词。由于信息技术的支持和保障,关键词的使用日益普及,并向学术领域渗透。相反,主题词的应用范围主要局限在高层学术领域,且有应用淡化的倾向,远不及关键词流行。原因很简单,关键词可以人工提取并实现机器提取(机标关键词),主题词需要专家严审规范处理,所需人工和周期跟不上信息社会的发展节奏。
掌握关键词的特征掌握关键词的基本特征有助于高效提取关键词。一是词频特征。词频指文档中某词序列重复出现的次数。由于作者表达主题思想时,常精心选择最能表达其思想的词汇,因此,该词汇在文档中出现的频次较高。二是词位特征。词位指文档中某词序列经常出现的位置。它们一般位于标题、摘要、目录、副标题、小标题、绪论、总论、结论和参考文献的位置上。三是词性特征。中外语言均有词性之分,如动词、名词、形容词、副词、量词等。关键词的词性一般为名词(>82%)。名词的信息含量大,且名词在语言表达中比较灵活,可以担当主语、宾语,也可以充当定语、表语和状语使用(如名词性形容词),或赋予动词含义即英语中的动名词。具有特征意义的动词(<16%)也可作关键词。少量动词与名词组成的主谓结构或动宾结构关键词,能改善提取关键词的质量。
分辨关键词关系由于客观事物的内在关联,任何关键词均有上下左右的关系。即关键词有上位词、下位词、同类词和等位词之相互关系。上位词指概念上外延更广的词,如“细菌”的上位词是“微生物”;下位词指概念上内涵更窄的词,如“线粒体”是“细胞”的下位词;同位词指地位相同但同属一类概念的词,如“高血压病”和“冠心病”是同位词,同属于“心血管疾病”;等同词指事物概念相同但表达形式不同的词,如“牛皮癣”和“银屑病”是等同词。能够分辨关键词的上下左右关系,区别禁用词和半禁用词,有助于精确提取关键词。
关键词的使用
关键词的使用主要指关键词的标引,它是亿万网民(读者、作者、编者)每天进行的作业。普通读者、作者掌握关键词的正确使用,需要观察思考,熟悉方法,规范应用。使用中应注意以下几点。
基本原则“以实意名词为主,关键单词为宜,内涵健全为上”。实意名词指表征文稿主题思想的术语名词,关键单词指构成最小单元的词而非多元词组,内涵健全指选用内涵概念较为成熟、稳定和规范的词而非近义词、同义词或等同词。
操作步骤第一步提炼主题思想,会聚选词范围;第二步研读文摘和各级标题,候选关键词语;第三步依据专业名词术语或学科主题词表,比对词语内涵概念;第四步确定标引文稿主题内容的关键词。
逐步聚焦关键词使用从候选到确定是逐步聚焦的过程。笔者开头所述的实验,可以引导学生进一步将各自列出的关键词(每人5个)排列,作为第一次聚焦。然后,选用重合度较高的关键词(第二次聚焦),再过滤禁用词和半禁用词,消除歧义词语,增补漏标关键词(第三次聚焦),最终达到使用较全面而正确的关键词的目的。
科学排序关键词排序目前国际国内尚无统一的规定。一般作者将表征主题思想。反映实质内容的词语列前,意义密切相关的词语列近,描述结果意义性质的词语列后。但行业、学术团体或期刊编辑部可能根据文献分类和方便检索的要求,对关键词排序进行约定,如中国科协学会学术部《关于在学术论文中规范关键词选择的决定(试行)》。读者应注意观察,作者应注意应用。
数量控制文稿关键词一般为3-8个。关键词数量过少(少于3个),不能充分表征文稿主题内容;过多(多于8个),可能偏离文稿主题内容而不利分类。
认真鉴审计算机科学和信息技术的发展使“机标关键词”成为现实。所谓“机标”,就是由计算机进行关键词的提取并自动化标注呈现给读者,以解决信息量剧增,人工标注周期较长的缺点。“机标关键词”速度快、算法多,但也因“机标”文稿对象的文体及表达形式多样性而存在标引疏漏、标引过度、标引重复或标引偏离的问题。对于“标全率”和“标准率”较高的“机标关键词”,应人工鉴审把关,提高关键词使用质量。
参考文献:
刘霖,叶旭春,姜安丽,等.护理本科生专业信息能力现状及启示[J].护理学报,2010,17(5):24-26.
严春风.科技论文关键词抽取技术的研究[D].苏州:苏州大学,2009.
[3]李枫林,何洲芳.基于关键词共现分析的检索结果聚类研究[J].情报学报,2011,30(8):819-825.
[4]刘文森.以“关键词”取代“主题词”检索公文信息之我见[J].秘书之友,2010(10):37-39.
[5]罗准辰.关键词抽取的研究与实现[D].北京:国防科学技术大学,论文导读:究方向为卫生信息管理。张铮(1973—),男,江苏常州人,常州卫生高等职业技术学校讲师,研究方向为英语源于:论文网www.7ctime.com教学。上一页123
2008.
[6]刘大乾.SCI关于关键词的一般选取准则及词义库建设[J].中国科技期刊研究,2007,18(6):1073-1074.
[7]李星华.中英文新闻网页关键词抽取技术研究[D].合肥:合肥工业大学,2009.
[8]陈文君.跨语言医学信息挖掘中关键词提取方法的研究[D].南京:东南大学,2010.
作者简介:
华危持(1951—),男,江苏常州人,常州卫生高等职业技术学校副主任医师,副教授,研究方向为卫生信息管理。
张铮(1973—),男,江苏常州人,常州卫生高等职业技术学校讲师,研究方向为英语源于:论文网www.7ctime.com
教学。