免费论文查重: 大雅 万方 维普 turnitin paperpass

简论语料库基于R—gram语料库软件PowerConc设计与开发

最后更新时间:2024-04-09 作者:用户投稿原创标记本站原创 点赞:5843 浏览:15354
论文导读:摘要:在继承以往语料庫分析软件优点的基础上,本研究开发了具有独立知识产权的PowerConc语料庫分析工具。PowerConc对传统的词汇索引、词表生成、主题词计算等功能进行了重构、扩展和优化。整个软件以基于正则表达式(regularexpressions)的N元组(N-gram)为基础。二者的有机结合即本文所提出的R-gram。R-gram这一
摘要:在继承以往语料庫分析软件优点的基础上,本研究开发了具有独立知识产权的PowerConc语料庫分析工具。PowerConc对传统的词汇索引、词表生成、主题词计算等功能进行了重构、扩展和优化。整个软件以基于正则表达式(regular expressions)的N元组(N-gram)为基础。二者的有机结合即本文所提出的R-gram。R-gram这一概念大大增强了检索和匹配的灵活性。同时我们设计了兼容正则表达式的简易输入语法——Smart Input,降低了用户使用的难度,提高了软件的易用性。PowerConc软件基于面向对象的思想开发,核心功能被封装在不同的类中,与界面分离,具有很好的扩展性和可维护性。PowerConc的开发将有效促进语料庫语言学研究的开展。
关键词:语料庫分析工具;PowerConc软件;R-gram;语料庫
1001-5795(2013)Ol-0057-0006
1 语料庫分析软件的开发背景
1.1引子
语料庫研究需要对大量文本进行计算机分析,其中语料庫分析软件的作用十分关键,且很大程度上决定着研究数据的准确性和可靠性。没有良好的语料庫工具支持,语料庫研究便难以有效开展。目前常用的语料庫分析工具有:Mike Scott设计的WordSmith Tools(以下简称WordSmith)、Laurence Anthony设计的AmConc、Michael Barlow设计的MonoConc Pro和R,Watt设计的Concordance等。其中WordSmith功能最全,学界认可度最高。其他软件有的是WordSmith的(部分)重写,有的只能实现WordSmith的少量功能。综合来看,这些软件通常包含词汇索引(concordan—cing)、词表生成(word list)、主题词计算(keywords)等功能,但在统计和搭配计算等方面,对正则表达式(regular expressions)和N元组(N-gram)的支持,易用性和计算效率方面还有待提高。
近些年来,国内外语料庫建设蓬勃发展,但语料庫分析软件的开发却相对滞后,一方面新工具开发较少,同时,原有语料庫分析工具升级缓慢,在核心功能上改进不大。本研究希望结合语料庫语言学近年的发展,开发出与之相适应的分析工具。

1.2语料庫分析软件发展概述

语料庫是指按一定原则取样获得的大规模电子文本汇集(Sinclair,1991;Hunston,2002;Baker,2006)。语料庫规模通常很大,因此需要借助计算机摘自:毕业论文任务书www.7ctime.com
软件来辅助分析。近半个世纪以来,语料庫分析工具层出不穷,数量、种类不断增加。
语料庫软件包括:词汇索引工具(concordancer)、自动和手工标注工具(词性标注、句法标注、语义标注、语用标注等)、文本整理工具(文本格式转换、文本编码转换)、口语转写工具、统计分析工具等。语料庫分析工具中最常用的是索引工具。一般所谓的通用型语料庫分析工具即指索引工具。最早的计算机索引工具由Robeto论文导读:
Busa于1951年开发(McEnery&Hardie,2012:37)。当时的索引工具只能提供索引行语言实例。后来索引工具的功能得到很大扩展,但名称仍然叫做索引工具。现在的通用型索引工具,通常至少包括生成索引行和词表两大功能。
根据McEnery&Hardie(2012:37-48)对语料庫分析工具的时代划分,我们将相关工具开发情况汇总如表1。
其中,第一代和第二代索引工具主要是在DOS环境下运行。第一代工具更受硬件限制,运行速度缓慢。第二代索引工具已能初步实现今天索引工具的基本功能,如:索引行的生成、词频表、短语表的生成,甚至是词语搭配的计算(如TACT)。
第三代语料庫工具以WordSmith为代表,这些软件主要在Windows或其他图形界面操作系统中运行。WordSmith是商业软件,AntConc为功能相近的免费替代软件。这两款软件最能代表第三代语料庫分析工具,两者都拥有广泛的用户群体。WordSmith各版本主要功能划分为三大模块,即:词汇索引(Concord)、主题词(KeyWords)、词频表(WordList)。到5.0版本(2008年)以后,WordSmith增加了框合结构(Conc—Gram)功能,但从界面功能划分看,主要还是维持三大核心模块。大模块下还有词簇提取(cluster)和词语搭配等子功能模块。WordSmith的三大模块成为了通用语料庫软件开发领域的事实标准。
第四代语料庫工具主要指基于互联网的语料庫网络应用(web application)。这类工具通过浏览器与服务器的交互,将语料庫与检索工具融为一体。这些工具基于数据庫和索引技术,检索响应时间快,用户体验好,一般用来处理大型语料庫,如BNC。但这些工具的灵活性不够,用户通常无法(或很难)处理本地语料庫,同时,因受索引格式和数据量的限制,检索语法一般较为简单,不支持复杂检索。
因此,当前及今后很长一段时间,第三代和第四代语料庫分析工具将会并存。从研究者的角度看,第三代语料庫软件更能满足个人的实际研究需要。我们所开发的工具即属于第三代语料庫工具。本研究主要关注单语语料庫,双语和多语语料庫的分析处理并不涉及。

1.3第三代语料庫工具的不足

WordSmith和AntConc是目前较有代表性的第三代语料庫分析工具,但前者不支持正则表达式,且界面复杂,不易操作;后者较为易用,但功能较少、计算效率较低,处理语料时容易死机或意外退出。
因此,在借鉴WordSmith和AntConc优点的基础上,本研究开发了PowerConc软件,对语料庫软件的功能进行了梳理和扩充,并在软件易用性和计算效率上进行了优化。PowerConc由许家金、梁茂成、贾云龙设计,贾云龙负责程序开发。PowerConc软件的开发是对此前北外语料庫语言学团队开发的Keywords plus、Col-locator、Colligator(许家金、熊文新,2009)等系列软件的整合。源于:大学毕业论文www.7ctime.com
(5)词形检索:对于词性赋码语料,可直接输入单词或短语进行检索,如:对CLAWS(C7)赋码语料,look将匹配look_NNl、look VVO、look_VVI等;
(6)正则表达式检索:用户可直接编写正则表达式进行检索。
以上(1)~(5)可混合使用在同一表达式中,如:@be*#prep将匹配is capable of、was involved in、beresponsible for等内容。
综上所述,Smart Input语法的引入使R-gram变成了一种可读性高、描述能力强的表述体系。表2列出了一些R-gram应用实例。

2.4支持基于文件或文件分组的分布统计

语料庫研究经常会涉及对比分析,如按时间、语域、性别、话语者类型(母语还是学习者)、学习者阶段等维度进行对比。分布数据可以直观地显示出语料之间的差异,对于对比性研究具有非常重要的意义。
PowerConc支持两种分布:
(1)基于语料庫文件的分布:以语料庫文件进行分布统计,如图1。
(2)基于语料庫文件分组的分布:按用户指定的分组条件,将语料庫文件分成若干个组,然后以文件分组为单位进行统计。分组条件由针对文件名的论文导读:,仅靠界面本身提供的信息,很难进行操作。AntConc在WordSmith基础上进行了一定的优化,但在局部设计上,缺乏连贯性。核心功能:PowerConc和AntConc对WordSmith的功能进行了取舍,分别实现了WordSmith的词汇索引、词表、关键词计算三大核心功能。AntConc几乎是对WordSmith三大功能的简化和重写,相对WordSmith而言没有本质的变
正则表达式构成。比如,在配置文件中用正则表达式“0[1—9]”,将相关文件归为一组,组名为“AmE”;文件名满足正则表达式“1[0—9]”的语料庫文件归为另一种,组名为“BrE”。基于正则表达式的分组方式,具有高度的灵活性,同一个语料庫文件可以出现在不同的分组之中。图2中,各语料庫文件已按指定分组原则,被归入了“AmE”和“BrE"两组中。

2.5功能结构清晰

应用软件不仅要实现特定的功能,还需要根据用户习惯对这些功能合理规划,以提高易用性。鉴于此,PowerConc在设计过程中,对语料庫分析和研究常用的各种功能进行了梳理和分类,淘汰了不常用的功能,加入了多项以往语料庫软件没有的功能,同时归并到统一的框架下,使所有功能一目了然,当用户熟悉了一个模块后,可以很快掌握其他模块,有效降低软件的学习成本和操作难度。
PowerConc将语料庫分析归为微观和宏观两大类,词汇索引主要是对某个或某类语言现象进行的有针对性的分析,属微观分析;词表是对语料庫整体情况的考察,属宏观分析。
PowerConc共五个模块,检索相关的功能包括三个子模块,词表相关的分析包含两个子模块:
(I)检索相关功能(微观分析)
(1)词汇索引(concordance):根据输入内容进行检索并返回索引行;
(2)结果统计(statistics):对检索命中的内容进行统计;
(3)搭配/类联接计算(Collocation & Colligation):根据索引行计算检索结果的搭配信息。
(Ⅱ)词表相关功能(宏观分析)
(1)词表生成(N-gram list):根据指定的数据类型和长度生成词表;
(2)主题性计算(Keyness):根据参考词表计算主题词,或主题短语。
每个模块的操作又可细分为参数设置、数据计算、分布统计、结果显示、结果排序、结果过滤、结果抽样、结果保存八个类别。
3 PowerConc、WordSmith、AntConc的对比
PowerConc不是对WordSmith等软件的重写或复制,PowerConc有其独立的设计原则。
继承发扬:吸收以往语料庫软件中那些广为接受的功能(如:词汇索引、词表等),在充分考虑用户体验的基础上,删繁就简,对功能的设计、展示和实现方式进行优化,以降低学习成本和操作难度,并将它们纳入PowerConc的统一设计框架中,使软件设计具有高度~致性;其次,对这些功能进行扩展,丰富已有功能;再次,对算法进行优化,提高程序处理数据的能力和效率。
将PowerConc与AntConc和WordSmith进行对比,可以归纳出以下几方面差异:
学习成本和操作难度:三款软件中PowerConc的学习成本和操作难度最低,具有一般软件操作的常识和语料庫的基本知识的研究者,都可以很快上手。WordSmith的学习成本和操作难度最高,它的功能非常繁杂,即使经验丰富的研究者也很难快速掌握它的全部功能,WordSmith 6.0(最新版)的说明书已达415页。AntConc学习难度居中,但配置复杂,不便操作。
功能划分和界面布局:PowerConc完全以研究者的视角来进行功能划分和界面布局,全部功能的设计遵守统一规范,用户可举一反三。WordSmith的功能规划和界面设计不合理,不符合常规软件的设计原理,若不借助说明书,仅靠界面本身提供的信息,很难进行操作。AntConc在WordSmith基础上进行了一定的优化,但在局部设计上,缺乏连贯性。
核心功能:PowerConc和AntConc对WordSmith的功能进行了取舍,分别实现了WordSmith的词汇索引、词表、关键词计算三大核心功能。AntConc几乎是对WordSmith三大功能的简化和重写,相对WordSmith而言没有本质的变化。PowerConc以R-gram为基础重新设计,使语料庫软件的功能得到了扩展。
功能创新:WordSmith不支持正则表达式,这使它的功能受到了极大的限制。WordSmith历史较久,版本众多,但每一个新版本的变化并不大,通常只是加入了个别新功能或修正个别小错误,而核心功能几乎没有多少改变。AntConc加入了对正则表达式的支持,但相对WordSmith而言,其功能并无创新。PowerConc最大的创新是对R-gram和Smart论文导读:另一方面,可以利用这些核心功能类,开发出衍生产品。这些优势是AntConc和WordSmith等软件不具备的。WordSmith的升级和维护几乎是用打补丁的方式进行的,这使WordSmith的安装包越来越大,操作越来越复杂。WordSmith6.0的安装文件有5源于:标准论文格式范文www.7ctime.com4MB,安装后有108个文件,而AntConc和PowerConc都是绿色软
Input的支持,它使语料庫研究的范围得到了扩展。同时,PowerConc对数据分布统计也具有很好的实现。
算法效率:因为功能设计的差距,三个软件很难直接对算法效率进行对比。整体而言,AntConc的算法效率最低,对数据量的大小较敏感,容易死机或意外退出。WordSmith的效率一般,算法没有进行优化,个别计算要耗费大量的时间。PowerConc在算法优化上做了大量尝试,最大程度上避免了数据拷贝带来的资源浪费,同时一些模块使用了缓存方式以避免信息的重复计算,使计算效率大大提升。
可扩展性:PowerConc基于面向对象的方法开发,核心功能被封装在不同的类(Class)中,实现了界面和功能的分离。这使PowerConc具有非常好的扩展性,一方面,可以不断对现有功能进行升级和维护,也可以加入新功能;另一方面,可以利用这些核心功能类,开发出衍生产品。这些优势是AntConc和WordSmith等软件不具备的。WordSmith的升级和维护几乎是用打补丁的方式进行的,这使WordSmith的安装包越来越大,操作越来越复杂。WordSmith

6.0的安装文件有5源于:标准论文格式范文www.7ctime.com

4MB,安装后有108个文件,而AntConc和PowerConc都是绿色软件,无需安装,AntConc 3.2.4(最新版)的大小是4.4MB,PowerConc只有

1.5MB。

相信PowerConc的开发将有效促进语料庫语言学研究的开展。
感谢梁茂成教授对本文提出的宝贵的修改意见。