免费论文查重: 大雅 万方 维普 turnitin paperpass

研究算法基于动态规划文本查重算法实现

最后更新时间:2024-02-06 作者:用户投稿原创标记本站原创 点赞:11554 浏览:46068
论文导读:
摘要:近年来学术界抄袭事件时有发生,给整个学术界的声誉造成了极坏的影响。针对海量文本查重问题,运用基于编辑距离的动态规划算法,实现文本集合间的相似度计算。该算法通过计算句子相似度数值来判断文本相似度,检测并标明出相似句对应的原句。实验结果可知,该系统对较长的文本可以完成雷同判定。
关键词:相似度 LD算法 查重系统
1007-9416(2013)08-0115-01
1 引言
近年来学术界抄袭事件时有发生,学术界长期形成的科学、诚实、追求真理的之塔的形象受到社会大众的质疑。针对上述问题,有必要及时发现并阻止此类事件,提供一个检测论文是否有抄袭文本查重方法和依据。
2 相关工作
目前,对于文档相似度的判定采取的主要算法有: 序列匹配的方法就是求两个字符串的公共子串的最大可能长度。向量空间的余弦定理,它是利用余弦定理和广义Jaccard系数来计算文本相似度。结合文本相似度检测研究现状,以及开发本系统的初衷,本文采用模块化程序设计方法和采用现有软件环境及先进的对比算法开发的软件系统,采用的主要算法是距离编辑算法,实现了不同类型文档的相似度检测。通过本系统能够有效检测学生抄袭行为,具有一定的实用价值。
3 关键算法与实现
本文采用距离编辑算法比较两字符串的相似性,它的思路就是从两个字符串的左边开始比较,记录已经比较过的子串相似度,然后进一步得到下一个字符位置时的相似度。两个字符串的距离就是一个字符串转换成另外一个字符串过程中的添加、删除、修改数值。

3.1 系统实现

本文运用VS 2010环境和C#语言,采用模块化程序设计方法和采用现有软件环境及先进的对比算法来实现系统的整体功能要求。系统能根据用户的需求提供3种不同的检测方式,比较合理地搭配并基本完成系统的总体功能要求,实现对.doc,.txt,.pdf三种格式的兼容比较,对抄袭情况的判断的提供了直观的依据。
文本抄袭检测是指选择一个文件夹,再选择文件夹下的其中一篇文档,拿这篇文档和该文件夹下的其他文档进行比对检测,也可以在系统中对该文档文本进行添加、删除或修改文字后再进行检测。在得出的结果当中,该文档和其他文档之间的相似度;在原文档用红颜色标示出相似句。系统中的核心功能是两两比较,也就是1:1检测模块。N:N指检测选择一个文件夹,对该文件夹下的所有文档进行两两检测,得出两两相似度。

3.2 实验结果

文档检测的结果可以通过点击相似度,在文本框中用红色标明哪些是相似句对应的原句。在检测出文本相似度的基础上再进行查重,可以检测出相似语句内容(红色标示)。检测界面中从文件夹里面符合条件的文档会在列表框中列出来。选择要检测的文档,单选双击列表框一篇文本,然后开始会跟文本框中除自己外所有文本进行比对。设置句子相似度任意0到1之间的值,结果为指定文本与剩余所有文本进行逐个对比,检测后相似度显示中间,双击可看相似部分,可以查看整篇文章雷同语句。
检测结果是指选择两篇文本进行检测,也可以直接粘贴文本到系统文本框中进行检测。得出数据,两个文档之间的相似度。从指定目录找两篇文本(或粘贴文本)到文本框下进行匹配,得出雷同率和展示结果如图1所示。
系统实现抄袭检测的文档包括.txt、.doc和.rtf 3种格式的文本。在对文本进行检测的过程中,因为本系统只是检测文字,不包括检测图片等,检测时会过滤图片,涉及到用句子分割符来分割文本,默认的句子分割符是“; 。 ? ! … \ ; . ! ? ” 等。选取要测试的word,pdf,txt三种文本,将其读入到richTextBox中。这样制作了两个待测文本之后,再调用对比函数将两个待测文本进行比较,把源于:毕业论文致谢怎么写www.7ctime.com
比较出来的雷同率输出到TextBox中,并找出该相似句的文档出处以及段落出处,做到有根有据。本系统不能对句子的语意、结构上的相似性进行判断,只能对纯粹字面上的句子进行相似度判断。
4 结语
海量文本的查重系统实现是针对现在大学生在专业课程中提交的报告或论文存在比较严重的抄袭现象的现状而设计的,根据该系统对提交的报告或论文进行对比,最终提供一个检测报告、论文的方法和依据。
参考文献
王晓英,靳力,王晓青,黄维通.基于序论文导读:列匹配的作业相似度检测系统.计算机工程,2012(24),53-56.丁智斌,霍豫宗,杜念.文本相似性在抄袭问题中的应用研究.华北科技学院学报,2013(1),91-9

5.上一页12

列匹配的作业相似度检测系统[J].计算机工程,2012(24),53-56.
丁智斌,霍豫宗,杜念.文本相似性在抄袭问题中的应用研究[J].华北科技学院学报,2013(1),91-95.