免费论文查重: 大雅 万方 维普 turnitin paperpass

浅论管理系统基于数据清理技术税务征收管理体系

最后更新时间:2024-04-05 作者:用户投稿原创标记本站原创 点赞:7439 浏览:23443
论文导读:相似重复记录的技术也很多,文献阐述了相似重复记录的检测过程及其方法。文献对cure算法进行了改进,在随机抽样之前通过对数据集进行预抽样确定数据集中相似重复记录的大致分布,从而提高随机抽样的合理性。相似重复记录检测是数据清理中的一个重要步骤,通过相似重复数据检测,可以判断两个数据是不是相似重复数据。随着计算
摘要:随着税务管理信息化的不断拓展与深入,税收数据的积累日益丰富。零散、不直观的数据无法为管理层的统计分析业务提供有效的决策依据。为了解决大型税务数据库信息检索困难、查询效率低的问题,提出了一种基于数据清理技术的数据库优化查询方案。
关键词:数据清理;字段匹配算法;税务征收
1009-3044(2013)30-6824-03
随着计算机技术的飞速发展和国家税务管理信息化的深入,对税收管理部门也提出了更高的标准和要求,随之而来的税务征收事务性工作也加大了许多。如何在税务征收管理中更多使用计算机来替代人的处理,实现大部分税务管理的信息化,已经迫切成为了各级税务部门探索的一个重要研究课题。
1 原理分析
税务管理信息化的不断拓展与深入,税收数据的积累日益丰富,零散、不直观的数据无法为管理层的统计分析业务提供有效的决策依据。由于税务管理信息系统与其他的信息管理系统有所区别,主要体现在数据量大,并发数高,响应要快等方面;针对税务征收系统的这些特殊的特点,如何快速地从海量的税务数据库当中把所需要的数据提取出来进行查询、分析、统计已经成为税务部门迫切需要解决的难题。因此我们需要在查询税务系统数据之前要进行一些必要的优化措施,比方对这些税务数据进行数据预处理后,规范数据的内容,尽可能提高这些摘自:硕士论文开题报告www.7ctime.com
数据的质量,然后再对我们所使用的查询方式进行必要的优化。数据查询是数据库系统中最基本的一种重要操作。数据库查询优化的最终目的是提高数据库系统的性能,但不同的查询语言的表达式,往往会使查询操作的效率产生较大的差异。
随着税务信息管理系统信息化的日益深入,税务数据大多已经实现了共享,建立了数据仓库。在建立数据仓库的过程中,需要从各个税务基层部门提取数据,由于税务数据来源的多样性,发生错误的概率同样也存在多样性。具体体现在以下方面:一、数据不完整,部分重要、关键信息的缺失。二、数据错误,由于早期的业务系统不够健全,没有对输入数据进行逻辑判断而直接输入后,出现一些不符合逻辑的数据,由此产生了部分“脏数据”。脏数据的一些典型特征是如纳税人年龄明显不符常规,日期当中有乱码等一些不符合规则的数据。
2 数据预处理
因为税务系统数据来源的多样性,由此产生了一部分脏数据。这样我们就需要对税务数据提前进行预处理。把一些明显的不符常规的数据,通过一定的规则进行处理成规则的数据。这一阶段的主要任务是尽量发现和纠正原始记录的各种类型的错误。任务如下:利用规则库中的分类规则进行字段类型的分类,并确定该字段的意义;利用字段之间的语义规则解决等价的错误;利用依赖关系,纠正了数据类型字段的拼写;全角半角标准化的数据格式,主要用于日期、性别、货币等字段类型。把数据进行预处理后,原来的记录中许多错误可以得到纠正,并尽可能的把相似重复记录聚集在一起[1-2]。
3 相似重复记录检测
国内外研究检测相似重复记录的技术也很多,文献[3-7]阐述了相似重复记录的检测过程及其方法。文献[8]对cure算法进行了改进,在随机抽样之前通过对数据集进行预抽样确定数据集中相似重复记录的大致分布,从而提高随机抽样的合理性。相似重复记录检测是数据清理中的一个重要步骤,通过相似重复数据检测,可以判断两个数据是不是相似重复数据。
随着计算机技术的迅猛发展,产生了各种海量的信息数据。数据清理、查询优化等技术的应用都正处于快速发展的阶段。这些技术的广泛应用,都需要有高质量的数据作为支撑。
对于第一类情况可以采用分割的方法,把混合字段分割成英文、中文、数字。如两个地址字段的组合:南京市赤壁路18号A座801室和南京市鼓楼区赤壁路18号A座809室,自然分割后:南京市赤壁路号座室和南京市鼓楼区赤壁路号座室,18A801和18A809,再分别对它们进行比较。
对于第二类字段组合情况,可以按照英文和数字的组词规则,分别把英文和数字分割为合适的英文串和数字串,然后再对两个串进行两字段相似度比较。
对于第三类字段组合情况,可以按照汉字和数字的组词规则,分别把汉字和数字分割为合适的汉字串和数字串,然后再对两个串进行两字段相似度比较。
4 实验分析
本次实验采用六组不同的税务数据集,每组数据集中都含有部论文导读:。测试指标和实验结果如图2所示,其中横轴为数据分组。从图2中可以看出通过字符匹配算法较好的检测了数据表中数据的相似重复性。5结束语本文主要介绍了基于数据清理技术的税务地理信息系统数据的获取原理、过程、方法及最后的实验分析。首先,介绍了税务信息系统的发展现状,重点分析了检测相似重复数据的字段匹配算法
分相似重复的个体数据,如表1所示。表A中列的数据和表B中列的数据作为对比字段,检测两表中的数据相似重复性。系统运行在计算机工作站上,计算机工作站的硬件配置CPU P4 2.0 G,2G 内存;操作系统为 Windows Server 2000。测试指标和实验结果如图2所示,其中横轴为数据分组。从图2中可以看出通过字符匹配算法较好的检测了数据表中数据的相似重复性。
5 结束语
本文主要介绍了基于数据清理技术的税务地理信息系统数据的获取原理、过程、方法及最后的实验分析。首先,介绍了税务信息系统的发展现状,重点分析了检测相似重复数据的字段匹配算法。最后通过实例验证了本文算法的有效性,实验结果表明本文算法具有较强的实用性。
参考文献:
曹忠升,万劲伟.基于语义的数据清理技术[J].华中科技大学学报:自然科学版,2005,33(2):76-78.
肖智,李勇,李昌隆.一种基于相关分析的数据预处理方法[J].重庆大学学报:自然科学版,2002,25(6):132-134.
[3] Dey D,Sarkar S,De P.A distance-based approach to entity reconciliation in heterogeneous databases[J].IEEE Transactions on Knowledge and Data Engineering,2002,14(3):567-582.
[4] Monge A E.Matching algorithms within a duplicate detection system[J].IEEE Data Engineer Bulletin,2000,23(4):14-20.
[5] 周宏广.异构数据源集成中清洗策略的研究及应用[D].长沙:中南大学,2004.
[6] Verykios V S, Elmagarmid A K,Houstis E N,Automating the approximate record matching process[J].Journal of Information Sciences,2000,126(14):83-98.
[7] 史习一.在数据清洗过程中基于MMDB数据匹配技术研究[D].成都:电子科技大学,2007.
[8] 时念云,张金明,褚希.基于CURE算法的相似重复记录检测[J].计算机工程,2009,35(5):56-58.