免费论文查重: 大雅 万方 维普 turnitin paperpass

试议浅析数据挖掘分类与预测

最后更新时间:2024-02-04 作者:用户投稿原创标记本站原创 点赞:6096 浏览:21778
论文导读:
摘 要:数据挖掘技术是信息时代的宠儿,而分类和预测是数据分析的两种基本形式,能预测未知数据的趋势。本文主要介绍了何为数据的分类和预测,并且通过判定树归纳细化了数据分类的划分步骤;通过介绍线性回归、多元回归以及非线性回归等预测方法加深了对数据预测的认识;并介绍了分类法准确率评估方法以及分类和预测的异同点。
关键词:数据挖掘分类预测判定树归纳线性回归保持法
:BDoI: 10.3969/j.issn.1003-6970.201

2.06.026

Analysis of Data Mining Classification and Prediction
FANG Shu-qing
(Computer science and Technology Institute of Chongqing University of Posts and Telecommunications, Chongqing 400000, China)
【Abstract】Data mining technology is the information age ’s pet, and the classification and prediction of data analysis is the two kinds of basic forms, to predict the unknown data trend. This paper mainly introduces how the data classification and prediction, and through the decision tree induce refinement data classification classification steps; through the introduction of linear regression, multiple regression and nonlinear regression prediction method to deepen to the data predict awareness; and describes the classification accuracy assesent methods and the classification and prediction of similarities and differences.
【Key words】Data mining; Classification; Decision tree; Linear regression
0引言
在当今社会中,数据库蕴藏着丰富的信息,能为我们做出明智的商务决策提供帮助。而分类和预测是数据分析的两种最基本的形式,能预测未知数据的发展趋势。
1数据挖掘的分类

1.1 何为数据挖掘的分类

数据挖掘的分类需要两个过程,过程一(如图1所示),首先建立一个可以表述预先给定的数据类的模型,这个模型由一些描述数据库属性的数据库元组来建造,并且假设任何一个数据库元组都属于一个由类标号属性确定的类,一般来说,每个类都是预先设定的类。对于数据挖掘的分类来说,每一个数据元组也可以作为一个实例、一个样本或者一个对象。训练数据集是指由为组建数据类模型而被分析的数据元组成的集合,其中每一个单个元组叫做一个训练样本,每一个训练样本都可由样本群随机选取。由于在选取的过程中,被选取的每个训练样本都有一个类标号,所以过程一也被称作有指导的学习,即在明确了被选取的每个训练样本的类标号属于哪个类的“指导”下进行的模型的学习。[2-5]
在一般情况下,数据类学习模型的提供形式主要有三种,分别为判定树、分类规摘自:毕业论文结论www.7ctime.com
则和数学公式。例如,可用用分类规则来处理一个给定消费者的信用信息数据库,可根据消费者的信誉度情况来识别消费者,并且此分类规则可以作为今后的数据样本分类的标准。
K-折交叉确认方法的评估原理为,把原始数据划分为A1,A2,A3,…,Ak等k个互不相交、大小相等的子集(也可称为“折”),训练和测试各需进行k次,其中,在我们用Ai表示第i次迭代的测试集,其它剩余的子集Ak(k≠i)都用来训练分类法。也就是说,第一次迭代的测试集为A1,剩余子集A2,A3,…,Ak用于训练分类法;第二次迭代的测试集为A2,剩余子集A1,A3,…,Ak用于训练分类法;按照此规律继续下去,便得到K-折交叉确认方法的准确估计,即k次迭代的正确分类数除以初始数据中的样本总数。
分类和预测都可以描述数据、构建模型以及预测未知数据的趋势,是数据分析的两种最基本的形式,并且随着社会信息化的进一步发展,数据挖掘技术将会广泛的应用于各个领域,因此,本论文的研究很有必要,也很有价值。
[3]邓纳姆(Dunham,M.H.)著,郭崇慧,田凤占,靳晓明等译数据挖掘教程[M]北京:清华大学出版社2009
[4]吉根林,帅克,孙志挥.数据挖掘技术及其应用[J].南京师范大学学报(自然科学版),2009,23(2):25-27.
[5]HanJiawei,MichelineKanmber.数据挖掘:概念与技术[M].范明,孟小峰,译,北京:机械工业出版社,2008.149-175.
[6]MehmedKantardzic.数据挖掘:概念、模型、方法和算法[M].闪四清,等译,北京:清华大学出版社,2008.144-169.
[7]汤宇松.数据挖掘系统设计[J].系统工程理论与实践,2009,(9):57-63.
[8]郝先臣等数据挖掘工具和应用中的问题[J]沈阳:东北大学学报(自然科学版),2009