免费论文查重: 大雅 万方 维普 turnitin paperpass

浅析非平衡大数据下保险欺诈识别

最后更新时间:2024-03-21 作者:用户投稿原创标记本站原创 点赞:18608 浏览:82420
论文导读:文化,算法建模文化可以得到更有效的预测模型。随机森林对缺失数据和非平衡的数据比较稳健,可以很好地预测多达几千个解释变量的作用,而不需要对解释变量进行交叉检验及精炼,从而避开删除隐藏的有效信息。此外,随机森林算法还不容易产生过拟合现象,被誉为当前最好的算法之一。研究采用R软件的randomForest程序包命令对
【摘要】 随着保险欺诈(Insurance Fraud)向全球蔓延,研究策略开始由定性研究向实证研究过渡。然而现有分类器的设计都是基于类分布大致平衡这一假设的,针对现实世界中广泛存在不平衡数据这一事实,本研究对美国机动车保险机构提供的车险索赔非平衡大数据,运用随机森林(Random Forest)对欺诈进行识别预测,为构建我国保险欺诈识别模型提出倡议。
【关键词】 保险欺诈 识别模型 随机森林
国内外保险欺诈(Insurance Fraud)识别研究 早期的识别模型主要是以 Logit 模型为主。Artis、Ayuso 和 Guillen 建立了 AAG 欺诈识别模型。Caudill、Ayuso、Guillen 建立多项分对数模型。
Ridit模型通过建立标准组,将其他组的数据与之做对比来计算 R 值。我国学者叶明华1,运用 Logit 回归分析对识别因子进行精炼,将 BP 神经网络应用在车险欺诈识别中,得到了更高的准确率。
然而,在实际操作过程中,可能会因两方面因素影响,导致准确率偏差:一是数据样本小,缺乏对于现实中包含微弱信息的大型数据库的数据分析。二是以理想的数据平衡状态作为研究背景,脱离实际。
研究数据 研究样本为美国车辆保险机构提供的车险索赔数据,共包含 11336 项记录。其中 94 年的数据为训练集(6141 条),95 年的数据为测试集(5195 条)。共有包括“车辆品牌”、“事故发生地”等在内的 31 个自变量,一个应变量“欺诈与否”,诚实索赔为 0,欺诈索赔为 1,正类样本只占样本总量的 6%,为两分类非平衡大数据。
评价准则
目前分类算法常见的评价准则主要有:
(1) 准确率(Precision ): Precision= TP / ( TP + F P ) )
(2) 查全率(Recall): Recall = TP / ( TP + FN ))
此外,人们从医疗分析领域引入了一种新的评判策略—ROC分析,其横坐标是将负例错分为正例的概率(FPR),纵坐标是将正例分对的概率(TPR),通常采用ROC曲线下面积AUC来代替ROC曲线对分类器的性能进行定量评估。在众多现实分类任务中AUC已经替代准确率成为分类算法的性能评价指标。
本研究选取AUC作为分类器性能评价准则。 保险欺诈识别中的随机森林(Random Forest)应用 Leo Breiman2将统计学理论中的数据分析分为数据建模文化(The Data Modeling Culture),例如线性回归,逻辑回归,Cox 模型等;算法建模文化(The Algorithmic Modeling Culture),典型模型是 Leo Breiman 在决策树基础上建立的随机森林3。
相比数据建模文化,算法建模文化可以得到更有效的预测模型。随机森林对缺失数据和非平衡的数据比较稳健,可以很好地预测多达几千个解释变量的作用,而不需要对解释变量进行交叉检验及精炼,从而避开删除隐藏的有效信息。此外,随机森林算法还不容易产生过拟合现象,被誉为当前最好的算法之一。
研究采用 R 软件的 randomForest 程序包命令对数据进行分析。将训练集数据(1994 年数据)全部输入,设置参数,500 颗树(ntree),每个节点选取 5个特征值(mtry),构建随机森林欺诈识别模型。将测试集(1995 年数据)输入模型中,得到欺诈预测输出结果。图为预测结果ROC曲线,得到AUC面积为0.724。用ROC曲线的AUC评价诊断试验的准确性判断标准为:AUC在0.5~0.7之间表示诊断价值较低,在0.7~0.9之间表示诊断价值中等,大于0.9则表示诊断价值较高4。
结论与倡议
本文针对现实生活中存在的多为非平衡数据这一事实,对获得的车险索赔大数据进行欺诈识别研究。基于数据的不平衡特性,选取AUC作为分类器性能的评价指标,利用94年的数据对95年的车险欺诈进行预测,很好的保证了研究样本的
时间连贯性。 由于国内目前的车险欺诈识别研究没有针对非平衡数据的分析,研究结果没有准确的比较标准,从医疗领域利用AUC进行评价的分类器性能研究中可以看到,大多数预测研究的AUC都在0.7~0.8之间,且研究样本也并没有如此庞大。由此可以看出,本文的研究结果在可接受范围内。 在进一步的研究中,我们将会进行国内保险数据的收集和整理,规避人为的数据筛选,保持数据的原始性,通过进一步的研究分析,构建符合国内行情的,立足于现实的保险欺诈识别模型。
参 考 文 献
[1]叶明华,基于 BP 神经网络的保险欺诈识别研究[J].保险研究,2011(3):79-86
[2] Leo Breiman, Statistical Modeling: The Two Cultures[J].Statistical Science,2001,Vol. 16,No. 3: 199–231
[3] Leo Breiman, Random Forests[J].Machine Learning,2001,45(1):5–32
[4] Bradley A P. The use of the area under the ROC curve in the evaluation of machine learning algorithms[ J ]. Pattern Recognition,1997,30(7) 全文地址:www.7ctime.com/bxlyyzlw/lw45632.html上一论文:试述上海铁路局补充医疗保险风险管理的与深思