免费论文查重: 大雅 万方 维普 turnitin paperpass

探讨基于SVM林产品贸易信息分类

最后更新时间:2023-12-26 作者:用户投稿原创标记本站原创 点赞:3985 浏览:11285
论文导读:品贸易Web信息增量爬取。通讯作者:陈钊(1971—),男,北京林业大学信息学院副教授,主要研究方向:林业信息推送服务。
【基于SVM的林产品贸易信息分类由专注毕业论文与职称论文的www.7ctime.com提供,转载请保留.摘要】随着网络技术的普及与发展,互联网上林产品贸易信息迅速膨胀,在林产品贸易信息聚合的过程中需要对林产品信息进行分类。本文利用TF-IDF(term frequency-inverse document frequency)和SVM(Support Vector Machine)实现了对林产品贸易信息的分类。并以准确率和召回率为评价标准,对该策略进行了实验分析,实验表明该策略能有效的实现林产品贸易信息分类。
【关键词】网页;分类;采集了10个类别共5000个网页,每个类别随机抽取3/5作为训练样本,余下的2/5作为测试集,如表1所示。
表1 实验数据
类别训练集网页数测试集网页数网页总数类别训练集网页数测试集网页数网页总数
桦木300200500胶合板300200500
松木300200500防火板300200500
红木300200500纤维板300200500
杨木300200500密度板300200500
榆木300200500刨花板300200500
本文中用于评估的两个指标分别是准确率(Precision)和召回率(Recall)。其数学定义如下:
准确率:;
召回率:,
其中,Np是分类器预测为C类的文档数,Nc是实际属于C类的文档数,Ncp是正确分类的文档数。
图2 实验结果分析
由图2可见P,R以及F值均较高,说明该策略在应用在林产品贸易Web信息分类时较为有效。
参考文献
[1]段军峰,黄维通,陆玉昌.中文网页分类研究与系统实现[J].计算机科学,2007,34(6):210-213.
[2]孙建涛,沈抖,陆玉昌,等.网页分类技术[J].清华大学学报:自然科学版,2004,44(1):65-68.
[3]许世明,武波,马翠,等.一种基于预分类的高效SVM中文网页分类器[J].计算机工程与应用,2010(1):125-128.
[4]王美方,刘培玉,朱振方.基于TFIDF的特征选择策略[J].计算机工程与设计,2008,28(23):5795-5796.
[5]陈剑.林产品贸易信息推送的文本信息过滤技术的研究[D].北京林业大学,2012.
基金项目:高校基本科研业务费专项基金资助项目“多元异构林产品信息推送平台研究与实践”(项目编号:BLYX200928)。
作者简介:田世全(1986—),男,北京林业大学硕士研究生,主要研究林产品贸易Web信息增量爬取。
通讯作者:陈钊(1971—),男,北京林业大学信息学院副教授,主要研究方向:林业信息推送服务。 全文地址:www.7ctime.com/gjmylw/lw39390.html上一论文:浅谈我国和泰国间双边贸易与展望