免费论文查重: 大雅 万方 维普 turnitin paperpass

研究算法基于高维聚类性文本挖掘算法

最后更新时间:2024-03-27 作者:用户投稿原创标记本站原创 点赞:34233 浏览:158060
论文导读:织映射的特征映射聚类算法。这些算法的非监督式的性质使得它们能根据数据间的相似性进行分类。这些算法在使用前必须把数据进行相应编码才能使用,比如将文本转化成短语或单词;又比如将检索词频率转化成逆转文档频率。这些算法的非监督式的性质使得它们根据相似性进行分类。这些算法要求数据编码成数字使用技术,如将文
0引言
自从广泛使用计算机来操纵和记录日常活动以来,数据库便与组织机构密不可分[1-2]。电脑在组织机构中得以普及使用的主要原因是计算机能高效存储和检索数据以及能在一个很小的区域存储大量数据。广泛使用计算机存储数据使得数据挖掘技术应运而生[3]。就许多源于:论文集www.7ctime.com
组织机构而言,传统的检索数据的方法如报告、查询等,不允许提取数据的隐藏信息是必要的。但是在一些情况下,某些格式的数据用传统的检索方法是很难处理和检索的。长文本文件和说明书的相关数据库很多,但在数据挖掘应用中很少使用,主要原因是在这些文本信息中缺乏结构性。因为这种联系的复杂性,在数据挖掘中文本挖掘也独立发展成一个领域[4]。
目前许多文本挖掘算法已经被广泛应用,例如在这个领域占据主导地位的基于自组织映射[5]的特征映射聚类算法。
这些算法的非监督式的性质使得它们能根据数据间的相似性进行分类。这些算法在使用前必须把数据进行相应编码才能使用,比如将文本转化成短语或单词;又比如将检索词频率转化成逆转文档频率[6]。
这些算法的非监督式的性质使得它们根据相似性进行分类。这些算法要求数据编码成数字使用技术,如将文本转化成短语或单词,然后将它们编码成使用技术。比如将检索词频率转化成逆转文档频率 [6],
文本要进行预处理,以消除拼写错误,形成词干以降低处理的复杂程度。大多数特征映射算法要求数据预处理进行上百次迭代,以产生一套足够详细有序的用户组[7]。对于比较大的文本集合来说,这项处理过程可能持续几天甚至几周[8-9]。
本文采用一种随机生长型自组织映射的新型高维特征映射算法,以便有效处理文本数据。该算法只需要少量迭代,就能够从非常大的文本集中产生良好的集群。映射到其他数据与将文本记录到用户组,能进一步提高算法的结果。最终的文本挖掘结果,可以作为该领域专家或数据分析员操控搜索的超文本地图。