对于文本MEDLINMEDLINE生物医学文本聚类
最后更新时间:2024-01-28
作者:用户投稿本站原创
点赞:3955
浏览:9452
论文导读:文,跟踪最新的进展,成为一个越来越困难的任务。生物医学文本聚类技术通过将相似的文档聚在一起,不相似的文档分开,能帮助用户(如生物学家)有效地组织、概括、导航和定位生物医学文献信息。由此,作为一种有效的生物医学文本挖掘工具,生物医学文本聚类具有重要的论述探讨作用和广阔的运用前景。本论文以生物医学文本为主要探讨
摘要:生物医学是21世纪的热门探讨领域,近年来该学科文献增加速度惊人,但同时也导致了严重的信息过载现象:以大量的文献中找到自己感兴趣的论文,跟踪最新的进展,成为一个越来越困难的任务。生物医学文本聚类技术通过将相似的文档聚在一起,不相似的文档分开,能帮助用户(如生物学家)有效地组织、概括、导航和定位生物医学文献信息。由此,作为一种有效的生物医学文本挖掘工具,生物医学文本聚类具有重要的论述探讨作用和广阔的运用前景。本论文以生物医学文本为主要探讨对象,提出了一种新的计算语义相似度的策略并且运用于生物医学本体——医学主题词表MeSH (Medical Subject Headings)。同时针对医学文本的特性,提出了基于主辅信息融合对策的半监督聚类算法SSNCut,并且运用于生物医学文本的聚类探讨,实验表明该策略提升了生物医学文本聚类的精度。本论文的具体内容包括:1)介绍了生物医学文本挖掘当前的探讨进展,概述了文本聚类的模型表示、评估标准以及常用的聚类算法。此外,回顾了生物医学文本聚类的相关探讨,指出了当前探讨的不足。2)针对MEDLINE独有的MeSH本体,综述了基于本体的语义相似度度量策略,提出了一种更精确的语义相似度度量策略,并且提出了两种基于MeSH本体计算语义相似度的框架,实验验证了我们提出的相似度算法优于一般的语义相似度度量策略。3)针对MEDLINE文献包含的局部内容信息(bag of words)、MeSH语义信息和全局内容信息(相关文献列表),提出一种融合这三种信息的半监督聚类算法,实验验证了该算法可以有效利用这三种信息来提升生物医学文本聚类的精度。关键词:文本挖掘论文半监督聚类论文信息融合论文生物医学文本论文语义相似度论文MeSH。(TP3)论文
本论文由www.7ctime.com,需要论文可以联系人员哦。摘要5-6
ABSTRACT6-8
第一章 绪论8-13
参考文献53-59
致谢59-60
在学期间的探讨成果及发表的论文60-61
摘要:生物医学是21世纪的热门探讨领域,近年来该学科文献增加速度惊人,但同时也导致了严重的信息过载现象:以大量的文献中找到自己感兴趣的论文,跟踪最新的进展,成为一个越来越困难的任务。生物医学文本聚类技术通过将相似的文档聚在一起,不相似的文档分开,能帮助用户(如生物学家)有效地组织、概括、导航和定位生物医学文献信息。由此,作为一种有效的生物医学文本挖掘工具,生物医学文本聚类具有重要的论述探讨作用和广阔的运用前景。本论文以生物医学文本为主要探讨对象,提出了一种新的计算语义相似度的策略并且运用于生物医学本体——医学主题词表MeSH (Medical Subject Headings)。同时针对医学文本的特性,提出了基于主辅信息融合对策的半监督聚类算法SSNCut,并且运用于生物医学文本的聚类探讨,实验表明该策略提升了生物医学文本聚类的精度。本论文的具体内容包括:1)介绍了生物医学文本挖掘当前的探讨进展,概述了文本聚类的模型表示、评估标准以及常用的聚类算法。此外,回顾了生物医学文本聚类的相关探讨,指出了当前探讨的不足。2)针对MEDLINE独有的MeSH本体,综述了基于本体的语义相似度度量策略,提出了一种更精确的语义相似度度量策略,并且提出了两种基于MeSH本体计算语义相似度的框架,实验验证了我们提出的相似度算法优于一般的语义相似度度量策略。3)针对MEDLINE文献包含的局部内容信息(bag of words)、MeSH语义信息和全局内容信息(相关文献列表),提出一种融合这三种信息的半监督聚类算法,实验验证了该算法可以有效利用这三种信息来提升生物医学文本聚类的精度。关键词:文本挖掘论文半监督聚类论文信息融合论文生物医学文本论文语义相似度论文MeSH。(TP3)论文
本论文由www.7ctime.com,需要论文可以联系人员哦。摘要5-6
ABSTRACT6-8
第一章 绪论8-13
1.1 生物信息学概述8-10
1.1 生物信息学产生背景和概念8
1.2 生物信息学的探讨内容8-10
1.2 生物医学文本挖掘概述10-11
1.2.1 生物医学文本挖掘的产生背景10
1.2.2 生物医学文本聚类概述10-11
1.3 本论文探讨的主要内容11
1.4 论文内容和组织结构11-13
第二章 生物医学文本的聚类算法探讨13-212.1 文本聚类概述13-14
2.2 文本表示14
2.3 常用聚类算法14-16
2.4 半监督聚类算法概述16-18
2.5 聚类评估标准18-19
2.6 生物医学文本聚类的探讨近况19-20
2.6.1 生物医学文本的特有特点:MeSH及PRA19
2.6.2 根据文献内容信息聚类的探讨19-20
2.6.3 根据语义信息聚类探讨20
2.7 生物医学文本聚类探讨的不足20
2.8 本章小结20-21
第三章 基于MESH本体的语义相似度度量21-393.1 MESH来源及其结构介绍21-23
3.2 MESH运用23-24
3.3 基于MESH本体的语义相似度度量策略24-29
3.1 通用概念25
3.2 基于路径的策略25-26
3.3 基于信息量的策略26-27
3.4 一种新的融合策略27-28
3.5 基于MeSH本体的语义相似度度量28-29
3.4 实验及结果浅析29-37
3.4.1 实验数据集29-31
3.4.2 评估标准31-32
3.4.3 实验及结果浅析32-37
3.5 本章小结37-39
第四章 基于信息融合的MEDLINE聚类算法39-524.1 MEDLINE文献的三种信息39
4.2 信息融合39-41
4.3 相似度融合对策LINEAR COMBINATION(LCM)41
4.4 主辅融合对策41-44
4.1 Normapzed Cut算法41-42
4.2 改善的半监督聚类算法SSNCut42-44
4.5 实验及结果浅析44-51
4.5.1 实验数据集44
4.5.2 实验结果和浅析44-51
4.6 本章小结51-52
第五章 总结和展望52-53参考文献53-59
致谢59-60
在学期间的探讨成果及发表的论文60-61