试议抽取基于正则表达式Web信息抽取系统与实现期刊
最后更新时间:2024-01-24
作者:用户投稿本站原创
点赞:7649
浏览:24134
论文导读:能演示和性能浅析55-615.4.1系统的环境555.4.2系统的基本功能演示55-595.4.3系统的性能浅析59-615.5本章小结61-63第六12下一页
摘要:近年来,随着Web信息抽取技术探讨的深入和快速的进展,基于正则表达式的信息抽取技术已成为现阶段数据挖掘领域的一个探讨热点。本论文对这项技术进行了深入的探讨,通过对当前Web领域的几种经典算法的比较、浅析,提出了基于正则表达式的REIE(Regular Expression Information Extraction)算法的信息抽取技术,并对基于该算法的信息抽取系统进行了设计和实现。本论文首先介绍了Web信息抽取技术的相关论述知识以及系统结构,通过浅析和比较几种经典的信息抽取策略,提出了一种基于REIE(Regular ExpressionInformation Extraction)的信息抽取技术,同时给出了信息抽取系统的评价标准。其次,本论文对web及正则表示式的相关技术进行了详细的介绍。然后,通过浅析Web文本,详细地证明了HTMLParser的信息剖析方式和抽取原理,并且给出了HTMLParser的数据结构。最后根据正则表达式的抽取规则,提出了本系统的核心算法,即REIE(Regular Expression Information Extraction)抽取算法。本论文最后实现了一个基于REIE的网页内容抽取系统,主要抽取网页新闻的标题、超链接、正文内容等相关信息。该系统能实时的进行网页内容抽取,并将抽取结果以可视化的方式呈现给用户,同时,本论文对该系统进行了验证、测试。实验表明,对于基本的新闻相关信息,本论文提出的策略具有较高的抽全率和抽准率,在一定程度上提升了Web信息抽取的实时性和准确性。关键词:HTMLParser论文正则表达式论文信息抽取论文REIE算法论文
本论文由www.7ctime.com,需要论文可以联系人员哦。摘要3-4
Abstract4-7
第一章 绪论7-13
4.
第六论文导读:章总结和展望63-656.1论文工作总结636.2工作展望63-65致谢65-67参考文献67-70上一页12
章 总结和展望63-65
参考文献67-70
摘要:近年来,随着Web信息抽取技术探讨的深入和快速的进展,基于正则表达式的信息抽取技术已成为现阶段数据挖掘领域的一个探讨热点。本论文对这项技术进行了深入的探讨,通过对当前Web领域的几种经典算法的比较、浅析,提出了基于正则表达式的REIE(Regular Expression Information Extraction)算法的信息抽取技术,并对基于该算法的信息抽取系统进行了设计和实现。本论文首先介绍了Web信息抽取技术的相关论述知识以及系统结构,通过浅析和比较几种经典的信息抽取策略,提出了一种基于REIE(Regular ExpressionInformation Extraction)的信息抽取技术,同时给出了信息抽取系统的评价标准。其次,本论文对web及正则表示式的相关技术进行了详细的介绍。然后,通过浅析Web文本,详细地证明了HTMLParser的信息剖析方式和抽取原理,并且给出了HTMLParser的数据结构。最后根据正则表达式的抽取规则,提出了本系统的核心算法,即REIE(Regular Expression Information Extraction)抽取算法。本论文最后实现了一个基于REIE的网页内容抽取系统,主要抽取网页新闻的标题、超链接、正文内容等相关信息。该系统能实时的进行网页内容抽取,并将抽取结果以可视化的方式呈现给用户,同时,本论文对该系统进行了验证、测试。实验表明,对于基本的新闻相关信息,本论文提出的策略具有较高的抽全率和抽准率,在一定程度上提升了Web信息抽取的实时性和准确性。关键词:HTMLParser论文正则表达式论文信息抽取论文REIE算法论文
本论文由www.7ctime.com,需要论文可以联系人员哦。摘要3-4
Abstract4-7
第一章 绪论7-13
1.1 课题背景及作用7-8
1.2 国内外进展与探讨近况8-9
1.3 本论文的探讨内容9-10
1.4 本论文的组织结构10-13
第二章 WEB 信息抽取技术13-232.1 WEB 信息抽取技术概述13-14
2.2 WEB 信息抽取系统结构14-15
2.3 WEB 信息抽取的常用策略15-21
2.3.1 基于自然语言处理方式的信息抽取16-17
2.3.2 基于 HTML 结构的信息抽取17-18
2.3.3 基于本体(Ontology)的信息抽取18-19
2.3.4 基于包装器归纳方式的信息抽取19-20
2.3.5 基于 Web 查询的信息抽取20-21
2.4 信息抽取系统的评价标准21-22
2.5 本章小结22-23
第三章 WEB 相关技术与正则表达式23-333.1 WEB 相关技术23-29
3.1.1 Web 页面的特点23
3.1.2 Web 网页格式浅析23-25
3.1.3 XML 概述25-27
3.1.4 文档对象模型 DOM27
3.1.5 XPath 技术27-29
3.2 正则表示式29-313.3 本章小结31-33
第四章 基于正则表达式的信息抽取策略33-494.1 WEB 文本浅析33-36
4.1.1 网页预处理33-34
4.1.2 URL 抽取34
4.1.3 正文文本抽取34-35
4.1.4 特点向量的项权重35-36
4.2 HTMLPARSER 包36-404.
2.1 常见的剖析方式36-37
4.2.2 HTMLParser 包剖析方式37-38
4.2.3 HTMLParser 的抽取原理38-39
4.2.4 HTMLParser 的数据结构39-40
4.3 正则表达式的运用40-424.4 正则表达式算法42-47
4.5 本章小结47-49
第五章 WEB 信息抽取系统的实现49-635.1 网页预处理模块49-53
5.1.1 boost 正则表达式库49-51
5.1.2 编码转换51-52
5.1.3 网页无用标记的过滤52-53
5.2 网页信息抽取模块53-545.3 网页信息数据存储模块54-55
5.4 系统的基本功能演示和性能浅析55-61
5.4.1 系统的环境55
5.4.2 系统的基本功能演示55-59
5.4.3 系统的性能浅析59-61
5.5 本章小结61-63第六论文导读:章总结和展望63-656.1论文工作总结636.2工作展望63-65致谢65-67参考文献67-70上一页12
章 总结和展望63-65
6.1 论文工作总结63
6.2 工作展望63-65
致谢65-67参考文献67-70