试论话题中文新闻话题动态演化及其关键技术
最后更新时间:2024-04-18
作者:用户投稿本站原创
点赞:27303
浏览:122371
论文导读:模型为论述指导,利用话题权重和无监督学习两种对策抽取新闻报道中的话题时间。该算法较同类策略具有更高的准确率,大大改善了现有工作中新闻话题与话题时间相关性差的不足。(4)针对已有话题动态演化挖掘策略在模型特点计算与模型动态更新上的不足,提出了一种基于特点演变的新闻话题动态演化挖掘策略。通过引入词项特点在话题
摘要:随着互联网的进展,网络新闻的日益普及已经成为一个不可阻挡的走势。相对传统新闻媒体,网络新闻在时效性与互动性上的优势使它对于社会重大事件的报道具有更为深远的影响力,成为人们获取新闻信息的主要来源。通常,人们希望能够将与某一事件相关的网络新闻信息整合成一个新闻话题,以而能够全面地了解新闻事件的概貌。面对这样的需求,以新闻话题为探讨对象,结合不同的探讨领域,衍生出了面向互联网的新闻搜索、新闻聚类、新闻分类、新闻热点挖掘等多个探讨方向,较好地解决了新闻话题的检测不足。但是,传统的新闻话题检测以新闻信息的文本话题抽取为主要的目标,缺乏对新闻话题的动态演化特性的挖掘和支持。随着用户对于新闻自动组织能力要求的提升,如何通过新闻话题的动态演化探讨对网络新闻流数据进行合理、有序的自动化处理与组织成为当前互联网信息处理技术的热点不足。新闻话题动态演化(或简称话题动态演化)探讨是对文本话题演变历程的时态语义挖掘。它首先建立在传统的话题模型探讨论述基础之上,将话题转化为可进行计算和比较的信息表示模型,同时结合文档的时间信息,充分探讨话题演化的不同阶段下与话题内容紧密关联的话题时间,并根据时间顺序构建话题序列,之后通过聚类的策略,深入挖掘演化历程中话题在强度和内容上的变化轨迹。话题动态演化探讨可以准确完整地获取新闻话题动态演化各个阶段的话题内容,帮助用户理解新闻话题的来龙去脉以及话题内容之间的相关性和差别性,由此在网络新闻检索、网络舆情监控、互联网突发事件检测与应急管理等方面具有十分重要的作用和运用前景。在这样的探讨背景下,本论文针对新闻话题动态演化探讨中的论述性不足与技术挑战,以中文新闻为基础,对新闻话题动态演化中的若干关键不足进行了深入探讨。论文首先介绍了新闻话题动态演化探讨的背景和作用,浅析了该探讨的系统框架和主要探讨对象,讨论了该领域的国内外相关工作,以论述上阐述了新闻话题动态演化探讨的基本思想和探讨思路。接着,论文围绕话题模型、时态信息处理以及话题动态演化挖掘三个方面展开深入探讨,提出一种面向中文网络新闻的话题信息抽取策略,同时,给出一种针对真实新闻文本的时态表达规范化处理算法,在此基础上,又构建一个面向中文新闻网页的话题时间剖析器,自动抽取话题时间,最后结合以上工作,提出一种具有统一框架的新闻话题演化挖掘算法。本论文的主要贡献可归纳为以下几个方面:(1)针对中文新闻话题信息抽取正确率低导致话题模型性能下降的不足,提出了一种基于语言学知识的中文新闻话题信息抽取策略。该策略基于对互联网新闻特点的探讨,通过引入中文词性与位置特点建立启发式规则,修正了错误标注的话题词候选对象,进而有效扩充了话题词对象集合,提升了抽取结果的语义正确性和话题完整性。(2)针对目前时态表达规范化处理相关工作中参照时间选择机制不能适应真实新闻文本的不足,提出了一种基于参照时间动态选择的时态表达规范化算法。通过挖掘时态表达中修饰符和时态名词两部分内容各自的时态参照特点,对其进行参照分类,在此基础上根据时态表达的类别为其分配正确的参照时间,同时利用场景-时间转换模型解决模糊时间的去模糊化不足,显著提升了时态表达规范化系统的准确率和普适性。(3)针对新闻话题时间抽取算法准确率较低的不足,提出了一种基于话题-时间依存联系模型的话题时间抽取策略。该策略通过深入探讨不同类型新闻的报道特性和网页的结构特点,挖掘话题信息与时间信息之间具有的位置依存联系和语义依存联系,构建话题-时间映射模型,并以该模型为论述指导,利用话题权重和无监督学习两种对策抽取新闻报道中的话题时间。该算法较同类策略具有更高的准确率,大大改善了现有工作中新闻话题与话题时间相关性差的不足。(4)针对已有话题动态演化挖掘策略在模型特点计算与模型动态更新上的不足,提出了一种基于特点演变的新闻话题动态演化挖掘策略。通过引入词项特点在话题演化历程中的变化特性,构建增量式特点计算模型,并且利用已有话题相关文档和最新文档进行话题特点的正向融合和逆向过滤,显著提升了话题模型的准确率,充分改善了关联计算的整体性能,进而有效提升了最终挖掘结果的正确性和完整性。通过本论文的探讨,我们解决了目前信息处理技术对于新闻话题演化特性探讨的不足,建立了以时间线索挖掘话题动态演化的论述框架,提出了新闻话题动态演化探讨的系统策略,为以话题动态演化探讨为论述论文导读:识的中文新闻话题信息抽取37-512.1引言37-382.2相关工作38-392.3中文网络新闻特点浅析39-412.3.1特点筛选对策39-402.3.2新词特点浅析40-412.4新闻话题信息抽取41-462.4.1数据结构定义41-422.4.2基于语言特点的话题词抽取42-462.4.3话题权重计算462.5实验结果及浅析46-492.
本论文由www.7ctime.com,需要论文可以联系人员哦。摘要5-7
ABSTRACT7-17
第1章 绪论17-37
5.
致谢125-127
在读期间发表的学术论文127-129
在读期间参加的科研项目与获奖情况129
摘要:随着互联网的进展,网络新闻的日益普及已经成为一个不可阻挡的走势。相对传统新闻媒体,网络新闻在时效性与互动性上的优势使它对于社会重大事件的报道具有更为深远的影响力,成为人们获取新闻信息的主要来源。通常,人们希望能够将与某一事件相关的网络新闻信息整合成一个新闻话题,以而能够全面地了解新闻事件的概貌。面对这样的需求,以新闻话题为探讨对象,结合不同的探讨领域,衍生出了面向互联网的新闻搜索、新闻聚类、新闻分类、新闻热点挖掘等多个探讨方向,较好地解决了新闻话题的检测不足。但是,传统的新闻话题检测以新闻信息的文本话题抽取为主要的目标,缺乏对新闻话题的动态演化特性的挖掘和支持。随着用户对于新闻自动组织能力要求的提升,如何通过新闻话题的动态演化探讨对网络新闻流数据进行合理、有序的自动化处理与组织成为当前互联网信息处理技术的热点不足。新闻话题动态演化(或简称话题动态演化)探讨是对文本话题演变历程的时态语义挖掘。它首先建立在传统的话题模型探讨论述基础之上,将话题转化为可进行计算和比较的信息表示模型,同时结合文档的时间信息,充分探讨话题演化的不同阶段下与话题内容紧密关联的话题时间,并根据时间顺序构建话题序列,之后通过聚类的策略,深入挖掘演化历程中话题在强度和内容上的变化轨迹。话题动态演化探讨可以准确完整地获取新闻话题动态演化各个阶段的话题内容,帮助用户理解新闻话题的来龙去脉以及话题内容之间的相关性和差别性,由此在网络新闻检索、网络舆情监控、互联网突发事件检测与应急管理等方面具有十分重要的作用和运用前景。在这样的探讨背景下,本论文针对新闻话题动态演化探讨中的论述性不足与技术挑战,以中文新闻为基础,对新闻话题动态演化中的若干关键不足进行了深入探讨。论文首先介绍了新闻话题动态演化探讨的背景和作用,浅析了该探讨的系统框架和主要探讨对象,讨论了该领域的国内外相关工作,以论述上阐述了新闻话题动态演化探讨的基本思想和探讨思路。接着,论文围绕话题模型、时态信息处理以及话题动态演化挖掘三个方面展开深入探讨,提出一种面向中文网络新闻的话题信息抽取策略,同时,给出一种针对真实新闻文本的时态表达规范化处理算法,在此基础上,又构建一个面向中文新闻网页的话题时间剖析器,自动抽取话题时间,最后结合以上工作,提出一种具有统一框架的新闻话题演化挖掘算法。本论文的主要贡献可归纳为以下几个方面:(1)针对中文新闻话题信息抽取正确率低导致话题模型性能下降的不足,提出了一种基于语言学知识的中文新闻话题信息抽取策略。该策略基于对互联网新闻特点的探讨,通过引入中文词性与位置特点建立启发式规则,修正了错误标注的话题词候选对象,进而有效扩充了话题词对象集合,提升了抽取结果的语义正确性和话题完整性。(2)针对目前时态表达规范化处理相关工作中参照时间选择机制不能适应真实新闻文本的不足,提出了一种基于参照时间动态选择的时态表达规范化算法。通过挖掘时态表达中修饰符和时态名词两部分内容各自的时态参照特点,对其进行参照分类,在此基础上根据时态表达的类别为其分配正确的参照时间,同时利用场景-时间转换模型解决模糊时间的去模糊化不足,显著提升了时态表达规范化系统的准确率和普适性。(3)针对新闻话题时间抽取算法准确率较低的不足,提出了一种基于话题-时间依存联系模型的话题时间抽取策略。该策略通过深入探讨不同类型新闻的报道特性和网页的结构特点,挖掘话题信息与时间信息之间具有的位置依存联系和语义依存联系,构建话题-时间映射模型,并以该模型为论述指导,利用话题权重和无监督学习两种对策抽取新闻报道中的话题时间。该算法较同类策略具有更高的准确率,大大改善了现有工作中新闻话题与话题时间相关性差的不足。(4)针对已有话题动态演化挖掘策略在模型特点计算与模型动态更新上的不足,提出了一种基于特点演变的新闻话题动态演化挖掘策略。通过引入词项特点在话题演化历程中的变化特性,构建增量式特点计算模型,并且利用已有话题相关文档和最新文档进行话题特点的正向融合和逆向过滤,显著提升了话题模型的准确率,充分改善了关联计算的整体性能,进而有效提升了最终挖掘结果的正确性和完整性。通过本论文的探讨,我们解决了目前信息处理技术对于新闻话题演化特性探讨的不足,建立了以时间线索挖掘话题动态演化的论述框架,提出了新闻话题动态演化探讨的系统策略,为以话题动态演化探讨为论述论文导读:识的中文新闻话题信息抽取37-512.1引言37-382.2相关工作38-392.3中文网络新闻特点浅析39-412.3.1特点筛选对策39-402.3.2新词特点浅析40-412.4新闻话题信息抽取41-462.4.1数据结构定义41-422.4.2基于语言特点的话题词抽取42-462.4.3话题权重计算462.5实验结果及浅析46-492.
5.1实验数据46-472.2实验评估47-492.
指导的新闻专题集成和网络舆情预警奠定了论述基础,也为Web环境下公共安全与应急决策论述和技术的进一步进展提供了新的思路。关键词:话题演化论文话题模型论文时态信息论文Web信息处理论文机器学习论文本论文由www.7ctime.com,需要论文可以联系人员哦。摘要5-7
ABSTRACT7-17
第1章 绪论17-37
1.1 探讨背景17-20
1.2 探讨作用20-22
1.3 国内外相关探讨综述22-32
1.3.1 话题模型23-26
1.3.2 时态信息处理26-30
1.3.3 话题演化模型30-32
1.4 本论文探讨内容32-34
1.5 本论文的组织结构34-37
1.5.1 内容组织34-35
1.5.2 文献综述35-37
第2章 基于语言学知识的中文新闻话题信息抽取37-512.1 引言37-38
2.2 相关工作38-39
2.3 中文网络新闻特点浅析39-41
2.3.1 特点筛选对策39-40
2.3.2 新词特点浅析40-41
2.4 新闻话题信息抽取41-46
2.4.1 数据结构定义41-42
2.4.2 基于语言特点的话题词抽取42-46
2.4.3 话题权重计算46
2.5 实验结果及浅析46-49
2.5.1 实验数据46-47
2.5.2 实验评估47-49
2.6 本章小结49-51
第3章 基于动态转换机制的新闻时态表达规范化处理51-673.1 引言51-53
3.2 相关工作53-54
3.3 参照时间动态选择54-58
3.1 时态参照关联模型54-56
3.2 隐式时态表达分类56-57
3.3 参照时间选择机制57-58
3.4 时态表达规范化处理58-62
3.4.1 规范化处理算法59
3.4.2 时态表达去模糊化59-62
3.5 实验结果与浅析62-65
3.5.1 实验数据62
3.5.2 实验评估62-65
3.6 本章小结65-67
第4章 基于话题-时间依存联系的新闻话题时间抽取67-854.1 引言67-68
4.2 相关工作68-69
4.3 新闻话题-时间联系模型69-73
4.3.1 基于位置依存联系的紧耦合模型70-72
4.3.2 基于语义依存联系的松耦合模型72-73
4.4 新闻话题时间抽取73-794.1 新闻网页分类74-75
4.2 基于话题权重的话题时间抽取算法75-76
4.3 无监督学习的话题时间抽取算法76-79
4.5 实验结果与浅析79-83
4.5.1 实验设置79
4.5.2 实验评估79-83
4.6 本章小结83-85
第5章 基于特点演变的新闻话题演化挖掘85-1095.1 引言85-88
5.2 相关工作88-89
5.3 话题演化特点浅析89-92
5.3.1 话题模型特点选择90-91
5.3.2 话题特点演变91-92
5.4 新闻话题动态演化挖掘92-965.
4.1 特点计算模型93-95
5.4.2 话题关联融合95-96
5.5 实验结果与浅析96-1075.1 实验数据96-98
5.2 评测机制98-100
5.3 实验设计100-101
5.4 实验评测101-107
5.6 本章小结107-109
第6章 结束语109-1136.1 本论文的主要工作109-110
6.2 本论文的主要贡献和革新点110
6.3 下一步的探讨工作110-113
参考文献113-125致谢125-127
在读期间发表的学术论文127-129
在读期间参加的科研项目与获奖情况129