免费论文查重: 大雅 万方 维普 turnitin paperpass

研讨微博监管系统部分模块设计和实现-学年

最后更新时间:2024-01-25 作者:用户投稿原创标记本站原创 点赞:9667 浏览:36124
论文导读:-504.1.4微博内容浅析50-524.2微博分享内容下载模块52-554.2.1视频下载url剖析54-554.2.2视频下载554.3微博内容分类模块55-634.3.1文本预处理56-584.3.2朴素贝叶斯分类58-624.3.3人工审核62-634.4本章小结63-64第五章总结和展望64-66致谢66-67参考文献67-71
摘要:随着信息推送技术的兴起和迅速进展,微博已成为这种技术的最流行衍生平台之一,并且逐渐成为网络用户发布信息重要场所之一。以往网络上的安全不足如、暴力、恐怖等非法信息的传播也逐渐出现在微博平台上,这些信息极大的影响了国家和社会的稳定。由于微博是近几年新出现的传播平台,以往的网络监管系统还没有加入对微博的监管,微博监管系统正是为了改善网络监管的全面性而出现的。微博监管系统用于监管微博平台上信息的合法性。这些信息的合法性主要是以两方面来进行判断:第一是判断微博本身内容的合法性;第二是如果微博分享了网络上的信息,则判断这些分享内容的合法性。基于系统扩展性的考虑,本论文采取层次化设计的策略来设计系统。该设计方式使得以后如果需要增加系统功能变得容易。微博监管系统的层次结构包括微博内容爬取层,微博内容存储层以及微博内容浅析层。微博内容爬取层负责爬取微博平台上的微博内容以及下载微博信息中分享的网络内容。微博内容存取层负责数据的存取,这些数据包括微博内容本身以及微博中分享的网络数据。微博内容浅析层负责对这些数据进行浅析,如对文本进行分类,浅析平台上的舆情信息如话题追踪等。本论文主要完成了微博内容爬虫模块和微博分享内容下载模块中的视频网站文件下载功能,微博内容浅析层中的微博内容分类模块。微博内容爬虫模块主要尽可能的获取微博平台上的所有微博信息,微博内容爬虫模块采取了类似于网络爬虫的思想并结合微博平台提供的接口来实现。微博爬虫模块主要步骤包括Oauth认证,微博用户爬取,用户微博获取和微博内容浅析。在浅析出微博中的分享的视频文件的url后完成了这些视频文件的下载,视频下载功能完成了多线程中视频真实下载地址的剖析线程和多个下载线程之间的同步。最后是对微博内容进行分类,微博分类主要是利用朴素贝叶斯分类器来完成的,斯分类器的流程包括文本预处理,分类器分类和人工审核历程。其中文本预处理程序中的分词功能采取了中科院的ICTCLAS分词系统。关键词:微博监管论文贝叶斯分类论文视频下载论文Oauth认证论文
本论文由www.7ctime.com,需要论文可以联系人员哦。摘要5-6
ABSTRACT6-8
目录8-10
图目录10-11
表目录11-12
第一章 绪论12-15

1.1 项目背景与作用12-13

1.2 国内外探讨近况13-14

1.3 本论文的结构14-15

第二章 相关技术概述15-23

2.1 主流微博监管系统浅析15-16

2.2 网络爬虫技术16-18

2.3 中文分词技术18-21

2.3.1 中文分词的策略和比较18-19

2.3.2 中科院ICTCLAS分词系统19-20

2.3.3 中文分词衡量标准20-21

2.4 朴素贝叶斯分类器21-22

2.5 本章小结22-23

第三章 微博监管系统概述23-41

3.1 微博监管系统整体框架23-24

3.2 微博内容爬虫模块24-26

3.3 微博分享内容下载模块26-30

3.1 微博P2P分享文件下载模块26-29

3.2 微博视频分享下载模块29-30

3.4 微博内容存储管理模块30-31

3.5 微博内容分类模块31-33

3.6 微博舆情浅析模块33-34

3.7 系统数据库34-40

3.7.1 系统数据库模型图34-35

3.7.2 系统主要数据表35-40

3.8 本章小结40-41

第四章 部分模块的设计和实现41-64

4.1 微博内容爬虫模块41-52

4.

1.1 Oauth认证43-46

4.

1.2 微博用户信息获取46-47

4.

1.3 微博内容获取47-50

4.

1.4 微博内容浅析50-52

4.2 微博分享内容下载模块52-55
4.

2.1 视频下载url剖析54-55

4.

2.2 视频下载55

4.3 微博内容分类模块55-63
4.

3.1 文本预处理56-58

4.

3.2 朴素贝叶斯分类58-62

4.

3.3 人工审核62-63

4.4 本章小结63-64
第五章 总结和展望64-66
致谢66-67
参考文献67-71