用户手册
-深海网络舆情分析研究平台-
平台配置相关介绍
上海交通大学信息安全工程学院
二零一零年六月
校园网动态智能监控系统用户手册
目 录
概况 ............................................................................................................. 1
一、系统简介 ........................................................................................................................... 1
二、系统运行环境 ................................................................................................................... 1 三、系统编程语言 ................................................................................................................... 1 四、软系统功能特点 ............................................................................................................... 1
系统功能及操作步骤 ............................................. 错误!未定义书签。
一、“重点关注”选项 ........................................................................... 错误!未定义书签。 二、“水源总览”选项 ........................................................................... 错误!未定义书签。 三、“智能分类”选项 ........................................................................... 错误!未定义书签。 四、“专题信息”选项 ........................................................................... 错误!未定义书签。 五、“信息检索”选项 ........................................................................... 错误!未定义书签。 六、“数据报告”选项 ........................................................................... 错误!未定义书签。 七、“平台配置”选项 ............................................................................................................. 2 八、“退出系统”选项 ........................................................................... 错误!未定义书签。
附录 .......................................................................... 错误!未定义书签。
校园网动态智能监控系统用户手册 1
概况
一、 系统研制目的
深海网络舆情分析研究平台的建设目标是构造统一的高校网络信息分析处理平台,系统在全面获取用户监控目标网络发布信息的基础上,利用自然语言理解技术对于异构信息实现深层次的分析融合。系统对于结构存储的监控目标发布信息统筹进行分类、聚类、关联与统计分析,并通过友好的人机交互页面实现分析结果表达呈现,最终向校园网络监控工作提供科学、客观的决策依据。
近年来,国内互联网络监管部门在依托网络信息资源,实现舆论疏导及社会协调方面取得了长足进步。但目前对于互联网发布内容,尤其是对BBS论坛的监督、管理和引导工作,很大程度上还依赖于简单技术同人力相结合的方式,普遍存在的现状是工作强度大、时效性较差、效果不明显。鉴于此,上海交通大学率先推出具备论坛热点自动聚成功能的互联网媒体信息监控系统。监控系统主动获取目标论坛发布内容,在归一化存储异构论坛数据的基础上,实现目标论坛关于社会焦点话题的讨论情况呈现,以及针对论坛热点的无主题自动聚成功能与特殊事件实时预警功能。
互联网媒体信息监控系统主要面向教育界网络媒体监管部门的日常业务需求,向用户的互联网监督与管理工作提供科学、客观的决策依据。 二、 系统运行环境
操作系统:RedHat Linux 9以上 硬件平台:专项定制工控设备 三、 系统编程语言 C语言 C99 JAVA 1.5 程序量 8万行 四、 系统功能特点
基于独创的“定点网站深入挖掘”机制,全面获取目标论坛发布内容 目标论坛异构发布信息结构存储功能 社会焦点话题目标论坛讨论情况实时查询功能 目标论坛热点数据报告定制生成功能
目标论坛发布内容含特殊事件情况下的及时预警功能
第 1 页 共 17 页
校园网动态智能监控系统用户手册 2
一、 “平台配置”选项
主要包括监控目标配置、专题类别维护、专题规则维护3个模块。 1. 监控目标配置:
配置用户关注的站点,实现对站点信息的具体监控。
1.1. 站点添加、修改
基本信息
站点名称:通常指网站的全称,如复旦大学日月光华、新浪网等这样的称谓。
站点地址:一般指网站的域名或子域名地址,如bbs.fudan.edu.cn、www.sina.com.cn等。
第 2 页 共 17 页
校园网动态智能监控系统用户手册 3
频道名称:指监控目标的名称,对论坛而言,通常为具体版面的名称,对博客等新闻站点而言,通常指新闻站点的子站点的名称。 站点类型:主要包括新闻站点和论坛媒体 目标语言:包含中文网站和英文网站
目标网域:包含交大媒体、复旦媒体、境内网站、境外网站 浏览状态:包含境内浏览、境外浏览 活动状态:包含在用、停用
用户组:目标所属的用户组,管理员可以选择授权用户组,用户添加时默认该目标属于登录用户所属组
配置信息
监控目标网址:指监控目标站点的入口地址。论坛类通常为版面的入口地址,新闻类通常为子站点的入口地址
目标信息掩码:设置网站的链接地址的过滤条件,用于过滤如广告等无用的链接 标题起始标志:指定网页的html代码中的标题的起始位置 标题结束标志:指定网页的html代码中的标题的结束位置
作者起始标志:指定网页的html代码中的作者的结束位置,若不存在则置0 作者结束标志:指定网页的html代码中作者的的结束位置,若不存在则置0 IP起始标志:指定网页的html代码中IP地址的结束位置,若不存在则置0 IP结束标志:指定网页的html代码中IP地址的结束位置,若不存在则置0
2. 专题列表维护:
配置用于关心的专题信息,通过设置关键字及关联规则的方式实现对已存储信息的数据挖掘。
添加一级类别:对关联规则进行分门别类,便于管理。一级类别通常指专题较宽泛的定义。 添加二级类别:对关联规则进行分门别类,便于管理。二级类别在一级类别的基础上对专题
第 3 页 共 17 页
校园网动态智能监控系统用户手册 4
进行详细定义。
类别修改:对一定的类别的名称进行修改。
3. 专题规则维护
3.1 规则添加:
在已经定义一级类别及二级类别的情况下,设置管理规则。
第 4 页 共 17 页
校园网动态智能监控系统用户手册 5
规则:表征为关键字与关联规则的组合。如大学生+就业表示若站点的网页中同时出现大学生与就业关键字时,此网页就会被专题内容所标注。 一级规则类别:用户自定义的主类别 二级规则类别:用户自定义的子类别
本篇用户手册全面涉及互联网媒体信息监控系统管理界面上的各个主要配置选项,如果您在使用中遇到了新情况、新问题,请及时与我们联系,我们将会反馈给您详尽的解释文档和妥善的解决方案。
深海网络舆情分析研究平台监管目标配置手册
为了能够准确地将一篇帖子中的关键信息字段比如发帖人、发帖标题等提取出来,必须首先仔细分析每一个论坛站点网页文件的结构,作出针对此站点的配置信息,之后系统信息存储进程将以此为准,从具体的网页文件中提取出相关关键字段。
目标站点配置信息结构
第 5 页 共 17 页
校园网动态智能监控系统用户手册 6
每个目标站点都对应9个配置项,其中目标URL,目标描述,网站类型和帖子文件名掩码是必填项。目标URL,目标描述和挖掘深度含义与配置方法前文已经给出,网站类型选项方便管理员对于监管目标进行分类维护。本配置手册重点说明发帖作者和发帖标题起始、结束标记,以及帖子文件名掩码的配置方法。 监管目标发帖作者和发帖标题起始、结束标记配置信息选取原则
监管目标发帖作者和发贴标题起始、结束标记配置时,需要遵循以下两项基本原则:
1) 发帖作者和发贴标题的起始位置配置项必须是唯一的,以确保字段提取
进程在定位该字段时不会指向错误的位置。进程每次都是从网页文件的开头开始查找,一旦找到某字段的起始位置字符串,就认为已经正确定位到该字段,因此假如某字段的起始位置字符串在正确的位置之前就已经出现,那么必然会导致字段提取出错。前面所讲的唯一也就是指这个意思。
2) 每个选项的配置值必须限定在128个ASCII字符之内,其中一个中文字
符占两个ASCII字符的空间。
发帖作者和发帖标题起始、结束标记配置实例
以复旦论坛为例,首先任意选中某个版面的一篇帖子。这里选择的是“复旦日月光华站兼职信息”版块上的一个网页,对应url如下所示。
http://bbs.fudan.edu.cn/cgi-bin/bbs/bbscon?b=Part_Time_Job&f=M.1124601049.A&n=3982,网页源文件如下图所示。
第 6 页 共 17 页
校园网动态智能监控系统用户手册 7
Copyright © 2019- huatuowenda.com 版权所有 湘ICP备2023022495号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务