产品概述
互联网时代,由于政府网站具有不受时间空间约束访问信息的能力,最能保证传递信息的及时性、存储信息的丰富性、获取信息的便捷性、使用信息的广泛性。因此一直以来各级政府部门都在努力把政府网站建设作为政府信息公开的第一平台。正是由于政府网站在电子政务中的核心位置,对信息的及时性和丰富性要求也越来越高,亟需选用一个信息采集整合系统定向实现对互联网信息的抓取,为支持政府网站运行的后台内容管理平台提供丰富的素材。为此,开普推出互联网信息采集系统,支持实现对Web页面、各种常见数据文件及数据库内容进行数据采集、分析、过滤、存储、和发布。
功能架构
借助目前先进的信息采集分类系统可以有效的丰富信息资源。同时将收集到的信息同步到内容管理系统中,由编辑在内容管理系统中进行二次编辑后发布。

信息采集系统是整个内容管理发布系统的素材库,它可以将信息源源不断的输送到内容管理发布系统中,再通过编辑人员的审核和编辑加工,发布到门户网站中,提供给用户浏览。
功能描述
(一)采集端:
1.按网站分类保存数据信息
支持按采集网站设置分类,可将某些采集网站设为分类规则,只要属于该网站的信息即送到相应分类中。比如政策法规栏目,这样就可以定向采集各网站的某些频道的信息内容。
2.按来源分类保存数据信息
将相关网站定义在同一个频道内,并将该频道或者多个频道设为分类规则,只要属于该频道的信息即送到相应分类中。比如新浪国内新闻频道等均可分别设置为单独的分类,这样就可以定向监控各网站的信息内容。
3.按用户需要分类保存数据信息
支持根据用户自身的需要灵活设置分类,比如将领导人讲话信息单独分类等。
4.自动去重
通过相关性引擎技术自动判别分类中文章的关系,如果发现描述相同事件的文章自动去除重复部分。
5.相关文章
通过相关性引擎技术自动判别文章之间的关联程度,当用户通过浏览界面查看具体文章时,系统自动提示和本文相关的其他文章。
6.分类树显示顺序可调整
在分类树建立好后仍旧可以在后台修改分类树的显示顺序。
(二)管理控制端 管理控制端采用基于WEB的管理方式,能够实现对整个信息采集引擎进行全面的系统管理,系统管理的功能如下:

支持通过管理子系统对整个系统进行系统控制,包括系统启动、停止,以及进行系统状态的监视;
1.可以进行网络配置,如配置代理服务器等;
2.可以设定系统的自动重启时间;
3.支持对系统采集的站点进行定义,如:配置站点起始URL,URL过滤规则,抓取深度,扫描间隔,站点采集压力,所属频道等;
4.支持用户自定义多级分类,主题树中分类显示顺序可调整;
5.支持过滤词典的维护;
6.可以创建系统的管理用户,以及对这些用户进行维护;
产品特点
1.极强的采集能力
采集系统能够对采集目标网站进行信息采集和监视其更新情况,用户可以设定需要采集的子栏目和URL信源,并可以灵活设置对该信源采集内容的类型和方式,以及更新时间、扫描间隔等,系统的扫描间隔最小可以设置成1分钟,即每隔一分钟,系统将自动扫描目标信源,以便及时发现目标信源的最新变化,并以最快的速度采集到本地。单机即可支持数百网站信息的采集工作,同时支持单机多线程,多机分布式的信息采集。
2.增量式的信息采集模式
采用增量式的信息采集模式,采集子系统根据特有的扫描技术可以不用下载全部网页即可判断网页信息是否已经被抓取,从而加快采集速度,减少带宽占用。
3.支持内容过滤 要通过网页结构分析的方法确定新闻报道的正文、图片以及表格内容,自动去除广告等与新闻报道本身无关的信息。

4.支持多种网页类型
采集子系统能够对多种网页类型的信息进行采集,包括:静态网页,如html、xml、shtml等;动态网页:如php、jsp、asp等几十种动态网页。系统还能够采集由JavaScript生成的动态超链信息。
5.支持图片采集
可采集文章正文中的图片,包括GIF,JPG等图形文件格式。
6.支持多种字符集编码
采集子系统能够自动识别多种字符集编码,包括中文、英文、中文简体、中文繁体等,并可以统一转换为GBK编码格式。
7.支持采集数据多种保存形式
采集过后的数据信息可以通过XML和数据库的方式进行存储,便于用户对其进行二次利用,并提供相应的XML规范和数据库接口。
8.支持对采集信息进行分类和过滤
1). 可以设定的主题-关键词规则,系统将采集到的信息按规则自动分类。
2). 同一分类可设置多条规则。
3). 主题-关键词规则支持关键词逻辑表达式。
4). 可选择采集网站做为过滤条件,只有被选中网站中的信息才能进入分类。5. 可选择频道(采集网站的集合)做为过滤条件,只有被选中频道中的信息才能进入分类。
技术特征
运行环境
|
采集服务器 |
操作系统 |
Windows |
|
Java环境 |
JDK1.5以上 |
|
采集控制台 |
操作系统 |
Windows |
|
Java环境 |
JDK1.5以上 |
|
Web服务器 |
Tomcat5.0以上 |
|
服务器 |
主机 |
Intel x86 架构PC级服务器 |
|
CPU |
Intel Pentium XEON 2.4G以上(双CPU) |
|
内存 |
2GB以上 |
|
硬盘 |
73 GB x 5,SCSI接口(视数据量) |
产品荣誉
第十二届中国软件博览会创新奖
与我联系
开普互联信息有限公司
UCAP Technology Co., Ltd
北京市海淀区知春路23号量子银座601 (863软件园)邮编:100191
B6, LiangZiYinZuo, Zhichunli of Haidian District, Beijing
电话: 010 -82350961-8031/8019
传真: 010-82358994
E-mail: bjucap@ucap.com.cn
|