首页 > 产品与方案 > 内容管理产品 > 互联网信息采集系统

互联网信息采集系统

互联网是目前世界最大的数据仓库,其中蕴藏着大量有价值的信息。在互联网中,数据大多以网页的形式存在,而这些有价值的信息就附着在网页上。网页是一种半结构化数据,目前,大部分的网页内容转载工作采取半自动的方式,从网页中得到结构化的有用信息,存在效率低下,成本偏高的问题。

拥有面向所有类型的网页,自动进行网页结构化抽取,并进行初步处理的高效互联网信息采集工具成为用户的迫切希望。

产品概述

开普互联针对当前政府及企业在内容管理、知识管理和信息资源开发利用等方面的新要求,推出网络信息采集系统。系统支持对Web页面、各种常见数据文件及数据库内容进行增量式的信息采集,并对采集到的互联网信息进行自动分类、过滤、存储和发布,亦可作为内容管理发布系统的素材库,能够极大地提升网站内容的多样性和时效性。

画册-互联网信息采集系统-P10

产品特色

极强的采集能力

系统的扫描间隔最小可以设置成1分钟,单机即可支持数百网站信息的采集工作,同时支持单机多线程,多机分布式的信息集。

增量式的信息采集模式

采用增量式的信息采集模式,采集子系统根据特有的扫描技术可以不用下载全部网页即可判断网页信息是否已经被抓取,从而加快采集速度,减少带宽占用。

支持内容过滤

通过网页结构分析的方法确定新闻报道的正文、图片以及表格内容,自动去除广告等与新闻报道本身无关的信息。

应用场景

政府门户网站

企业门户网站

行业门户网站

信息管理与服务系统

知识管理系统

信息安全检查、过滤与监控

典型用户

中央统战部

中纪委

国家教育部

国家卫生计生委

国务院扶贫办

广东省广州市政府

国家人社部