网络信息资源采集系统
产品简介: KLAND-Spider网络信息资源采集系统是一套网络信息资源开发利用与整合系统,可用于定制跟踪和采集互联网实时信息,建立可再利用的信息服务系统。KLAND-Spider能够从各种网络信息源,包括网页、BLOG、论坛等采集用户感兴趣的特定信息,经自动分类处理后,以多种形式提供给最终用户使用。
KLAND-Spider能够快速及时地捕获用户所需的市场情报、政策法规、行业信息、热点新闻等网络信息内容,可广泛用于企业门户网站建设、情报收集、舆情分析、网络敏感信息监控等方面。
产品功能: KLAND-Spider网络信息资源采集系统由采集导航器、网络蜘蛛、数据处理器、发布系统四个子系统组成。
采集导航器用来定制设定采集的目标。网络蜘蛛从用户设定的网站抓取数据,形成数据包(数据表)发送给数据处理器,由数据处理器对所抓取的数据进行分析过滤,按站点、频道、关键词、或其他分类模型对数据进行自动分类,保存在本地数据库,并通过发布系统按选定的格式或风格发布出来,方便用户使用。
产品特点:采集方法的灵活性、采集源的多样性、采集数据的准确性以及增量采集的自动性。
*支持各种网页表现形式:静态网页、动态网页、文档型网页(Word、EXCEL、PDF等);
*支持导航页和内容页的翻页;
*支持采集内嵌表格;
*支持文章的附件采集和解析(Word、EXCEL、PDF等);
*采集解析结果的元数据自动测试;
*采集结果的去重;
*自动采集目标网站上的新增信息(时间间隔可设定)。