网络数据采集处理

摘要:这是一个网络信息资源采集系统,通过定制跟踪、监控和采集互联网实时信息,建立可再利用的信息服务系统。能够从各种网络信息源,包括网页、BLOG、论坛等采集用户感兴趣的特定信息,经自动分类处理后,以多种形式提供给最终用户使用。

 

方案内容:

 

快速及时地捕获用户所需的热点新闻、市场情报、行业信息、政策法规等网络信息内容。

数据导航
       * 网站导航:指定网址频道等;
       * 数据元数据定义:用于抽取的关键词内容;
       * 提供可视化的采集任务配置工具,用户可以自助的随时添加采集任务。

数据采集
       * 支持导航页和内容页的翻页;
       * 支持各种网页表现形式:静态网页、动态网页、文档型网页(WordEXCELPDF等);
       * 支持采集内嵌表格;
       * 支持文章的附件采集和解析(WordEXCELPDF等);
       * 采集解析结果的元数据自动测试;
       * 采集结果的去重。

数据编辑
       * 数据走查,对采集信息的完整性和准确性进行排查;
       * 采集数据的编辑修改。

数据后处理
       * 对采集的数据的元数据进行规范化;
       * 对采集的数据的正文进行段落格式化;
       * 对采集的数据进行超级链接处理;
       * 对采集的数据进行分类处理。

数据发布
       * 数据库发布;
       * XML发布,用于支持在线检索查询、定制推送、出版等。* 数据自动更新采集;
       * 自动采集目标网站上的新增信息(时间间隔可设定,最小1分钟,也可以设定固定的时间进行批量采集,如北京时间晚上12:00开始增量批量采集)。

方案实施:根据信息采集的规模和信息抽取的定义,来确定实施的时间周期。