网络数据采集处理
摘要:这是一个网络信息资源采集系统,通过定制跟踪、监控和采集互联网实时信息,建立可再利用的信息服务系统。能够从各种网络信息源,包括网页、BLOG、论坛等采集用户感兴趣的特定信息,经自动分类处理后,以多种形式提供给最终用户使用。
方案内容:
快速及时地捕获用户所需的热点新闻、市场情报、行业信息、政策法规等网络信息内容。
数据导航
* 网站导航:指定网址频道等;
* 数据元数据定义:用于抽取的关键词内容;
* 提供可视化的采集任务配置工具,用户可以自助的随时添加采集任务。
数据采集
* 支持导航页和内容页的翻页;
* 支持各种网页表现形式:静态网页、动态网页、文档型网页(Word、EXCEL、PDF等);
* 支持采集内嵌表格;
* 支持文章的附件采集和解析(Word、EXCEL、PDF等);
* 采集解析结果的元数据自动测试;
* 采集结果的去重。
数据编辑
* 数据走查,对采集信息的完整性和准确性进行排查;
* 采集数据的编辑修改。
数据后处理
* 对采集的数据的元数据进行规范化;
* 对采集的数据的正文进行段落格式化;
* 对采集的数据进行超级链接处理;
* 对采集的数据进行分类处理。
数据发布
* 数据库发布;
* XML发布,用于支持在线检索查询、定制推送、出版等。* 数据自动更新采集;
* 自动采集目标网站上的新增信息(时间间隔可设定,最小1分钟,也可以设定固定的时间进行批量采集,如北京时间晚上12:00开始增量批量采集)。
方案实施:根据信息采集的规模和信息抽取的定义,来确定实施的时间周期。