八爪鱼,百万用户信赖的网络爬虫工具

大势所趋——Ajax网页采集软件

作者:keven 发布时间:3/10/2014 11:49:32 AM 11569 人已阅读

摘要:随着Ajax技术的兴起和web 2.0时代的到来,只能够采集静态网页的传统采集器将无法满足人们获取数据的要求,而具备Ajax网页数据采集能力的智能采集器将成为大势所趋。

随着Ajax技术的兴起,网站应用开发从传统静态页面发展到了具有以丰富的浏览器体验、社会化网络海量数据处理等为特征的web2.0时代,网站采用局部刷新技术,避免每次从服务器获取整个页面内容,从而降低了服务器负荷、节约了网络带宽、提升了用户体验,典型的应用包括GoogleMail和GoogleMaps。随着Ajax类型网站逐渐增多,规模越大的信息更趋向于采用深层网站,人们迫切需要一种能够有效处理Ajax动态脚本网页的方法。而现有大部分的网站采集器都无法对支持Ajax 技术的深层网站数据进行有效采集,具备Ajax网页采集能力的智能采集器将是大势所趋。

 

传统网页采集器大多是HTTP驱动的,不能有效处理Ajax动态脚本网页,只能采集表层网(surface web)和静态页面,对于深层网站(deep web)Ajax页面数据的采集无能为力。 目前国内采集网站的采集器大都是传统采集器,其软件技术原理比较落后,无法胜任web2.0动态网站的采集任务,即将被淘汰。

 

以八爪鱼采集器为代表的新一代智能网页数据采集器是基于事件驱动的,模拟用户操作触发相应事件,利用DOM结构来标志页面状态。利用嵌入式浏览器作为Ajax 运行容器,通过HTML渲染器提供的API 与页面DOM 树交互获取完整数据内容,八爪鱼采集器使用可视化工作流,面向领域的手工配置控制页面状态转换,真正实现Ajax网页数据的自动采集。


欢迎咨询在线客服
加微信群,与更多用户一起交流