八爪鱼,百万用户信赖的网络爬虫工具

八爪鱼采集器为何比其他采集软件更通用?

作者:keven 发布时间:3/13/2014 12:16:54 AM 13243 人已阅读

摘要:做八爪鱼采集器这么久,很多第一次使用八爪鱼的人都曾问过“**网站能不能采集”,“**网站支不支持?”,每次我的回答都是,八爪鱼采集器任何网站都可以采集,当然不能说100%,但是98%是完全没问题的,那剩下的2%呢?这2%大概包括纯粹的flash网页,视频中的文字等(目前已知的任何采集器都无法采集,甚至人都没办法复制里面的信息),以此来看,说任何网站都能采集也不算说错。

做八爪鱼采集器这么久,很多第一次使用八爪鱼的人都曾问过“**网站能不能采集”,“**网站支不支持?”,每次我的回答都是,八爪鱼采集器任何网站都可以采集,当然不能说100%,但是98%是完全没问题的,那剩下的2%呢?这2%大概包括纯粹的flash网页,视频中的文字等(目前已知的任何采集器都无法采集,甚至人都没办法复制里面的信息),以此来看,说任何网站都能采集也不算说错。

问的人多了,我就在想,为何大家都在问这个问题,后来了解之后才发现,原来,很多其他采集软件都号称通用采集软件,智能采集软件,结果很多网站还是采集不了。这就跟很多人一个印象:凡是采集软件,都有很多网站采集不了,所以理所当然,一上来就问某某网站能不能采集。

为什么其他很多采集软件都不能做到真正通用呢?这就要从八爪鱼采集器的设置初衷说起了,之所以研发八爪鱼采集器,也是看到在大数据时代,几乎所有的大企业中小企业,甚至小微企业,个人用户都在以一些非常原始,高成本,低效率的方式在获取数据,很多甚至是手工采集数据。当然,有很多采集软件也在一些领域应用广泛,像很多人都知道的火车头采集器,用来采集新闻发布到自己网站很容易,还有很多定制的淘宝采集工具,采集淘宝的数据很方便,但是企业往往面临的数据需求不是来自某一个特定网站的,而是来自很多网站,这时候就需要一个强大灵活的采集软件,最好能通吃任何网站的采集。但是网站千奇百怪,要想兼容各种网站就很困难,就像通常所说的,花20%时间即可解决80%的问题,放在网页采集工具上来说,大概是传统的网页采集工具解决了大概60%的网站采集,看似挺高,但是这里面有个大问题,这60%集中在文章,新闻资讯等类型的静态网站上。所以其实是有相当大一部分网站不能采集的,这里面的难点主要有以下几个方面:

1.网站类型不同,里面的结构和数据复杂多变。

一般新闻类的网站无非什么标题正文时间作者就够了,但是汽车类网站,配置参数有几百个字段,电子商务网站每个店铺都有不同的装修模板,一般的采集器都在里面定死了采集的字段一定包括标题,正文,根本就不可能支持复杂多变的数据结构。

八爪鱼采集器理论上支持任意复杂的数据结构,任何字段都可以自主添加,采集几百个字段的网页也不难。

2.很多新兴网站不采集静态技术,反而采用动态脚本加载(Ajax)

这点就不多说了,这也是其他采集器根本解决不了的问题,其他采集器从服务器请求返回的字符串中解析数据,但是动态加载返回的就只有脚本,没有数据。

八爪鱼采集器是从可视化层面提取数据,所以人能看到的数据都能提取到,但是八爪鱼采集器也兼容从服务器响应中获取数据,甚至从浏览器中获取数据,自动生成数据等等。

3.传统采集器恶意转载导致了各种防采集措施的产生

常见的防采集措施,比如封IP,验证码,点击链接或者按钮显示数据,登录后显示数据等等,这些障碍造成了传统采集器不可逾越的障碍,但是对于八爪鱼采集器,由于采用了云集群采集,自动图文识别OCR,模拟人操作等等,这些采集障碍全部解决。

4.大规模数据采集需求的产生彻底终结了传统单机采集软件

其实说了这么多,以上任何一点都足以造成不能采集,但是即便如此,针对以上各种问题定制开发的一些工具软件还是可以工作,但是当你需要一天采集几百万网页的时候,一台电脑的硬件资源已经不能支撑,几乎目前所有的采集器都是单机软件,也就意味着,几百万以上的采集规模是无法适应的。

八爪鱼采集器由于采用了云计算框架+Google Map Reduce技术,把成千上万的采集任务自动分配到几百台云采集机器上去,然后自动合并数据,在需要的时候可以热插拔,横向扩展,这就保证了几百万,甚至几千万每天的采集规模也可以适应。

如果希望了解更多八爪鱼采集器的信息,请加官方qq群61570666讨论。


欢迎咨询在线客服
加微信群,与更多用户一起交流