八爪鱼采集器为何比其他采集软件更通用？

作者：keven 发布时间：3/13/2014 12:16:54 AM 13379 人已阅读

摘要：做八爪鱼采集器这么久，很多第一次使用八爪鱼的人都曾问过“**网站能不能采集”，“**网站支不支持？”，每次我的回答都是，八爪鱼采集器任何网站都可以采集，当然不能说100%，但是98%是完全没问题的，那剩下的2%呢？这2%大概包括纯粹的flash网页，视频中的文字等（目前已知的任何采集器都无法采集，甚至人都没办法复制里面的信息），以此来看，说任何网站都能采集也不算说错。

做八爪鱼采集器这么久，很多第一次使用八爪鱼的人都曾问过“**网站能不能采集”，“**网站支不支持？”，每次我的回答都是，八爪鱼采集器任何网站都可以采集，当然不能说100%，但是98%是完全没问题的，那剩下的2%呢？这2%大概包括纯粹的flash网页，视频中的文字等（目前已知的任何采集器都无法采集，甚至人都没办法复制里面的信息），以此来看，说任何网站都能采集也不算说错。

问的人多了，我就在想，为何大家都在问这个问题，后来了解之后才发现，原来，很多其他采集软件都号称通用采集软件，智能采集软件，结果很多网站还是采集不了。这就跟很多人一个印象：凡是采集软件，都有很多网站采集不了，所以理所当然，一上来就问某某网站能不能采集。

为什么其他很多采集软件都不能做到真正通用呢？这就要从八爪鱼采集器的设置初衷说起了，之所以研发八爪鱼采集器，也是看到在大数据时代，几乎所有的大企业中小企业，甚至小微企业，个人用户都在以一些非常原始，高成本，低效率的方式在获取数据，很多甚至是手工采集数据。当然，有很多采集软件也在一些领域应用广泛，像很多人都知道的火车头采集器，用来采集新闻发布到自己网站很容易，还有很多定制的淘宝采集工具，采集淘宝的数据很方便，但是企业往往面临的数据需求不是来自某一个特定网站的，而是来自很多网站，这时候就需要一个强大灵活的采集软件，最好能通吃任何网站的采集。但是网站千奇百怪，要想兼容各种网站就很困难，就像通常所说的，花20%时间即可解决80%的问题，放在网页采集工具上来说，大概是传统的网页采集工具解决了大概60%的网站采集，看似挺高，但是这里面有个大问题，这60%集中在文章，新闻资讯等类型的静态网站上。所以其实是有相当大一部分网站不能采集的，这里面的难点主要有以下几个方面：

1.网站类型不同，里面的结构和数据复杂多变。

一般新闻类的网站无非什么标题正文时间作者就够了，但是汽车类网站，配置参数有几百个字段，电子商务网站每个店铺都有不同的装修模板，一般的采集器都在里面定死了采集的字段一定包括标题，正文，根本就不可能支持复杂多变的数据结构。

八爪鱼采集器理论上支持任意复杂的数据结构，任何字段都可以自主添加，采集几百个字段的网页也不难。

2.很多新兴网站不采集静态技术，反而采用动态脚本加载（Ajax）

这点就不多说了，这也是其他采集器根本解决不了的问题，其他采集器从服务器请求返回的字符串中解析数据，但是动态加载返回的就只有脚本，没有数据。

八爪鱼采集器是从可视化层面提取数据，所以人能看到的数据都能提取到，但是八爪鱼采集器也兼容从服务器响应中获取数据，甚至从浏览器中获取数据，自动生成数据等等。

3.传统采集器恶意转载导致了各种防采集措施的产生

常见的防采集措施，比如封IP，验证码，点击链接或者按钮显示数据，登录后显示数据等等，这些障碍造成了传统采集器不可逾越的障碍，但是对于八爪鱼采集器，由于采用了云集群采集，自动图文识别OCR,模拟人操作等等，这些采集障碍全部解决。

4.大规模数据采集需求的产生彻底终结了传统单机采集软件

其实说了这么多，以上任何一点都足以造成不能采集，但是即便如此，针对以上各种问题定制开发的一些工具软件还是可以工作，但是当你需要一天采集几百万网页的时候，一台电脑的硬件资源已经不能支撑，几乎目前所有的采集器都是单机软件，也就意味着，几百万以上的采集规模是无法适应的。

八爪鱼采集器由于采用了云计算框架+Google Map　Reduce技术，把成千上万的采集任务自动分配到几百台云采集机器上去，然后自动合并数据，在需要的时候可以热插拔，横向扩展，这就保证了几百万，甚至几千万每天的采集规模也可以适应。

如果希望了解更多八爪鱼采集器的信息，请加官方qq群61570666讨论。