八爪鱼,百万用户信赖的网络爬虫工具

采集器在大数据中的应用

作者:keven 发布时间:2/18/2014 9:06:38 PM 16040 人已阅读

摘要:大数据突飞猛进的发展给传统的网页数据采集行业带来了新的挑战和机遇,大数据最重要的环节便是大数据的收集,这其中最难的就是以网页数据为代表的半结构化数据,非结构化数据的采集。

大数据突飞猛进的发展给传统的网页数据采集行业带来了新的挑战和机遇,大数据最重要的环节便是大数据的收集,这其中最难的就是以网页数据为代表的半结构化数据,非结构化数据的采集。

传统的采集器已经不能适应大数据时代的要求,大数据采集器提出了比以往高得多的要求,主要体现在一下几个方面:

20135738534126

1. 数据量前所未有的大

传统采集器处理的数据单次处理的数据一般在几万条以内,特殊情况下也就最多几百万条,这已经是非常多的数量级了,但是对于大数据而言,几百万算是常见的情况,上亿网页的采集也是正常范围,这种数量级的提升远远超出了传统采集器的适应范围,主要的原因是传统采集器大都是单机软件,大家知道,一台计算机的硬件资源,包括CPU,内存,带宽等等都是有限的,解决超大数量级的处理目前可行的办法只有一个,就是云计算,通过大量计算机集群的云计算平台才能处理如此大量的数据。

2. 数据更新速度越来越快

大数据不是简单的等于大量数据,大数据的“大”体现在很多方面,比如数据更新速度上,传统采集器一般面临的数据更新在“天”级别,特别是针对大量网页的处理,如果某个公司需要实时监控整个微博平台的数据,那么这就是几百万网页实时监控的问题,一条爆炸性新闻或者爆料出现之后,可能在几分钟之内就会被爆发式转发,这就要求能低延时的处理数据,超过几分钟的数据采集就不能满足处理的需求,这就需要采集器能支持一分钟左右的近似实时采集,需要采集器支持大批量网页采集任务的实时调度,也需要由计算能力的弹性扩展。

3. 对数据准确性要求更高

如此大规模的高性能数据处理,是不可能由人工完成数据质量的检测和校验的,因此对采集器的稳定性可靠性及准确性就有了非常高的要求,一般的应用要求也在99.9%以上,特殊的应用场合如金融行业一般需要100%的准确性,也就是说,哪怕出现一点错误,也都不属于正常范围。

4. 对采集器的智能化要求更高

在过去很长一段时间内,web的发展比较缓慢,最近几年随着电子商务,社交网络,新媒体,大数据等等的发展,web也有了巨大的变化,各种web技术层出不穷,Ajax,HTML5,CSS3等带来了web的巨变,特别是Ajax大大改善了人们上网的体验,几乎所有的主流网站,都在各个网页中大量使用了这种技术,但是对于传统采集器而言,Ajax就像是天敌,这其中的主要原因是传统采集器采用"模拟HTTP请求响应"和"字符串分析"的核心技术,传统的采集器对此根本无法处理,新的智能采集器必须能自动处理这些背后的技术问题,这样在海量数据处理面前才能得心应手。

综上,大数据对采集器各个方面都提出了更高的要求,很多企业在数据收集领域投入大量的IT资源及研发资源,八爪鱼团队的核心成员都来自国际金融数据处理公司,有着丰富的经验和前沿的技术能力,在设计研发八爪鱼采集器的过程中,也综合考虑了以上各种因素,八爪鱼采集器的设计目标是满足未来5-10年需要的采集器,从内核到界面,从设计思路和核心技术原理,都与传统的采集器有着本质的区别,在360软件管家中,搜索采集器,也能看到八爪鱼采集器无论是下载量还是评分,都稳居前列,用过八爪鱼采集器的人评价大部分是非常好用,简单好用的背后是复杂而强大的技术,就像google搜索引擎,简简单单的一个搜索框,后面是一个伟大企业的核心技术,希望八爪鱼采集器也能向google这种伟大的公司学习,成长为一代伟大的互联网产品。


欢迎咨询在线客服
加微信群,与更多用户一起交流