八爪鱼,百万用户信赖的网络爬虫工具

客户案例:ICPI研究团队数据采集解决方案

作者:keven 发布时间:3/25/2020 9:40:36 AM 11890 人已阅读

摘要:ICPI是一支基于互联网在线价格数据进行实时更新的居民消费价格指数,可以分为食品烟酒、衣着、居住、生活用品及服务、交通和通信、教育文化和娱乐、医疗保障、其他用品和服务等八大类,数据来源于上百个平台。

客户:

某知名大学

 

背景:

大数据为宏观经济分析提供了一个全新的视角,居民消费价格指数(CPI)是最重要的宏观经济指标之一。信息网络的发展已进入一个大数据的时代,给社会科学的研究带来新的机遇和挑战。某知名大学成立了ICPI研究团队,设计了一套基于互联网在线数据的居民消费价格指数,简称ICPI。

ICPI分为食品烟酒、衣着、居住、生活用品及服务、交通和通信、教育文化和娱乐、医疗保障、其他用品和服务等八大类,数据来源于上百个平台。

 

需求:

ICPI研究团队需要借助大数据的力量,促进计算机社会科学发展。利用大数据认识当代社会人民的行为模式,更好的为社会服务做出贡献。ICPI研究团队对于数据来源的需求广泛,分类细致、同时对数据采集的高频度、实时性、大规模、自动化运行有较高要求。其主要采集目标是国内各大电商平台,这些平台有很多防采集策略,需要对其有相应解决方案。

 

解决方案:

通过八爪鱼私有化部署形式,提供强大、稳定的数据采集能力,支持ICPI团队持续投入项目研究,不断完善指数。

1、独家智能防封。可通过自动切换IP、自动识别验证码、自动切换浏览器、自动随机等待、自动识别AJAX、实现模拟登陆等多种方式有力破解防采集策略,轻松实现各大电商网站数据的大规模采集。

2、分布式云采集。八爪鱼5000+台云服务器高并发采集,保证采集任务7x24小时不间断运行,满足ICPI团队大规模、高频度、实时采集的数据采集要求。

3、API接口。提供数据导出API和任务控制控制API。通过数据导出API实现秒级调用数据,同步到ICPI团队自身系统中,保障ICPI指数的高实时性。通过任务控制控制API,无需启动客户端,即可远程控制任务启动与停止,灵活调度任务。

 


欢迎咨询在线客服
加微信群,与更多用户一起交流