客户案例:ICPI研究团队数据采集解决方案
客户:
某知名大学
背景:
大数据为宏观经济分析提供了一个全新的视角,居民消费价格指数(CPI)是最重要的宏观经济指标之一。信息网络的发展已进入一个大数据的时代,给社会科学的研究带来新的机遇和挑战。某知名大学成立了ICPI研究团队,设计了一套基于互联网在线数据的居民消费价格指数,简称ICPI。
ICPI分为食品烟酒、衣着、居住、生活用品及服务、交通和通信、教育文化和娱乐、医疗保障、其他用品和服务等八大类,数据来源于上百个平台。
需求:
ICPI研究团队需要借助大数据的力量,促进计算机社会科学发展。利用大数据认识当代社会人民的行为模式,更好的为社会服务做出贡献。ICPI研究团队对于数据来源的需求广泛,分类细致、同时对数据采集的高频度、实时性、大规模、自动化运行有较高要求。其主要采集目标是国内各大电商平台,这些平台有很多防采集策略,需要对其有相应解决方案。
解决方案:
通过八爪鱼私有化部署形式,提供强大、稳定的数据采集能力,支持ICPI团队持续投入项目研究,不断完善指数。
1、独家智能防封。可通过自动切换IP、自动识别验证码、自动切换浏览器、自动随机等待、自动识别AJAX、实现模拟登陆等多种方式有力破解防采集策略,轻松实现各大电商网站数据的大规模采集。
2、分布式云采集。八爪鱼5000+台云服务器高并发采集,保证采集任务7x24小时不间断运行,满足ICPI团队大规模、高频度、实时采集的数据采集要求。
3、API接口。提供数据导出API和任务控制控制API。通过数据导出API实现秒级调用数据,同步到ICPI团队自身系统中,保障ICPI指数的高实时性。通过任务控制控制API,无需启动客户端,即可远程控制任务启动与停止,灵活调度任务。
服务提示