八爪鱼,百万用户信赖的网络爬虫工具

客户成功案例3:企业数据模型搭建、信息聚合、灾害预警解决方案

作者:keven 发布时间:8/26/2019 5:10:56 PM 3281 人已阅读

摘要:客户成功案例3:企业数据模型搭建、信息聚合、灾害预警解决方案

在信息极度爆炸和碎片化的时代,用户想要收集某类信息,从“网络搜索”→“逐条收集”→“汇总整合”需要耗费大量时间。

今天,小八将分享如何利用爬虫数据,快速打造企业数据模型搭建、信息聚合平台、灾害预警等应用方案。

 

 

客户案例一

覆盖全网爬虫矩阵,建立企业多维度数据模型

 

 

公司背景:企业精准数据服务商/咨询公司,致力于为客户提供,基于全网全维度的企业数据,建立企业活力模型、进行风险评估监测以及制定AI精准营销方案。

 

 

面临问题:“数据”是公司业务的基础,公司如果自建全职爬虫团队成本过高,因此希望通过采用第三方的高级爬虫服务,获取精准企业数据,降低公司整体的运营成本。

 

 

八爪鱼解决方案:建立爬虫数据矩阵,覆盖政府、企业、垂直网站、新闻媒体四大网站体系。

 

① 明确采集目标——政府、企业、垂直网站、新闻媒体

 

建立企业活力模型所需的数据维度很多,企业要求八爪鱼覆盖4000+政府网站16000+企业网站1500+垂直网站与新闻媒体网站的数据采集。

 

② 明确采集细节——定时定频自动化采集,多平台数据标准化入库

 

由于网站和数量庞大,企业希望能每天采集2次,并通过API接口自动入库。八爪鱼私有云通过定时采集功能,系统每天上午和下午自动开启采集并将数据汇入企业后台,全程自动化,无需人工干预

 

③ 明确服务方式——私有云+规则定制+后期运维

 

由于网站数据量大且复杂,八爪鱼同样为该企业提供的是一整套数据采集解决&服务方案,包含私有云100个云节点+数据采集规则定制+后期运维。

 

采用了八爪鱼数据采集服务,企业无需再自建爬虫团队,为企业节省将近85万的人工费用(如加上服务器、办公等管理费用预计将超过100万)。

 

爬取结果

 

 

客户案例二

国内制造业供应商“黄页”,搭建采购信息聚合平台

 

 

公司背景:国家级电子商务示范性企业。打造中国制造商品供应商平台、为全球采购商提供中国批发采购渠道来源。

 

 

面临问题:搭建了中国供应商的企业聚类平台,但企业的数量都有新增或减少,类目也偶尔变动,如果单纯靠人工去发现与筛查收集,非常耗时,需要浪费大量人力和精力维护运营

 

 

八爪鱼解决方案:私有云助力百万数据采集,全自动化运营降低人工运维

 

① 明确采集目标——采集Alibaba全网站数据

 

公司需要实时覆盖阿里巴巴网站的供应商企业数据,并且希望能实时监控企业的信息变化,自动同步到自己的网站上。

 

② 确定采集细节——高达230W+数据量,每天全量采集

 

公司希望实现每天全量采集一次,阿里巴巴网站目录(含子目录)的所有企业数据,如供应商名录、类别、主营业务、ID等等。经估算,每一次全量采集的数据量高达到230W。因此,我们最推荐用户购买八爪鱼私有云版本,配置30个采集云节点,才能满足短时间百万数据采集需求。

 

③ 确定服务方式——API高级数据接口,无缝对接企业数据库

 

由于数据量庞大,八爪鱼提供API接口,将数据自动同步到公司后台数据库中,帮助企业实时掌握供应商数量的增减以及行业整体的变化。

 

爬取结果

 

 

客户案例三

24小时全渠道舆情监控,关键词触发灾害预警

 

 

公司背景:“消防信息”网络舆情监控平台

 

 

面临问题:平台需要第一时间发现到网络上有关消防火灾的舆情信息并进行通报,要实现一整套的项目方案,对数据的实时性要求非常公司自身不具备海量数据的爬取和分析能力

 

 

八爪鱼解决方案:全渠道媒体平台实时抓取,24小时第一时间舆情预警

 

① 明确采集目标——全渠道媒体覆盖

 

平台需要覆盖市面上所有主流社交媒体平台数据,如今日头条、百度资讯、微博、搜狗微信公众号、贴吧等。

 

② 明确采集细节——42个消防关键词全天不间断搜索

 

平台提供了与“消费救援”、“应急救援”相关的42个关键词,在各大平台进行批量搜索,并将搜索结果,通过八爪鱼API数据接口,返回至企业后台数据库中。

 

由于舆情监控对于实时性要求相当高,所以八爪鱼为平台设置了全天24小时不间断采集,几乎每30分钟~2小时就重新跑一次数据。

 

为了保证数据的“新鲜度”的同时,不会对企业造成历史数据庞大和数据冗余,八爪鱼通过设置对数据设置了“保鲜期”为近6小时,新数据产生后将自动覆盖旧数据,保证了企业数据库的精简、高效。

 

③ 明确服务方式——私有云+规则定制+后期运维

 

为使企业人力物力投入产出比最佳, 八爪鱼为平台提供了一整套解决&服务方案——八爪鱼私有云+采集规则定制+后期运维

 

企业方只需要关注数据最终成果即可,无需耗费时间学习整个八爪鱼的操作、规则配置等,后期运维也全权交由八爪鱼负责,企业只需专注于自己的专业业务领域即可。

 

爬取结果

 

 

八爪鱼数据采集器是深圳视界信息技术有限公司自主研发,整合了网页数据采集、移动互联网数据及API接口服务(包括数据爬虫、数据优化、数据挖掘、数据存储、数据备份)等服务为一体的数据服务平台,连续5年蝉联互联网数据采集软件榜单第一名。

 

自2016年,八爪鱼积极开拓海外市场,分别在美国、日本推出了数据爬虫平台Octoparse和Octoparse.JP。截止2018年,八爪鱼全球用户突破140万!

 

 


欢迎咨询在线客服
加微信群,与更多用户一起交流