一 八爪鱼采集器的特性
特性一:智能识别算法内嵌
系统内置智能识别算法,能够从杂乱网页中智能识别并展示网页内所有数据字段及内容,并支持页面下钻。
特性二:异构数据统一处理
支持正则表达式等方式对文字、链接、图片、音视频等多种模态数据结构化输出与应用,实现数据简单清洗。
特性三:定时采集无需值守
系统可自定义采集时间,支持分钟/小时/天/周/月的采集规则,程序无需启动任务即可在云端完成采集任务。
特性四:高速数据采集与吞吐
全球超过7000台服务器进行分布式、高并发采集,海内外多云架构,系统吞吐量(TPS)达100万条/分钟。
特性五:附件自动下载保存
本地采集功能支持文本、图片、音视频、文档、压缩包等多种格式的附件一键下载并保存至指定位置。
二 八爪鱼采集器的优势
优势一:采集数据全
1、全行业
电商、新闻、社交媒体、招投标、金融、房产等行业数据采集,很多行业网站已做好直接可用的模板。
2、全场景
列表页、详情页、搜索页、瀑布流页、登录、多层点击、下拉框、IP切换、验证码自动识别等场景均适用。
3、全类型
优势二:采集速度快
1、拥有独立云服务集群
企业版拥有独立的、超高性能的云服务集群,无需排队即可实现云采集加速。
2、超快速度
企业版提供16/30/100云节点高并发采集能力,短时间内高速完成大规模数据的采集。如果当前云节点不够用,还可灵活扩容。
优势三:数据实时新增
1、灵活的定时采集策略
按照网站更新频率和单次更新数据量,设置合理的定时策略,最高支持间隔1min启动采集。
2、多节点高并发
根据定时策略,将云节点合理分配给每个任务,短时间内实现每个数据源新增数据采集。
3、自动去重/条件触发
设置采集触发条件实现新采集的数据与已有数据自动对比去重,确保只采新增数据。
优势四:采集结果秒同步
1、数据导出API
提供高负载吞吐灵活的API接口,支持边采集边导出,将采集结果秒级同步数据到企业的数据库或内部系统中。
2、自动入库
除了API调用数据外,还提供数据自动入库功能,无需技术人员,简单几步设置即可实现数据自动入库。
3、任务控制API
提供任务控制API接口,无需启动客户端即可控制任务启停、修改部分任务参数。
优势五:企业版1对1服务
1、线上培训
八爪鱼采集器企业版提供一对一的个性化线上培训课程,帮助您和您的团队快速掌握八爪鱼相关技能,推进项目快速上线。
2、售后支持
客户经理为您提供一对一的售后支持,快速解决您的问题、为您优化采集任务、响应您的新需求。
编辑:Tina