八爪鱼.8节课培训 第5节课:提取数据+导出数据
2018-08-16 12:43:13 阅读量: 11352
视频说明
本视频为八节课中的第5节。将主要介绍提取数据中字段设置和采集后的数据导出。
提取数据:添加特殊字段、自定义抓取方式、格式化数据、备用位置、自定义合并方式等
自定义定位元素方式:
常在八爪鱼自动生成的定位xpath有问题时进行使用。即如何修改某个字段所用于定位的xpath,更准确的找所需数据。
备用位置的使用:
八爪鱼提取字段时,默认网页结构一致,每个字段都是在页面里固定的位置。
但是存在某些特殊情况,当某字段在不同的页面,是处于不同的位置时,可以用八爪鱼的备选位置功能。
数据格式化的作用:
通过正则表达式等一系列操作,对数据进行清洗处理,使之更符合需求,更加规整,结构化。
如从一大堆数据中,筛选出现图片链接,邮箱等等。
自定义合并方式应用场景:
提取数据里面的自定义合并方式,一般用于将多个字段追加至同一个字段。
例如:新闻正文分页合并等,可将多个页面的信息合并到一个页面中。
本地采集数据如有采到重复数据。将在点击“导出数据”后提示是否去除重复,可选将全部数据导出也可选去重后导出。
本地数据在导出后不会自动清除,下次可以再次导出,或清除数据。
云采集数据如有采到重复数据,将在入库前自动去重,即您所查看到数据均是不重复数据。
云采集数据在导出后不会自动清除,下次可以再次导出或清除数据。数据在云端只保存3个月,以采集时间进行计算,超期将自动清除。
云采集数据按状态分类:
全部数据:该任务所有的数据,每次云采集数据会进行累计,如未清除则一直可查看导出。
未导出数据:新采集到的数据,从未导出过,不过何种导出格式或方式,只要导出过一次,都不在是未导出数据。
数据导出格式/方式:
Excel表格文件(每个文件最多2万条数据,大于2万将自动拆分多个文件进行导出。如单行数据过长,该行会发生数据截断。)
CSV文本文件(每个文件最多2万条数据,大于2万将自动拆分多个文件进行导出。单行数据过长,不会进行截断。)
HTML网页文件(一行数据一个文件,如采集了100条数据,选此格式将导出100个文件)
导出到数据库,支持SQL Server,MySQL,Oracle 这三种类型的数据库。支持自动导出到数据库,将按计划定时导出未导出数据。
API接口导出,API文档参考 http://www.bazhuayu.com/tutorial/new-data-api