视频说明

本视频介绍提取数据中的自定义定位元素方式;自定义抓取方式;格式化数据教程;自定义合并方式.

 

自定义定位元素方式,即如何修改某个字段所用于定位的xpath,更精准的找所需数据。

定位元素:

提取数据步骤中,八爪鱼通过xpath来实现数据的定位。

应用场景:

八爪鱼自动生成的定位xpath有问题。

备用位置的使用:

八爪鱼提取字段时,默认网页结构一致,每个字段都是在页面里固定的位置。

但是存在某些特殊情况,当某字段在不同的页面,是处于不同的位置时,可以用八爪鱼的备选位置功能。

 

自定义抓取方式包含以下三种

1、从页面中提取数据

2、从浏览器提取数据

3、生成数据

 

格式化数据

格式化的作用:

通过正则表达式等一系列操作,对数据进行清洗处理,使之更符合需求,更加规整,结构化。

如从一大堆数据中,筛选出现图片链接,邮箱等等。

软件中提供以下操作:

替换,正则表达式替换,正则表达式匹配,去除空格,添加前缀,添加后缀,日期时间格式化,Html转码

 

自定义合并方式

应用场景:

提取数据里面的自定义合并方式,一般用于将多个字段追加至同一个字段。

例如:新闻正文分页合并等,可将多个页面的信息合并到一个页面中。

使用限制:

1.只支持一层循环内的字段合并。

2.用于合并的提取数据中只能有一个字段。