提取数据二
2018-06-06 11:05:51 阅读量: 12279
视频说明
本视频介绍提取数据中的自定义定位元素方式;自定义抓取方式;格式化数据教程;自定义合并方式.
自定义定位元素方式,即如何修改某个字段所用于定位的xpath,更精准的找所需数据。
定位元素:
提取数据步骤中,八爪鱼通过xpath来实现数据的定位。
应用场景:
八爪鱼自动生成的定位xpath有问题。
备用位置的使用:
八爪鱼提取字段时,默认网页结构一致,每个字段都是在页面里固定的位置。
但是存在某些特殊情况,当某字段在不同的页面,是处于不同的位置时,可以用八爪鱼的备选位置功能。
自定义抓取方式,包含以下三种:
1、从页面中提取数据
2、从浏览器提取数据
3、生成数据
格式化数据
格式化的作用:
通过正则表达式等一系列操作,对数据进行清洗处理,使之更符合需求,更加规整,结构化。
如从一大堆数据中,筛选出现图片链接,邮箱等等。
软件中提供以下操作:
替换,正则表达式替换,正则表达式匹配,去除空格,添加前缀,添加后缀,日期时间格式化,Html转码
自定义合并方式
应用场景:
提取数据里面的自定义合并方式,一般用于将多个字段追加至同一个字段。
例如:新闻正文分页合并等,可将多个页面的信息合并到一个页面中。
使用限制:
1.只支持一层循环内的字段合并。
2.用于合并的提取数据中只能有一个字段。