自定义抓取方式包含从页面中提取数据’、‘从浏览器提取数据’和‘生成数据’三部分。

 

1、 从页面中提取数据


自定义抓取方式1


1)抓取元素的指定属性值:首先要先选中InnerHtml和OuterHtml查看要提取的属性值是否存在,再选中抓取元素的指定属性值, 例如源码<a id="hot-comments-tab" class="on" href="comments">热门</a> 中,id、class、href就是A标签的属性,在下拉选项中选取要提取的属性名称,即可提取到该属性的属性值,演示如下:


(1) 

2)抓取文本:提取网页中展示的内容,可见的文字信息。

3)抓取地址:一般用于抓取图片地址或Iframe地址,首先字段的Xpath定位到的是IMG标签或者Iframe标签,提取其中的src属性值。

4)抓取选中项的文本:配合循环下拉框试用,提取当前选中项的文本

5)抓取这个元素的OuterHtml,InnerHtml:提取网页源码

6)抓取值:一般用于抓取输入框的文字,首先字段的Xpath定位到的是input标签,提取其中的value值,演示如下:


(6) 

7)抓取超链接:首先字段的Xpath定位到的是A标签,从A标签中提取href的属性值。演示如下:


(7) 

 

2、 从浏览器提取数据

自定义抓取方式2 

1)页面网址:同添加其他特殊字段中的抓取当前页面的网址效果

2)页面标题:同添加其他特殊字段中的抓取当前页面的标题效果

3)从页面源码里抓取:可直接用正则表达式提取网页源码里匹配到的数据

 

3、 生成数据


自定义抓取方式3


1)生成固定的值:同添加其他特殊字段中的生成固定值效果,常用于发布到网站时设置发布的用户名,发布到的版块等固定字段

2)使用当前时间:同添加其他特殊字段中的使用当前时间效果,用于记录采集时间,此设置有可能会导致八爪鱼采集器去重功能检测失效