【8分钟课堂】提取数据-自定义抓取方式
2018-08-24 17:24:16 阅读量: 13448
视频说明
本视频介绍提取数据中的自定义抓取方式,包含以下三种:
1、从页面中提取数据
抓取元素的指定属性值(如:<a class="notice" sku="100000483403"> ,可选择只抓取sku这个属性的值)
抓取文本 (比较常用,提取网页中展示的内容,可见的文字信息)
抓取地址 (要采集的是图片才会出现该选项。多用于采集图片的链接,即IMG标签的srs属性值)
抓取超链接 (要采集的是链接才会出现该选项。用于采集某个按钮的超链接,即字段的xpath定位到的是A标签,从A标签中的href属性值)
抓取值 (一般用于抓取输入框的文字,首先字段的xpath定位到的是input标签,提取其中的value值)
抓取这个元素的InnerHtml和OuterHtml (提取网页源码)
2、从浏览器提取数据
页面网址:同添加其他特殊字段中的抓取当前页面的网址效果
页面标题:同添加其他特殊字段中的抓取当前页面的标题效果
从页面源码里抓取:可直接用正则表达式提取网页源码里匹配到的数据
3、生成数据
生成固定的值:同添加其他特殊字段中的生成固定值效果,常用于标记某些固定不变的信息
使用当前时间:同添加其他特殊字段中的使用当前时间效果,用于记录采集时间,此设置有可能会导致八爪鱼采集器去重功能检测失效