采集场景
打开京东商品详情页(实例网址:https://item.jd.com/100068388547.html),采集点击不同的参数(颜色、版本等)后得到的数据(商品编号、价格、主图链接等字段会随着参数变化而变化)。
采集字段
商品标题、颜色、版本、价格、商品名称、商品编号、图片网址等。
采集结果
采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:
教程说明
本篇制作时间:2024/3/4 八爪鱼版本:V8.6.7
如果因网页改版造成网址或步骤无效,无法收集到目标数据,请联系官方客服,我们将及时修正。
采集步骤
步骤一、打开网页
步骤二、循环点击颜色属性,并提取对应文本
步骤三、循环点击版本属性,并提取对应文本
步骤四、提取其他字段
步骤五、编辑字段
步骤六、优化规则
步骤七、启动采集
以下为具体步骤:
步骤一、打开网页
在首页输入框中,输入网址 https://item.jd.com/100068388547.html,然后点击【开始采集】,八爪鱼自动打开网页,网站会自动跳到登录页面,在右上角切换浏览模式采集,手动登录账号
特别说明:
a. 打开网页后,如果开始开始【自动识别】,请等待自动识别完成。八爪鱼支持自动识别网页上的列表、滚动和翻页,识别成功后直接启动采集即可获取数据。如果【自动识别】的结果不是我们需要的,可点击【取消】关闭智能识别,自行配置采集流程。详情点击查看 【自动识别】
步骤二、循环点击颜色属性
通过以下几步,实现点击每个颜色属性并提取对应文本
1、循环点击颜色属性
2、提取颜色属性的文本
3、将循环点击颜色属性与提取颜色文本联动起来
1、循环点击颜色属性
① 选中页面上第1个颜色属性
② 在黄色操作提示框中,选择【选中全部相似元素】
③ 选择【循环点击每个链接】
特别说明:
a. 经过以上连续3步,【循环-点击元素】创建完成。【循环】中的项,对应着页面上所有颜色属性。启动采集以后,八爪鱼就会按照循环中的顺序依次点击每个颜色属性。
b. 为何通过以上3步,可建立【循环-点击元素】?详情点击查看 采集点击多个链接后的详情页数据教程 。
2、提取颜色属性的文本
选中页面中的颜色属性框,在操作提示框中选择【文本内容】,颜色属性的文本提取下来。
3、将循环点击颜色属性与提取颜色文本联动起来
实际操作我们发现,这样子操作后提取的全部都是第一个颜色,并不会循环联动采集,这个时候我们需要优化下流程的设置:
① 在火狐浏览器(谷歌浏览器也可以)重新写一条xpath定位到所有的颜色,把流程内的循环模式 “固定元素列表” 修改为 “不固定元素列表”,并把调试好的xpath://div[@id="choose-attr-1"]/div[@class="dd"]/div,直接复制进来。
② 选中 【点击元素】这个步骤,点击【高级选项】,取消“在新标签中打开”这个勾选,并勾选“Ajax加载”,选择 “超时5秒强制执行下一步”。
③ 选择【提取数据】这个步骤,在下方的预览数据块点击右上角【更多字段操作】,选择【修改元素定位】,勾选【拼接循环项Xpath】,xpath输入框留空即可,点击 应用-保存。
特别说明:
a. 什么是【相对于循环里的XPath】?点击查看 相对XPath教程
步骤三、循环点击版本属性
通过以下几步,实现点击每个版本属性并提取对应文本
1、循环点击版本属性
2、提取版本属性的文本
3、将循环点击版本属性与提取版本文本联动起来
1、循环点击版本属性
① 选中页面上第1个版本属性
② 在黄色操作提示框中,选择【选中全部】
③ 选择【循环点击每个链接】
特别说明:
a. 经过以上连续3步,【循环-点击元素】创建完成。【循环】中的项,对应着页面上所有版本属性。启动采集以后,八爪鱼就会按照循环中的顺序依次点击每个版本属性。
b. 为何通过以上3步,可建立【循环-点击元素】?详情点击查看 采集点击多个链接后的详情页数据教程 。
2、提取版本属性的文本
选中页面中的版本属性框,在操作提示框中选择【采集该链接的文本】,版本属性的文本提取下来。
3、将循环点击版本属性与提取版本文本联动起来
实际操作我们发现,这样子操作后会跟提取颜色一样不会循环联动,这个时候我们需要再优化下流程的设置:
① 在火狐浏览器(谷歌浏览器也可以)重新写一条xpath定位到所有的版本,把流程内的循环模式 “固定元素列表” 修改为 “不固定元素列表”,并把调试好的xpath://div[@id="choose-attr-2"]/div[@class="dd"]/div,直接复制进来。
② 选中 【点击元素】这个步骤,点击【高级选项】,取消“在新标签中打开”这个勾选,并勾选“Ajax加载”,选择 “超时5秒强制执行下一步”。
③ 选择【提取数据】这个步骤,在下方的预览数据块点击右上角【更多字段操作】,选择【修改元素定位】,勾选【拼接循环项Xpath】,xpath输入框留空即可,点击 应用-保存。
特别说明:
a. 什么是【相对于循环里的XPath】?点击查看 相对XPath教程
b. 经过步骤二和步骤三,版本属性的【循环-点击元素】内嵌在颜色属性的【循环-点击元素】中,根据 采集原理与流程执行逻辑 中学到的知识,我们知道它会从上到下,由内而外执行流程,展示出每种颜色属性和版本属性的组合,以采集其对应数据,如下图所示。如果有更多其他属性,则继续向内建立嵌套循环。
步骤四、提取其他字段
选中页面中的文本,然后在操作提示框中,点击【采集该元素文本】。
文本类字段都可以按照这样的方式提取。示例中我们提取了商品标题、商品价格、商品编号等多个字段。
特别说明:
a. 文本、图片、视频、源码是不同的数据形式,在操作提示框选择提取方式时稍有不同。文本一般为【采集该元素文本】,图片一般为【采集该图片地址】,更多提取方式请点击查看 不同数据类型(文本、图片、链接、源码等)的抓取方式 教程
步骤五、编辑字段
1、编辑字段
进入【提取数据】设置页面,在预览数据处 可删除多余字段,修改字段名,移动字段顺序等。
2、格式化字段
采集【商品编号】字段,需要使用数据格式化功能,将商品编号从网址中提取出来。
特别说明:
a. 数据格式化是什么?点击查看 数据格式化教程 。
步骤六、优化步骤
为【循环列表】、【点击元素】、【提取列表数据】设置执行前等待1s-3s,然后点击【应用】保存。
步骤七、启动采集
1、单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据,开始采集之后点击暂停,登录京东账号后再点击开始采集。
特别说明:
a. 【本地采集】是使用自己的电脑进行采集,【云采集】是使用八爪鱼提供的云服务器采集,点击查看 本地采集与云采集详解。
2、采集完成后,选择合适的导出方式来导出数据。支持导出为Excel,CSV,HTML,数据库等。这里导出为Excel。
拓展阅读
以上教程详解了如何采集京东单个商品详情页数据,多个商品详情页怎么办呢?
如果已有一批京东商品详情页链接,可使用 URL循环功能
也可以通过 京东商品列表数据采集(搜索关键词)和 京东商品列表数据采集(分类目),先获得一批京东商品详情页链接,再使用 URL循环功能
作者:妙卡