本文介绍使用八爪鱼采集药智数据网保健食品详细信息的方法

采集网站:

https://db.yaozh.com/baojian

 

使用功能点:

l 循环翻页

l Xpath修改

 

药智网站简介:药智网是全国最大的生物医药、化工在线技术交易平台。药智网专门针对生物医药、化工领域推出专业性的知识、技术交易平台,技术需求者可以通过本平台发布技术需求、寻求技术解决方案。

 

药智网保健食品采集数据说明:本文进行了药智网-保健食品信息的采集。本文仅以“药智网-保健食品信息采集”为例。大家在实操过程中,可根据自身需求,更换药智网的其他内容进行数据采集。

 

药智网保健食品采集字段详细说明:产品名称,保健功能,主要原料,批准文号,申请人中文名称, 申请人地址 ,功效成分,标志性成分,含量,不适宜人群,适宜人群,食用方法及食用量,产品规格,有效期至,批准文号,产品编号,备案内容,变更内容,批准变更日期,批准日期,注意事项,贮藏方法,保质期,主要原料,备注,产品名称。

 

步骤1:创建采集任务

1)进入主界面,选择“自定义采集

 

2)要采集网站URL制粘贴到输入框中,点击保存网址

 

 

步骤2:创建翻页循环

1)将页面下拉到底部,点击“下一页”按钮。在右侧操作提示框中,选择循环点击下一页,创建一个翻页循环。

 

 

 

步骤3:创列表循环

1)移动鼠标选中页面里的第一条保健品的名称和功能,选中后,系统会自动识别页面里的其他相似链接。在右侧的操作提示框中,选择“选中全部”

 

 

2)选择“选中全部”后,可以选中字段旁的编辑和删除标识,对所选择的字段名称进行修改,把多余的字段删除。

 

 

 

步骤4:提取字段信息

1)创建列表循环完成后,需要进入每一个列表里提取详细的信息,点中第一条保健品名称,然后在左边提示框中选择“点击该链接”

 

 

 

2)之后进入第一条保健品的详情信息页面,选中产品具体名称,在左边的提示框中选择采集该元素文本

 

然后相同的方法依次选中这一列需要的字段。

 

 

3)接下来,打开右上角流程,自定义命名所选择的字段。然后选择“保存并启动”,选择启动本地采集

 

 

步骤4:Xpath修改

1)采集时发现运行有问题,所以需要返回流程规则修改Xpath,鼠标点中“点击元素”,选择高级选择项中的自定义

 

2)点开自定义定位元素方式,修改Xpath

 

 

改完之后如下图所示

 

3)同样的找到循环下面的第一个提取数据步骤,打开自定义定位元素方式,修改Xpath

 

改完之后如下图

 

4)同样的方法修改第二个提取元素的Xpath,改完后如下图所示

 

 

 

步骤5:数据采集及导出

1)再次启动数据采集 ,采集完成后选择合适的导出方式,导出数据如下图所示