药智网保健食品数据采集教程
2017-11-23 15:14:58 阅读量: 7679
采集网站:
使用功能点:
l 循环翻页
l Xpath修改
药智网站简介:药智网是全国最大的生物医药、化工在线技术交易平台。药智网专门针对生物医药、化工领域推出专业性的知识、技术交易平台,技术需求者可以通过本平台发布技术需求、寻求技术解决方案。
药智网保健食品采集数据说明:本文进行了药智网-保健食品信息的采集。本文仅以“药智网-保健食品信息采集”为例。大家在实操过程中,可根据自身需求,更换药智网的其他内容进行数据采集。
药智网保健食品采集字段详细说明:产品名称,保健功能,主要原料,批准文号,申请人中文名称, 申请人地址 ,功效成分,标志性成分,含量,不适宜人群,适宜人群,食用方法及食用量,产品规格,有效期至,批准文号,产品编号,备案内容,变更内容,批准变更日期,批准日期,注意事项,贮藏方法,保质期,主要原料,备注,产品名称。
步骤1:创建采集任务
1)进入主界面,选择“自定义采集”
2)将要采集的网站URL复制粘贴到输入框中,点击“保存网址”
步骤2:创建翻页循环
1)将页面下拉到底部,点击“下一页”按钮。在右侧的操作提示框中,选择“循环点击下一页”,创建一个翻页循环。
步骤3:创建列表循环
1)移动鼠标,选中页面里的第一条保健品的名称和功能,选中后,系统会自动识别页面里的其他相似链接。在右侧的操作提示框中,选择“选中全部”
2)选择“选中全部”后,可以选中字段旁的编辑和删除标识,对所选择的字段名称进行修改,把多余的字段删除。
步骤4:提取字段信息
1)创建列表循环完成后,需要进入每一个列表里提取详细的信息,点中第一条保健品名称,然后在左边提示框中选择“点击该链接”
2)之后进入第一条保健品的详情信息页面,选中产品具体名称,在左边的提示框中选择“采集该元素文本”
然后相同的方法依次选中这一列需要的字段。
3)接下来,打开右上角流程,自定义命名所选择的字段。然后选择“保存并启动”,选择“启动本地采集”
步骤4:Xpath修改
1)采集时发现运行有问题,所以需要返回流程规则修改Xpath,鼠标点中“点击元素”,选择高级选择项中的自定义
2)点开自定义定位元素方式,修改Xpath
改完之后如下图所示
3)同样的找到循环下面的第一个提取数据步骤,打开自定义定位元素方式,修改Xpath
改完之后如下图
4)同样的方法修改第二个提取元素的Xpath,改完后如下图所示
步骤5:数据采集及导出
1)再次启动数据采集 ,采集完成后选择合适的导出方式,导出数据如下图所示