从本课开始,我们将自己动手,配置一个采集规则。从最简单的单个数据采集开始。
现在有一个京东商品详情页的网页:https://item.jd.com/100007073871.html。网页上有很多字段:文本(标题、价格等)、图片(商品图片)、链接(详情的超链接)
鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图
下文其他图片同理
我们想将上述网页上非结构化的文本、图片、超链接等字段采集下来,保存为excel等结构化的数据,如下图所示:
在八爪鱼中如何操作?以下为具体步骤。
示例网址:https://item.jd.com/100007073871.html
步骤一 、创建一个新任务,输入网址
在首页【输入框】中输入目标网址,点击【开始采集】,八爪鱼自动打开网页。
如果自动开始智能识别,可点击【不再自动识别】或【取消识别】。如果已关闭智能识别,可进行接下来的步骤。
也可以点击左侧【+ 新建】,选择【自定义任务】,进入网址输入界面。
特别说明:
b. 如何获得目标网址(也叫url)?输入网址是进行数据数据采集的第1步。因此,一定要确定你要的数据在哪个网页上有,网址是什么,找到网址并将其复制下来。
步骤二、选择要采集的数据
观察网页。网页上有很多字段:文本(标题、价格等)、图片(商品图片)、链接(详情的超链接)。
鼠标移动到想要的字段上,点击将其选中。选中后,会用绿色框框起来。同时,八爪鱼会弹出1个操作提示框。选中的字段不同,操作提示框中的指令也不同:
如果选中的是文本,选择【采集该元素的文本】。
如果选中的是图片,选择【采集该图片地址】。
如果选中的是链接,选择【采集该链接的文本】或【采集该链接地址】。
这是因为面对不同的数据形式,采集方式是不一样的。请注意根据采集需求,选择指令。
步骤三、编辑字段
在软件下方的数据预览中,可查看到我们提取的所有字段,在此我们可以对这些字段进行修改、删除字段名称,移动字段顺序等操作。
数据预览中默认是 【横向字段布局】,方便查看所采集到数据。你也可以切换到 【纵向字段布局】,方便进行字段的修改,比如批量删除、复制字段,导入、导出字段配置,格式化,修改字段XPath。
【横向字段布局】下,鼠标移到字段名上,可修改字段名称。
鼠标移动到 按钮上,可对字段进行更多操作:删除、复制、格式化等。
【横向字段布局】和【纵向字段布局】两种布局方式下,都可以用鼠标按住某个字段,然后拖动它,进行字段顺序的调整。
步骤四、获取数据并导出
现在,我们已经配置好了一个采集任务。接下来是让任务自动运行。
点击【保存并启动】,选择【启动本地采集】,启动后八爪鱼开始全自动采集数据。(【本地采集】是使用自己的电脑进行采集,【云采集】是使用八爪鱼提供的云服务器采集,点击查看详细说明。)
采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML。这里导出为Excel。
数据示例:
经过以上操作,我们就将单个页面上的数据采集下来啦!大家对配置任务的过程已经有了一定理解,为后面课程的学习打好了基础!
继续学习吧!
若对教程学习有疑问不明白,或遇到问题,可以扫码加群咨询反馈