采集场景
在中国天气网页面 http://www.weather.com.cn/forecast/循环点击,采集点击后展示的多个地区的天气列表数据。
采集字段
地区、发布时间、风力、日间天气、夜间天气、温度、详情网址等字段。
采集结果
采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:
采集步骤
步骤一、打开网页
步骤二、创建【循环点击-提取】,采集所有城市以展示天气数据
步骤三、编辑字段 清洗数据
步骤四、启动采集 导出数据
以下为具体步骤:
步骤一、打开网页
在首页【输入框】中输入目标网址 http://www.weather.com.cn/forecast/ ,点击【开始采集】,八爪鱼自动打开网页。
步骤二、创建【循环点击-提取】,采集所有城市以展示天气数据
打开网页后,通过以下几步,实现批量采集多个地区的天气数据。
1、循环点击所有地区
2、采集该地区的数据
1、循环点击所有地区
选中一个地区,在操作提示框中,点击【选中全部】。
再点击【循环点击每个元素】,页面展示该地区的天气数据。
八爪鱼自动识别了Ajax点击并设置了超时1秒,为保证数据加载充分,修改Ajax超时为3秒
2、采集该地区的数据
注:对于该页面,一部分数据以文本形式展示,可直接提取;一部分以图片形式展示,需提取源码并格式化处理方可获取真正的数据。
① 选中地区字段,采集该元素的文本。同理,依次提取【发布时间】,【风力】,【温度】字段。
② 选中日间天气图标,采集该元素的Outer HTML。同理,提取【夜间天气】,等字段。
③点击【添加字段】,选择【当前网页信息>网址】
步骤三、编辑字段 清洗数据
在【当前页面数据预览】页面,可删除多余字段,修改字段名,移动字段顺序,格式化字段等。
①在【当前页面数据预览】页面,双击字段名称进行修改。
②在【当前页面数据预览】页面,选中字段后鼠标右键-元素抓取方式-元素属性-title。同理,依次对【夜间天气】等字段进行清洗操作。
步骤四、启动采集 导出数据
1、单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。
2、采集完成后,可以导出为多种格式,这里选择Excel格式。
3、等待导出完成,点击【打开文件】即可查看Excel文件。
Excel样例数据: