电商
社交媒体
新闻资讯
生活服务
金融
房产
地图类网站数据采集
2022-03-03 3721
采集场景
在hotsom网站页面https://export.hotosm.org/en/v3/exports循环点击每个链接,采集详情页展示的详细数据。
列表页面:
详情页面:
采集字段
Description、Id、Project Area、Createdat、Createdby、published、ExportFormats、OSMAnalysis、Status、ID、Finished、Duration、ShapeFile、ShapeFileUrl、GeoPackage、GeoPackageUrl、OSM、 OsmUrl等字段。
采集结果
采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:
教程说明
本篇制作时间:2022/2/28 八爪鱼版本:V8.5.1.21611
采集步骤
步骤一、打开网页 新建第一个任务
步骤二、提取链接网址
步骤三、启动采集 导出网址
步骤四、批量打开多个网址 新建第二个任务
步骤五、提取详情字段
步骤六、编辑字段
步骤七、启动采集 导出数据
以下为具体步骤:
步骤一、打开网页 新建第一个任务
在首页【输入框】中输入目标网址 https://export.hotosm.org/en/v3/exports ,点击【开始采集】,八爪鱼自动打开网页。
步骤二、提取链接网址
通过以下操作,创建循环提取的步骤:
选中页面上一个链接,在操作提示框中选择【选中全部】
继续在操作提示框中选择【采集以下链接地址】,生成采集流程。
为保证数据加载充分,为【循环列表】设置10S的执行前等待时间。
步骤三、启动采集 导出网址
1、单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。
2、采集完成后,可以导出为多种格式,这里选择Excel格式。
3、等待导出完成,点击【打开文件】,复制网址这一列数据。
步骤四、批量打开多个网址 新建第二个任务
在首页点击【新建】-【自定义任务】,将复制好的网址粘贴进去,点击【保存设置】,八爪鱼自动生成打开第一个网址,并生成一个循环打开网址的步骤。
步骤五、提取详情字段
网页打开后会跳出弹窗,为保证采集顺利,需设置自动勾选同意。
选中页面上的【I Agree】,操作提示框中选择【点击该元素】。
弹窗关闭后,选中页面中标题,操作提示框中选择【采集该元素的文本】。同理,依次提取中其他文本字段。
对于页面上的链接,鼠标选中后,操作提示框中选择【采集该链接的地址】。同理,依次提取它下面两个链接的地址。
步骤六、编辑字段
在【当前页面数据预览】页面,切换为纵向布局,双击【字段名】一栏直接修改字段名称。
步骤七、启动采集 导出数据
1、单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。
注:该流程符合拆分条件,支持并发采集加速,可自由选择采集方式。
2、采集完成后,可以导出为多种格式,这里选择Excel格式。
3、等待导出完成,点击【打开文件】即可查看Excel文件。
Excel样例数据: