【银保监】官网政策公告采集
2022-06-30
采集场景
进入中国银行保险监督管理委员会【新闻资讯】版块下的【监管动态】栏目 http://www.cbirc.gov.cn/cn/view/pages/ItemList.html?itemPId=914&itemId=915&itemUrl=ItemListRightList.html&itemName=%E7%9B%91%E7%AE%A1%E5%8A%A8%E6%80%81 ,进入每条监管动态详情,采集其详情页信息。
采集字段
当前位置、标题、标题链接、发布时间、来源、正文、当前采集时间。
点击查看高清大图,下文其他图片同理
采集结果
采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:
教程说明
本篇制作时间:2022/6/19 八爪鱼版本:V8.5.2
如果因网页改版造成网址或步骤无效,无法收集到目标数据,请联系官方客服,我们将及时修正。
采集步骤
步骤一:打开网页
步骤二、创建【循环点击】,进入每个动态详情页
步骤三、提取详情页中的文本字段
步骤四、编辑字段
步骤五、创建【循环翻页】,采集多页数据
步骤六、启动采集
以下为具体步骤:
步骤一、打开网页
在首页【输入框】中输入目标网址 http://www.cbirc.gov.cn/cn/view/pages/ItemList.html?itemPId=914&itemId=915&itemUrl=ItemListRightList.html&itemName=%E7%9B%91%E7%AE%A1%E5%8A%A8%E6%80%81,点击【开始采集】,八爪鱼自动打开网页。
特别说明:
a. 打开网页后,如果开始开始【自动识别】,请点击【不再自动识别】或【取消识别】将其关掉。因为本文不适合使用【自动识别】。
b. 【自动识别】适用于自动识别网页上的列表、滚动和翻页,识别成功后直接启动采集即可获取数据。详情点击查看 【自动识别】教程
步骤二、建立【循环-点击元素】,进入每条监管动态的详情页
1、建立【循环-点击元素】,进入每条监管动态的详情页
通过以下3步,实现循环点击每个链接,进入详情页:
① 选中页面上第1条监管动态链接(注意一定要选中链接)
② 点击【循环点击每个链接】,进入第1条监管动态的详情页
特别说明:
a. 经过以上连续3步,【循环-点击元素】创建完成。【循环】中的项,对应着页面上所有监管动态链接。启动采集以后,八爪鱼就会按照循环中的顺序依次点击每个链接,进入详情页,以采集每条监管动态的详情页数据。
b. 为何通过以上3步,可建立【循环-点击元素】?详情点击查看 采集点击多个链接后的详情页数据教程 。
2、修改【循环-点击元素】Xpath
为了精准定位到所有的监管动态链接,需修改一下【循环翻页】的XPath。
进入【循环翻页】设置页面,选择【循环方式】为【不固定元素列表】,修改XPath为://span[@class="title"]/a,然后点击【应用】保存。
改完后,再次点击【点击元素】步骤,进入问题详情页。
特别说明:
a. 默认生成的循环方式为【固定元素列表循环】,无法精准定位到所有的问题链接,所以我们需要手动修改XPath,使之定位到所有的问题链接。这里需要一定的XPath知识。点击查看 XPath学习与实例教程 。
步骤三、提取详情页中的文本字段
进入详情页后,选中页面中的文本,然后在操作提示框中,点击【采集该元素文本】。
文本类字段都可以按照这样的方式提取。示例中我们提取了当前位置、发布时间、来源、标题、正文等字段。
步骤四、编辑字段
1、编辑字段
在【当前页面数据预览】页面,可删除、增加多余字段,修改字段名,移动字段顺序等。
2、修改字段XPath
针对【正文】这个字段,默认生成的字段XPath,无法精准定位到所有监管动态的正文内容,需手动修改。
进入【提取列表数据】步骤设置页面,修改正文XPath为://div[@class="Section0"]
3、格式化字段
格式化数据,对【当前位置】、【发布时间】和【来源】字段进行格式化数据,去除多余内容。
具体步骤如下图所示:
步骤五、创建循环翻页
1、创建循环翻页
如果只是采集一页数据,可跳过此步骤。
如果需要翻页以采集多页数据:
① 先点击流程中的【循环列表】步骤,以回到列表页(如果已在列表页可直接继续操作)
② 再选择页面中的【下一页】按钮,在操作提示上单击【循环点击下一页】,创建【循环翻页】。
2、设置执行前等待时间
① 进入【循环翻页1】设置页面,设置【执行前等待】3s
② 进入【点击翻页1】设置页面,设置【执行前等待】3s和【Ajax超时】7s
步骤六、启动采集
1、单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。
特别说明:
a. 【本地采集】是使用自己的电脑进行采集,【云采集】是使用八爪鱼提供的云服务器采集,点击查看 本地采集与云采集详解。
2、采集完成后,选择合适的导出方式来导出数据。支持导出为Excel,CSV,HTML,数据库等。这里导出为Excel。数据示例:
作者:Fan
编辑:Aisling