场景介绍
应科研及科技前沿报告等相关需求,对于文献期刊的数据供应日渐密集,相应也用于AI数据投喂。企业为支撑数据库需要,定期采集相关词条数据,为第三方项目数据供应。
采集场景
打开维普官网文献搜索界面(实例网址:https://www.cqvip.com/search?k=%E8%88%AA%E7%A9%BA%E5%88%B6%E9%80%A0&),输入相应关键词,采集文献基础信息。


主要采集字段
搜索关键词,①论文标题、标题详情链接,②作者,③来源,④摘要,⑤机构,⑥关键词,⑦学科分类号。
采集结果
采集结果可导出为Excel、CSV、HTML、数据库等多种格式。 导出为Excel示例:

教程说明
本篇制作时间:2025/12/11 八爪鱼版本:V8.7.7
如果因网页改版造成网址或步骤无效,无法收集到目标数据,请联系官方客服,我们将及时修正。
采集步骤
步骤一、打开网页
步骤二、循环搜索关键词并提取
步骤三、确定循环列表并提取文献标题及链接
步骤四、进入详情页提取相应数据
步骤五、字段格式化处理
步骤六、优化规则
步骤七、启动采集
以下为具体步骤:
步骤一、打开网页
1、打开网址
在首页输入框中,输入网址https://www.cqvip.com/search?k=%E8%88%AA%E7%A9%BA%E5%88%B6%E9%80%A0&,然后点击【开始采集】,八爪鱼自动打开网页,网站会自动跳到登录页面
特别说明:a. 打开网页后,如果开始开始【自动识别】,请等待自动识别完成。八爪鱼支持自动识别网页上的列表、滚动和翻页,识别成功后直接启动采集即可获取数据。如果【自动识别】的结果不是我们需要的,可点击【取消】关闭智能识别,自行配置采集流程。详情点击查看 【自动识别】
步骤二、循环搜索关键词并提取
1、点击搜索框、循环输入文本
① 选中搜索框
② 在黄色操作提示框中,选择【输入文本】
③在黄色操作提示框中,点击【批量输入文本】并自行输入所需查询的搜索词(此处案例为:“造船业”、“智能农业”)
特别说明:a. 本教程主要以“任务字段”作为关键词类型搜索为例。如果需要其他类型,模拟人点击修改即可,涉及到相关功能参考:鼠标移上去出现新数据。
2、提取搜索词,点击搜索按键
① 选中搜索框
② 在黄色操作提示框中,选择提取【文本框内的值】
③ 选中搜索按钮
④在黄色操作提示框中,选择鼠标操作【点击该按钮】
步骤三、确定循环列表并提取文献标题及链接
1、确定循环列表
① 点击选中列表-具体见本步骤特别说明a
② 在黄色操作提示框中,选择提取【文本内容】
特别说明:a. 此列表选取后不会自动识别到循环项(没有出现【选中全部】),需要再点击相似列表手动识别,具体说明参考: 从列表进入详情页采集 b.此配置完获取到的数据是整个列表的文本,实际不具有实用性,仅仅是为了获取循环列表的xpath,便于后续选择具体字段采集/点击提供拼接条件,相关说明可参考:绝对xpath、相对XPath学习与实例
2、获取标题数据与链接
①点击标题
②在黄色操作提示框中,选择提取【文本+链接】
③删除第一个字段
特别说明:a.为何只点击一个标题,整个循环列表都能正常采集呢?原因就是如果在已经生成的循环列表中选择点击/提取元素,系统会优先匹配相对xpath拼接,便于数据采集调试。可参考:绝对xpath、相对XPath学习与实例
3、设置翻页
①找到并点击翻页按钮
②在黄色操作提示框中,选择提取【循环点击】
特别说明:a.某一元素选择循环点击,从流程角度来说都是循环翻页,当黄色提示框没有提示翻页按钮配置时,可以如上操作实现翻页。相关参考:翻页以采集多页数据
步骤四、进入详情页提取相应数据
1、点击标题进入详情页
① 首先点击流程“循环列表1”-具体原因见步骤三-2、获取标题数据与链接-特殊说明a
② 点击标题
③在黄色操作提示框中,选择操作【点击该链接】
2、获取相关字段数据
①依次点击所需字段并采集
特别说明:a.此时获取的字段数据是按照路径xpath定位,理论上元素定位非常脆弱,详情页常规变化就无法获取到实用信息。下一步骤着重说明定位思考逻辑和xpath书写展示。
步骤五、字段格式化处理
1、修改流程名
①更改“循环列表”为“循环文本”
②更改“提取数据”为“提取搜索关键词”
③更改“点击元素”为“点击搜索”
④更改“循环列表1”为“循环文献列表”
⑤更改“提取列表数据”为“提取标题与链接”
⑥更改“点击元素1”为“点击进入详情页”
⑦更改“提取数据1”为“提取详情页数据”

特别说明:a. 修改流程名目的主要是规范流程,为后续排查问题打下便利基础。b.若是在基础设置中修改流程名。则改完后一定要点击应用。
2、修改字段名
①更改“文本框值”为“搜索关键词”
②更改“_文本”为“论文标题”
③更改“_链接”为“标题详情链接”
④更改“文本”为“作者”
⑤更改“文本3”为“来源”
⑥更改“文本2”为“摘要”
⑦更改“文本1”为“机构”
⑧更改“文本4”为“关键词”
⑨更改“文本5”为“学科分类号”
3、初步采集,发现问题
初步采集测试,发现数据有如下问题:
①部分字段缺失。
②字段错位(即字段存在,但是出现实际数据与字段名无法对应的情况)
③作者字段有异常前缀
④摘要字段不显示完整数据。

特别说明:a. 此案例检查方式主要是将异常数据明细输入浏览器中查看,确定是否是定位问题。如问题①,以链接:https://www.cqvip.com/doc/journal/00002HCP5V987JP0MJDO2JP06HR?sign=61e5ad17bc2600eca6f5819e53e1c5560926e42f4db30efe74aefd15db9151ec&expireTime=1796906266570&resourceId=00002HCP5V987JP0MJDO2JP06HR为例,发现网址中本身就没有作者字段,即不是采集器问题,后续对此情况做数据格式化即可。其他字段都以此思路排查,整体排查方式可参考:规则出错排查方法
4、确定问题产生原因 -具体原因见步骤五-3、初步采集,发现问题-特殊说明a ,排查出以上问题具体原因:
①详情页本身没有部分字段,采集器无法获取。——非可调整问题
②由于问题①和系统自动识别的xpath是路径定位,所以如果缺失部分层级元素,就会导致整体定位失效-具体原因见步骤四-2、获取相关字段数据-特殊说明a

③这里将作者字段识别到的xpath(//div[@class="info-line author-ellipsis"])输入浏览器检查,发现该元素隐藏了部分信息,导致我们定位到无用信息。

④发现部分详情页中由于摘要太长,没有完全显示。

特别说明:a. 问题②xpath路径定位依赖坚实的源码结构,一旦变化,定位就会不准,建议试用属性或者函数定位。xpath参考:XPath系统学习与实例,外部学习参考:建议关注前11分钟
5、解决问题
问题①不需要定位解决,不过为格式美观,可以设置相关默认值。-特别说明b扩展
问题②修改xpath解决。 首先观察网页各个字段特点,发现所有字段名都是独一无二的,可以考虑用独特属性定位。
不过最后发现,字段名的属性都是一致的,无法有效区分。
则只能采用模糊文本定位。-特别说明c扩展

观察到这些带引号元素独一无二,则考虑定位此元素。书写xpath://span[contains(text(),"构:")]可以准确定位。

现在通过观察网页结构,确定所需元素的xpath(需要跳到刚刚定位元素的爷层,所以用/../..,之后用同级函数定位)。书写为://span[contains(text(),"构:")]/../../following-sibling::div[1]可以准确定位。

按照此逻辑,处理其他字段即可。

此时发现预览中除了学科分类号都准确定位-特别说明d扩展
这时我们通过观察,发现“学”字是字段中独有的,但是模糊文本只定位“学”是更佳不准的,所以我们需要并列定位属性。写为//span[@data-v-7b1f1d9f][contains(text(),"学")]/../../following-sibling::div[1]可以准确定位。

至此问题②解决。
问题③观察发现,前缀都是“发文量: 被引量:0”,则直接格式化替换即可。
问题④修改xpath为://span[contains(text(),"要:")]/../../following-sibling::div[1]/div[1]/span[1]-特别说明e扩展
特别说明:a. xpath参考:XPath系统学习与实例,外部学习参考:建议关注前11分钟b.为确保美观其他字段也可以按照上述问题①解决方式设置默认值。c.为何不使用准确文本定位呢?因为观察发现,网页中单独元素有空符号,准确文本无法定位。d.为何学科分类号没有准确定位呢?因为我们用//span[contains(text(),"号:")]可以定位到两个字段(“中图分类号”、“学科分类号”),所以还需要修改xpath。e.通过观察发现,源码中实际存在全文摘要,只是界面设置不显示而已,网页界面逻辑就是点击打开才显示,但这个与我们直接获取源码文本无关,定位编写xpath即可。
步骤六、优化规则
刚刚尝试运行,发现实际运行也较稳定,为确保更佳顺畅,常规优化即可。
1、给“点击搜索”设置执行前等待2秒
2、给“点击搜索”设置Ajax超时7秒执行下一步
3、给“循环翻页”设置执行前等待3秒
4、给“提取详情页数据”设置执行前等待2秒
特别说明:a. 设置完相关优化(高级设置)后一定要及时点击应用。b.具体规格优化参考:规则优化-八爪鱼帮助中心c.相关Ajax网页设置:ajax网页采集方法-八爪鱼帮助中心
步骤七、启动采集与下载
1、单击【采集】并【启动本地采集】。
特别说明:a. 【本地采集】是使用自己的电脑进行采集,【云采集】是使用八爪鱼提供的云服务器采集,点击查看 本地采集与云采集详解
2、采集完成后,选择合适的导出方式来导出数据。支持导出为Excel,CSV,HTML,数据库等。这里导出为Excel。

3、云采集与本地采集区别效果
①本地采集

②云采集

特别说明:a. 通过启动采集发现【本地采集】数量较少,采集时间也较长,【云采集】则更加稳定,数据更多,且采集时间更短,具体原因就是【云采集】使用云服务器更佳稳定(云服务器网络更佳流畅,ip更佳优质。)、不受本地设备与网络环境限制,同时可以拆分任务多ip执行,使采集效率大幅度提升。b.更多详情请关注:云采集高阶功能c.数据案例解释:【本地采集】由于关机所以自动结束,采集280条。【云采集】作为对比案例,效果超过本地采集后便手动关闭。实际可以采集更多,此效果展示仅做参考。
作者:YfY