视频说明

百度文库列表页信息

 

模板介绍:

此模板用于采集百度文库中进行类别选择后文章列表信息,如文档名称,文档链接,上次时间等等。由于打开网页后可能会弹出验证窗口,在启动本地采集后会有15秒等待时间,如果出现验证窗口,请手动拖动验证码。【限本地采集】具体采集内容请点击【采集字段预览】和【示例数据】。

采集结果的 “文档链接” 可用于模板【百度文库详情页信息​】,从而批量采集具体的文档内容。

使用方法:

1.点击【立即使用】进入参数配置界面。

2.输入采集网址进行数据获取。例如:https://wenku.baidu.com/list/63 网址为文库某个类目的页面网址您可以在https://wenku.baidu.com/pro/index选择某个类目点击后,复制当前页面的网址黏贴到输入框中。

如您需要输入多条网址,请每条网址之间用回车进行换行。可从Excel表格和TXT文件中直接复制某列网址,黏贴到输入框中。建议一次性输入的网址不要超过1万条

3.参数设置完毕后,请点击【保存并启动】进行采集。

 

百度文库详情页信息

模板介绍:

此模板用于采集百度文库中具体某个文档的详细信息,如文章名称,浏览量,下载量等等。具体采集内容请点击【采集字段预览】和【示例数据】。

使用方法:

1.点击【立即使用】进入参数配置界面。

2.输入采集网址进行数据获取。例如:https://wenku.baidu.com/view/8674a052001ca300a6c30c22590102020740f2d0.html    

采集网址您可以直接从浏览器中复制黏贴过来,也可以配合【百度文库列表页信息】模版一起使用。通过该模板批量采集网址,然后再复制黏贴到当前模板的输入框中。

如您需要输入多条网址,请每条网址之间用回车进行换行。可从Excel表格和TXT文件中直接复制某列网址,黏贴到输入框中。建议一次性输入的网址不要超过1万条

4.设置要翻页的次数,即点击下一页的次数。请输入数字,如“5”,可实现只采集前5页的内容。因网站本身的限制,最多只能采集57页数据,每页采集10条数据。

5.参数设置完毕后,请点击【保存并启动】进行采集。