本文介绍使用八爪鱼采集知乎-发现-话题为例

采集网站:https://www.zhihu.com/#signin

 

使用功能点:

八爪鱼7.0教程——AJAX滚动教程

cookie登录方法

 

知乎:知乎是一个真实的网络问答社区,社区氛围友好与理性,连接各行各业的精英。用户分享着彼此的专业知识、经验和见解,为中文互联网源源不断地提供高质量的信息。

知乎更像一个论坛:用户围绕着某一感兴趣的话题进行相关的讨论,同时可以关注兴趣一致的人。对于概念性的解释,网络百科几乎涵盖了你所有的疑问;但是对于发散思维的整合,却是知乎的一大特色。

 

知乎回答内容采集数据说明:本文进行了知乎-发现话题内容的采集。本文仅以“知乎-发现话题内容采集”为例,大家在实操过程中,可根据自身需求,更换知乎的其他内容进行数据采集。

 

知乎回答内容采集字段详细说明:知乎话题标题,知乎话题链接。


步骤1:创建采集任务

1)进入主界面,选择“自定义模式”

1

 

2)要采集的网址制粘贴到网站输入框中,点击“保存网址

2

 

步骤2:登录知乎

1)系统自动打开网页,进入知乎登录页面。系统默认停留在扫描二维码登录页面。点击“使用密码登录”,选择“更多操作”

3

 

2)选择“点击该元素”,进入“使用密码登录”页面

4

 

3)依次点击账号和密码输入框,输入账号和密码(直接输入,可忽视操作提示框)

5

 

4)点击“登录”按钮,选择“点击该按钮”

6

 

5)在页面右上角,打开“流程”,以展现出“流程设计器”“定制当前操作”两个板块。系统会自动登录知乎。再次选中“打开网页”步骤,打开“高级选项”,打开“缓存设置”,勾选“打开网页时使用指定Cookie”,再点击“获取当前页面Cookie”

7

 

可以看到,当前页面的Cookie填充进文本框,点击“确定”保存。再点击“确定”,保存全部设置。八爪鱼会记住这个cookie状态,下次打开这个页面的时候,就会以登陆之后的状态打开

7 1

 

注意:由于cookie是有生命周期的,这个周期多长时间取决于采集的网站。如果cookie到期了,就需要再重新获取一次登陆之后的cookie。另外,如果需要切换账号,可以勾选“打开浏览器前清理缓存”,然后再取消cookie,重新设置其他账号即可。

 

步骤3:设置Ajax下拉加载

1)点击“发现”按钮,在操作提示框中,选择“点击该链接”

8

 

2)系统自动挡进入“发现”栏目下的话题页面。我们发现,下拉页面,会出现“加载中”的字样,等待约2秒,会有新的数据加载出来。经过约40次下拉加载,页面达到最底部

9

 

“点击元素”步骤涉及Ajax下拉加载。打开“高级选项”,勾选“页面加载完成后向下滚动”,设置滚动次数为“40次”,每次间隔“2秒”,滚动方式为“直接滚动到底部”,最后点击“确定”

10

注意,这里的滚动次数、间隔时间,需要针对网站进行设置,可根据相关功能点教程进行学习

 

步骤4:创列表循环

1)移动鼠标选中页面里的第一条话题链接。选中后,系统会自动识别页面里的其他相似链接。在右侧操作提示框中,选择“选中全部”

11

 

2)选择“采集以下链接地址”

12

 

3)再次选中页面里的第一条话题链接,选择“采集该链接的文本”

13

 

4)选择“启动本地采集

14

 

步骤5:数据采集及导出

1)采集完成后,会跳出提示,选择导出数据”。选择合适的导出方式,将采集好数据导出

15

 

2)这里我们选择excel作为导出为格式,数据导出后如下图

16