采集知乎话题信息(以知乎发现为例)
2017-10-19 12:18:12 阅读量: 12836
本文介绍使用八爪鱼采集知乎-发现-话题为例
采集网站:https://www.zhihu.com/#signin
使用功能点:
知乎:知乎是一个真实的网络问答社区,社区氛围友好与理性,连接各行各业的精英。用户分享着彼此的专业知识、经验和见解,为中文互联网源源不断地提供高质量的信息。
知乎更像一个论坛:用户围绕着某一感兴趣的话题进行相关的讨论,同时可以关注兴趣一致的人。对于概念性的解释,网络百科几乎涵盖了你所有的疑问;但是对于发散思维的整合,却是知乎的一大特色。
知乎回答内容采集数据说明:本文进行了知乎-发现话题内容的采集。本文仅以“知乎-发现话题内容采集”为例,大家在实操过程中,可根据自身需求,更换知乎的其他内容进行数据采集。
知乎回答内容采集字段详细说明:知乎话题标题,知乎话题链接。
步骤1:创建采集任务
1)进入主界面,选择“自定义模式”
步骤2:登录知乎
1)系统自动打开网页,进入知乎登录页面。系统默认停留在扫描二维码登录页面。点击“使用密码登录”,选择“更多操作”
2)选择“点击该元素”,进入“使用密码登录”页面
3)依次点击账号和密码输入框,输入账号和密码(直接输入,可忽视操作提示框)
4)点击“登录”按钮,选择“点击该按钮”
5)在页面右上角,打开“流程”,以展现出“流程设计器”和“定制当前操作”两个板块。系统会自动登录知乎。再次选中“打开网页”步骤,打开“高级选项”,打开“缓存设置”,勾选“打开网页时使用指定Cookie”,再点击“获取当前页面Cookie”
可以看到,当前页面的Cookie填充进文本框,点击“确定”保存。再点击“确定”,保存全部设置。八爪鱼会记住这个cookie状态,下次打开这个页面的时候,就会以登陆之后的状态打开
注意:由于cookie是有生命周期的,这个周期多长时间取决于采集的网站。如果cookie到期了,就需要再重新获取一次登陆之后的cookie。另外,如果需要切换账号,可以勾选“打开浏览器前清理缓存”,然后再取消cookie,重新设置其他账号即可。
步骤3:设置Ajax下拉加载
1)点击“发现”按钮,在操作提示框中,选择“点击该链接”
2)系统自动挡进入“发现”栏目下的话题页面。我们发现,下拉页面,会出现“加载中”的字样,等待约2秒,会有新的数据加载出来。经过约40次下拉加载,页面达到最底部
“点击元素”步骤涉及Ajax下拉加载。打开“高级选项”,勾选“页面加载完成后向下滚动”,设置滚动次数为“40次”,每次间隔“2秒”,滚动方式为“直接滚动到底部”,最后点击“确定”
注意,这里的滚动次数、间隔时间,需要针对网站进行设置,可根据相关功能点教程进行学习
步骤4:创建列表循环
1)移动鼠标,选中页面里的第一条话题链接。选中后,系统会自动识别页面里的其他相似链接。在右侧操作提示框中,选择“选中全部”
2)选择“采集以下链接地址”
3)再次选中页面里的第一条话题链接,选择“采集该链接的文本”
4)选择“启动本地采集”
步骤5:数据采集及导出
1)采集完成后,会跳出提示,选择“导出数据”。选择“合适的导出方式”,将采集好的数据导出
2)这里我们选择excel作为导出为格式,数据导出后如下图