新浪微博关键词采集
2018-01-08 18:16:52 阅读量: 36310
本文介绍使用八爪鱼采集微博关键词的方法。
采集网站:
https://weibo.com/?sudaref=www.sogou.com&display=0&retcode=6102
本文仅以“杨幂”、郑爽 、“赵丽颖”这三个关键词挖掘举例说明,大家如果有挖掘微博其他关键词的需求,可以更换关键词进行采集。
采集的内容包括:微博下拉框关键词
使用功能点:
l 文本循环
l Ajax点击
l Cookie登陆方法(7.0版本)
注:第一次用八爪鱼采集微博的童鞋,可以先制作一个简单的预登陆规则
步骤1:创建微博关键词采集任务
1)进入主界面,选择“自定义模式”
微博关键词采集步骤1
2)将要采集的网址复制粘贴到网站输入框中,点击“保存网址”
微博关键词采集步骤2
步骤2:登录微博
1)系统自动打开网页,进入微博首页。在页面右上角,打开“流程”,以展现出“流程设计器”和“定制当前操作”两个板块。点击“登录”按钮,选择“点击该链接”,进入微博登录页面
微博关键词采集步骤3
2)点击账号输入框,选择“输入文字”,输入账号,点击“确定”
微博关键词采集步骤4
3)点击密码输入框,选择“输入文字”输入密码,点击“确定”
微博关键词采集步骤5
4)点击“登录”按钮,选择“点击该链接”
微博关键词采集步骤6
5)系统会自动登录微博
6)
微博关键词采集步骤7
7)
步骤3:设置cookie登录
1)再次选中“打开网页”步骤,打开“高级选项”,打开“缓存设置”,勾选“打开网页时使用指定Cookie”
微博关键词采集步骤8
2)八爪鱼会记住这个Cookie状态。下图中新建了一个任务,打开微博首页。可以看见,八爪鱼中以登陆之后的状态打开之后就可以正式进入采集了。
微博关键词采集步骤9
步骤4:创建文本循环
1)同上操作选择自定义采集复制网址打开网页之后,打开右上角的流程按钮,从左边的流程展示界面拖入一个循环的步骤,如下图
微博关键词采集步骤10
然后打开高级选项,在循环方式中选择文本列表,在列表下拉框中输入“杨幂”、郑爽 、“赵丽颖”并用回车键隔开。最后选择“确定”。
微博关键词采集步骤11
2)接着鼠标选中输入框,在右面的提示框中选择“输入文字”
微博关键词采集步骤12
3)接着在弹出的输入框中选择“确定”,不用输入文本。
微博关键词采集步骤12
然后在左边的流程中把“输入文本”拖到循环框中
微博关键词采集步骤13
之后,在右边的高级选相中勾选使用当前循环里的文本填充输入框。选择“确定。”
微博关键词采集步骤14
步骤5:提取关键词
1)鼠标选中输入框中的词,然后在右面的提示框中选择“鼠标移动到该元素上”,
微博关键词采集步骤15
2)此步骤涉及Ajax技术。打开“高级选项”,勾选“Ajax加载数据”,设置时间为“5秒”。完成后,点击“确定”
微博关键词采集步骤16
再次选中关键词,然后选择“选中全部”
微博关键词采集步骤17
3)最后选择“采集以下链接文本”
微博关键词采集步骤18
4)选完需要的数据以后,可以打开右上角的流程按钮,对字段进行修改。
微博关键词采集步骤19
步骤4:数据采集及导出
1)点击左上角的“保存”,然后点击“开始采集”
微博关键词采集步骤20
选择“启动本地采集”
微博关键词采集步骤21
2)采集完成后,会跳出提示,选择“导出数据”,选择“合适的导出方式”,将采集好的数据导出, 这里我们选择excel作为导出为格式,一份完好的微博下拉关键词就采集好了,数据导出后如下图
微博关键词采集步骤22