采集场景
在微博主页(https://weibo.com/)登录后,输入关键词搜索,采集得到的搜索结果列表数据。支持按【高级搜索】中设置的条件进搜索。
采集字段
博主用户名、发布时间、博文内容、分享数、评论数、点赞数、评论、评论用户名、评论时间。
采集结果
采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:
教程说明
本篇更新时间:2023/03/30 八爪鱼版本:V8.6.0
如果因网页改版造成网址或步骤无效,无法收集到目标数据,请联系官方客服,我们将及时修正。
采集步骤
步骤一:打开网页
步骤二、微博登录
步骤三、在【高级搜索】中选择搜索条件
步骤四、使用自动识别,自动识别列表页和翻页
步骤五、编辑字段 步骤
步骤六、优化字段
步骤七、采集多个关键词的搜索结果数据
步骤八、启动采集
以下为具体步骤:
步骤一、打开网页
在首页搜索框输入微博首页网址 https://weibo.com/,然后点【开始采集】,八爪鱼自动打开网页。
特别说明:
a. 打开网页后,如果开始【自动识别】,请点击【不再自动识别】或【取消识别】将其关掉。因为本文不适合使用【自动识别】。
b. 【自动识别】适用于自动识别网页上的列表、滚动和翻页,识别成功后直接启动采集即可获取数据。详情点击查看 【自动识别】教程
步骤二、微博登录
要采集博文列表数据,首先需要登录。如果没有登录,只能采集第一页的博文。
在八爪鱼中的登录步骤:
1、打开浏览器模式
点击 按钮,打开浏览器模式。在浏览器模式中,点击页面的登录按钮,打开手机微博app扫码登录。
2、使用Cookie登录微博
进入【打开网页】设置界面,勾选【使用指定的Cookie】,点击【获取当前页面Cookie】并保存。
这样就获取到了登录后的Cookie,启动时直接以登录状态打开网页。
特别说明:
a. 什么是浏览器模式?在浏览器模式下,我们可以像在浏览器中一样点击操作网页,不会生成流程步骤。如需编辑流程步骤,需关闭浏览器模式。关闭状态: ;打开状态:
b. Cookie是什么?通俗的说,Cookie是一些存储在用户电脑上的小文件,用来保存一些站点的用户数据,作用是让浏览器为用户定制内容。例如:用户第一次访问某网站,输入了账号密码登录。浏览器会问你是否需要【记住账号密码】。选择【是】以后,浏览器就会将这些账号密码信息存储在用户电脑上。下次再访问此网站,就无需再次输入账号密码。详情点击查看 处理需要登录的网页(含登录时有验证码)
c. 怎么判断是否获取到Cookie?获取Cookie后 会变成 ,点击 ,可查看具体的Cookie内容。
步骤三、在【高级搜索】中选择搜索条件
在八爪鱼中有2种方式实现:
① 在八爪鱼中做一遍流程:输入关键词 → 点击【高级搜索】→ 在【高级搜索】中选择条件 → 点击【搜索微博】,获得搜索结果。
② 在网页中完成 输入关键词 → 点击【高级搜索】→ 在【高级搜索】中选择条件 → 点击【搜索微博】,获得一条带有搜索关键词和筛选条件的网址,将这条网址直接复制进八爪鱼中去进行采集。
第2种方式更快更稳,示例中选择第2种方式。
1、获得带有搜索关键词和筛选条件的网址
先在浏览器中测试一下。打开微博首页,输入关键词【三体】,在【高级搜索】中选择条件:【原创】【2023-03-01 00时 至 2023-03-30 00时】,得到网址:https://s.weibo.com/weibo?q=%E4%B8%89%E4%BD%93&scope=ori&suball=1×cope=custom%3A2023-03-01-0%3A2023-03-30-0&Refer=g。
特别说明:
a. 在【高级搜索】中选择什么条件,在得到的网址中就有一个对应参数,请注意观察筛选条件跟网址参数的对应关系,选择自己需要的。
2、将1中的网址,输入进八爪鱼中
在【打开网页】后,增加一个步骤【打开网页1】。
双击进入【打开网页1】设置页面,输入网址 https://s.weibo.com/weibo?q=%E4%B8%89%E4%BD%93&scope=ori&suball=1×cope=custom%3A2023-03-01-0%3A2023-03-30-0&Refer=g ,然后保存,八爪鱼自动打开这个网页。
步骤四、使用自动识别,自动识别列表页和翻页
1、使用自动识别,自动识别列表和翻页
网页打开后,点击【自动识别网页内容】 ,等待一段时间,成功识别了文章列表中的数据和翻页。
点击【生成采集设置】,将自动识别出的列表数据和翻页,生成为采集流程,方便我们使用和修改。
特别说明:
a. 本文使用【自动识别】,自动识别网页上的列表、滚动和翻页。识别成功后会生成采集规则,再对采集规则调整,以采集目标数据。如果【自动识别】的结果与以上图片不同,可点击【取消识别】自行配置采集流程或联系客服反馈。详情点击查看 【自动识别】教程
2、修改【循环列表1】和【循环翻页】XPath
自动识别生成【循环列表】和【循环翻页】存在不通用的情况,需要手动修改。
进入【循环翻页】设置页面,修改XPath为://a[contains(text(),'下一页')] ,然后点击【应用】保存。
进入【循环列表1】设置页面,修改XPath为://div[@class="card-wrap" and @mid] ,然后点击【应用】保存。
特别说明:
a. 如何写一条精准的XPath?这里需要一定的XPath知识,点击查看 XPath学习与实例教程 。
步骤五、编辑字段
在【当前页面数据预览】面板中,可删除多余字段,修改字段名,移动字段顺序等。
步骤六、优化字段
1、改【博文内容】字段XPath
【博文内容】字段默认的XPath,无法精准定位到展开后的全部博文,需修改XPath。
点击【提取列表数据】进入对应的数据预览界面,点击【博文内容】字段右上方的 ...按钮,选择【修改元素定位】,修改XPath为://div[@class="content"]//*[@class='txt'][last()] ,然后应用
2、格式化字段
【转发数】、【评论数】和【点赞数】三个字段,默认会带上 转发 、评论、赞 的文本。
如果需要去掉文本,只保留数字,可以通过格式化实现:
点击【转发数】字段右上方的 【...】 按钮,选择【格式化数据】→ 【添加步骤】→【正则表达式匹配】,输入正则表达式【\d+】后保存。
【评论数】、【点赞数】的格式化数据过程相同。
步骤七、采集多个关键词的搜索结果数据
回顾一下,步骤三中我们输入关键词【三体】,在【高级搜索】中选择条件:【原创】【2023-03-01 00时 至 2023-03-30 00时】,得到网址:https://s.weibo.com/weibo?q=%E4%B8%89%E4%BD%93&scope=ori&suball=1×cope=custom%3A2023-03-01-0%3A2023-03-30-0&Refer=g。
如果保持【高级搜索】的条件不变,需要更换其他关键词进行采集,怎么办?以下为具体步骤:
1、添加【循环-输入网址】步骤
在【打开网页】步骤后,添加一个【循环】。
进入【循环】设置页面。选择循环方式为【网址列表】,点击 按钮,进入网址输入页面。
2、根据网址中参数的规律,批量生成网址
选择【批量生成】,输入一个带有关键词和【高级搜索】条件的网址:
https://s.weibo.com/weibo?q=%E4%B8%89%E4%BD%93&scope=ori&suball=1×cope=custom%3A2023-03-01-0%3A2023-03-30-0&Refer=g。
鼠标选中网址中 q= 和 & 中间的部分并将其删掉(这部分内容是关键词,示例中输入的是【三体】,复制进八爪鱼中时转码了),然后点击【添加参数】→ 选择参数类型为【自定义列表】→ 输入准备好的关键词(可同时输入多个关键词,一行一个即可),然后保存。
点击【保存设置】后,八爪鱼自动打开网页。
3、调整流程
将【打开网页1】拖入到【循环】中,然后【打开网页1】步骤勾选【使用当前循环里的URL作为导航网址】
将整块【循环翻页】拖入到【循环】中。
特别说明:
a. 八爪鱼支持通过网址中参数的规律,自动批量生成网址,详情点击查看 根据规律批量生成网址 教程
步骤八、启动采集
1、单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。
特别说明:
a.【本地采集】是使用自己的电脑进行采集,【云采集】是使用八爪鱼提供的云服务器采集,点击查看本地采集与云采集详解。
2、采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML、数据库等。这里导出为Excel。
数据示例:
说明:
若网站改版导致采集问题,可扫码加群反馈