请输入
菜单

【微博】搜索关键词采集

标签:微博

采集场景

在微博主页(https://weibo.com/)登录后,输入关键词搜索,采集得到的搜索结果列表数据。支持按【高级搜索】中设置的条件进搜索。

 

 

采集字段

博主用户名、发布时间、博文内容、分享数、评论数、点赞数、评论、评论用户名、评论时间。

 

采集结果

采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:

 

 

 

教程说明

本篇更新时间:2023/03/30   八爪鱼版本:V8.6.0

如果因网页改版造成网址或步骤无效,无法收集到目标数据,请联系官方客服,我们将及时修正。

 

采集步骤

步骤一:打开网页

步骤二、微博登录

步骤三、在【高级搜索】中选择搜索条件

步骤四、使用自动识别,自动识别列表页和翻页

步骤五、编辑字段 步骤

步骤六、优化字段

步骤七、采集多个关键词的搜索结果数据

步骤八、启动采集

 

 

以下为具体步骤:

 

步骤一、打开网页

 

在首页搜索框输入微博首页网址 https://weibo.com/,然后点【开始采集】,八爪鱼自动打开网页。

 

 

特别说明:

a. 打开网页后,如果开始【自动识别】,请点击【不再自动识别】或【取消识别】将其关掉。因为本文不适合使用【自动识别】。

b. 【自动识别】适用于自动识别网页上的列表、滚动和翻页,识别成功后直接启动采集即可获取数据。详情点击查看 【自动识别】教程

 

步骤二、微博登录

 

要采集博文列表数据,首先需要登录。如果没有登录,只能采集第一页的博文。

在八爪鱼中的登录步骤:

 

1、打开浏览器模式

点击  按钮,打开浏览器模式。在浏览器模式中,点击页面的登录按钮,打开手机微博app扫码登录。

 

2、使用Cookie登录微博

进入【打开网页】设置界面,勾选【使用指定的Cookie】,点击【获取当前页面Cookie】并保存。

这样就获取到了登录后的Cookie,启动时直接以登录状态打开网页。

 

 

特别说明:

a. 什么是浏览器模式?在浏览器模式下,我们可以像在浏览器中一样点击操作网页,不会生成流程步骤。如需编辑流程步骤,需关闭浏览器模式。关闭状态:  ;打开状态: 

b. Cookie是什么?通俗的说,Cookie是一些存储在用户电脑上的小文件,用来保存一些站点的用户数据,作用是让浏览器为用户定制内容。例如:用户第一次访问某网站,输入了账号密码登录。浏览器会问你是否需要【记住账号密码】。选择【是】以后,浏览器就会将这些账号密码信息存储在用户电脑上。下次再访问此网站,就无需再次输入账号密码。详情点击查看 处理需要登录的网页(含登录时有验证码

c. 怎么判断是否获取到Cookie?获取Cookie后  会变成   ,点击  ,可查看具体的Cookie内容。

 

步骤、在【高级搜索】中选择搜索条件

 

在八爪鱼中有2种方式实现:

① 在八爪鱼中做一遍流程:输入关键词 → 点击【高级搜索】→ 在【高级搜索】中选择条件 → 点击【搜索微博】,获得搜索结果。

② 在网页中完成 输入关键词 → 点击【高级搜索】→ 在【高级搜索】中选择条件 → 点击【搜索微博】,获得一条带有搜索关键词和筛选条件的网址,将这条网址直接复制进八爪鱼中去进行采集。

第2种方式更快更稳,示例中选择第2种方式。

 

1、获得带有搜索关键词和筛选条件的网址

先在浏览器中测试一下。打开微博首页,输入关键词【三体】,在【高级搜索】中选择条件:【原创】【2023-03-01 00时 至 2023-03-30 00时】,得到网址:https://s.weibo.com/weibo?q=%E4%B8%89%E4%BD%93&scope=ori&suball=1&timescope=custom%3A2023-03-01-0%3A2023-03-30-0&Refer=g。

 

 

特别说明:

a. 在【高级搜索】中选择什么条件,在得到的网址中就有一个对应参数,请注意观察筛选条件跟网址参数的对应关系,选择自己需要的。

 

2、将1中的网址,输入进八爪鱼中

在【打开网页】后,增加一个步骤【打开网页1】。

双击进入【打开网页1】设置页面,输入网址 https://s.weibo.com/weibo?q=%E4%B8%89%E4%BD%93&scope=ori&suball=1&timescope=custom%3A2023-03-01-0%3A2023-03-30-0&Refer=g ,然后保存,八爪鱼自动打开这个网页。

 

 

 

 

步骤四、使用自动识别,自动识别列表页和翻页

 

1、使用自动识别,自动识别列表和翻页

网页打开后,点击【自动识别网页内容】 ,等待一段时间,成功识别了文章列表中的数据和翻页。

点击【生成采集设置】,将自动识别出的列表数据和翻页,生成为采集流程,方便我们使用和修改。

 

 

特别说明:

a. 本文使用【自动识别】,自动识别网页上的列表、滚动和翻页。识别成功后会生成采集规则,再对采集规则调整,以采集目标数据。如果【自动识别】的结果与以上图片不同,可点击【取消识别】自行配置采集流程或联系客服反馈。详情点击查看 【自动识别】教程

 

2、修改【循环列表1】和【循环翻页】XPath

自动识别生成【循环列表】和【循环翻页】存在不通用的情况,需要手动修改。

进入【循环翻页】设置页面,修改XPath为://a[contains(text(),'下一页')] ,然后点击【应用】保存。

进入【循环列表1】设置页面,修改XPath为://div[@class="card-wrap" and @mid] ,然后点击【应用】保存。

 

特别说明:

a. 如何写一条精准的XPath?这里需要一定的XPath知识,点击查看 XPath学习与实例教程 。

 

 

步骤五、编辑字段

 

在【当前页面数据预览】面板中,可删除多余字段,修改字段名,移动字段顺序等。

 

 

 

 

 

步骤六、优化字段

 

1、改【博文内容】字段XPath

【博文内容】字段默认的XPath,无法精准定位到展开后的全部博文,需修改XPath。

点击【提取列表数据】进入对应的数据预览界面,点击【博文内容】字段右上方的 ...按钮,选择【修改元素定位】,修改XPath为://div[@class="content"]//*[@class='txt'][last()] ,然后应用

 

 

 

2、格式化字段

【转发数】、【评论数】和【点赞数】三个字段,默认会带上 转发 、评论、赞 的文本。

如果需要去掉文本,只保留数字,可以通过格式化实现:

点击【转发数】字段右上方的 【...】 按钮,选择【格式化数据】→ 【添加步骤】→【正则表达式匹配】,输入正则表达式【\d+】后保存。

【评论数】、【点赞数】的格式化数据过程相同。

 

 

 

步骤七、采集多个关键词的搜索结果数据

 

回顾一下,步骤三中我们输入关键词【三体】,在【高级搜索】中选择条件:【原创】【2023-03-01 00时 至 2023-03-30 00时】,得到网址:https://s.weibo.com/weibo?q=%E4%B8%89%E4%BD%93&scope=ori&suball=1&timescope=custom%3A2023-03-01-0%3A2023-03-30-0&Refer=g。

如果保持【高级搜索】的条件不变,需要更换其他关键词进行采集,怎么办?以下为具体步骤:

 

1、添加【循环-输入网址】步骤

在【打开网页】步骤后,添加一个【循环】。

进入【循环】设置页面。选择循环方式为【网址列表】,点击   按钮,进入网址输入页面。

 

 

2、根据网址中参数的规律,批量生成网址

选择【批量生成】,输入一个带有关键词和【高级搜索】条件的网址:

https://s.weibo.com/weibo?q=%E4%B8%89%E4%BD%93&scope=ori&suball=1&timescope=custom%3A2023-03-01-0%3A2023-03-30-0&Refer=g。

鼠标选中网址中 q= 和 & 中间的部分并将其删掉(这部分内容是关键词,示例中输入的是【三体】,复制进八爪鱼中时转码了),然后点击【添加参数】→ 选择参数类型为【自定义列表】→ 输入准备好的关键词(可同时输入多个关键词,一行一个即可),然后保存。

点击【保存设置】后,八爪鱼自动打开网页。

 

3、调整流程

将【打开网页1】拖入到【循环】中,然后【打开网页1】步骤勾选【使用当前循环里的URL作为导航网址】

将整块【循环翻页】拖入到【循环】中。

 

特别说明:

a. 八爪鱼支持通过网址中参数的规律,自动批量生成网址,详情点击查看 根据规律批量生成网址 教程 

 

 

 

步骤八、启动采集

 

1、单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。

 

 

特别说明:

a.【本地采集】是使用自己的电脑进行采集,【云采集】是使用八爪鱼提供的云服务器采集,点击查看本地采集与云采集详解

 

2、采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML、数据库等。这里导出为Excel。

数据示例:

 

 

说明:
若网站改版导致采集问题,可扫码加群反馈

上一个
【微博】评论采集(只采一级评论)
下一个
【搜狗微信】特定微信公众号的最新文章采集
最近修改: 2024-10-10