返回上一级

网页采集实操

电商

【京东】商品列表采集

【京东】商品评价采集

【京东】商品详情页采集

【京东】商品list列表采集

【京东】采集场景汇总

【淘宝】商品列表页采集

【Amazon】商品评论采集

【Amazon】商品列表页采集

【Amazon】商品详情页采集

【速卖通】 AliExpress(速卖通)关键词搜索结果采集

【百度爱采购】关键词搜索厂家

【速卖通】AliExpress(速卖通)商品评价

社交媒体

【微博】热搜榜采集

【微博】评论采集（只采一级评论）

【微博】搜索关键词采集

【搜狗微信】文章列表和详情页正文采集

【搜狗微信】特定微信公众号的最新文章采集

【知乎】问题和回答采集

【哔哩哔哩】视频采集

【B站】UP主主页视频采集

【B站】视频详情页数据采集

【B站】按类目标签采集视频

【豆瓣】热门电影采集

【豆瓣】图书评论采集

新闻资讯

【今日头条】头条号文章采集

【今日头条】首页新闻采集

生活服务

【孔夫子】旧书网类目下图书列表页采集

【孔夫子】旧书网关键词搜索书籍采集

【百度】搜索结果采集

【百度图片】采集与导出

【百度地图】列表采集

【58同城】职位信息采集

中国天气网数据采集

【天眼查】企业信息采集

【携程】景点评价采集

【携程】游记攻略采集

【智联招聘】智联招聘职位数据采集

金融

百度爱采购关键词搜索商品

【东方财富】定向增发股数据采集

【同花顺】基金净值数据采集

【银保监】官网政策公告采集

【雪球】热帖评论采集

【股吧】股票评论采集

房产

【百姓网】短租房源数据采集

【游天下】房源数据采集

【58同城】民宿短租数据采集

【黄河口信息港】房源数据采集

【房天下】二手房数据采集

【微博】搜索关键词采集

2022-05-19 10535

采集场景

在微博主页（https://weibo.com/）登录后，输入关键词搜索，采集得到的搜索结果列表数据。支持按【高级搜索】中设置的条件进搜索。

采集字段

博主用户名、发布时间、博文内容、分享数、评论数、点赞数、评论、评论用户名、评论时间。

采集结果

采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例：

教程说明

本篇更新时间：2023/03/30 八爪鱼版本：V8.6.0

如果因网页改版造成网址或步骤无效，无法收集到目标数据，请联系官方客服，我们将及时修正。

采集步骤

步骤一：打开网页

步骤二、微博登录

步骤三、在【高级搜索】中选择搜索条件

步骤四、使用自动识别，自动识别列表页和翻页

步骤五、编辑字段步骤

步骤六、优化字段

步骤七、采集多个关键词的搜索结果数据

步骤八、启动采集

以下为具体步骤：

步骤一、打开网页

在首页搜索框输入微博首页网址 https://weibo.com/，然后点【开始采集】，八爪鱼自动打开网页。

特别说明：

a. 打开网页后，如果开始【自动识别】，请点击【不再自动识别】或【取消识别】将其关掉。因为本文不适合使用【自动识别】。

b. 【自动识别】适用于自动识别网页上的列表、滚动和翻页，识别成功后直接启动采集即可获取数据。详情点击查看【自动识别】教程

步骤二、微博登录

要采集博文列表数据，首先需要登录。如果没有登录，只能采集第一页的博文。

在八爪鱼中的登录步骤：

1、打开浏览器模式

点击按钮，打开浏览器模式。在浏览器模式中，点击页面的登录按钮，打开手机微博app扫码登录。

2、使用Cookie登录微博

进入【打开网页】设置界面，勾选【使用指定的Cookie】，点击【获取当前页面Cookie】并保存。

这样就获取到了登录后的Cookie，启动时直接以登录状态打开网页。

特别说明：

a. 什么是浏览器模式？在浏览器模式下，我们可以像在浏览器中一样点击操作网页，不会生成流程步骤。如需编辑流程步骤，需关闭浏览器模式。关闭状态：；打开状态：

b. Cookie是什么？通俗的说，Cookie是一些存储在用户电脑上的小文件，用来保存一些站点的用户数据，作用是让浏览器为用户定制内容。例如：用户第一次访问某网站，输入了账号密码登录。浏览器会问你是否需要【记住账号密码】。选择【是】以后，浏览器就会将这些账号密码信息存储在用户电脑上。下次再访问此网站，就无需再次输入账号密码。详情点击查看处理需要登录的网页（含登录时有验证码）

c. 怎么判断是否获取到Cookie？获取Cookie后会变成，点击，可查看具体的Cookie内容。

步骤三、在【高级搜索】中选择搜索条件

在八爪鱼中有2种方式实现：

① 在八爪鱼中做一遍流程：输入关键词 → 点击【高级搜索】→ 在【高级搜索】中选择条件 → 点击【搜索微博】，获得搜索结果。

② 在网页中完成输入关键词 → 点击【高级搜索】→ 在【高级搜索】中选择条件 → 点击【搜索微博】，获得一条带有搜索关键词和筛选条件的网址，将这条网址直接复制进八爪鱼中去进行采集。

第2种方式更快更稳，示例中选择第2种方式。

1、获得带有搜索关键词和筛选条件的网址

先在浏览器中测试一下。打开微博首页，输入关键词【三体】，在【高级搜索】中选择条件：【原创】【2023-03-01 00时至 2023-03-30 00时】，得到网址：https://s.weibo.com/weibo?q=%E4%B8%89%E4%BD%93&scope=ori&suball=1&timescope=custom%3A2023-03-01-0%3A2023-03-30-0&Refer=g。

特别说明：

a. 在【高级搜索】中选择什么条件，在得到的网址中就有一个对应参数，请注意观察筛选条件跟网址参数的对应关系，选择自己需要的。

2、将1中的网址，输入进八爪鱼中

在【打开网页】后，增加一个步骤【打开网页1】。

双击进入【打开网页1】设置页面，输入网址 https://s.weibo.com/weibo?q=%E4%B8%89%E4%BD%93&scope=ori&suball=1&timescope=custom%3A2023-03-01-0%3A2023-03-30-0&Refer=g ，然后保存，八爪鱼自动打开这个网页。

步骤四、使用自动识别，自动识别列表页和翻页

1、使用自动识别，自动识别列表和翻页

网页打开后，点击【自动识别网页内容】，等待一段时间，成功识别了文章列表中的数据和翻页。

点击【生成采集设置】，将自动识别出的列表数据和翻页，生成为采集流程，方便我们使用和修改。

特别说明：

a. 本文使用【自动识别】，自动识别网页上的列表、滚动和翻页。识别成功后会生成采集规则，再对采集规则调整，以采集目标数据。如果【自动识别】的结果与以上图片不同，可点击【取消识别】自行配置采集流程或联系客服反馈。详情点击查看【自动识别】教程

2、修改【循环列表1】和【循环翻页】XPath

自动识别生成【循环列表】和【循环翻页】存在不通用的情况，需要手动修改。

进入【循环翻页】设置页面，修改XPath为：//li[@class='cur']/a/../following-sibling::li[1]/a ，然后点击【应用】保存。

进入【循环列表1】设置页面，修改XPath为：//div[@class="card-wrap" and @mid] ，然后点击【应用】保存。

特别说明：

a. 如何写一条精准的XPath？这里需要一定的XPath知识，点击查看 XPath学习与实例教程。

步骤五、编辑字段

在【当前页面数据预览】面板中，可删除多余字段，修改字段名，移动字段顺序等。

步骤六、优化字段

1、改【博文内容】字段XPath

【博文内容】字段默认的XPath，无法精准定位到展开后的全部博文，需修改XPath。

点击【提取列表数据】进入对应的数据预览界面，点击【博文内容】字段右上方的 ...按钮，选择【修改元素定位】，修改XPath为：//div[@class="content"]//*[@class='txt'][last()] ，然后应用

2、格式化字段

【转发数】、【评论数】和【点赞数】三个字段，默认会带上转发、评论、赞的文本。

如果需要去掉文本，只保留数字，可以通过格式化实现：

点击【转发数】字段右上方的【...】按钮，选择【格式化数据】→ 【添加步骤】→【正则表达式匹配】，输入正则表达式【\d+】后保存。

【评论数】、【点赞数】的格式化数据过程相同。

步骤七、采集多个关键词的搜索结果数据

回顾一下，步骤三中我们输入关键词【三体】，在【高级搜索】中选择条件：【原创】【2023-03-01 00时至 2023-03-30 00时】，得到网址：https://s.weibo.com/weibo?q=%E4%B8%89%E4%BD%93&scope=ori&suball=1&timescope=custom%3A2023-03-01-0%3A2023-03-30-0&Refer=g。

如果保持【高级搜索】的条件不变，需要更换其他关键词进行采集，怎么办？以下为具体步骤：

1、添加【循环-输入网址】步骤

在【打开网页】步骤后，添加一个【循环】。

进入【循环】设置页面。选择循环方式为【网址列表】，点击按钮，进入网址输入页面。