返回上一级

网页采集实操

电商

【京东】商品列表采集

【京东】商品评价采集

【京东】商品详情页采集

【京东】商品list列表采集

【京东】采集场景汇总

【淘宝】商品列表页采集

【Amazon】商品评论采集

【Amazon】商品列表页采集

【Amazon】商品详情页采集

【速卖通】 AliExpress(速卖通)关键词搜索结果采集

【百度爱采购】关键词搜索厂家

【速卖通】AliExpress(速卖通)商品评价

社交媒体

【微博】热搜榜采集

【微博】评论采集（只采一级评论）

【微博】搜索关键词采集

【搜狗微信】文章列表和详情页正文采集

【搜狗微信】特定微信公众号的最新文章采集

【知乎】问题和回答采集

【哔哩哔哩】视频采集

【B站】UP主主页视频采集

【B站】视频详情页数据采集

【B站】按类目标签采集视频

【豆瓣】热门电影采集

【豆瓣】图书评论采集

新闻资讯

【今日头条】头条号文章采集

【今日头条】首页新闻采集

生活服务

【孔夫子】旧书网类目下图书列表页采集

【孔夫子】旧书网关键词搜索书籍采集

【百度】搜索结果采集

【百度图片】采集与导出

【百度地图】列表采集

【58同城】职位信息采集

中国天气网数据采集

【天眼查】企业信息采集

【携程】景点评价采集

【携程】游记攻略采集

【智联招聘】智联招聘职位数据采集

金融

百度爱采购关键词搜索商品

【东方财富】定向增发股数据采集

【同花顺】基金净值数据采集

【银保监】官网政策公告采集

【雪球】热帖评论采集

【股吧】股票评论采集

房产

【百姓网】短租房源数据采集

【游天下】房源数据采集

【58同城】民宿短租数据采集

【黄河口信息港】房源数据采集

【房天下】二手房数据采集

【雪球】热帖评论采集

2022-06-10 3869

采集场景

打开雪球网 https://xueqiu.com/，页面显示雪球热帖列表，点击每一个帖子的标题可进入详情页，查看并采集详情页里面的数据内容。

采集字段

帖子作者、标题、文章内容、发布时间、评论数、评论者、评论内容、评论时间等。

点击查看高清大图，下文其他图片同理

采集结果

采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例：

教程说明

本篇制作时间：2022/6/10 八爪鱼版本：V8.5.2

如果因网页改版造成网址或步骤无效，无法收集到目标数据，请联系官方客服，我们将及时修正。

采集步骤

步骤一：打开网页

步骤二、设置页面滚动和【点击加载更多】

步骤三、创建【循环列表】

步骤四、采集详情页的文章标题、正文等字段

步骤五、创建评论部分的【循环列表】，采集全部评论内容、评论者等字段

步骤六、编辑字段

步骤七、设置执行前等待

步骤八、启动采集

以下为具体步骤：

步骤一、打开网页

在首页【输入框】中输入目标网址https://xueqiu.com/，点击【开始采集】，八爪鱼自动打开网页。

特别说明：

a. 打开网页后，如果开始开始【自动识别】，请点击【不再自动识别】或【取消识别】将其关掉。因为本文不适合使用【自动识别】。

b. 【自动识别】适用于自动识别网页上的列表、滚动和翻页，识别成功后直接启动采集即可获取数据。详情点击查看【自动识别】教程

步骤二、设置页面滚动和【点击加载更多】

打开雪球网网页后，我们观察发现，页面默认只显示部分帖子，向下滚动页面到底部才能加载出更多帖子列表。

且滚动一定次数后（测试滚动10次左右，具体以大家操作时需要的滚动次数为准）出现【加载更多】按钮，随后需要点击【加载更多】按钮，继续加载新的帖子列表。

在八爪鱼中也需要进行相同的设置。

1、设置页面滚动

进入【打开网页】设置页面，点开【页面加载后】，设置【页面加载后向下滚动】，滚动方式为【向下滚动一屏】，【滚动次数】为20次，【每次间隔】2秒并保存。

特别说明：

a. 设置中的滚动次数和时间间隔，请根据采集需求和网页加载情况进行设置，并非是一成不变的，具体请点击查看处理滚动加载数据的网页教程

2、设置点击【加载更多】

① 手动向下滚动页面，直至【加载更多】按钮出现

② 点击【加载更多】按钮，在黄色操作提示框中，选择【循环点击单个链接】。

③ 进入【循环翻页】设置页面，点开【退出循环设置】，把循环执行次数设为4次（我们需要设置一个合适的次数，可根据需要采集的数据量灵活调整）。

④ 进入【点击翻页】设置页面，点开【页面加载后】，设置【页面加载后向下滚动】，滚动方式为【滚动到底部】，【滚动次数】为5次，【每次间隔】2秒。

特别说明：

a. 为什么通过【加载更多】进行翻页的网页，需设置一个合适的翻页次数？通过一定次数的【加载更多】翻页后，页面上展示出非常多的标题列表。这些列表同在一个页面，采集的时候都会被定位到。如果同时定位的列表过多，采集速度会变慢，影响数据的正常采集。设置一个合理的翻页次数，可以控制同时定位到的列表，保障数据采集正常进行。

b. 设置中的滚动次数和时间间隔，请根据采集需求和网页加载情况进行设置，并非是一成不变的，具体请点击查看处理滚动加载数据的网页教程

步骤三、创建【循环列表】

1、创建【循环-点击元素】，点击进入每个帖子详情页

通过以下连续3步，实现循环点击每个链接，进入详情页：

① 选中页面上第1条帖子链接（此网页比较特殊，选中一大块范围也是链接）

② 再选中页面上另一条帖子链接

③ 点击【循环点击每个链接】，进入第1条帖子的详情页