返回上一级

网页采集实操

电商

【京东】商品列表采集

【京东】商品评价采集

【京东】商品详情页采集

【京东】商品list列表采集

【京东】采集场景汇总

【淘宝】商品列表页采集

【Amazon】商品评论采集

【Amazon】商品列表页采集

【Amazon】商品详情页采集

【速卖通】 AliExpress(速卖通)关键词搜索结果采集

【百度爱采购】关键词搜索厂家

【速卖通】AliExpress(速卖通)商品评价

社交媒体

【微博】热搜榜采集

【微博】评论采集（只采一级评论）

【微博】搜索关键词采集

【搜狗微信】文章列表和详情页正文采集

【搜狗微信】特定微信公众号的最新文章采集

【知乎】问题和回答采集

【哔哩哔哩】视频采集

【B站】UP主主页视频采集

【B站】视频详情页数据采集

【B站】按类目标签采集视频

【豆瓣】热门电影采集

【豆瓣】图书评论采集

新闻资讯

【今日头条】头条号文章采集

【今日头条】首页新闻采集

生活服务

【孔夫子】旧书网类目下图书列表页采集

【孔夫子】旧书网关键词搜索书籍采集

【百度】搜索结果采集

【百度图片】采集与导出

【百度地图】列表采集

【58同城】职位信息采集

中国天气网数据采集

【天眼查】企业信息采集

【携程】景点评价采集

【携程】游记攻略采集

【智联招聘】智联招聘职位数据采集

金融

百度爱采购关键词搜索商品

【东方财富】定向增发股数据采集

【同花顺】基金净值数据采集

【银保监】官网政策公告采集

【雪球】热帖评论采集

【股吧】股票评论采集

房产

【百姓网】短租房源数据采集

【游天下】房源数据采集

【58同城】民宿短租数据采集

【黄河口信息港】房源数据采集

【房天下】二手房数据采集

【孔夫子】旧书网类目下图书列表页采集

2022-06-08 4247

采集场景

孔夫子旧书网有非常多的类目，本教程讲解如何分类目采集图书列表页数据。

示例网址 http://book.kongfz.com/Cjishu/n1004000000/ 是【图书-工程技术-改革开放与80年代】类目的网址。

采集字段

书名、出版社、店铺名称、发货地址、品相、售价等字段。

点击查看高清大图，下文其他图片同理

采集结果

采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例：

教程说明

本篇制作时间：2022/6/08 八爪鱼版本：V8.5.2

如果因网页改版造成网址或步骤无效，无法收集到目标数据，请联系官方客服，我们将及时修正。

采集步骤

步骤一：打开网页，创建网页循环

步骤二、使用【智能识别】，采集所有图书列表中的数据

步骤三、编辑字段、修改字段XPath

步骤四、启动采集

以下为具体步骤：

步骤一、打开网页

在首页【输入框】中输入目标网址，点击【开始采集】，八爪鱼自动打开第一个网页。

本示例输入的是以下2个网址：http://book.kongfz.com/Cjishu/n1004000000

（输入网址时可输入多个网址，网址结构需一致，网址之间分行隔开）

特别说明：

a. 手动输入的url数量不得大于1万个，如有超过1万url，请选择【从文件导入】，具体请查看教程网址输入升级

b. 打开网页后，如果开始开始【自动识别】，请点击【不再自动识别】或【取消识别】将其关掉。因为本文不适合使用【自动识别】。

c. 【自动识别】适用于自动识别网页上的列表、滚动和翻页，识别成功后直接启动采集即可获取数据。详情点击查看【自动识别】教程

步骤二、使用【智能识别】，采集所有图书列表中的数据

点击右上角操作提示框中的【自动识别】，待它识别成功，点击【生成采集设置】（已默认生成翻页设置）。

特别说明：

a. 智能识别成功，一个网页可能有多组数据，八爪鱼会将所有数据识别出来，然后智能推荐最常用的那组。如果推荐的不是想要的，可自行【切换识别结果】

b.【自动识别】默认生成的翻页设置，在采集时，八爪鱼会自动点击【下一页】按钮进行翻页，从第1页，第2页......直到最后1页。如果只需采集特定页的数据，可在八爪鱼中设置循环翻页的次数，详情点击查看翻页以采集多页数据教程。

步骤三、编辑字段

执行完上面的步骤，基本流程已经设置好了，我们需要进一步完善规则。

1、修改字段名称、删除字段

在【当前页面数据预览】面板中，修改字段名称，然后删除不需要的字段。

2、添加字段

【自动识别】为我们提取的是一些常见字段，但是发货地址并没有提取，我们手动提取。点击第一个列表的发货地址字段，在操作提示框中选择采集该元素的文本。生成字段，修改字段名为发货地址。

4、修改字段XPath

为了精准采集到每个字段，我们需要修改一下字段的XPath。

找到要修改的字段，点击字段后的【更多字段操作】按钮，在如图位置修改字段的XPath和备用位置XPath。

示例中修改了3个字段：

【书名】XPath： //div[@class="title"]/a[@class="link"]

【出版社】XPath： //span[@class="normal-title"][text()='出版社']/following::span[1][@class="normal-text"]

备用位置：//div[@class="zl-isbn-info"]/span[2]

特别说明：

a. 修改字段XPath需要一定的XPath知识，点击学习 XPath系统学习与实例教程

步骤四、启动采集

1、单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。

特别说明：

a. 【本地采集】是使用自己的电脑进行采集，【云采集】是使用八爪鱼提供的云服务器采集，点击查看本地采集与云采集详解。

2、采集完成后，选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML、数据库等。这里导出为Excel。数据示例：

作者：Tom

编辑：surely

电商

社交媒体

新闻资讯

生活服务

金融

房产

【孔夫子】旧书网类目下图书列表页采集

服务提示

咨询顾问

申请试用

选择版本

填写信息

服务提示