本文介绍使用八爪鱼采集起点中文网(以鬼吹灯小说为例)的方法

 

采集网站:https://book.qidian.com/info/53269

 

 

使用功能点:

l 分页列表及详细信息提取

/tutorial/fylbxq7.aspx?t=1

 

 

起点中文网介绍:起点中文网创建于2002年5月,是国内最大文学阅读与写作平台之一,是目前国内领先的原创文学门户网站,隶属于国内最大的数字内容综合平台——阅文集团旗下。

 

 

 

起点中文网小说采集数据说明:本文进行了起点中文网-小说信息采集。本文仅以“起点中文网-小说信息采集”为例。大家在实操过程中,可根据自身需求,更换起点中文网的采集规则进行数据采集。

 


 

起点中文网小说采集详细字段说明:小说标题,小说内容。

 

 

步骤1:创建采集任务

1)进入主界面,选择“自定义模式

 

2)要采集的网址制粘贴到网站输入框中,点击保存网址


步骤2:创建列表循环

1)在页面右上角,打开“流程”,以展现出“流程设计器”“定制当前操作”两个板块。选中页面里的第一条链接,系统会自动识别页面内的同类链接,选择“选中全部”

 

2)选择“循环点击每个链接”

 

 

步骤3:采集小说内容

1)选中页面内要采集的小说内容(被选中的内容会变成绿色),选择“采集该元素的文本”

 

2)修改字段名称

 

3)选择启动本地采集

 

 

步骤4:数据采集及导出

1)采集完成后,会跳出提示,选择导出数据选择合适的导出方式,将采集好的评论信息数据导出

 

2)这里我们选择excel作为导出为格式,数据导出后如下图