Discuz.论坛帖子的采集步骤

 

建立采集任务

复制要采集的discuz论坛地址

论坛1.jpg 

 

 

打开八爪鱼采集器,建立采集任务,编辑任务名称,点击下一步

论坛2.jpg

在八爪鱼采集器内置浏览器的地址栏中输入要采集的论坛地址,点击跳转(图标),

网页会在下方的浏览器中打开,流程设计器中会生成一个打开网页步骤

论坛3.jpg

 

完成后上述操作后,左侧的流程设计器中显示出一个翻页循环框,翻页循环创建完成,如图所示:

 

论坛15.jpg 

 

创建翻页循环

找到论坛中的翻页按钮,右键点击,在弹出的执行框中选择执行“循环点击下一页”

论坛4.jpg 

完成后在流程设计器中会生成一个翻页循环

 

创建帖子列表

 完成后上述操作后,右键点击第一个帖子,在跳出的操作框中,

选择下图红色方框的选项“创建一个元素列表”

论坛5.jpg

 

将第一个帖子的信息添加到列表中后,点击继续编辑列表” 

论坛6.jpg

 

点击第二个帖子的信息,同样将其添加到列表中

论坛7.jpg

八爪鱼会将具有相似特征的元素抓取到列表中,

如上图,所有的群组信息被添加到列表,接着点击“创建列表完成”

再点击“循环”,完成群组列表的创建

论坛8.jpg 

 

提取要采集的帖子信息

创建列表完成后流程图,如左侧所示,接着我们需要对采集的帖子信息进行抓取,

如图点击帖子中的标题,在跳出的执行框中,选择执行”抓取这个元素文本”

论坛9.jpg

其他内容的抓取,按照提取标题的方法进行即可 

抓取到的内容会显示在右上方的操作框中,这里可以修改采集字段的名称

论坛10.jpg

到这里我们就完成了帖子的信息提取

 

由于每一页都需要循环采集数据,所以我们需要将这个循环列表拖入到翻页循环里面论坛11.jpg 

注意流程是从上网页执行的,所以这个循环列表需要放到点击翻页的前面,否则会漏掉第一页的数据

最终流程图如下图所示:

论坛12.jpg 

点击保存,进入下一个采集步骤

 

开始采集

选择单机采集,开始帖子信息的采集

论坛13.jpg

采集完成,有多个导出格式可供选择,可以根据需要点选,采集到的重复数据八爪鱼采集器会自动识别出来,

导出时可以选择是否去重

论坛14.jpg

 

相关教程推荐:

Discuz! X3.2论坛发布教程

Discuz!X7.2论坛发布教程