本文介绍使用八爪鱼采集贴吧邮箱(以百度贴吧为例)的方法贴吧邮箱是采集邮箱一个比较常见的邮箱收集方式,采集到的邮箱可以用来邮件营销。

 

在这里教大家一个找有邮箱贴吧帖子的方法:比如你想找建筑行业的qq邮箱,你可以用百度搜索site:tieba.baidu.com @qq.com 建筑,出来的帖子大部分是含有QQ邮箱的。

 

 

 

在这里仅仅以其中一个网址举例说明:

https://tieba.baidu.com/p/3490011154

 

使用功能点:

 

l 创建循环翻页

l Ajax点击

l 修改Xpath

l 正则匹配

 

步骤1:创建百度贴吧邮箱采集任务

1)进入主界面,选择自定义采集

 

贴吧邮箱采集步骤1

 

2)要采集网站URL制粘贴到输入框中,点击保存网址

 

 

贴吧邮箱采集步骤2

 

 

 

步骤2:创建循环翻页

1)网页打开以后,鼠标下拉到最底部,选择下一页,提示框中选择“循环点击下一页

 

 

贴吧邮箱采集步骤3

 

 

 

 

2)鼠标选中帖子的回复,在右面的提示框中选择“选中全部

 

贴吧邮箱采集步骤4

 

 

接着选择采集以下元素文本

 

 

贴吧邮箱采集步骤5

 

 

步骤3:设置数据参数

 

选中要修改的字段→点击高级选项中自定义数据字段(如下图)

 

 

 

贴吧邮箱采集步骤6

 

再选择格式化数据

 

 

贴吧邮箱采集步骤7

 

 

添加步骤→正则表达式匹配

 

贴吧邮箱采集步骤8

 

 

然后设置相应的参数[a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+

这个是匹配所有邮箱的正则表达式,复制就行就行

 

 

贴吧邮箱采集步骤9

 

 

 

步骤5:贴吧邮箱数据采集及导出

1)打开流程按钮,修改采集字段名称,点击保存并开始采集

 

 

 

贴吧邮箱采集步骤10

 

启动本地采集

 

贴吧邮箱采集步骤11

 

 

集完成后,会跳出提示,选择导出数据选择合适的导出方式,将采集好的数据导出这里我们选择excel作为导出为格式,数据导出后如下图

 

贴吧邮箱采集步骤12