贴吧邮箱采集
2018-01-11 10:04:13 阅读量: 23726
本文介绍使用八爪鱼采集贴吧邮箱(以百度贴吧为例)的方法,贴吧邮箱是采集邮箱一个比较常见的邮箱收集方式,采集到的邮箱可以用来邮件营销。
在这里教大家一个找有邮箱贴吧帖子的方法:比如你想找建筑行业的qq邮箱,你可以用百度搜索site:tieba.baidu.com @qq.com 建筑,出来的帖子大部分是含有QQ邮箱的。
在这里仅仅以其中一个网址举例说明:
https://tieba.baidu.com/p/3490011154
使用功能点:
l 创建循环翻页
l Ajax点击
l 修改Xpath
l 正则匹配
步骤1:创建百度贴吧邮箱采集任务
1)进入主界面,选择“自定义采集”
贴吧邮箱采集步骤1
2)将要采集的网站URL复制粘贴到输入框中,点击“保存网址”
贴吧邮箱采集步骤2
步骤2:创建循环翻页
1)网页打开以后,鼠标下拉到最底部,选择下一页,提示框中选择“循环点击下一页”
贴吧邮箱采集步骤3
2)鼠标选中帖子的回复,在右面的提示框中选择“选中全部”
贴吧邮箱采集步骤4
接着选择“采集以下元素文本”
贴吧邮箱采集步骤5
步骤3:设置数据参数
选中要修改的字段→点击高级选项中自定义数据字段(如下图)
贴吧邮箱采集步骤6
再选择格式化数据
贴吧邮箱采集步骤7
添加步骤→正则表达式匹配
贴吧邮箱采集步骤8
然后设置相应的参数[a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+
这个是匹配所有邮箱的正则表达式,复制就行就行
贴吧邮箱采集步骤9
步骤5:贴吧邮箱数据采集及导出
1)打开流程按钮,修改采集字段名称,点击“保存并开始采集”
贴吧邮箱采集步骤10
启动本地采集
贴吧邮箱采集步骤11
集完成后,会跳出提示,选择“导出数据”选择“合适的导出方式”,将采集好的数据导出这里我们选择excel作为导出为格式,数据导出后如下图
贴吧邮箱采集步骤12