本文介绍使用八爪鱼采集阿里巴巴企业名录的方法。

采集网站:

https://s.1688.com/company/company_search.htm?keywords=%CE%E5%BD%F0&button_click=top&earseDirect=false&n=y

 

阿里巴巴企业名录采集数据说明:本文仅以“阿里巴巴-供应商搜索-五金的所有企业信息采集”为例。大家在实操过程中,可根据自身需求,更换阿里巴巴的搜索词进行数据采集。

 

阿里巴巴企业名录采集内容说明:企业名称,企业主营产品,企业所在地,企业员工人数,企业经营模式,企业加工模式,企业累计成交数,企业重复采购率。

 

使用功能点:

分页列表信息采集

Xpath

 

 

步骤1:创建阿里巴巴企业名录采集任务

1)进入八爪鱼采集器主界面,选择自定义模式

 

 

阿里巴巴企业名录采集步骤1

 

2)将上面网址的网址复制粘贴到网站输入框中,点击保存网址”,就创建了一个阿里巴巴企业名录采集的任务。

 

 

阿里巴巴企业名录采集步骤2

 

  

步骤2:创建阿里巴巴企业名录翻页循环

l找到翻页按钮,设置翻页循环

l设置ajax翻页时间

l设置滚动页面

 

1)将页面下拉到底部,找到下一页按钮,鼠标点击,在右侧操作提示框中,选择“循环点击下一页”这个选项。

 

 

阿里巴巴企业名录采集步骤3

 

步骤3:阿里巴巴企业名录信息采集

lgoogle或者火狐浏览器观察源代码,确定企业信息的xpath

l提取企业信息

1)打开火狐或者google浏览器,我用的是google浏览器,鼠标移到企业信息这一栏,观察代码可以发现整个企业资料的xpath为//div[@class="wrap"],所以可以把整个企业资料作为一个循环,然后分别提取标题、主营产品,所在地,员工人数等等企业数据。

 

 

阿里巴巴企业名录采集步骤4

2)观察公司标题的源代码可以发现,公司标题的xpath为

//div[@class="list-item-title"]

企业具体信息的xpath为

 

阿里巴巴企业名录采集步骤5-企业标题的xpath

 

 

阿里巴巴企业名录采集步骤6-企业具体信息的xpath

 

3)在流程图左侧可以拖动一个循环以及提取数据进入流程图中。


阿里巴巴企业名录采集步骤7

 

4)点击流程图刚拖入的循环模块,设置图片采集循环方式为不固定元素列表,xpath填写之前观察源代码的而得出的代码(//div[@class="wrap"])然后点击确定。

 


阿里巴巴企业名录采集步骤8

 

5)提取元素选择添加一个空字段(步骤9),命名为企业名称,步骤选择自定义数据字段(步骤10),弹出的框中,选择自定义定位元素,结合之前分析的xpath,按下图步骤11设置,还是这个框,自定义抓取方式按下图步骤12进行设置。

同理企业具体信息也是如此设置,自定义定位元素中的元素匹配的Xpath设置为//div[@class="wrap"]/div[@class="list-item-detail"],相对Xpath设置为/div[@class="list-item-detail"],自定义抓取方式设置为抓取文本。

 


阿里巴巴企业名录采集步骤9


阿里巴巴企业名录采集步骤10

 


阿里巴巴企业名录采集步骤11-自定义定位元素设置方法


阿里巴巴企业名录采集步骤12-自定义抓取方式

 

 

6)修改采集任务名、字段名,并点击下方提示中的“保存并开始采集

 

7)根据采集的情况选择合适的采集方式,这里选择“启动本地采集

 

阿里巴巴企业名录采集步骤13

 

说明:本地采集占用当前电脑资源进行采集,如果存在采集时间要求或当前电脑无法长时间进行采集可以使用云采集功能,云采集在网络中进行采集,无需当前电脑支持,电脑可以关机,可以设置多个云节点分摊任务,10个节点相当于10台电脑分配任务帮你采集,速度降低为原来的十分之一;采集到的数据可以在云上保存三个月,可以随时进行导出操作。

步骤4:阿里巴巴企业名录数据采集及导出

1)采集完成后,会跳出提示,选择导出数据 

2)选择合适的导出方式,将采集好的数据导出