本文介绍使用八爪鱼采集淘宝高佣金商品的方法

 

淘宝客是一种按成交计费的推广模式,淘宝客只要从淘宝客推广专区获取商品代码,任何买家(包括您自己)经过您的推广(链接个人网站博客或者社区发的帖子)进入淘宝卖家店铺完成购买后,就可得到由卖家支付的佣金

 

所以说高佣金的商品来说对于淘宝客用户来说是非常有用的,在各个渠道推广这些商品可以获得一个不错的收益。

 

采集网站:

http://pub.alimama.com/promo/item/channel/index.htm?spm=a219t.7900221/1.1998910419.d435ff811.6d614964jumXxG&channel=qqhd

 

采集内容为:

商品图片地址,商品标题,店铺名,商品销量,商品价格,商品佣金,商品比率,商品链接。

 

使用功能点:

l 八爪鱼7.0教程——AJAX点击和翻页教程

l AJAX滚动教程

l 修改Xpath

网页数据采集相对XPATH使用教程

xpath入门教程1

xpath入门教程2

 

 

步骤1:创建淘宝高佣金采集任务

1)进入主界面,选择自定义采集

 

 

2)要采集网站URL制粘贴到输入框中,点击保存网址

 



3)系统自动打开网页,进入淘宝高佣金采集页面。观察网页结构,图片是随着下拉逐渐加载出来的,所以要采集图片地址的话,要设置一个Ajax的滚动

 

点击右上角的“流程”设置按钮,打开“高级选项”,勾选“页面加载完成后向下滚动”,设置滚动次数为“30次”,每次间隔“1秒”,滚动方式为“下拉一屏”,最后点击“确定”。如何有时候网速加载慢的话,可以将超时时间调高。

 



注意: 这里的滚动次数及间隔时间,需要针对网站情况进行设置,并不是绝对的。一般情况下,间隔时间>网站加载时间即可。有时候网速较慢,网页加载很慢,还需根据具体情况进行调整。

具体请看:八爪鱼7.0教程——AJAX滚动教程

/tutorialdetail-1/ajgd_7.html

 

 

步骤2:创建翻页循环

1)将页面下拉到底部,找到下一页按钮,鼠标点击,在右侧操作提示框中,选择循环点击单个链接

 

 

 

2)由于网页涉及到Ajax加载以及图片地址采集,所以需要设置一下高级选项,点击右上角的“流程”按钮。

 

 

 

3)点击左图中的“提取数据”,打开高级选项”,勾选“Ajax加载数据”,设置时间为“3”。 因为页面打开后加载图片需要时间,所以还需要设置页面滚动,滚动次数选择30次,每次间隔1秒,选择向下滚动一屏完成后,点击确定

 

 

4)由于淘宝客高佣金页面加载比较慢,所以需要设置一下“或者出现元素”,点击左侧的循环翻页,“或者出现元素”填入//A[@class='btn-last btn btn-xlarge btn-white']

 

 

 

步骤3:采集淘宝客高佣金商品信息

1)移动鼠标选中第一个商品图片,标题,店铺名,系统会自动识别出相似的元素,在提示框中选择选中全部”,随后点击“采集数据”。

 

3)可以看到商品图片地址,标题,店铺名已经出现在字段中了,如果只是要采集以上字段,可以修改好字段名称,然后选择保存并开始采集”。如果还需要采集下文提到的字段,则要需改xpath。

 

 

如果要采集商品链接,价格,佣金,比率,销量的话,则要写xpath才能实现采集。以采集价格字段举例:

 

首先点击“添加特殊字段“,选择”添加空字段“

 

 

然后选中该字段,选择自定义数据字段(下图红色框中的)

 

 

“自定义数据字段”位置

 

随后选择自定义定位元素方式“,并按下图填入XPah。

 

自定义定位元素方式“设置方法

 

商品价格的”元素匹配的XPath“为:

//div[1]//div[@class="content-line clearfix mt5"]/span[1]

”相对Xpath“勾上,并填入:

//div[@class="content-line clearfix mt5"]/span[1]

 

需要注意的事,Xpath会随着网站结构的改变而改变,所以上面xpath不能确保一直有效。如果要采集这些数据,建议学习一下Xpath:

 

网页数据采集相对XPATH使用教程

xpath入门教程1

xpath入门教程2

 

 

填好xpath之后,随后在“自定义数据字段”->“自定义抓取方式中”选择抓取文本即可。

 

“自定义抓取方式中”设置方法

 

同理,如果要采集佣金,比率,商品链接分别设置为:

 

商品比率:

“元素匹配的XPath”为:

//div[1]//div[@class="content-line clearfix"]/span[2]

“相对Xpath勾上”,并填入:

//div[@class="content-line clearfix"]/span[2]

“自定义数据字段”->“自定义抓取方式中”选择“抓取文本”

 

商品链接:

“元素匹配的XPath”为:

//div/a[@class="search-box-img img-loaded"]

“相对Xpath勾上”,并填入:

//div/a[@class="search-box-img img-loaded"]

“自定义数据字段”->“自定义抓取方式中”选择“抓取超链接(a标签的href)”

 

商品佣金:

“元素匹配的XPath”为:

//div[1]//div[@class="content-line clearfix"]/span[1]

“相对Xpath勾上”,并填入:

//div[@class="content-line clearfix"]/span[1]

“自定义数据字段”->“自定义抓取方式中”选择“抓取文本”

 

商品销量:

元素匹配的XPath为:

//div[@class="content-line clearfix mt5"]/span[2]

相对Xpath勾上,并填入:

//div[@class="content-line clearfix mt5"]/span[2]

“自定义数据字段”->“自定义抓取方式中”选择“抓取文本”

 

设置完成以后,可以看到数据都在字段中了:

 

 

 

步骤4:淘宝客高佣金商品数据采集及导出

1)点击左上角的“开始采集”,选择启动“本地采集”

 

注:本地采集占用当前电脑资源进行采集,如果存在采集时间要求或当前电脑无法长时间进行采集可以使用云采集功能,云采集在网络中进行采集,无需当前电脑支持,电脑可以关机,可以设置多个云节点分摊任务,10个节点相当于10台电脑分配任务帮你采集,速度降低为原来的十分之一;采集到的数据可以在云上保存三个月,可以随时进行导出操作。

 

 

2)集完成后,会跳出提示,选择导出数据”。选择合适的导出方式,将采集好的淘宝客高佣金商品导出这里我们选择excel作为导出为格式